图片: | |
---|---|
名称: | |
描述: | |
“AI的‘燃料’是数据。”近日,在超声大数据与人工智能应用与推广大会上,上海交通大学附属瑞金医院教授詹维伟打了一个形象的比喻,他说,驱动AI落地临床,数据的可用性起着基础性的作用。
“顶级期刊刊发的关于医学影像AI的论文大多需要大样本(10万以上)数据库训练。”詹维伟说,海量的数据意味着数据可用、不被污染、且能实现标准化。
而事实上,中国的医学数据看似很多,但是可用性并不高,正是因为存在被污染、信息不健全、难以标准化的三大“痛点”。东南大学生物科学与医学工程学院教授万遂人表示,在多中心的数据库建立过程中,经常出现对同一医学问题的不同说法。他认为需要经过几年的时间,完成行业标准的工作。
另一方面数据的不统一还存在一定的客观原因,例如不同品牌的仪器成像机理和标准不同,因此对于同一病灶输出的影像并不相同,这也大大提高了数据库标准化的难度。
为此专家呼吁相关机构进行数据的标准化工作。“整个医学人工智能的基础是大数据,大数据的基础是我们数据样本的标准库是否建立。”国家卫生健康委员会规划信息司信息处处长沈剑锋表示,标准的医学影像数据库不仅应该对数据进行标准化,还应该对病灶有清晰的标注,且兼顾年龄分布、疾病分类等其他维度的信息。
据介绍,国家卫生健康委员会已经开始着手进行国家层面的数据标准库的建立。并发布了《全国医院信息化建设标准与规范》《全国医院数据上报管理方案》等指导性文件,对包括数据在内的相关信息进行标准规范。
“拥有大数据的第三方公司也应该在数据规范方面从事更多的工作。”詹维伟说。