2019年6月28日,药监局正式向AI企业发布了审批相关文件《深度学习辅助决策医疗器械软件审批要点》,从《要点》之中提取了6个关键词,这6个关键词明确了人工智能企业在审批中所需注意的关键
1、适用范围
准则的适用范围包括两类软件。
1. 深度学习辅助决策医疗器械软件:即基于医疗器械数据(医疗器械所生成的医学图像、医学数据,以下统称数据),使用深度学习技术进行辅助决策的软件。
2. 使用深度学习技术进行前处理(如成像质量改善、成像速度提升、图像重建)、流程优化(如一键操作)、常规后处理(如图像分割、数据测量)等非辅助决策的软件可参考使用本审评要点。
需要注意的是,这里不再把深度学习软件化分为可分为AI独立软件(本身即为医疗器械的AI软件)与AI软件组件(医疗器械内含的AI软件),而是以是否“辅助决策”对产品进行了划分,强调了产品的“辅助”功能;同时,这也明确表示非辅助决策软件也将以类似手段进入审批流程。
2、审批重点
审批提出了软件的数据质量控制、算法泛化能力、临床使用风险,临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响六个方面。
而这六个方面正是人工智能企业所实际面临的问题,数据质量关系着算法的成熟度;泛化能力则是指人工智能产品在不同人群中的普适能力;临床试验更是制约现阶段AI产品发展的关键……每一个问题都卡住了一批AI企业。
3、数据收集与处理
在审批之中,数据收集应当考虑数据采集、数据预处理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法设计质量。
在实际审批之中,数据在审批过程中非常重要。据了解,多家人工智能企业在提交《创新医疗器械特别审批程序》时,被审批机构以“缺少训练集、调优集、测试集中主要数据来源机构”;“缺少主要采集数据的分布情况”;“缺少不同设备和来源机构的测试数据”;“缺少数据标注质量控制中人员资历、数量的要求”;“缺少基于一定样本量真实数据的用户测试”等理由驳回。
对于上述问题,《要点》中认为,采集设备质控应当明确采集设备的兼容性要求和采集要求。兼容性要求应当基于数据生成方式(直接生成、间接生成)提供采集设备兼容性列表或技术要求,明确采集设备的制造商、型号规格、性能指标等要求,若对采集设备无具体要求应当提供相应支持资料。
采集要求应当明确采集设备的采集方式(如常规成像、增强成像)、采集协议(如MRI成像序列)、采集参数(如CT加载电压、加载电流、加载时间、层厚)、采集精度(如分辨率、采样率)等要求。
若使用现有历史数据,应当明确采集设备要求、数据采集质量评估要求(如人员、方法、指标、通过准则)。同时,采集的数据应当进行数据脱敏以保护患者隐私。数据脱敏应当明确脱敏的类型(静态、动态)、规则、程度、方法。
数据预处理、数据标注、数据集构建三个方面文件亦给出了明确的要求,但要求相对简单,企业只需按照要求的模式执行即可,这里不作赘述。
4、算法设计
除了常规命名方面的要求外,《要点》提到了算法训练与网络安全防护问题。
其中,算法训练需要基于训练集、调优集进行训练和调优,应当明确评估指标、训练方法、训练目标、调优方法、训练数据量-评估指标曲线等要求。
评估指标建议根据临床需求进行选择,如敏感性、特异性等。训练方法包括但不限于留出法和交叉验证法。训练目标应当满足临床要求,提供ROC曲线等证据予以证实。调优方法应当明确算法优化策略和实现方法。训练数据量-评估指标曲线应当能够证实算法训练的充分性和有效性。
而在网络安全防护方面,应当结合软件的预期用途、使用场景和核心功能,基于保密性、完整性、可得性等网络安全特性,确定软件网络安全能力建设要求,以应对网络攻击和数据窃取等网络威胁。相关要求详见网络安全指导原则。
类软件常见网络威胁包括但不限于框架漏洞攻击、数据污染,其中框架漏洞攻击是指利用算法所用现成框架本身漏洞进行网络攻击,数据污染是指通过污染输入数据进行网络攻击。
5、以临床评价为主的软件确认方式
软件确认是本次《要点》中的重点,文件中明确表示,企业应根据软件指导原则要求,提交基于临床试验的临床评价资料,即提交申报产品的临床试验资料,或者与申报产品核心算法具有实质等同性的同品种产品或同类软件功能的临床试验资料。
而对于临床试验,《要点》建议优先选择同品种产品或临床参考标准(即临床金标准)进行非劣效对照设计,若无同品种产品且难以获取临床参考标准(如违背伦理学要求)可选择替代方法,如选择用户结合软件联合决策与用户单独决策进行优效对照设计。
非劣效界值或优效界值的确定应当有充分的临床依据。此外考虑到用户的差异性,可选择多阅片者多病例(MRMC)试验设计。
《要点》建议企业应结合适用人群、病变等层面选择观察指标,原则上选择敏感性、特异性、ROC/AUC作为主要观察指标,亦可在此基础上根据软件特点选择敏感性/特异性衍生指标、ROC/AUC衍生指标、组内相关系数、Kappa系数、时间效率、数据有效使用率等指标作为观察指标。
入排标准应当基于目标疾病流行病学特征,保证阳性样本和阴性样本选取的合理性和充分性。而在实际之中,大部分企业倾向于选择敏感性、特异性、ROC/AUC作为主要观察指标。
病理影像的识别需要用AUC作为观察指标,图片来源于论文《Pathologist-level Interpretable Whole-slide Cancer Diagnosis with Deep Learning》
对于临床试验的结果,《要点》建议由第三方独立评价,且实施机构应当具备代表性和广泛性,不同于训练数据主要来源机构,地域分布尽可能广泛,机构数量尽可能多,以确认算法泛化能力。
例如,预期以提高辅助诊断时间效率为首要目标的某软件,无同品种产品且难以获取临床参考标准,其临床试验设计可选择用户结合软件联合决策与用户单独决策进行交叉对照设计,以敏感性、特异性、时间效率作为主要观察指标,其中敏感性、特异性可为非劣性对照,时间效率指标应当为优效对照。
事实上,国内已经有诸多企业尝试以多中心试验证实人工智能产品在真实世界的有效性。数坤科技在今天5月30日便发布了其AI与金标准对照多中心结果,值得其他企业借鉴。
最后,《要点》指出,临床评价采用基于现有历史数据的回顾性研究即可,没有提到前瞻性研究,据相关人士透露,现有AI产品的临床评价中,还未有案例通过前瞻性研究。
6、注册申报资料说明
《要点》中提到,申报的软件名称需符合独立软件通用名称命名规范要求,体现处理对象(如CT图像、眼底照片)、目标疾病(含病变、疾病属性)、临床用途(如辅助筛查、辅助识别)等特征词。
辅助决策独立软件适用范围应当明确预期用途、使用场景和核心功能,包括但不限于处理对象、目标疾病、临床用途、适用人群、目标用户、使用场所、采集设备要求、临床使用限制。
企业必须提供:一、软件描述文档核心算法部分应当结合本审评要点提供相应算法研究资料;二、包括数据来源合规性声明;三、算法性能影响因素分析资料以及各类测试场景下算法性能评估结果比较分析资料。
2019年6月28日,药监局正式向AI企业发布了审批相关文件《深度学习辅助决策医疗器械软件审批要点》,从《要点》之中提取了6个关键词,这6个关键词明确了人工智能企业在审批中所需注意的关键
1、适用范围
准则的适用范围包括两类软件。
1. 深度学习辅助决策医疗器械软件:即基于医疗器械数据(医疗器械所生成的医学图像、医学数据,以下统称数据),使用深度学习技术进行辅助决策的软件。
2. 使用深度学习技术进行前处理(如成像质量改善、成像速度提升、图像重建)、流程优化(如一键操作)、常规后处理(如图像分割、数据测量)等非辅助决策的软件可参考使用本审评要点。
需要注意的是,这里不再把深度学习软件化分为可分为AI独立软件(本身即为医疗器械的AI软件)与AI软件组件(医疗器械内含的AI软件),而是以是否“辅助决策”对产品进行了划分,强调了产品的“辅助”功能;同时,这也明确表示非辅助决策软件也将以类似手段进入审批流程。
2、审批重点
审批提出了软件的数据质量控制、算法泛化能力、临床使用风险,临床使用风险应当考虑数据质量控制、算法泛化能力的直接影响,以及算力所用计算资源(即运行环境)失效的间接影响六个方面。
而这六个方面正是人工智能企业所实际面临的问题,数据质量关系着算法的成熟度;泛化能力则是指人工智能产品在不同人群中的普适能力;临床试验更是制约现阶段AI产品发展的关键……每一个问题都卡住了一批AI企业。
3、数据收集与处理
在审批之中,数据收集应当考虑数据采集、数据预处理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法设计质量。
在实际审批之中,数据在审批过程中非常重要。据了解,多家人工智能企业在提交《创新医疗器械特别审批程序》时,被审批机构以“缺少训练集、调优集、测试集中主要数据来源机构”;“缺少主要采集数据的分布情况”;“缺少不同设备和来源机构的测试数据”;“缺少数据标注质量控制中人员资历、数量的要求”;“缺少基于一定样本量真实数据的用户测试”等理由驳回。
对于上述问题,《要点》中认为,采集设备质控应当明确采集设备的兼容性要求和采集要求。兼容性要求应当基于数据生成方式(直接生成、间接生成)提供采集设备兼容性列表或技术要求,明确采集设备的制造商、型号规格、性能指标等要求,若对采集设备无具体要求应当提供相应支持资料。
采集要求应当明确采集设备的采集方式(如常规成像、增强成像)、采集协议(如MRI成像序列)、采集参数(如CT加载电压、加载电流、加载时间、层厚)、采集精度(如分辨率、采样率)等要求。
若使用现有历史数据,应当明确采集设备要求、数据采集质量评估要求(如人员、方法、指标、通过准则)。同时,采集的数据应当进行数据脱敏以保护患者隐私。数据脱敏应当明确脱敏的类型(静态、动态)、规则、程度、方法。
数据预处理、数据标注、数据集构建三个方面文件亦给出了明确的要求,但要求相对简单,企业只需按照要求的模式执行即可,这里不作赘述。
4、算法设计
除了常规命名方面的要求外,《要点》提到了算法训练与网络安全防护问题。
其中,算法训练需要基于训练集、调优集进行训练和调优,应当明确评估指标、训练方法、训练目标、调优方法、训练数据量-评估指标曲线等要求。
评估指标建议根据临床需求进行选择,如敏感性、特异性等。训练方法包括但不限于留出法和交叉验证法。训练目标应当满足临床要求,提供ROC曲线等证据予以证实。调优方法应当明确算法优化策略和实现方法。训练数据量-评估指标曲线应当能够证实算法训练的充分性和有效性。
而在网络安全防护方面,应当结合软件的预期用途、使用场景和核心功能,基于保密性、完整性、可得性等网络安全特性,确定软件网络安全能力建设要求,以应对网络攻击和数据窃取等网络威胁。相关要求详见网络安全指导原则。
类软件常见网络威胁包括但不限于框架漏洞攻击、数据污染,其中框架漏洞攻击是指利用算法所用现成框架本身漏洞进行网络攻击,数据污染是指通过污染输入数据进行网络攻击。
5、以临床评价为主的软件确认方式
软件确认是本次《要点》中的重点,文件中明确表示,企业应根据软件指导原则要求,提交基于临床试验的临床评价资料,即提交申报产品的临床试验资料,或者与申报产品核心算法具有实质等同性的同品种产品或同类软件功能的临床试验资料。
而对于临床试验,《要点》建议优先选择同品种产品或临床参考标准(即临床金标准)进行非劣效对照设计,若无同品种产品且难以获取临床参考标准(如违背伦理学要求)可选择替代方法,如选择用户结合软件联合决策与用户单独决策进行优效对照设计。
非劣效界值或优效界值的确定应当有充分的临床依据。此外考虑到用户的差异性,可选择多阅片者多病例(MRMC)试验设计。
《要点》建议企业应结合适用人群、病变等层面选择观察指标,原则上选择敏感性、特异性、ROC/AUC作为主要观察指标,亦可在此基础上根据软件特点选择敏感性/特异性衍生指标、ROC/AUC衍生指标、组内相关系数、Kappa系数、时间效率、数据有效使用率等指标作为观察指标。
入排标准应当基于目标疾病流行病学特征,保证阳性样本和阴性样本选取的合理性和充分性。而在实际之中,大部分企业倾向于选择敏感性、特异性、ROC/AUC作为主要观察指标。
病理影像的识别需要用AUC作为观察指标,图片来源于论文《Pathologist-level Interpretable Whole-slide Cancer Diagnosis with Deep Learning》
对于临床试验的结果,《要点》建议由第三方独立评价,且实施机构应当具备代表性和广泛性,不同于训练数据主要来源机构,地域分布尽可能广泛,机构数量尽可能多,以确认算法泛化能力。
例如,预期以提高辅助诊断时间效率为首要目标的某软件,无同品种产品且难以获取临床参考标准,其临床试验设计可选择用户结合软件联合决策与用户单独决策进行交叉对照设计,以敏感性、特异性、时间效率作为主要观察指标,其中敏感性、特异性可为非劣性对照,时间效率指标应当为优效对照。
事实上,国内已经有诸多企业尝试以多中心试验证实人工智能产品在真实世界的有效性。数坤科技在今天5月30日便发布了其AI与金标准对照多中心结果,值得其他企业借鉴。
最后,《要点》指出,临床评价采用基于现有历史数据的回顾性研究即可,没有提到前瞻性研究,据相关人士透露,现有AI产品的临床评价中,还未有案例通过前瞻性研究。
6、注册申报资料说明
《要点》中提到,申报的软件名称需符合独立软件通用名称命名规范要求,体现处理对象(如CT图像、眼底照片)、目标疾病(含病变、疾病属性)、临床用途(如辅助筛查、辅助识别)等特征词。
辅助决策独立软件适用范围应当明确预期用途、使用场景和核心功能,包括但不限于处理对象、目标疾病、临床用途、适用人群、目标用户、使用场所、采集设备要求、临床使用限制。
企业必须提供:一、软件描述文档核心算法部分应当结合本审评要点提供相应算法研究资料;二、包括数据来源合规性声明;三、算法性能影响因素分析资料以及各类测试场景下算法性能评估结果比较分析资料。