国际医疗器械设计与制造技术展览会

专注于为医疗器械研发与生产服务

2023年6月1-3日 | 苏州国际博览中心B1-E1号馆

EN | 中文
   

CT 影像人工智能软件的审评要点?医疗器械设备展一文获悉

2022-10-31

近年来,随着人工智能(artificial intelligence,AI)技术的快速发展,AI在医学领域的应用也越来越广泛,特别是关于CT影像AI软件的研究。从临床应用的角度来看,CT影像AI软件可分为辅助决策类和非辅助决策类。辅助决策类软件相当于医师的“助手”,可以自动识别病灶、提供辅助诊断(如肺结节良恶性的辅助诊断);非辅助决策类软件仅可提供信息参考,相当于医师的“工具”,可用于改善成像质量及进行流程优化、自动测量、CT三维重建等。

软件的前处理、流程优化、常规后处理、辅助决策等功能在产品层面存在交叉,具体情况需要结合产品的预期用途、使用场景和核心功能进行考虑。目前,从获批的医疗器械注册证来看,国内CT影像AI软件主要应用在肺结节、肺炎、冠状动脉病变、骨折等方面的辅助诊断、分诊和流程优化。AI软件因其具有辅助医务人员进行临床决策的功能,因此存在很大的临床使用风险,若出现漏诊和误诊甚至会导致延误治疗和过度医疗[1]。因此,很有必要对CT影像AI软件的安全性和有效性进行评价。本文主要从医疗器械注册审评角度浅析CT影像AI软件的审评要点,以期为该类产品的注册申报提供参考。其他医械类别的监管政策,也同时在现场医疗器械设备展医疗器械设备展Medtec China 2022讲解,其中将围绕法规建设、医疗器械创新审批、上市前和上市后监管等策划会议,从行业、监管和企业角度解读中国医疗器械法规及企业的应对。

1
监管信息

1.1 产品名称

产品的命名应符合《医疗器械通用名称命名规则》[2]的要求。建议产品名称应明确目标疾病(如肺炎、肺结节、骨折)和临床用途(如辅助诊断、辅助检测、分诊、测量、定位)。如:肺炎CT影像辅助分诊与评估软件、肺结节CT影像辅助检测软件。目前,AI软件在决策方面的定位只是辅助角色,需要医师做出最终决定,产品名称建议明确为辅助软件。

1.2 分类

根据《人工智能医用软件产品分类界定指导原则》[3],辅助决策类AI软件按照三类医疗器械管理,用于测量等非辅助决策类AI软件按照二类医疗器械管理。如厂家不确定产品分类,建议向国家药品监督管理局医疗器械标准管理中心申请分类界定。

1.3 适用范围适用范围需明确处理对象

(如CT影像)、目标疾病(如肺炎、肺结节、肺气肿、肺结核、肺癌、脑出血、血管闭塞、心脏冠脉病变、肝癌等)、适用人群(如成人、小儿)、临床用途(如分诊提示、异常识别、疾病类型分析、良恶性风险提示、病程阶段分析、提供辅助诊断结果、提供医学建议)、目标用户(如放射科医师)等信息。如:用于肺部CT影像的显示、处理、测量和肺炎病灶识别,可辅助用于成年的新型冠状病毒肺炎疑似患者的分诊提示以及确诊患者的病情评估;供经培训合格的医师使用,不能单独用作临床诊疗决策证据。

2
技术要求

2.1 型号规格及划分说明

如产品有多个型号,应明确不同型号间的差异,明确软件的发布版本及软件版本的命名规则,命名规则中需涵盖算法更新类型(区分算法驱动型和数据驱动型),还需涵盖网络安全的更新类型,并区别重大更新和轻微更新(原则上算法驱动型属于重大更新),重大更新需列举常见的情形。2.2 性能指标

明确软件的输入输出数据类型。输入数据一般包括软件的处理对象及成像模态,如X射线计算机体层摄影;输出数据一般指的是测量、分析、处理等结果类型,如用于4mm以上肺结节的识别。明确软件的接口类型,包括调用的其他应用程序接口、数据接口、可联合使用的其他产品接口。其中,数据接口还需明确数据传输协议或存储格式(如比较常见的DICOM、HL7),如采用私有协议也需要说明。明确软件运行环境。一般需明确典型运行环境,既包括处理器、存储器等硬件配置,也包括系统软件环境,还包括网络条件。需要注意的是,如适用多个版本,一般表述为“兼容版本”,不宜表述为“更高版本”或“以上版本”,如“运行环境:IE6.0版本或兼容版本”。软件的临床功能需包括说明书和软件界面所包含的所有临床功能纲要。为方便审阅,建议可结合产品的逻辑组成,分模块列明。临床功能一般包括可以客观测量的功能、图像处理功能等。直线长度、角度、面积、周长、体积、平均密度、直径等凡是可测量的物理量,都应该在性能指标中进行明确,并规定测量的误差要求。布局、放大镜、联动、复位、裁剪、拖移、缩放、反片、曲线窗、右转、左转、倒置、镜像、伪彩、增强、滤镜、图像对比、多平面重建(multiplanar reformation,MPR)、最大密度投影(maximum intensity projection,MIP)、最小密度投影(minimum intensity projection,MinIP)、容积重建(Volume rendering,VR)、病灶部位、分割方式、病灶量化分析、病灶识别与标注、病灶性质判断、靶区自动勾画等采用AI算法的图像处理功能需标注并明确算法类型。软件性能包括响应时间、系统响应时间和应用延迟时间、吞吐量、并发用户数和资源利用率等。明确软件的用户使用限制和必要的技术限制。如使用场景的限制,预期用于一般的体检筛查还是门诊病房;对患者的年龄、疾病类型或者地域是否有限制;其他限制包括CT设备的厂家,CT的扫描参数(如排数、层数、管电流、管电压、剂量、层厚、加载时间、重建方式等),适用于CT平扫还是CT增强扫描,CT图像质量有何要求(如分辨率是多少,需要排除的伪影类型等),目标疾病的分类或分型,病灶识别的部位等。

2022年医疗器械注册和监管会明确了重点的工作方向,法规建设、医疗器械创新审批、上市前和上市后监管依旧是国内法规的重点。 在明确法规工作重点的前提下,医疗器械设备展Medtec China 2022围绕重点方向特别策划了“法规峰会:中国医疗器械法规更新与应对”,从行业、监管和企业角度解读中国医疗器械法规及企业的应对。

3
软件研究

3.1 算法性能要求

疾病检出类算法的性能一般包括召回率、病变定位率(真阳性/(真阳性+假阴性)×100%)、精确度(真阳性/(真阳性+假阳性)×100%))、F1分数[(2×精确度×召回率/(精确率+召回率)]、平均精确度、平均精确度均值、fR0C曲线(以召回率为纵坐标、非病变定位率为横坐标构造的曲线)。

区域分割与测量类算法的性能一般包括召回率(算法分割的感兴趣区域与参考标准分割的感兴趣区域的交集除以参考标准分割的感兴趣区域)、精确度(算法分割的感兴趣区域与参考标准分割的感兴趣区域的交集除以算法分割的感兴趣区域)、交并比[当感兴趣区域为一般实体时(如肺结节),宜采用Dice系数或Jaccard系数计算交并比]、树检测长度、表面距离、密度测量、尺寸测量、体积测量。

影像分类算法的性能一般包括灵敏度、特异度、漏检率、阳性预测值、阴性预测值、准确率、约登指数、Kappa系数、R0C曲线。

随访评估功能算法一般需根据不同时间节点,比较算法对同一感兴趣区域的分析结果与参考标准之间的符合性,计算绝对误差,并建立各时间节点的动态曲线,计算与参考标准曲线的一致性。

患者分诊功能算法一般根据不同的分诊级,与算法输出的标签进行对比,建立混淆矩阵,计算灵敏度、特异度、Kappa系数等。

算法质量特性包括泛化能力、鲁棒性(包括面向硬件变化的对抗测试、面向软件前处理的对抗测试、面向欺骗攻击的对抗测试、压力测试)、重复性、一致性、效率、错误分析。

3.2 训练数据要求

基于深度学习的AI技术与传统统计学习技术的差异主要在于数据集规模与特征提取两方面。传统统计学习技术对数据量的要求没有那么大,特征提取是一个白盒过程;而AI技术对于数据量要求很高,且是一个端到端的黑盒过程,可自动完成特征提取。这意味着,AI技术对数据库的考量会更加细致,需要重点考虑其数据的可解释性问题。

机器学习项目中的一个关键问题是,为了达到诸如分类器准确度等特定性能指标,我们需要多少训练数据。目前,主要有如下解决方案。(1)训练数据量的经验范围:如在回归分析中通过考虑预测变量的数量、总体样本量以及正样本量/总体样本量的比例来估计训练数据的多少。(2)假设检验中样本大小的确定:规定有专业意义的差值δ(称为分辨力或区分度,δ值越小表示对两个总体参数差别的区分度越强,因而所需样本含量也越大),确定作统计推断时允许犯Ⅰ类错误(“弃真”的错误)的概率α,提出所期望的检验效能[用1-β表示,β为允许犯Ⅱ类错误(“取伪”的错误)的概率],检验效能就是推断结论不犯Ⅱ类错误的概率(1-β)(称把握度),即当对比双方总体参数值间差值确实达到δ以上时,根据抽样观测结果在规定的α水准上能正确地作出有差别的推断结论的可能性,在科研设计中常把1-β定为0.90或0.80,一般来说1-β不宜低于0.75,否则可能出现非真实的阴性推断结论。(3)训练数据规模的统计学习理论:VC维(Vapnik-Chevronenkis维度)是模型复杂度的度量,模型越复杂,VC维越大,训练数据量N是VC维的一个函数:

其中d为失效概率,epsilon为学习误差,由该公式可知学习所需的数据量取决于模型的复杂度。(4)逐渐增加训练数据,检验模型性能:训练集的数据量逐渐增加,模型性能会随着数据量的增加而增加,当到达一定数据规模(临界数据量)时,模型性能会停滞不前。

3.3 数据采集要求

医疗器械设备展Medtec China 2022了解到,随着数据采集需考虑CT设备的兼容性与扫描参数、CT 影像质量等因素,如厂家、探测器排数、层数、层厚、管电压、管电流、加载时间、扫描方式、患者体位、扫描速度、螺距、图像伪影与噪声等要求。对于CT设备的要求,建议尽量覆盖国内外主流机型,如飞利浦、GE、西门子、东芝、联影、东软等。

扫描方式,如平扫、增强、低剂量,应各有一定的占比。数据采集还需考虑患者人群、采集场所、机构来源、数据格式、采集人员、影像学分级、分型、分期等多方面的因素。人群因素包括不同的年龄分布、性别、地域(如华东、华南、华中、西北等)。采集场所,如体检、门诊、住院。影像学分级,如肺炎包括早期、进展期、严重期,肺结节类型包括肺内实性结节、肺内部分实性结节、肺内纯磨玻璃结节、肺内钙化结节、胸膜实性结节、胸膜钙化结节、其他疾病等,不同类型的结节还包括不同尺寸。

3.4 数据标注及质控要求

在标注任务开始前,标注责任方应明确标注任务的分类,包括数据模态、执行主体、标注结果格式、标注结果性质、标注结果形式等维度。

标注任务需建立标注规则,如根据法规文件、专家共识、文献分析等确定标注规则,需明确标注人员的要求,如标注人员来源的医疗机构、工作年限、职称、工作量、培训考核评价情况、标注任务,不同角色人员(如初级标注人员、审核人员、仲裁人员)分别进行阐述,明确人员分工,制定决策机制,明确分歧处理程序。此外,需明确标注过程适用的标注工具,如设备型号、标注软件的信息,描述标注环境,标注数据如何进行数据清洗、查重等。

要求整个标注过程中追踪结果应可以导出并可追溯,避免数据丢失,具体要求如下。(1)标注时间监测:可以通过记录测试过程中医师对于每一个病例的标注时间,建立每一位标注者的标注时间分布;在实际标注阶段,可以通过不断比对每一个病例的标注时间、该时间在该标注人员标注时间分布中的位置来判断标注的状态;若标注时间多次出现过长或过短的情况,则需要同时评估标注人员的状态和数据的质量。(2)标注一致性监测:在标注过程中,引入部分病例,让同一名标注人员进行二次标注,并计算同一个人两次标注之间的一致性,以确保标注人员的标注一致性水准始终能够达到项目的要求,保证整体标注的一致性。(3)标注准确率监测:在标注过程中,引入部分医学专家提供的带有标准标注答案的病例,计算标注人员对于带标准答案病例标注的准确性,用以评估标注人员的实时状态。

3.5 算法训练

算法训练需结合绘制训练数据量-评估指标曲线,重点进行算法性能影像因素分析以及数据多样性分析。

算法训练如涉及数据扩增,需明确数据扩增的对象、方法、倍数,分析扩增倍数过大的影响及其风险。数据扩增并不总能产生积极的作用,不当的数据扩增可能产生负面影响。而什么是适当的数据扩增,取决于具体的任务和数据集。因此需要慎重考虑扩增过程中的数据偏移问题,同时进行扩增倍数过大的影响分析。

3.6 算法验证与确认

测试集应与算法的研发、训练集和调优集保持独立,以保证数据集的安全性和封闭性。根据灵敏度、特异度计算单次测试的样本量,考虑人群特征,疾病分类和分级、数据质量要求,不同采集设备等,确保数据容量和数据多样性。

4
临床评价

该类产品的临床评价方式与其必备的软件功能类型有关。用于病情评估的量化分析功能、数据对比功能、常见影像后处理功能(如多平面重建、曲面重建、最大密度投影、最小密度投影、表面遮盖显示、容积再现、仿真内窥镜、伪彩、图像锐化、去噪、增强、分割、配准、融合等)属于非辅助决策类软件功能,可基于核心功能按同品种医疗器械比对的临床评价途径。简单操作类软件功能(如随访结果对比、多窗口显示、图像缩放移动、窗宽窗位调节、长度测量、角度测量、标注工具)、单纯流程优化类软件功能(如一键输出报告功能、批量导出功能、随访提醒功能、胶片智能排版打印、分诊指引功能)可通过非临床证据予以评价。

分诊提示、异常识别、疾病类型分析、病灶种类鉴别、良恶性风险提示、病程阶段分析、提供辅助诊断结果(自动化报告)、提供医学建议(给出临床诊断治疗依据和/或建议、用药建议)等功能属于辅助决策类软件功能,可基于核心算法进行同品种医疗器械比对,比对所选产品的临床证据需基于临床试验。全新的核心算法、核心功能、预期用途原则上均应开展临床试验[4]。

4.1 试验设计

若无同类已上市产品可采用单组目标值试验设计;若有同类已上市产品可考虑平行对照试验设计。

采用单组目标值试验设计,目标值应符合临床应用需求,并提供目标值确定的依据。目标值可来源于权威医学组织、临床文献或回顾性临床研究结果确定。

临床机构应当具备代表性和广泛性,不同于训练数据主要来源机构,地域分布尽可能广泛,机构数量尽可能多,以确认算法泛化能力。

4.2 评价指标

针对采用AI算法设计的临床功能原则上选择灵敏度、特异度、ROC曲线下面积(area undercurve,AUC)为主要评价指标,亦可在此基础上根据软件特点选择灵敏度/特异度衍生指标、ROCAUC衍生指标(如诊断准确率、精确率、召回率)、F1系数、组内相关系数、Kappa系数、时间效率(如辅助诊断平均时间、日人均诊断量增益率和诊断平均时间增益率)、数据有效使用率等指标作为次要评价指标。

5
小结

国家药监部门有必要尽快出台具体的评价标准,发布相关的指导原则、审评指南,指导企业从研发、注册申报,到临床应用,规范注册审评审批,构建全生命周期的监管体系,为产品的安全、有效保驾护航,使AI软件产品更好地服务于临床。

AI 技术在医学领域的应用日益广泛,前景广阔,但仍存在如下问题:因其不确定性带来潜在风险,目前相关的监管体系尚不健全,评估标准缺失,难以及时对潜在的医疗质量安全问题进行监督与管理。

【参考文献】[1]李曼,藤依杉,郭佳颖,等 . 基于人工智能的医学影像辅助诊断类软件监管与测评方法研究 [J]. 电子技术与软件工程,2022(2):77-82.
[2]国家食品药品监督管理总局 . 医疗器械通用名称命名规则(国家食品药品监督管理总局令第19号)[Z].2015-12-21.[3]国家药品监督管理局 . 国家药监局关于发布人工智能医用软件产品分类界定指导原则的通告(2021年第47号)[Z].2021-07-01.[4]国家药品监督管理局医疗器械技术审评中心 . 国家药监局器审中心关于发布人工智能医疗器械注册审查指导原则的通告(2022年第8号)[Z].2022-03-07.作 者:李小江,曾祥卫,孙志刚
单 位:广东省药品监督管理局审评认证中心 (广东广州 510080 )

来源:医疗装备杂志