马张曼1 , 龚向阳2
1. 浙江中医药大学 浙江省 杭州市
2. 浙江省人民医院 浙江省 杭州市
【目的】本研究的目的是评估不同商用人工智能辅助诊断产品(AI-CAD)诊断肺癌的性能,分析其漏诊误诊的共性问题,并探索不同AI-CAD联合后诊断性能是否提升。
【方法】回顾性收集1000例(600例高危结节,400例非高危结节)肺结节病例并由五家AI-CAD分别进行检测分析。灵敏度、特异性、假阳性率、假阴性率、阳性预测值、阴性预测值及受试者工作特征曲线下面积(AUC)用于比较不同AI-CAD的独立性能。两名高级放射科医师在PACS工作站上独立阅片并最终统一阅片结果。采用McNemar检验比较AI与人工阅片的敏感性和特异性。将五家AI-CAD以不同组合的形式构建联合模型,F1-Score、Accuracy、Precision、Recall值用于联合模型性能的比较。
【结果】软件B的检测灵敏性最高,高于放射科医生(92.0%vs89.7%,p=0.151)。软件A的特异性最高,高于放射科医生(71.50%vs65.7%,p=0.064)。软件A阳性预测值最高且高于放射科医生(81.7%vs79.7%,p=0.001)。软件B阴性预测值最高但低于放射科医生(79.31%vs80.9%,p<0.001)。软件A的独立检测性能AUC值最高,但与放射科医生没有统计学差异(0.782 vs 0.777,p=0.789)。600例高危结节中仅9例被AI-CAD均检测或解释错误。AI联合模型的性能均比单一AI软件的检测性能好,且联合的AI软件越多,检测准确性越高。其中两两联合的模型中,以软件B联合软件E的效能最高,F1-Score值达到0.865。
【结论】不同AI-CAD检测不同类型肺结节的性能各有优劣。AI软件的联合模式对肺癌的精准诊断是一种可行的优化的方案。