刘驰誉
徐州市第一人民医院
影像组学分析方法简述
徐州第一人民医院 刘驰誉 221000
目的:早期乳腺癌的诊断依赖影像学检查、临床评估以及病理学证据。侵入式的病理学检查会使病人感到不舒服,而且需要在一定时间内复查,而影像学检查的敏感性较差。一旦在影像学上发现占位,一般建议进行活检。影像学给出的结论相对保守,因此近年来人工智能的发展给医学影像学带来了新的变革,尤其是在癌症预测方面颇具成效,包括评估预后,监测病程等方面。影像组学提出设想使得影像学检查结果逼近病理与分子水平,这篇文章主要介绍人工智能机器学习算法在乳腺癌检查与预测方面的方法。
方法:本课题使用的是DDSM数据库是美国的医学机构所建立的专门存放乳腺癌图像的数据库,分为四个子文件夹:分别是benign_without_callbacks, benigns, cancers, normals 代表乳腺检查的不同类别,每个子文件夹中各有很多个case,每个case代表一个样例。原始数据是JPG格式的图像,首先使用软件将原始数据转换为nifi格式。将转换后的图像导入ITK-SNAP软件中,进行感兴趣区ROI分割。并标注相应的标签,该数据集共包括753个钙化病例和891个肿块病例。将分割好的数据导入python中pyradiomics包,提取出104个特征。使用LASSO回归进行特征降维,最后选出38个特征,并以此建立机器学习模型。
该课题主要使用了SVM、随机森林两个机器学习算法,支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,其输出的类别是由个别树输出的类别的众数而定。
结果:SVM和随机森林算法分别取得了AUC值为0.797和0.846,为了增加结果的鲁棒性,使用了K折p次交叉验证法,可接受的AUC95%CI为0.787-0.802和0.842-0.851,这些值均小于高年资诊断医师(AUC:0.959)。
结论:影像组学是一门新兴的学科。与以分子生物学为动机的治疗一样,影像组学在加速精确医学方面具有巨大潜力。但是由于技术的复杂性,如存在过拟合或欠拟合的情况。在深度学习高速发展的当今,传统机器学习算法已经不能满足处理临床复杂影像数据的需求,因此在深度学习算法上的创新也是影像组学新的方向。