最近,以ChatGPT为代表的通用人工智能(AGI)的发展,着实让大家有了一种「奇点临近」的感觉。当然,在AGI面世之前,科学家已经用机器学习和深度学习解决了很多医学领域的实际问题。
近期,上海市第一人民医院、海军军医大学附属长海医院、上海国家消化系统疾病临床医学研究中心等多家机构的研究人员,在《柳叶刀·胃肠肝病学》杂志上发表了一项重要研究,利用机器学习技术让更经济、更可及的大规模食管癌筛查成为可能。机器学习模型AUROC达0.964,并可避免92.8%的内窥镜检查【1】。
论文首页截图
(资料图片)
食管癌的凶猛想必不用多言。在全球范围内,食管癌在癌症相关死亡原因排行榜中位居第六,仅2020年就造成了超过50万人死亡【2】。需要特别强调的是,全球超过50%的食管癌死亡来自中国【3】,可见我国疾病负担之沉重。
在食管癌高发的区域,食管鳞状细胞癌占所有食管癌的90%【3】。由于食管鳞状细胞癌症状出现较晚,大多数患者确诊已是晚期,因此预后非常不佳,在非洲地区5年总生存率不到5%,中国则为30%。
和大多数癌症一样,早诊早治也是降低食管癌死亡率的重要手段。如果可以在疾病的早期阶段,如高级别鳞状上皮增生(前期病变)和早期浸润性食管鳞状细胞癌时进行早期检测和干预,则可以有效减少食管鳞状细胞癌的死亡率。
事实上,中国已经开展的早筛计划证明,40~69岁之间进行一次内窥镜筛查,可以在未来10年内将食管鳞状细胞癌的死亡率降低30~60%【4】。
有效筛查是降低食管癌病死率的“中国经验”
不过,虽然内窥镜筛查是食管癌早诊的金标准,但受侵入性和资源密集型限制,很难在我国高风险地区广泛开展。替代的方法主要有两种,一种是基于流行病学的问卷调查,另一种是对非内窥镜气球或胶囊海绵采样器采集的细胞进行病理分析。但前者预测效果有限,后者则需要大量有经验的细胞病理学家。
那么有没有可能开发一种对资源占有量小,不需要大量细胞病理学家介入,成本可控,准确率又高的筛查方法呢?是时候呼唤AI了!
由研究团队发起的这项名为EAST的研究,在全国39家医院招募了14597名40-75岁之间的成年人,其中7899例数据进入训练集,6698例数据进入测试集,除此之外,还有2901名社区参与者,这些数据进入了验证数据集。
人群基线特征
研究的流程可谓行云流水。首先,所有参与者都完成了一份结构化的在线问卷调查,包括人口统计学和风险因素,如性别、年龄、身体质量指数、居住地、教育水平、吸烟和饮酒习惯等。其次,由当地的护士进行胶囊海绵细胞采样,收集的细胞被送往中央实验室处理,并使用研究团队的AI扫描仪进行病理片的扫描,并进一步提取数字化的细胞学特征。
在测试和验证集中,被AI识别异常的细胞将交给两位细胞学家进行独立盲法诊断。所有参与者在细胞学检查后的10天内接受上消化道内窥镜检查,并由医生独立诊断。
基于这些数据,研究团队希望训练一个机器学习模型,通过流行病学问卷调查+胶囊海绵细胞样本AI特征提取数据,来预测食管癌的风险。
研究的主要预测结果是高级别病变,包括食管和食管-胃交界处的组织学证实的癌症和高级别上皮内瘤变。结果指标包括模型的受试者工作特征曲线下面积(AUROC)和平均精度,以及灵敏度、特异度、阳性预测值、阴性预测值和需要内窥镜检查的人数。
研究团队训练了LR、AdaBoost、LightGBM 等6个常用的机器学习模型。在测试集中,LightGBM模型表现最佳,AUROC达到0.960(95% CI 0.937 to 0.977),平均精度为0.482(95% CI 0.470 to 0.494),并且与AI辅助的细胞学家表现相似(AUROC 0.955 [95% CI 0.933 to 0.975])。因此被选为进一步分析的最终模型。
各分析模型准确性
如果将模型定义的中度风险和高风险组转介到内窥镜检查,其敏感性为94.5%(95% CI 88.8 to 97.5),特异性为91.9%(95% CI 91.2 to 92.5),预测阳性值为18.4%(95% CI 15.6 to 21.6)。
研究团队根据测试集ROC曲线的操作点,将预测风险得分(PRS)小于0.25的参与者定义为低风险组,PRS为0.25~0.5的参与者定义为中等风险组,PRS为0.5或更高的参与者定义为高风险组。
这里简单科普一下,在机器学习中,PRS可以理解为一个分类阈值,将预测分数转换为相应的分类标签。比如,将预测分数大于等于阈值的样本判定为阳性(positive),小于阈值的样本判定为阴性(negative)。分类阈值是预测模型最终决策的关键因素之一。
按照这个分类阈值,在测试组6698名参与者中, 6045(90.3%)为低风险组, 189(2.8%)为中等风险组, 464(6.9%)为高风险组。
此前的内窥镜检查诊断结果的显示,在测试人群中,高级别病变的患病率为1.9%(6698人中的127人),也就是说,需要用内窥镜筛查52.7人,才能筛出一位高级别病变的患者。而如果将机器学习预测的中等风险和高风险组参与者纳入内窥镜筛查,则使用内窥镜筛查5.4人,就可以筛出一位高级别病变患者,可以避免90.3%的内窥镜检查。
准不准确?好不好用?
最后,使用社区2901例参与者的数据对模型进行验证。在这个验证集中,1.2%(36 of 2901) 的参与者经内窥镜诊断为阳性。经验证,LightGBM模型的AUROC为0.964(95% CI 0.920 to 0.990)。使用预定义的PRS,92.8%的参与者被分类为低风险,2.1%被分类为中风险,5.0%被分类为高风险。
如果将中等风险和高风险视为阳性预测,需要进一步使用内窥镜检查,则可以避免92.8%的内窥镜检查。也就是说,如果验证集的参与者全部采用内窥镜筛查,筛查80.6人才能找到一个阳性患者;但对经机器学习判定为阳性预测的参与者进行内窥镜筛查,则筛查5.9人,就可以找到一个阳性患者。筛查效率可谓大幅提升!
最后总结一下,这项由中国多家机构发起了食管癌AI辅助筛查研究发现,他们训练的机器学习模型可以使用「流行病学调查问卷+AI处理的海绵细胞采样数据」,实现食管癌的高效筛查,AUROC达0.964,并可避免92.8%的内窥镜检查,极大减少了筛查中内窥镜的使用密度。