肺癌是全球第二大最常见的癌症,也是癌症相关死亡的主要原因[1]。
虽然低剂量计算机断层扫描(LDCT)等放射学方法,可以将肺癌相关死亡风险降低20%,但有很多因素限制了它的使用[2]。因此,开发一种可靠的非侵入性方法,准确且经济高效地检测出早期肺癌,是亟待解决的问题。
近年来,基于细胞游离DNA(cfDNA)的液体活检在肿瘤早筛中显示出优势,但单一特征的cfDNA预测敏感性低,利用堆叠集成的方法整合来自全基因组测序(WGS)的cfDNA基因组特征,并创建高度敏感的模型已在早期结直肠腺癌检测中初见成效[3],这种方法是否适用于肺癌早筛,目前鲜为人知。
(资料图片仅供参考)
近日,由江苏省肿瘤医院(南京医科大学附属肿瘤医院)的许林、尹荣领衔的研究团队,通过整合cfDNA片段组学特征,开发了一种准确且经济的早期肺癌检测方法,这项研究成果发表在呼吸科顶级期刊《美国呼吸与危重症医学杂志》上[4]。
研究人员发现,集成了五个cfDNA特征和五个机器学习算法的堆叠集成模型,优于所有基于单个特征-算法组合的模型,该集成模型预测早期非小细胞肺癌(NSCLC)的敏感性和特异性在90%以上。
值得一提的是,即使测序深度降至0.5×时,该模型仍可保持较高的敏感性和特异性。江苏省肿瘤医院王思炜、孟凡尘和李明为该论文的共同第一作者。
论文首页截图
接下来,我们一起来看看这个研究是如何开展的。
研究团队首先将354名受试者随机分配到训练集及验证集I,训练集包括113名未治疗的NSCLC患者(腺癌ADC:96名;鳞癌SCC:17名;I期:66名;肿瘤大小<1cm:15名)和113名非癌症健康志愿者;验证集I包括81名NSCLC患者(ADC:66;SCC:15;I期:46;肿瘤大小<1cm:16)和47名健康者。训练集及验证集I用于构建模型、进行内部验证。
随后,他们将另外188名受试者(70名健康志愿者,118名未治疗ADC)分配到验证集II,进行外部验证。此外,他们还设计了独立验证队列,纳入了240名来自其他回顾性研究的人群,包括120名健康者和120名未治疗的NSCLC患者。
模型的构建与验证
研究人员对所有受试者进行了血浆样本采集、cfDNA提取,然后进行WGS文库构建。他们统一按5×的测序深度进行模型构建和评估,使用原始测序深度(5.28×-27.85×)的WGS数据,或降低测序深度至4×、3×、2×、1×和0.5×的WGS数据,对所选模型进行进一步评估。
他们从WGS数据中提取了五种不同的片段特征,用于特征选择和模型构建。这五种片段特征包括:拷贝数变异(CNV)、片段大小覆盖率(FSC)、片段大小分布(FSD)、末端序列(EDM)和断裂点序列(BPM)。
然后,他们使用每个cfDNA片段组特征来构建其基础模型,并使用了五种基础算法:广义线性模型(GLM)、梯度提升机(GBM)、随机森林、深度学习和XGBoost。
构建堆叠集成模型和确定癌症概率评分的示意图
研究人员测试了上述五种片段特征在五个基础模型中的曲线下面积(AUC),以评估模型的预测性能,结果显示EDM、BPM、FSC、FSD和CNV特征,在堆叠集成模型中的AUC值比在单一算法模型中高。于是,他们建立了一个集成了血浆cfDNA片段组学特征和五种机器学习算法的堆叠集成模型,AUC值达0.985。
本研究中的每个癌症或非癌症样本,均会由算法生成癌症概率评分,范围为0到1,模型输出的分数越高,表示患癌症的概率越高。研究人员发现,癌症患者的癌症概率评分显著高于健康受试者,而且从I期到IV期癌症患者的评分分布呈上升趋势。
为了评估堆叠集成模型的性能,研究人员使用验证集I来确定95%特异性的截断值(验证集I中的健康者46名,因此计算出的特异性为44/46=95.7%,相应的癌症评分截断值为0.66),然后将截断值应用于验证集II和独立验证队列以进行外部评估。
他们发现在验证集I和验证集II中,AUC值都比较高,分别为0.984和0.987。基于验证集I中95.7%的特异性,应用0.66作为癌症评分截断值,验证集II的特异性为98.6%,由此产生的验证集I、验证集II的敏感性分别为91.4%、84.7%。
验证队列中预测模型的开发和评估
为了进一步评估堆叠集成模型的普适性,研究人员在独立验证队列中进行了测试,结果发现,预测模型在独立验证队列中AUC值达0.974,应用0.66作为癌症评分截断值,预测模型能够很好地区分癌症和非癌症样本,敏感性和特异性分别为92.5%、94.2%。而且,独立验证队列中,所有患者的癌症评分也呈现出从I期到IV期的上升趋势。
他们还评估了该模型在不同WGS测序深度下的稳定性和稳健性,发现该模型在使用原始或5×测序深度的WGS数据时保持稳定,即使测序深度降低至4×、3×、2×、1×和0.5×后,它们的AUC值在验证集I(≥0.966)和验证集II(≥0.971)中仍然很高,提示稳健性好。而且,即使具有最低的变异等位基因频率(VAF)(0.05%)和测序深度(0.5×),该模型在识别癌症方面仍有75.0%的敏感性。
最后,他们使用验证集进一步评估了该模型在不同肺癌亚组中的预测性能,结果显示,该模型能可靠地区分SCC和ADC,敏感性分别为93.3%和87.0%,而且可以用于检测I期(敏感性83.2%)或肿瘤<1cm(敏感性85.0%)等早期病理特征。
预测模型在验证集I、II的不同肺癌患者亚组及其组合中的诊断敏感性
总之,该研究建立了一个集成五个cfDNA片段组学特征的堆叠集成机器学习模型,可区分早期NSCLC和非癌症受试者,敏感性高,稳定性和稳健性高,有助于NSCLC的早期检测。
参考文献:
[1] Siegel RL, Miller KD, Fuchs HE, Jemal A. Cancer Statistics, 2021. CA Cancer J Clin. 2021;71(1):7-33. doi:10.3322/caac.21654
[2]National Lung Screening Trial Research Team, Aberle DR, Adams AM, et al. Reduced lung-cancer mortality with low-dose computed tomographic screening. N Engl J Med. 2011;365(5):395-409. doi:10.1056/NEJMoa1102873
[3]Ma X, Chen Y, Tang W, et al. Multi-dimensional fragmentomic assay for ultrasensitive early detection of colorectal advanced adenoma and adenocarcinoma. J Hematol Oncol. 2021;14(1):175. doi:10.1186/s13045-021-01189-w
[4]Wang S, Meng F, Li M, et al. Multi-Dimensional Cell-free DNA Fragmentomic Assay for Detection of Early-Stage Lung Cancer. Am J Respir Crit Care Med. 2022. doi:10.1164/rccm.202109-2019OC