多基因评分(polygenic scores)---对个体的复杂性状和疾病倾向的估计---有希望识别有疾病风险的患者并指导早期的个性化治疗,但是在一项新的研究中,来自美国加州大学洛杉矶分校的研究人员发现多基因评分无法解释所有不同遗传血统的个体之间存在的广泛遗传多样性。相关研究结果于2023年5月17日在线发表在Nature期刊上,论文标题为“Polygenic scoring accuracy varies across the genetic ancestry continuum”。
论文通讯作者、加州大学洛杉矶分校的Bogdan Pasaniuc博士说,“多基因评分可以通过将数千到数百万个常见的遗传变异的小影响进行分析并汇总成单个评分来估计个体具有某种性状的可能性,但是它们在来自不同遗传背景的个体中的表现是有限的。”
(资料图片仅供参考)
Pasaniuc说,他们的分析表明,多基因评分的准确性在一种遗传血统连续体的不同个体之间存在差异---即使在传统上被认为是‘同质性’的人群(比如欧洲人)中也是如此。
这些作者说,评估多基因评分的性能通常是在“人群”层面上进行的,比如在“欧洲人”中,将具有相似血统的个体集中在一个遗传血统群中。
论文第一作者、Pasaniuc实验室成员Yi Ding说,“在这种遗传血统连续体中强加人为的界限,忽略群体中的多样性或‘异质性’,会掩盖一个群体内的变化,掩盖不同群体中的个体可能存在的相似性,并遗漏那些不适合整齐地归入某个特定遗传血统的个体。”
为了更精确地估计多基因评分的准确性,这些作者开发出一种方法来评估多基因评分在个体层面的准确性。为了测试它,他们将84个复杂性状的多基因评分应用于加州大学洛杉矶分校ATLAS精准健康生物库(ATLAS Precision Health Biobank)中35000多人的数据,该生物库是世界上最多样化的生物库之一,部分原因是洛杉矶地区是全球祖先最多样化的人群之一。
图片来自Nature, 2023, doi:10.1038/s41586-023-06079-4。
这种新工具的“训练”数据来自英国生物库(UK Biobank)中的一个个体子集。作为离散遗传血统的一个替代,“遗传距离”的连续指标被用来确定ATLAS精准健康生物库中每个人在这种遗传血统连续体中的位置,基本上显示了目标(ATLAS)个体的基因组与英国训练人群的基因组的相似或不相似程度。
Ding说,“我们发现,目标个体的基因组与英国生物库的训练数据越不相似,或者说在遗传上越‘遥远’,多基因评分的准确性就越低。”
多基因评分的准确性随着遗传距离的增加而下降,即使这些作者特别关注那些被认为是同质的遗传血统群体,比如欧洲遗传血统的个体。相反,一些没有欧洲血统的个体可能具有更高的遗传相似性,这表明多基因评分的表现在来自同一遗传血统的两个人之间可能有所不同,但对于来自不同血统的两个人来说是类似的---这取决于他们的遗传相似性。Pasaniuc说,“我们的遗传距离指标在识别可能从多基因评分中受益的个体方面优于离散聚类法(discrete clustering)。”
这些作者确定了几个可能影响多基因评分的准确性和实用性的因素,这些因素是正在进行和未来研究的主题,特别是在具有“混血”血统的人群中。这些人通常被定义为最近有两个或更多大陆来源的血统的人,比如非洲裔美国人和拉丁美洲人。
Pasaniuc的研究重点是改善对混血人群的遗传风险因素的预测,他说这些人的基因组是“镶嵌”的,每个地区都有不同大陆血统的基因组片段。由于不同的基因组片段由不同的祖先贡献,使用传统的血统标签对这些人进行准确分类是非常困难的。
他说,“要想公平地使用多基因评分,对多基因评分准确性的评估应该考虑到遗传多样性的全部范围。”(生物谷 Bioon.com)
参考资料:
Yi Ding et al. Polygenic scoring accuracy varies across the genetic ancestry continuum. Nature, 2023, doi:10.1038/s41586-023-06079-4.