来自美国加州大学圣克鲁斯分校等研究机构的研究人员发布了第一个人类泛基因组(pangenome)的草图,这是一个新的、可用的基因组参考,它结合了来自不同祖先背景的47个个体的遗传物质,从而可以更深入、更准确地了解世界范围内的基因组多样性。通过将1.19亿个碱基添加到现有的基因组参考中,这种泛基因组提供了一个人类遗传多样性的代表,这是单一参考基因组所无法做到的。它高度准确、更加完整,并极大地提高了对人类基因组变异的检测。相关研究结果发表在Nature期刊和Nature Biotechnology期刊上,论文标题分别为“A draft human pangenome reference”、“Increased mutation and gene conversion within human segmental duplications”和“Pangenome graph construction from genome alignments with Minigraph-Cactus”。
这种泛基因组由人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)制作,该联盟由加州大学圣克鲁斯分校生物分子工程副教授Benedict Paten和生物分子工程助理教授Karen Miga共同领导,如今可以在加州大学圣克鲁斯分校基因组浏览器的组装中心使用。这个项目将持续到2024年,届时他们计划发布最终的人类泛基因组,其中包含350个个体的基因组信息。
(相关资料图)
Paten说,“我们正在通过对不同的人类进行采样,并将他们纳入这种每个人都可以使用的结构,从而将更多的多样性和公平性引入这种泛基因组参考中。单个基因组不足以代表每个人---这种泛基因组最终将具有包容性和代表性。”
了解基因组变异
每个人的基因组都略有不同---平均相差0.4%左右,了解这些差异可以深入了解他们的健康,帮助诊断疾病,预测医疗结果,并指导治疗。使用这种泛基因组参考将提高科学家们在未来研究中检测和理解基因组变异的能力。
通常情况下,当科学家们和临床医生研究一个人的基因组以寻找变异时,他们会将该人的DNA与一个标准的参考基因组进行比较,以确定哪里存在一个或多个碱基对的差异。到目前为止,人类参考基因组主要由每个人类染色体的单一序列来代表,大多来自一个人。但是,这种人类参考基因组已经有近20年的历史了,而且从根本上说是有限的,因为它不能代表人类群体中存在的大量遗传变异。这就给基因组分析带来了一个叫做参考偏差(reference bias)的问题。
相比之下,这种新的人类泛基因组是一个参考,它结合了来自不同祖先背景的47个个体的基因组。这种泛基因组在序列具有相同碱基的区域看起来像一个线性参考,并扩展到显示存在差异的区域。它同时代表了许多不同版本的人类基因组序列,并为科学家们提供了一个更准确的比较点,以了解在某些人群中存在而在其他人群中不存在的变异。
Miga说,“单个基因组不可能代表所有我们知道的在世界各地可以观察和研究的丰富变异。这种人类泛基因组参考的第一目标是试图扩大参考资源的代表性,使其更具有包容性,更公平地研究人类物种,作为一系列参考基因组的集合,而不仅仅是单个参考基因组。”
基因组变异可以是小的,仅由一个或几个DNA碱基的差异组成,也可以是大的结构变异(structural variant),被归类为50个碱基对或更大的变异。这些较大的结构变异可能对健康有重要影响。到目前为止,由于技术有限和使用单一参考序列的偏见,科学家们一直无法识别人类基因组中存在的70%以上的结构变异。
在加入这种泛基因组参考的1.19亿个新碱基中,大约有9000万个来自于结构变异。结构变异是复杂的,可能是序列的倒置、插入、缺失或串联重复,即两个或多个碱基的片段重复无数次。这些新的碱基将帮助人们研究基因组中以前没有参考的区域,并有可能在未来的研究中把结构变异与疾病联系起来。
图片来自Nature, 2023, doi:10.1038/s41586-023-05896-x。
Miga说,“如今,我们可以绘制出更多的结构变异,因此我们正在发现基因组中以前没有的特征和区域。这很令人兴奋,因为它允许我们以一种独特的方式来研究我们以前无法研究的基因调控,因为这些区域可能被不恰当地绘制出来,或者完全被忽略了。”
与使用标准的人类参考基因组的检进行测相比,使用这种人类泛基因组参考进行基因组分析使得对结构变异的检测增加了104%。由于这种泛基因组的数据量增加,这种泛基因组参考也使发现较小变异(只有几个碱基长的变异)的准确性增加了约34%。
每个人都携带一套成对的染色体--一套从母亲那里继承,一套从父亲那里继承。这种泛基因组参考中存在的每个基因组包含单倍型解析信息,这意味着它可以自信地区分父母的两套染色体---这是一项重大的科学成就。拥有这些信息将帮助科学家们更好地了解多种基因和疾病的遗传方式。
这也意味着目前的人类泛基因组参考实际上包括94个不同的基因组序列,目标是到2024年达到700个。
构建人类泛基因组
这种泛基因组是通过开发先进的计算技术,将多个基因组序列排列成一个可用的参考结构,称为泛基因组图(pangenome graph)。Paten和加州大学圣克鲁斯分校计算基因组学实验室的研究人员帮助领导HPRC的工作,开发构建这种泛基因组图结构所需的算法方法。
由于在这个项目中使用的方法,这种泛基因组参考中的所有基因组都具有极高的质量和准确性,覆盖了每个人类基因组的99%以上,准确率超过了99%。
加州大学圣克鲁斯分校生物信息学博士生Mobin Asri说,“在线性的参考基因组中,我们只有一个基因组序列,每个基因只有一个表示。但是我们知道,我们的基因在人类群体中有着不同的变化。通过使用泛基因组图,我们希望在单个结构中拥有所有这些变异。”
这种HPRC项目在很大程度上依赖于长读测序和超长读测序技术来读取生物样本的DNA。随着最近的进展,这些技术如今可以一次性解码基因组的数千到数百万个碱基对。然后通过专门的算法将这些测序的DNA读取片段组装成更完整的基因组序列。理想情况下,每个组装的序列应该代表一条染色体的序列。
长读测序片段在大约1%的时间里含有错误,而且目前的组装算法并不完美,这可能导致组装的序列在某些位置出现错误。为了检查和校正这些错误,已经被测序和组装的单个基因组要经过多种工具进行筛查,包括一种由Asri开发的可靠性验证工具。一旦经过这些工具的处理,这些作者就可以确保所进行的序列组装是准确和完整的。
在通过Asri的可靠性验证工具筛查后,多个人类基因组通过复杂的算法方法被编译成人类泛基因组图结构。从视觉上看,这种具有图结构的泛基因组允许科学家们将各多个参考序列的差异看作是其他共享路径中的不同区域。
建立一个可访问的资源
这种泛基因组草图中的所有首批47个二倍体基因组都来自于参与千人基因组计划(1000 Genomes Project, 1000G)的个人,其中作为一种有影响力的计划,1000G从公开同意的样本中构建人类常见遗传变异的目录,并已在2015年完成。这些样本的开放同意状态允许任何研究人员在没有通常伴随着基因组研究的隐私障碍的情况下访问该资源,目的是使尽可能多的人能够访问这种泛基因组。
Miga说,“成为一个共同的资源是人类泛基因组参考取得成功的根本。它必须有能力在全世界范围内对所有研究人员开放,这样我们才能把它作为基础。”
这些作者专注于扩大服务范围,以确保这种泛基因组是一个有用的资源,将在世界各地的诊所中得到利用。这意味着促进利用这种泛基因组参考进行研究的科学家们进行注释、反馈和使用。
Parten说,“这种泛基因组草图是一个重要的原则证明,我们希望它能影响到很多人,让他们思考这种泛基因组以及它可能会如何影响他们的工作。展望未来,我们看到了与其他团体的大量接触---这需要很多不同的人去建立一个将成为大型社区资源的东西。”
延续遗产和未来工作
这种人类泛基因组是加州大学圣克鲁斯分校的科学家们数十年来为了解作为人类生命基础的生物代码所做努力的延续。
2000年,吉姆-肯特,加州大学圣克鲁斯分校前研究生Jim Kent编写了代码,组装了人类基因组的第一个工作草图。加州大学圣克鲁斯分校的研究人员将它公布,并向任何想使用它的人开放。
2022年4月,加州大学圣克鲁斯分校的Karen Miga共同领导端粒到端粒联盟(Telomere-to-Telomere consortium),组建了第一个完整的人类基因组测序图谱,填补了长期以来科学家们所忽略的人类参考基因组中缺失的复杂区域(Science, 2022, doi:10.1126/science.abj6987)。
加州大学圣克鲁斯分校基因组学研究所科学主任David Haussler说,“自2000年以来,我们已有了一系列对单个人类基因组越来越精确的表述。但无论你如何准确地代表单个基因组,这都不能代表全人类。现在是一个转折点:不再是单个标准人类基因组的基因组学,而是所有人的基因组学。”
这些作者正在朝着在2024年前完成完整的人类泛基因组的目标取得进展。他们正在招募新的个体,以代表一些未被纳入1000G的人群,特别是中东和非洲血统的人。Miga作为加州大学圣克鲁斯分校数据生产中心的主任,将带领这些努力继续前进。
除了完成最终的人类泛基因组参考之外,这些作者正在努力形成一个国际人类泛基因组项目,与世界各地的研究人员建立伙伴关系。这些伙伴关系将包括双向的技能和知识交流,旨在将构建高质量参考基因组所需的技能和技术带到世界各地的研究人员手中,以便他们能够开展自己的研究。(生物谷 Bioon.com)
参考资料:
Benedict Paten et al. A draft human pangenome reference. Nature, 2023, doi:10.1038/s41586-023-05896-x.
Mitchell R. Vollger et al. Increased mutation rate and gene conversion within human segmental duplications. Nature, 2023, doi:10.1038/s41586-023-05895-y.
Andrea Guarracino et al. Recombination between heterologous human acrocentric chromosomes. Nature, 2023, doi:10.1038/s41586-023-05976-y.
Glenn Hickey et al. Pangenome graph construction from genome alignment with minigraph-cactus. Nature Biotechnology, 2023, doi:10.1038/s41587-023-01793-w.