天天动态:Cell:利用全基因组测序扩展和更新了“千人基因组计划”资源

来源:生物谷原创 | 2022-09-07 16:48:23 |

七年前,千人基因组计划(1000 Genomes Project, 1kGP)发布了一个开放性资源,主要基于代表世界五大洲26个人群的2504人的低覆盖率全基因组测序(WGS)数据,从而首次大规模提供人类遗传变异目录。

如今,在一项新的研究中,来自美国纽约基因组中心、麻省总医院、耶鲁大学和人类基因组结构变异联盟(Human Genome Structural Variation Consortium, HGSVC)等研究机构的研究人员扩展了1kGP资源,除了原始样本外,几乎纳入所有的亲子三人组(parent-child trios),并使用Illumina NovaSeq仪器对它们进行高覆盖率测序。他们对扩展后的1kGP队列---如今由3202个样本组成,包括602个亲子三人组---的高覆盖率WGS数据进行了全面分析。相关研究结果发表在2022年9月1日的Cell期刊上,论文标题为“High-coverage whole-genome sequencing of the expanded 1000 Genomes Project cohort including 602 trios”。


(资料图片)

论文共同通讯作者、纽约基因组中心计算生物学科学主任Michael Zody博士解释说,“1kGP队列是一个非常有价值的资源,我们认为使用最新版本的短读技术将测序更新到最新版本,同时增加以前遗漏的家族样本的丰富性,这对科学界是非常有用的。”

通过使用最先进的方法和算法,来自纽约基因组中心的研究人员对来自这一扩展队列的淋巴样干细胞(lymphoblastoid cell line, 简称LCL,即来自外周血的永生化人类B细胞)的DNA进行测序,目标深度为30倍基因组覆盖。接下来,他们进行了单核苷酸变异(SNV)和短时插入/缺失(insertion and deletion, INDEL)识别,包括从序列数据中识别相对于人类参考基因组的变异位点,并对这一队列中所有样本中发现的变异位点进行基因分型。

此外,来自哈佛医学院、布罗德研究所和麻省总医院的Michael Talkowski博士团队与耶鲁大学和华盛顿大学医学院的Ira Hall博士团队以及人类基因组结构变异联盟合作,通过整合多种分析方法,在3202个1kGP样本中发现了一套全面的结构变异(structural variant)并进行了基因分型。

总体来说,这项新研究显示,变异识别(variant call)的发现能力和精确度都有了明显的提高,特别是在罕见的SNV以及INDEL和不同频率出现的结构变异中,这些都是以前低覆盖率测序所不能接触到的。

原始1kGP资源的一个重要方面是它被用作变异填补(variant imputation)的参考序列集,即根据从参考序列集上了解到的通常在人群中一起遗传的变异分组,对稀疏的、基于阵列的样本中未观察到的基因型进行统计推断,这促进了许多全基因组关联研究(GWAS)。如今,随着这个原始资源的扩展,这些作者升级了用作变异填补的参考序列集,以包括更多通过高覆盖率的全基因组测序和亲子三人组家族发现的变异。

图片来自Cell, 2022, doi:10.1016/j.cell.2022.08.004。

论文共同第一作者、纽约基因组中心高级生物信息学科学家Marta Byrska-Bishop博士解释说,“这个新的用于变异填补的参考序列集包括更多的位点,特别是许多更常见的INDEL和结构变异,从而扩展了GWAS可获得的变异数量,鉴于非SNV变异的效应大小较大,这可能能够发现新的遗传关联,帮助确定致病变异。”

所有的原始序列数据和变异识别集在测序完成后立即通过几个基因组数据库向公众发布,包括国际基因组样本资源(IGSR)。

论文共同第一作者、麻省总医院基因组医学中心博士后Xuefang Zhao博士补充说,“我们的目标是让这个公共资源成为未来群体遗传研究和方法开发的基准。”

这些数据已经引起了遗传学和基因组学界的兴趣。由于1kGP样本的完全开放获取特性,这种情况可能会在未来几年继续下去。与大多数新出现的WGS工作不同,1kGP样本被同意公开发布基因数据,没有访问或使用限制。(生物谷 Bioon.com)

参考资料:

1. Marta Byrska-Bishop et al. High-coverage whole-genome sequencing of the expanded 1000 Genomes Project cohort including 602 trios. Cell, 2022, doi:10.1016/j.cell.2022.08.004.

2. Researchers expand and upgrade the 1000 Genomes Project resource using whole-genome sequencinghttps://medicalxpress.com/news/2022-09-genomes-resource-whole-genome-sequencing.html