Cell:新方法揭示了拷贝数变异对人类基因组和健康产生强大的影响

来源:生物谷原创 | 2022-11-12 15:48:58 |

拷贝数变异(copy number variant, CNV)是基因组中在一些个体中重复或缺失的区域,是一种常见的让基因失去功能的突变。人类基因组包含数十万个CNV,但典型的基因组分析方法只检测到比较大的CNV,而且科学家们不确定它们中的大多数有什么作用。


(资料图片)

如今,在一项新的研究中,来自美国布罗德研究所、布莱根妇女医院和哈佛医学院的研究人员开发出一种计算方法,在英国生物数据库中检测到1500万个CNV,比以前对相同数据的分析结果多出六倍。他们利用这种方法发现了这些CNV和几十种人类性状之间的数百种生物联系,揭示了特定基因和诸如身高、血细胞计数和健康的生物标志物之类的人类性状之间的新联系。相关研究结果发表在2022年10月27日的Cell期刊上,论文标题为“Influences of rare copy-number variation on human complex traits”。

这些发现来自于迄今为止对CNV和性状之间联系的最彻底的分析,并提供了一种新的方法来检测和阐明以复杂方式影响基因组的较大结构变异(比如CNV)的影响。

论文共同通讯作者、布莱根妇女医院助理教授Po-Ru Loh说,“能够深入研究这些变异的潜力给了我们更多的机会来发现遗传变异影响人类表型的方式。在下游,它为我们提供了更多的线索来解释和理解遗传学和性状变异之间的复杂关联。”

捕获CNV

许多生物库包含了大量人群中的单核苷酸多态性(SNP)数据。尽管非常普遍,但SNP通常对性状的影响最多只是轻微的。另一方面,CNV---长度从50个碱基对到数百万个碱基对不等---使一些基因失效,并能在基因组中引起更重大的变化,比如增加一个基因的拷贝数量。Loh及其研究团队希望从现有的SNP数据库(比如来自英国生物库的数据)中改进对这些结构变异的检测。

论文第一作者兼论文共同通讯作者、Loh实验室博士后研究员Margaux Hujoel说,“在很多大型队列中,遗传变异只使用SNP阵列数据进行测量,使用目前的算法很难从中检测出较小的CNV。我们认为这些队列中可能有其他信息,我们可以利用这些信息来增强我们检测这些CNV的能力。”

Hujoel团队建立了一种算法,将英国生物库的SNP探针强度数据分组,这些数据来自基于具有相同的单倍型(SNP集群)而相互之间有远亲关系的个体。这减少了这些数据中的噪音,使检测到的CNV比以前的技术多六倍。他们发现,他们检测到的CNV占到了科学家们之前归因于基因组结构变化的所有基因失活的一半。

图片来自Cell, 2022, doi:10.1016/j.cell.2022.09.028。

Hujoel团队随后探究了CNV和56种性状之间的关联。他们确定了250多个关联,涉及近100个基因座或基因组区域,这可能是CNV的直接结果。许多关联揭示了特定基因与身高等性状之间的新联系。比如,有非常罕见的CNV使UHRF2基因失效的人在身高上平均比没有该基因失活的人矮7厘米左右。其他具有强烈影响的罕见CNV---只有在大型生物库规模的队列中才能发现---可能会对复杂疾病的基因组影响提供宝贵的见解。

隐藏的秘密

Hujoel和Loh与日本理化学研究所综合医学中心的小组负责人Chikashi Terao合作,将他们的模型应用于来自日本生物库的数据,并证实了许多相同的趋势。Loh希望科学界将使用他们的软件来分析其他生物库的基因组数据。他说,“这个工具应该很容易适用于在其他血统群体中进行同样的分析,这可能会发现相当不同和有趣的遗传关联。”

Hujoel团队指出,即使在英国生物库中,大部分的CNV仍有待于发现。因为大型生物库大多使用仅查看基因组中某些位置的阵列生成SNP数据,它们会遗漏大多数CNV。Hujoel正在改进他们的方法,以便人们可以用它来研究全外显子组测序数据。Loh还设想,其他人可能会将它应用于全基因组测序数据,以检测整个基因组中的CNV。

Hujoel说,“人们对探索基因组中这些更隐蔽的部分很感兴趣,这些部分迄今为止在大多数遗传关联研究中都是看不见的。我们认为我们的研究工作既是一种希望能继续有用的方法,也能适应其他的数据来源,同时也将为人们继续深入研究结构变异塑造人类形状的方式提供更多动力。”(生物谷 Bioon.com)

参考资料:

Margaux L.A. Hujoel et al. Influences of rare copy-number variation on human complex traits, Cell, 2022, doi:10.1016/j.cell.2022.09.028.