Science:利用机器学习将哺乳动物的增强子变异与复杂表型关联在一起|全球快讯

来源:生物谷原创 | 2023-05-08 16:35:57 |


(资料图片仅供参考)

不同的表型,包括相对于身体大小的较大大脑、群体生活和发声学习能力,在整个哺乳动物历史上已经进化了多次。这些共同的表型可能通过基因组比较识别出的共同机制而反复出现。

蛋白编码序列的差异未能完全解释多种哺乳动物表型的进化。这表明,这些表型至少有一部分是通过基因表达的变化而进化出来的,也就是说,它们在不同物种间的差异可能是由控制特定组织和细胞类型中基因表达的增强子区域中的基因组序列差异造成的。然而,这些参与表型进化的增强子在很大程度上是未知的。

基于序列保守性确定这类增强子的方法是有限的,因为即使这些序列内的单个核苷酸保守性很差,增强子的活性也可以是保守性的。这是由于绝大多数情况下,核苷酸的周转率很高,但是转录因子结合位点和其他序列特征的类似组合可以在数百万年的进化中保持不变,从而使这类增强子的功能在特定的细胞类型或组织中具有保守性。目前,通过实验测量几十种物种的直系同源增强子(orthologous enhancer)的功能是不可行的,但是新的机器学习方法使科学家们有可能在特定组织和细胞类型中对不同物种的增强子功能进行可靠的基于序列的预测。

为了克服研究单个核苷酸的局限性,在一项新的研究中,来自美国卡内基梅隆大学的研究人员开发出“TACIT(Tissue-Aware Conservation Inference Toolkit)”。TACIT不是测量单个核苷酸在一个区域内的保守程度,而是使用机器学习来测试基因组的某个部分的功能是否可能是保守的。更具体地说,卷积神经网络(convolutional neural network)利用仅从少数物种中发现的候选增强子来学习组织或细胞类型特异性的将基因组序列和增强子活性关联在一起的调节代码。这种方法使他们能够准确地将组织或细胞类型特异性增强子活性的物种间差异与直系同源增强子的基因组序列差异联系起来。相关研究结果发表在2023年4月28日的Science期刊上,论文标题为“Relating enhancer genetic variation across mammals to complex phenotypes using machine learning”。

这些作者随后将这些预测的增强子功能与数百种哺乳动物的表型联系起来,以说明物种的系统发育关系。他们应用TACIT从运动皮层和小清蛋白阳性神经元开放染色质数据中识别出候选增强子,这些增强子与222种哺乳动物的相对于身体大小的大脑尺寸、独居生活和发声学习有关。他们的结果包括确定了多个与相对于身体大小的大脑尺寸有关的候选增强子,其中的几个位于线性或三维邻近的基因,这些基因的蛋白编码突变与人类的小头畸形或大头畸形有关联。他们还在一个与分离焦虑有关的基因附近发现了与独居生活进化有关的候选增强子,以及与发声学习能力的进化有关的其他增强子。他们获得了关于大量运动皮层和小清蛋白阳性神经元的不同结果,证明了将TACIT同时应用于大量组织和特定的少数细胞类型群体的价值。为了便于今后对他们的结果和TACIT的应用进行分析,他们发布了222种哺乳动物中每一种动物400000多个候选增强子的预测增强子活性以及它们与他们研究的表型的关系。

TACIT将物种之间的遗传差异与表型联系起来。图片来自Science, 2023, doi:10.1126/science.abm7993。

综上所述,TACIT利用预测的增强子活性保守性而不是核苷酸水平的保守性,将物种间的遗传序列差异与大量哺乳动物的表型联系起来。TACIT可以应用于任何表型:至少从少数物种的相关组织或细胞类型中获得增强子活性数据,并在数十种具有显著表型变异的物种中获得全基因组比对。尽管这些作者为转录增强子开发了TACIT,但它也可以应用于参与基因调控的其他基因组区域,如启动子和剪接增强子和沉默子。随着经过测序的基因组数量的增加,像TACIT这样的机器学习方法有可能帮助理解微妙的基因组模式的保守性或变化如何帮助解释表型的进化。(生物谷 Bioon.com)

参考资料:

Irene M. Kaplow et al. Relating enhancer genetic variation across mammals to complex phenotypes using machine learning. Science, 2023, doi:10.1126/science.abm7993.

关键词: