世界短讯!Nature子刊:像造句一样设计人工蛋白质,基于语言模型的AI平台可一次生成百万序列

来源:生物世界 | 2023-02-03 17:46:35 |

近年来,人工智能(AI)已在医学、生物学及制药领域中展示出广阔的发展前景。特别是在蛋白质设计和工程领域,基于 AI 技术创建人工的蛋白质序列已经成为现实,并可能被用于治疗各种疾病。

日前,来自 AI 研究企业Salesforce Research、合成生物学公司Tierra Biosciences和加州大学旧金山分校的一组研究人员合作开展研究,创建了一个能够从头开始生成人造酶的人工智能系统——ProGen。

ProGen 系统基于 AI 语言模型发展而来,其能够以类似“遣词造句”的方式生成跨多个蛋白质家族、且功能可预测的蛋白质序列。经检测,该系统生成的酶与自然界中发现的酶同样有效,即使这些人工生成的氨基酸序列与已知的天然蛋白质之间存在显著差异。


(资料图片仅供参考)

该研究以:Large language models generate functional protein sequences across diverse families为题,于2023年1月26日发表于Nature Biotechnology期刊。

研究团队表示,该技术可能超越获得诺贝尔奖的蛋白质定向进化技术,因为其几乎可以用于加速所有种类新蛋白质的开发工作,无论是药物开发还是塑料降解酶的制备。

“人工设计的性能比受进化过程启发的设计要好得多”,论文的作者之一,来自加州大学旧金山分校药学院的James Fraser表示,“当前的人工智能模型能够通过学习蛋白质进化的过程从而实现创新,但其与正常的进化过程不同,人们能够调整结构以获得特定的功能。例如,让一种酶具有超乎想象的热稳定性或耐酸性等。”

73%的人造溶菌酶具备功能性

为了开发 ProGen 系统,研究团队将来自于 19000 个家族的 2.8 亿种不同蛋白质的氨基酸序列输入机器学习模型中,同时提供相关蛋白质特性作为控制标签,然后让系统花费数周时间来“消化”这些信息。

“对于蛋白质研究领域而言,最重要的信息包括蛋白质家族、生物过程和分子功能等属性。”研究人员介绍道,通过调节这些控制标签,ProGen 能够根据所需属性生成特定的蛋白质序列,并且具备前所未有的进化序列多样性。随着输入氨基酸序列和条件标签的增多,研究者能够实现对于产生蛋白质的功能控制。

在此之后,研究者向模型提供来自五个溶菌酶家族的 56000 个序列以及相关信息,从而对模型进行微调。基于上述现有的“学习材料”,AI 模型迅速生成了一百万个序列。根据这些序列与天然蛋白质序列的相似程度及其氨基酸序列构成的自然程度,研究团队从中选择了 100 个序列展开研究。

基于条件语言模型的人工蛋白质生成系统

“来自五个溶菌酶家族的所有人工蛋白质均显示出活性,并且在这些人工制造的溶菌酶中,有 73% 被发现具有抗菌功能,而在天然蛋白质中仅有 59% 具备功能性。”研究人员对此表示。

在第一批进行体外筛选的 100 种蛋白质中,研究团队选择了其中五种人工蛋白质在大肠杆菌中进行重组表达,并将它们的活性与鸡蛋清溶菌酶(HEWL)进行比较。后者主要存在于鸡蛋白、以及人类的眼泪、唾液和牛奶中,具有抵御细菌和真菌的作用。

比较数据表明,五种人工蛋白质中有两种能够以相当于 HEWL 的活性分解细菌的细胞壁,尽管它们之间仅有约 18% 的序列是相同的。另一方面,存在于自然界中的已知蛋白质与这两个序列的相似度分别为 90% 和 70% 左右。

“这一结果证实,ProGen 系统不仅能够学习生成结构稳定且‘合理’的氨基酸序列,并且其产生的序列已被证实能够在现实世界中执行其预期功能。”研究人员进一步介绍道,ProGen 生成的人工蛋白质不仅可以正确表达,并且展示出与天然折叠相类似的结构。

在另一轮筛选中,研究团队发现,即使只有 31.4% 的序列与目前已知的天然蛋白质相似,这些由 AI 生成的酶类依然显示出活性。与之相比,天然蛋白质中发生任何一个突变就有可能让其停止工作。

人工蛋白质序列与任何已知蛋白质的同一性低至 31%

“这项工作表明,蛋白质可以被理解为是一种由氨基酸组成的‘语言’。就像单词一个接一个地串在一起形成句子一样,氨基酸一个接一个地串在一起形成蛋白质。”研究人员对此表示,当前的人工智能技术已经可以通过研究原始序列数据来了解酶应该如何形成,在此之后,通过 X 射线晶体学测量发现,这些人造蛋白质的原子结构完全符合其设计预期,尽管这些序列此前并不存在。

开箱即用,像处理语言文本一样从头“书写”蛋白质

在生物学领域中,按需制造蛋白质可说是其中最复杂也最具影响力的工作之一。在过去几十年间,尽管蛋白质工程研究领域经过不断发展,取得了一系列举世瞩目的成就。然而,此前的蛋白质工程实验技术仍然依赖于启发式和随机突变的方式,从而选择出可用的初始序列。

2020 年,来自硅谷的 AI 技术企业Salesforce Research开发了ProGen系统,该系统基于一种用于生成英语文本的自然语言编程发展而来,以便将自然语言处理(NLP)方法应用至蛋白质属性分类,进一步研究并生成新的蛋白质。

“当前结果证实,自然语言处理技术虽然是为读写语言文本而开发的,但其也可以用于学习一些生物学的基本原理。”研究团队认为,就像 AI 生成图片或文本的方式一样。有了足够的信息,人工智能生成的内容就可以变得类似于自然界中天然存在的事物,从而难以区分。

而对于蛋白质领域而言,其体现在设计上的广度就更加庞大。仅以溶菌酶为例,其长度最多约为 300 个氨基酸左右,但是考虑到有 20 种天然氨基酸作为制造“单元”,那么制造一个溶菌酶就存在大约20300种搭配。考虑到这种近乎于无限的制造可行性,使用 AI 技术轻松、快速地推动蛋白质设计工作就显得迫在眉睫。

“当你使用大量数据训练 AI 模型时,它们对于结构和制造规则方面表现出十分强大的学习能力,”Salesforce Research 的人工智能研究总监、该论文的通讯作者 Nikhil Naik 对此介绍道,“人工智能了解哪些‘单词’可以同时出现,以及它们组合在一起的可行性。”

Profluent Bio 创始人 Ali Madani

该研究的通讯作者之一、基于 AI 技术的蛋白质设计公司Profluent Bio创始人Ali Madani博士此前曾在 Salesforce Research 担任研究科学家。任职期间,他领导了该公司的机器学习研究计划,并且担任 ProGen moonshot 的架构师,从而推进了蛋白质设计的生成建模项目。2022 年,他与加州大学旧金山分校教授JamesFraser等人合作创立了 Profluent Bio,以跨学科合作的方式推动 AI 设计蛋白质工作的研究进展。

Ali Madani 认为,“这种开箱即用、从头开始生成功能性蛋白质的能力表明人们正在进入蛋白质设计的新时代。其为蛋白质开发工程师提供了一种多功能的新工具,我们期待看到该技术在各种疾病治疗应用领域中的下一步发展。”

总体而言,该研究突出了人工智能语言模型在蛋白质设计和工程中的潜力,使用深度学习语言模型对蛋白质进行精确的从头设计将在生物学、医学和环境问题中展示出发展前景。不过,研究人员同时指出,在使用 AI 语言模型进行蛋白质设计和制造时,必须考虑伦理影响。