Nature:AlphaFold和AI蛋白质折叠革命的下一步是什么

来源:智药邦 | 2022-04-19 11:42:17 |

Nature 杂志发表文章,多位科学家就AlphaFoldAI 蛋白质折叠的现状和未来阐述了自己的观点。前言十多年来,分子生物学家Martin Beck和他的同事一直在努力拼凑世界上最难的拼图之一:人类细胞中最大分子机器的详细模型。这个庞然大物被称为核孔复合物,控制着分子进出细胞核的流动,而基因组就位于细胞核中。每个细胞中都存在数百个这样的复合物,每一个都是由1000多个蛋白质组成,它们共同形成环状,围绕着穿过核膜的一个洞。人类核孔复合物在收缩和扩张状态之间变化的Alphafold和cyro-EM模型的俯视图。它是人类细胞中最大的分子机器

这1000块拼图来自于30多个蛋白质组件,它们以无数种方式交错排列。让这块拼图更难的是,实验确定的这些组件的三维结构是来自许多物种的结构的大杂烩,所以并不总是能很好地拼在一起。而且,拼图盒上的图片--核孔复合物的低分辨率三维视图--缺乏足够的细节,无法知道其中有多少块能精确地拼在一起。

2016年,位于德国法兰克福的马克斯-普朗克生物物理研究所(MPIB)的Beck领导的团队报告了一个模型,该模型涵盖了核孔复合物的约30%和30个组件的约一半,称为Nup蛋白。

然后,去年7月,总部位于伦敦的 DeepMind 公司(隶属于谷歌母公司Alphabet)公开了一个名为AlphaFold2的人工智能工具。该软件可以从蛋白质的基因序列中预测其三维结构,而且大部分情况下是精确的。这改变了Beck的任务,以及成千上万的其他生物学家的研究。

AlphaFold狂热:柱状图显示了自Alphafold发布以来引用它的研究论文和预印本的数量

"AlphaFold 改变了游戏规则",Beck说。"这就像一场地震。你可以到处看到它"。以色列耶路撒冷希伯来大学的计算结构生物学家 Ora Schueler-Furman 说,他正在使用AlphaFold为蛋白质相互作用建模,"以七月为界"。

使用 AlphaFold,Beck 和 MPIB 的其他人--分子生物学家 Agnieszka Obarska-Kosinska 和生物化学家 Gerhard Hummer 领导的小组--以及德国汉堡欧洲分子生物学实验室 (EMBL) 的结构建模师 Jan Kosinski 领导的小组,可以更准确地预测人类版本的Nup蛋白的结构。通过调整一个帮助 AlphaFold 建立蛋白质相互作用模型,他们在去年10月成功地发表了一个模型,该模型涵盖了该复合物的60%。它揭示了复合物如何稳定细胞核中的孔,暗示了复合物如何控制什么东西进入和离开。

在过去的半年里,AlphaFold 的狂热已经笼罩了整个生命科学界。伦敦大学学院的计算生物学家 Christine Orengo 说:"我参加的每次会议,人们都在说为什么不使用 AlphaFold"。

在某些情况下,人工智能为科学家们节省了时间;在其他情况下,它使以前无法想象或极不现实的研究成为可能。不过它也有局限性,一些科学家发现它的预测对他们的工作来说太不可靠。但是,实验的步伐是狂热的。

甚至那些开发该软件的人也在努力跟上它在从药物发现和蛋白质设计到复杂生命起源等领域的应用。DeepMind 的 AlphaFold 团队负责人 John Jumper 说:"我一觉醒来就在Twitter上输入 AlphaFold。看到所有的东西,这是一种相当不错的体验。"

惊人的成功

AlphaFold 在2020年12月引起了轰动,当时它在一个名为"CASP的比赛中占了上风。该竞赛每两年举行一次,衡量生物学最伟大的挑战之一的进展:仅从氨基酸序列确定蛋白质的三维结构。计算机软件参赛作品与使用X射线晶体学或低温电子显微镜等实验方法确定的相同蛋白质结构进行评判,这些方法向蛋白质发射X射线或电子束,以建立其结构图。

2020年版本的 AlphaFold 是该软件的第二版。Jumper 说,它还赢得了2018年的CASP,但其早期的努力大多不够好,无法替代实验确定的结构。然而,AlphaFold2 的预测结果平均来说与经验结构相当。

当时并不清楚 DeepMind 何时会广泛提供该软件或其预测结果,因此研究人员利用 Jumper公开演讲中的信息,以及他们自己的见解,开发了自己的人工智能工具,称为RoseTTAFold

然后在2021年7月15日,描述 RoseTTAFold 和 AlphaFold2 的论文出现了,以及免费提供的开源代码和专家运行自己版本的工具所需的其他信息。一周后,DeepMind 宣布它已经用 AlphaFold 预测了人类制造的几乎所有蛋白质的结构,以及其他20种被广泛研究的生物体的整个"蛋白质组",如小鼠和大肠杆菌--总共有超过365,000个结构。DeepMind 还将这些数据公开发布到由位于英国欣克斯顿的EMBL欧洲生物信息学研究所(EMBL-EBI)维护的数据库中。这个数据库后来已经增加到了近一百万个结构。

对蛋白质组的了解:来自PDB和AlphaFold的不同物种结构的百分比柱状图

今年,DeepMind 计划发布总数超过1亿的预测结构。这几乎是所有已知蛋白质的一半--比蛋白质数据库(PDB)结构库中实验确定的蛋白质数量多出数百倍。

AlphaFold 部署了深度学习神经网络:计算架构的灵感来自于大脑的神经线路,以辨别数据中的模式。它已经在 PDB 和其他数据库中的数十万个实验确定的蛋白质结构和序列上进行了训练。面对一个新的序列,它首先寻找数据库中的相关序列,这可以识别倾向于一起进化的氨基酸,表明它们在三维空间中很接近。现有相关蛋白质的结构提供了另一种方法来估计新序列中氨基酸对之间的距离。

AlphaFold 在尝试对氨基酸进行三维建模时来回迭代来自这些平行轨迹的线索,并不断更新其估计值。专家们说,该软件在机器学习研究中的新思路的应用似乎是 AlphaFold 如此出色的原因--特别是它使用了一种被称为"注意力"的人工智能机制,以确定哪些氨基酸连接在任何时候对其任务来说是最突出的。

该网络对相关蛋白质序列信息的依赖意味着 AlphaFold 有一些限制。它不是被设计来预测突变的影响,比如那些导致疾病的突变,对蛋白质的结构。它也没有被训练来确定蛋白质在存在其他相互作用的蛋白质或分子 (如药物) 的情况下如何改变结构。但是它的模型带有分数,可以衡量网络在预测蛋白质的每个氨基酸单元方面的信心--而且研究人员正在调整 AlphaFold 的代码以扩大其能力。

据 DeepMind 称,到目前为止,已经有40多万人使用了 EMBL-EBI 的 AlphaFold 数据库。还有一些 AlphaFold 的"超级用户":研究人员在自己的服务器上设置了该软件,或者转向基于云的 AlphaFold 版本,以预测 EMBL-EBI 数据库中没有的结构,或者为该工具设想新的用途。

解决结构问题

生物学家们已经对 AlphaFold 解决结构的能力印象深刻。"丹麦奥胡斯大学的结构生物学家 Thomas Boesen 说:"根据我到目前为止所看到的,我非常信任 AlphaFold。该软件已经成功地预测了Boesen中心已经确定但尚未公布的蛋白质的结构",他说,"这对我来说是一个很大的验证。他和奥胡斯微生物生态学家 Tina Šantl-Temkiv 正在使用 AlphaFold 对促进冰的形成的细菌蛋白质的结构进行建模--这可能有助于云中冰的冷却效应--因为生物学家还不能通过实验完全确定这些结构。

斯德哥尔摩大学的蛋白质生物信息学家 Arne Elofsson 说,只要一个蛋白质蜷缩成一个定义明确的三维结构--而不是所有的--AlphaFold 的预测就很难被打败。"这是一个一键式解决方案,可能是你要得到的最好的模型。"

在 AlphaFold 不太自信的地方,"它非常善于告诉你什么时候它不起作用",Elofsson 说。在这种情况下,预测的结构可能类似于漂浮的意大利面条。这通常对应于蛋白质中缺乏确定结构的区域,至少在孤立的情况下是如此。这种本质上无序的区域--约占人类蛋白质组的三分之一--可能只有在另一个分子 (如信号伙伴) 出现时才变得明确。

好的、坏的和丑的:图形显示了AlphaFold预测的不同准确性和信心估计

伦敦癌症研究所的计算生物学家 Norman Davey 说,"AlphaFold 识别无序状态的能力对他研究这些区域的特性的工作来说是一个游戏规则的改变",他说,"我们的预测质量立即有了巨大的提高,而我们没有付出任何努力。"

AlphaFold 将蛋白质结构转储到 EMBL-EBI 数据库中的做法也立即被投入使用。Orengo 的团队正在搜索它,以确定新的蛋白质种类 (不需要通过实验验证) ,并且已经发现了数百个,也许是数千个潜在的新蛋白质家族,扩大了科学家对蛋白质外观和功能的认识。在另一项工作中,该团队正在搜索从海洋和废水中获取的DNA序列数据库,以尝试识别新的消化塑料的酶。研究人员利用 AlphaFold 快速估算出数千种蛋白质的结构,希望更好地了解酶如何进化以分解塑料,并如何改进它们。

马萨诸塞州剑桥市哈佛大学的进化生物学家 Sergey Ovchinnikov 说,将任何蛋白质编码基因序列转化为可靠结构的能力应该对进化研究特别有力。研究人员通过比较基因序列来确定生物体及其基因在不同物种间的关系。对于远距离相关的基因,比较可能无法找到进化的亲属,因为序列已经发生了很大的变化。但是通过比较蛋白质结构--其变化往往没有基因序列那么快--研究人员也许能够发现被忽视的古老关系。"苏黎世瑞士联邦理工学院的计算生物学家 Pedro Beltrao 说:"这为研究蛋白质的进化和生命的起源提供了一个惊人的机会。"

为了测试这个想法,由首尔国立大学计算生物学家 Martin Steinegger 领导的一个团队和他的同事使用他们开发的一个工具,称为 Foldseek,在 EMBL-EBI 的 AlphaFold 数据库中寻找 SARS-CoV-2 的 RNA 复制酶的亲属。这次搜索发现了以前未被发现的可能的古代亲属,包括粘菌在内的所有真核生物的蛋白质,这些蛋白质在其三维结构上类似于被称为逆转录酶的酶,艾滋病毒等病毒利用这些酶将 RNA 复制到 DNA 中,尽管在遗传序列水平上几乎没有相似之处。

实验助手

对于想要确定一个特定蛋白质的详细结构的科学家来说,AlphaFold预测不一定是一个直接的解决方案。相反,它提供了一个初步的近似值,可以通过实验来验证或完善--它本身也有助于理解实验数据。例如,来自X射线晶体学的原始数据以X射线衍射的模式出现。通常情况下,科学家需要对蛋白质的结构有一个初步的猜测,以解释这些图案。英国剑桥大学的结构生物学家 Randy Read 说,以前,他们经常从 PDB 中的相关蛋白质中拼凑信息,或者使用实验方法,他的实验室专门研究这些方法中的一些。Read 说,现在,AlphaFold 的预测已经使这些方法对于大多数X射线模式来说变得没有必要,他的实验室正在努力在实验模型中更好地利用 AlphaFold。"我们已经完全重新确定了我们的研究重点。"

他和其他研究人员已经使用 AlphaFold 从X射线数据中确定了晶体结构,而这些数据如果没有一个适当的起始模型是无法解释的。Read 实验室的前博士后 Claudia Millán Nebot 说:"人们正在解决那些多年来未被解决的结构",她现在在剑桥的分析公司 SciBite 工作。她预计会有大量的新蛋白质结构提交给 PDB,这在很大程度上是 AlphaFold 的结果。

专门从事低温电镜的实验室也是如此,低温电镜可以捕捉到闪冻蛋白质的照片。北卡罗来纳大学教堂山分校的结构生物学家和药理学家 Bryan Roth 说,在某些情况下,AlphaFold 的模型准确地预测了称为G-蛋白偶联受体(GPCRs)的蛋白质的独特特征,而其他计算工具却搞错了。他说:"它似乎真的很适合生成第一个模型,然后我们用一些实验数据对其进行完善。这为我们节省了一些时间"。

但 Roth 补充说,AlphaFold 并不总是那么准确。他说,在他的实验室已经解决但尚未发表的几十个 GPCR 结构中,大约有一半的时间,AlphaFold 的结构是相当好的,而另一半的时间对我们的目的来说或多或少是无用的"。他说,在某些情况下,AlphaFold 标记的预测具有很高的可信度,但实验结构显示它是错误的。即使该软件是正确的,它也不能模拟一个蛋白质与药物或其他小分子 (配体) 结合时的样子,这可能会大大改变结构。这种警告使 Roth 怀疑 AlphaFold 对药物发现有多大作用。

在药物发现工作中,使用计算对接软件来筛选数十亿的小分子,以找到一些可能与蛋白质结合的小分子--这是它们可能成为有用药物的一个迹象,这一点越来越普遍。Roth 现在正与加州大学旧金山分校的药物化学家 Brian Shoichet 合作,看看 AlphaFold 的预测与实验确定的结构在这项工作中如何比较。

Shoichet 说,他们将工作限定在 AlphaFold 的预测与实验结构相吻合的蛋白质上。但即使在这些情况下,对接软件也会为实验结构和 AlphaFold 提供不同的 hit,这表明微小的差异可能很重要。“这并不意味着我们不会找到新的配体,我们只会找到不同的配体,”Shoichet 说。他的团队现在正在合成使用 AlphaFold 结构识别的潜在药物,并在实验室中测试它们的活性。

批判性乐观

Shoichet 说,制药公司和生物技术公司的研究人员对 AlphaFold 在帮助药物发现方面的潜力感到兴奋。"关键的乐观主义是我要描述的。" 2021年11月,DeepMind 推出了自己的分拆公司 IsoMorphic Labs,旨在将 AlphaFold 和其他 AI 工具应用于药物发现。但该公司对其计划只字未提。

Karen Akinsanya 在总部位于纽约的药物发现公司 Schrödinger 领导治疗药物的开发,该公司还发布了化学模拟软件,她说她和她的同事已经在使用 AlphaFold 结构,包括 GPCRs,进行虚拟筛选和候选药物的化合物设计方面取得了一些成功。她发现,就像实验结构一样,需要额外的软件来了解氨基酸侧链的细节或单个氢原子可能所在的位置。一旦做到这一点, AlphaFold 结构已被证明足以指导药物发现--在某些情况下。

"很难说"这是万能的",因为你可以对一个结构做得非常好,所以它明显适用于所有结构"。Akinsanya 说:"显然不是这样。她和她的同事们发现,AlphaFold 的准确性预测并不能表明一个结构是否对以后的药物筛选有用。她说,AlphaFold 结构将永远不会完全取代药物发现中的实验性结构。但它们可能会通过补充实验方法来加速这一过程。

对 AlphaFold 感到好奇的药物开发者在1月份收到了好消息,DeepMind 解除了对其用于商业应用的一个关键限制。当该公司在2021年7月发布 AlphaFold 的代码时,它曾规定,运行 AlphaFold 神经网络所需的参数或权重--在数十万个蛋白质结构和序列上训练网络的最终结果--只能用于非商业用途。Akinsanya 说,这对工业界的一些人来说是一个瓶颈,当 DeepMind 改变立场时,出现了"兴奋的浪潮"。(RoseTTAFold也有类似的限制,其开发者之一Ovchinnikov说。但下一个版本将是完全开源的)。

人工智能工具不仅改变了科学家确定蛋白质外观的方式。一些研究人员正在使用它们来制造全新的蛋白质。西雅图华盛顿大学的生物化学家 David Baker 说:"深度学习正在完全改变我的小组进行蛋白质设计的方式",他是设计蛋白质以及预测其结构领域的领导者。他的团队与计算化学家 Minkyung Baek 领导了开发 RoseTTAFold 的工作。

Baker 的团队让 AlphaFold 和 RoseTTAFold 来"hallucinate (幻化) "新的蛋白质。研究人员改变了人工智能代码,以便在给定随机的氨基酸序列时,软件将对其进行优化,直到它们类似于神经网络所识别的蛋白质。

梦想中的蛋白质:将神经网络预测的蛋白质结构与实际结构进行比较的图形

2021年12月,Baker 和他的同事报告说在细菌中表达了129个这些 hallucinated 的蛋白质,并发现其中大约五分之一的蛋白质折叠成类似于其预测的结构。Baker 说:"这确实是第一个证明,你可以使用这些网络来设计蛋白质。他的团队现在正在使用这种方法来设计做有用的事情的蛋白质,例如催化一个特定的化学反应,方法是指定负责所需功能的氨基酸,让人工智能来设计其余部分。"

Alphafold人工智能系统正在预测的四种蛋白质结构的动画

四个蛋白质"hallucination"的例子。在每个例子中,AlphaFold都会呈现一个随机的氨基酸序列,预测结构,并改变序列,直到软件自信地预测它将会折叠成一个具有明确的三维结构的蛋白质。颜色表示预测的可信度 (红色表示非常低的可信度,黄色和浅蓝色到深蓝色表示非常高的可信度) 。为了清晰起见,初始帧已经放慢了速度。破解AlphaFold

当DeepMind 发布其 AlphaFold 代码时,Ovchinnikov 想更好地了解该工具的工作原理。在几天之内,他和包括Steinegger在内的计算生物学同事建立了一个名为 ColabFold 的网站,允许任何人向 AlphaFold 或 RoseTTAFold 提交蛋白质序列并获得结构预测。Ovchinnikov 想象他和其他科学家将使用 ColabFold 试图"打破" AlphaFold,例如,通过提供关于靶点蛋白质序列进化亲属的虚假信息。通过这样做,Ovchinnikov 希望他能确定该网络是如何学会预测结构的。

事实证明,大多数使用 ColabFold 的研究人员只是想得到一个蛋白质结构。但其他研究人员将其作为一个平台,修改 AlphaFold 的输入,以解决新的应用。"我没想到会有各种类型的黑客攻击,"Jumper说。

到目前为止,最流行的黑客攻击是在蛋白质复合物上使用该工具,该复合物由多个相互作用的--通常是相互交织的--肽链组成。就像核孔复合物一样,细胞中的许多蛋白质在与多个蛋白质亚基形成复合物时发挥作用。

AlphaFold旨在预测单个肽链的形状,其训练完全由此类蛋白质组成。但该网络似乎已经了解了一些关于复合物如何折叠在一起的知识。AlphaFold 的代码发布几天后,东京大学的蛋白质生物信息学家 Yoshitaka Moriwaki 在推特上表示,如果将两个蛋白质序列与长连接序列缝合在一起,它可以准确预测它们之间的相互作用。Baek 很快分享了另一个从开发 RoseTTAFold中收集到的预测复合物的技巧。

ColabFold 后来加入了预测复合物的能力。而在2021年10月,DeepMind 发布了一个名为 AlphaFold-Multimer 的更新,与前者不同,它是专门针对蛋白质复合物进行训练的。Jumper 的团队将其应用于 PDB 中的数千个复合物,并发现它预测了大约70%的已知蛋白质-蛋白质相互作用。

这些工具已经在帮助研究人员发现潜在的新蛋白质伙伴。Elofsson 的团队使用 AlphaFold 预测了65000个人类蛋白质对的结构,这些蛋白质对根据实验数据被怀疑有相互作用。Baker领导的一个团队使用 AlphaFold 和 RoseTTAFold 来模拟几乎每一对由酵母编码的蛋白质之间的相互作用,发现了100多个以前未知的复合物。Elofsson 说,这样的筛选只是一个起点。它们在预测一些蛋白质配对方面做得很好,特别是那些稳定的蛋白质配对,但在识别更多的瞬时相互作用方面却很困难。"Elofsson 说:"因为它看起来不错并不意味着它是正确的。你需要一些实验数据来证明你是正确的。"

Kosinski 说,核孔复合物的工作是一个很好的例子,说明预测和实验数据可以一起工作。"这不像是我们把所有的30个蛋白质,扔进 AlphaFold,然后得到结构出来"。为了把预测的蛋白质结构放在一起,该团队使用了核孔复合物的三维图像,这些图像是用一种叫做低温电子断层扫描的低温电磁学形式捕获的。在一个例子中,能够确定蛋白质接近程度的实验发现了该复合物的两个组成部分之间存在令人惊讶的相互作用,AlphaFold 的模型随后证实了这一点。

基因组网关:人类核孔复合物的两个视图显示它是如何嵌入核膜的

Kosinski认为该团队目前的核孔复合物地图是研究核孔复合物如何运作 (以及它在疾病中如何失灵) 的实验和模拟的起点。

AlphaFold的局限性

对于 AlphaFold 取得的所有进展,科学家们说,重要的是要清楚它的局限性--特别是因为那些不擅长预测蛋白质结构的研究人员使用它。

试图将 AlphaFold 应用于破坏蛋白质自然结构的各种突变,包括与早期乳腺癌有关的突变,证实该软件不具备预测蛋白质新突变结果的能力,因为没有与进化有关的序列可供研究。

AlphaFold 团队现在正在考虑如何设计一个神经网络来处理新的突变。Jumper 预计,这将需要网络更好地预测一个蛋白质如何从其未折叠状态转为折叠状态。纽约市哥伦比亚大学的计算生物学家 Mohammed AlQuraishi 说,这可能需要只依靠它所学的蛋白质物理学知识来预测结构的软件。他说:"我们感兴趣的一件事是在不使用进化信息的情况下从单一序列进行预测。这是一个关键的问题,确实仍未解决。"

AlphaFold 也被设计为预测单一结构,尽管它已经被黑客破解了不止一个。但是许多蛋白质具有多种构象,这可能对它们的功能很重要。"Schueler-Furman 说:"AlphaFold 无法真正处理那些可以在不同构象中采用不同结构的蛋白质。而且预测是针对孤立的结构,而许多蛋白质与配体如 DNA 和 RNA、脂肪分子和矿物质如铁一起发挥作用。Elofsson 说:"我们仍然缺少配体,我们缺少关于蛋白质的其他一切。"

AlQuraishi 说,开发这些下一代的神经网络将是一个巨大的挑战。AlphaFold 依赖于几十年的研究,这些研究产生了蛋白质的实验结构,网络可以从中学习。目前无法获得如此大量的数据来捕捉蛋白质动力学,或者可以与数万亿个小分子相互作用的蛋白质的结构。Jumper 补充说,PDB 包括蛋白质与其他分子相互作用的结构,但这只是捕捉到化学多样性的一小部分。

研究人员认为,他们需要时间来确定如何最好地使用 AlphaFold 和相关的 AI 工具。AlQuraishi 认为这与电视的早期有相似之处,当时一些节目是由电台广播员简单地阅读新闻。"我认为我们会发现我们还没有想到的结构的新应用。"

AlphaFold 革命的终点在哪里,谁也说不准。Baker 说:"事情变化得太快了,明年我们会看到使用这些工具取得的真正的重大突破"。EMBL-EBI 的计算生物学家 Janet Thornton 认为 AlphaFold 最大的影响之一可能只是说服生物学家对来自计算和理论方法的见解更加开放",她说:"对我来说,革命是思维方式的改变。"

AlphaFold 革命激发了 Kosinski 的大梦想。他想象 AlphaFold 启发的工具不仅可以用来为单个蛋白质和复合物建模,而且可以为整个细胞器甚至细胞建模,直至单个蛋白质分子的水平。"这是我们在未来几十年里将遵循的梦想。"