谈起AlphaFold的大名,想必在生物医药界如雷贯耳。这是一款由Google旗下人工智能公司DeepMind开发的蛋白质结构预测程序。AlphaFold 1在2018年的第13届蛋白质结构预测大赛(Critical Assessment of Structure Prediction,CASP)中总体排名第一,它在预测那些无相似序列蛋白提供现成模板的蛋白的准确结构方面尤为成功。2020年,AlphaFold 2在第14届CASP中,对大部分蛋白结构的预测与真实结构仅有一原子宽度之差。
序列决定结构,结构决定功能,确定生物大分子的三维结构即意味着对其功能的深入理解,因此也就不难想象AlphaFold给结构生物学带去变革性的影响。2021年8月,DeepMind公司在Nature上发文,宣布已完成人类98.5%的蛋白质的结构预测,并公开AlphaFold 2源码和相关数据集,供全世界科研人员使用。2022年7月,DeepMind公司与欧洲生物信息研究所宣布,AlphaFold已完成预测超过100万个物种的2.14亿个蛋白质结构,几乎涵盖地球上所有已知蛋白质。DeepMind更表示,以后查找蛋白质结构,会像使用搜索引擎一样简单。这无疑改变了药物发现和蛋白质设计的游戏规则,将原本通过电子显微镜或X射线晶体学方法需要数月或者数年的蛋白质结构确定工作提速到数秒之内。
(资料图)
然而,作为DNA和蛋白质之间的“中间人”,RNA受到的关注却远不如DNA和蛋白质。中心法则认为,遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,蛋白质执行功能,而RNA所起的作用主要是在中间传递信息,且RNA的结构也不如DNA稳定。
而随着对RNA的认识不断深入,人们认识到RNA不仅传递遗传信息,也具有多种多样的调节功能。人类基因组中最终编码成蛋白质的DNA仅占1%至2%,但转录成RNA的比例高达85%,而这些RNA的作用,有待进一步的探索。另一方面,RNA药物的出现,为药物研发打开了崭新的思路,其诱人前景也进一步催促人们更多地去了解RNA分子的结构及功能。
为此,斯坦福大学博士生Stephan Eismann和Raphael Townshend在计算机科学副教授Ron Dror的指导下,基于神经网络技术开发了一种称之为ARES(Atomic Rotationally Equivariant Scorer,原子旋转等变评分器)的深度学习方法。相关结果以“Geometric deep learning of RNA structure”为题于2021年8月27日发表于Science并登上封面。
图1 ARES登上Science封面(图源:[1])不同于其他AI算法,ARES不包含任何先入为主的结构模型假设,如双螺旋、碱基对、核苷酸或氢键等概念,而是从原子之间的相对位置及几何排列出发,让系统自发地寻找RNA的空间结构,这样做的好处是算法不会将预测结果往训练时采用的、已知的RNA结构上靠拢,也就不会受限于目前人们对RNA三维结构的了解。
开发者仅使用了18种于1994至2006年间确定结构的RNA分子对ARES进行训练,训练过程中,ARES为每个RNA序列生成了上千个3D结构并对每个可能的结构进行评分,以期找到最接近实际情况的结构。结果表明,ARES的表现优于以往方法。
ARES随后被更新升级为PARSE(Platform for AI-driven RNA Structure Exploration,人工智能驱动的RNA结构探索平台)。对于这一有力工具,Townshend选择成立生物技术公司Atomic AI亲自进行药物发现,而非出售服务。Townshend表示,相比于发表于Science上的初步突破,公司已经生成了相当规模的结构相关的数据点,结合其他机器学习工作,论文中的速度和准确性都有显著的提升。
图2 Raphael Townshend(图源:raphael.tc.com)目前,Atomic AI拥有的员工不足20人,Townshend希望在18个月内将团队扩大到40人,包括AI科学家、RNA生物化学家、生物学家和具有药物发现能力的员工。近日,Atomic AI还宣布完成了3500万美元的A轮融资,以继续PARSE平台的构建,并促进其计算实验室和湿实验室的工作。该轮融资由Playground领投,参与方包括8VC、Factory HQ、Greylock、NotBoring、AME Cloud Ventures,以及GitHub前CEO Nat Friedman、Doug Mohr、Curai CEO Neal Khosla以及加州大学伯克利分校教授兼Arc Institute联合创始人Patrick Hsu等知名天使投资人。此前的种子轮融资Atomic AI则筹集了700万美元。
Townshend相信,Atomic AI“正在创造一个全新的药物发现领域”。以往的AI药物发现过程主要围绕想要靶向的蛋白,设计出能够在确切时间地点结合到蛋白质上影响其功能的“粘合剂”。而Atomic AI首先寻找的是可靶向的目标。这不仅仅是新的分子,更是全新的生物学,这对于大型制药公司更具吸引力,将有望解决从前无法治愈的疾病,可应用的疾病范围也十分宽泛,可包括从肿瘤、传染病、神经退行性疾病、神经肌肉疾病及罕见病的所有领域。
目前Atomic AI正聚焦于某些癌症的药物开发,这些癌症会使得蛋白质病理性地过量产生。要完成这些工作需要大量的实验室工作和密集的数据支撑,而新筹集的资金为此提供了保障。
“人们已经摘取了蛋白质大地上所有低垂的果实,”Townshend说,“现在该追逐新的生物学了。”