AIGC的发展高开猛走。当人们还在因为 AIGC 在绘画、写作等领域的出色表现而惊叹不已,它已经大步迈入进击生命科学的新阶段。
近日,国内 AI 公司天壤发布了基于扩散的生成模型——TRDiffusion,一种优异的蛋白质设计新方法。TRDiffusion 从零开始创造,生成全新的蛋白质结构,而非自然界中已经存在的天然蛋白质。
图:天壤 TRDiffusion 生成的全新的蛋白质结构
【资料图】
第四代蛋白质从头设计
蛋白质是一种含有氨基酸的分子,它们是组成和维持生命的基本物质。因其空间结构决定了生物学功能,使得从头设计蛋白质三维结构来精准实现目标功能成为可能。
蛋白质从头设计最早出现在20世纪80年代左右。第一代蛋白质设计通过简单化学原理指导二级结构的组装;第二代蛋白质设计加入了专家经验,通过序列-结构关系来指导二级结构组装;第三代有了明显突破,从已知结构中提取的知识能量函数最小化来寻找目标蛋白质。
前三代设计方法都存在极大限制,比如依赖专家经验或者天然蛋白质。
直到21世纪,随着蛋白质三维结构数据的快速增长,以AI主导的蛋白质设计在2022年爆发,实现了自动探索巨大的蛋白质空间,端到端的设计蛋白质序列和结构。
同年,AIGC 爆火,其发展启发了计算生物学家,「基于扩散的蛋白质生成」成为第四代蛋白质设计的新方向。
基于扩散的蛋白质生成模型 TRDiffusion
据天壤研究团队介绍,相比其它模型,基于扩散的生成模型更接近人的思维模式,也是 AIGC 拥有开放性创造力的原因之一,其工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转噪声过程来学习恢复数据。
图:天壤 TRDiffusion 的原理图示
当 TRDiffusion 模型生成蛋白质时,是将蛋白质中每个残基的主链结构看成可以自由移动的刚体,生成结构的初始坐标为随机噪声,通过去噪模型逐步地将随机分布的残基移动及组装成合理的蛋白质三维结构。
TRDiffusion 中的去噪模型继承了结构预测模型 TRFold 的主体网络结构,并利用 TRFold 权重作为初始化,满足空间旋转平移等不变性。
天壤研究团队指出,TRDiffusion 不仅在许多设计场景中的性能优于先前的设计方法,其在复杂设计场景中的可拓展性和用户可控性也更强,不仅适用于已支持的自由设计、复合体设计、对称性设计、局部多样性优化、功能蛋白质设计、结合配体设计等场景,更能针对用户设定的目标蛋白质局部或整体结构、蛋白质分类、种属及功能标注等进行调控和设计。
图:天壤TRDiffusion补全蛋白质结构的缺失部分图:天壤TRDiffusion生成的对称蛋白质
据天壤 XLab苗洪江博士介绍,该成果将在2023年2月下旬上线蛋白质工作台 xCREATOR(网址:https://xcreator.tianrang.com)。
基于 xCREATOR 设计蛋白质,用户既不需要任何算法知识,也无需考量蛋白质能量函数,只要在平台输入目标蛋白质的简单描述,如序列长度、结构对称性、目标功能 motif、结合配体结构、化学计量等,即可一键生成满足描述的蛋白质。
未来,我们将有可能以更精准高效的方式,实现规模化的按需设计蛋白质,从而解锁蛋白质药物开发、疫苗开发、生物合成和清洁能源等领域。