AI大佬Geoffrey Hinton近期辞去了谷歌职务,离职原因十分明确:畅所欲言地谈论AI的风险。
【资料图】
许多人担心AI走得太远,会有风险。但与这些宏观的担忧相反,在许多科学领域,有另一种观点:AI目前走得还不够远,其中一个代表性领域就是化学。机器学习工具有望在发现、合成新化合物上掀起一场革命,但现实是大规模的革命尚未发生,因为缺乏可用的数据来训练AI系统。
AI系统的好坏取决于它所接受的训练数据。如果化学家想要充分利用生成式AI工具的潜力,就需要建立庞大、可靠且无偏见的训练数据集,要有实验数据和模拟数据,还要有历史数据和来自不成功实验的数据。
以进行逆合成分析的AI工具为例,从终产物开始,然后倒推出最佳起始材料和反应步骤顺序,2018年,上海大学Mark P. Waller教授团队设计的3N-MCTS训练模型可以实现AI对于药物逆合成路线设计,化学界的AlphaGo由此诞生,引起了国内外制药领域高度关注。
为了做出准确的化学预测,AI系统需要对不同反应所涉及的特定化学结构有足够的了解。发现新反应的化学家通常会发表研究结果,但这些结果往往并不详尽。如果AI系统没有非常系统全面的知识,就可能会合成出不正确的产物。
与OpenAI开发的ChatGPT类似,如果AI要在逆向设计中超越现有的计算工具,就需要有足够的化学结构和性质相关的训练数据,需要数十万甚至数百万个数据点。
AlphaFold蛋白质结构预测工具可以说是最成功的化学AI应用了,其创建者在一个强大的数据集上对其进行了训练,这个数据集就是蛋白质数据库(Protein Data Bank,PDB)中的信息,PDB目前包含超过20万个结构。AlphaFold的例子说明AI在提供足够的高质量数据时可以拥有强大的力量。
那么,其他AI系统如何创建或访问更多更好的化学数据呢?一个可能的解决方案是建立一个系统,从已发表的研究论文和现有的数据库中提取数据,比如英国剑桥大学的研究人员创造的一种将化学名称转换为结构的算法,这种方法加速了AI在有机化学中的应用。
另一种可能方法是自动化实验室系统,如用来制造和测量化合物的机器人材料处理系统,以测试AI模型的输出。但目前这种能力相对有限,因为与人类化学家相比,这些机器人系统只能进行相对狭窄类别的化学反应。
还有一个显而易见的解决方案:AI工具需要开放数据。人们发表论文的方式必须进化,以使数据更容易获取。这也是Nature杂志要求作者将他们的代码和数据存放在开放存储库中的原因之一。
但即便如此,也不足以让AI工具充分发挥其潜力。好的训练集还应该包括负面结果的数据,比如没有产生所需物质的反应条件。另外,数据还要以一致的格式记录。只有采取措施收集和共享数据,才有可能让计算机模型比最好的人类科学家做得更好。