新华社 发
你可以想象吗?有一个AI大模型,它能准确预测人体中上亿个蛋白质结构,而且,其精准性达到了冷冻电子显微镜的观测水平。它就是Alphafold。中国科学院院士、西湖大学校长施一公曾评价:这是人工智能对科学领域最大的一次贡献。该模型的两位开发者昨天分享了2024年诺贝尔化学奖。
瑞典皇家科学院9日宣布,将2024年诺贝尔化学奖授予美国华盛顿大学西雅图分校戴维·贝克的“计算蛋白质设计”,另一半共同授予英国伦敦的德米斯·哈萨比斯和约翰·江珀的“蛋白质结构预测”。其中,“蛋白质结构预测”正是这个AI模型。两位开发者来自谷歌公司,解决了一个50年前的问题:预测蛋白质的复杂结构。
自2018年Alphafold首次发布,到2020年获得重大改进,再到后来不断完善,该技术已经获得科学界普遍认可,两位候选人短短几年已获得许多重大科学奖项。值得一提的是:德米斯·哈萨比斯和约翰·江珀为70后和80后。
Alphafold是人工智能历史上的一个标志性事件
今年诺贝尔化学奖的主题是蛋白质——生命中巧妙的化学工具。蛋白质是生命的基础。被释放的蛋白质结构信息蕴含着生命信息的密码,如果得以“破译”,将有力推动生命科学的发展,大大加速针对癌症、病毒的抗生素、靶向药物和新效率的蛋白酶的研发。
在过去50年中,“蛋白质折叠问题”一直是生物学界的重大挑战。此前,生物学家主要利用X射线晶体学或冷冻电镜等实验技术来破译蛋白质的三维结构,耗时长、成本高。几年前,科学家用计算机预测复杂的蛋白质折叠结构,正确率还不到40%。Alphafold出现后,奇迹出现了。
2020年11月30日,Alphafold 2在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电子显微镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。
已知氨基酸顺序的蛋白质分子有1.8亿个,此前其三维结构信息被彻底看清的还不到0.1%。2021年8月,谷歌旗下DeepMind公司在《自然》上宣布已将人类的98.5%的蛋白质预测了一遍,计划年底将预测数量增加到1.3亿个,达到人类已知蛋白质总数的一半,并且公开了Alphafold 2的源代码,免费开源有关数据集,供全世界科研人员使用。今年,Alphafold 2升级为Alphafold 3。
国际著名计算生物学家、复旦大学复杂体系多尺度研究院首任院长、上海人工智能实验室领军科学家马剑鹏教授指出,Alphafold是人工智能历史上的一个标志性事件。当年计算机击败国际象棋世界冠军时,科学界普遍认为不过是因为计算机运算速度更快而已;后来,阿尔法狗又击败了顶尖围棋手,大家还是怀疑人工智能的能力。为此,谷歌公司选择了一个科学难题——蛋白质结构预测。当Alphafold问世并不断升级之后,人们才开始震惊,认识到人工智能的“超级能力”。
“计算蛋白质设计”同样具有划时代的意义
曾担任生物反应器工程国家重点实验室主任的华东理工大学教授许建和介绍,Alphafold原始数据来源于科学家用传统方式、花费数十年时间破解的20多万个蛋白质结构。“以20万的数据,推测出1亿多个蛋白质结构,准确率达90%,这就是AI的神奇之处。”许建和表示,自己的实验室也在以传统方式(包括冷冻电子显微镜、核磁共振或X射线晶体学等技术)破解蛋白质的结构,解析一个蛋白质,短至一个月,长的两三年,而且仅有1/3的成功率,由此可见Alphafold模型的意义所在。当然,AI模型目前不能解决所有蛋白质预测,一些复杂的蛋白质结构仍要通过实验室完成。
“计算蛋白质设计”同样具有划时代的意义。想象一下,如果新合成一种蛋白质,能够识别流感病毒,是不是有望成为一种新的药物?这正是戴维·贝克十多年前做的一项实验。贝克实验室的梦想,是设计出多种不同的蛋白。这还不仅限于人体蛋白,包括动物、植物、病毒蛋白。它将助力于医疗、农业、生态保护各个领域。
计算生物学AI前沿赛道,中国在算法上要另辟蹊径
马剑鹏的研究方向为生物物理、计算生物学及结构生物学,致力于发展针对生物体系研究的人工智能计算方法,与实验手段相结合,解决复杂生物体系中的重要问题。可以说,与本年度诺贝尔化学奖获奖者属于同一领域。他认为,在计算生物学AI前沿赛道上,中国不能输,重点在算法上要另辟蹊径。
马剑鹏表示,不能在相同路径上追赶,而是要争取局部突破。他指出,蛋白质三维结构由主链和侧链搭建而成,A lphafold 2的主链预测总体做得不错,但侧链预测的质量不够好,至少离药物设计要求的精度还有很大的差距。
为此,复旦大学复杂体系多尺度研究院研发出一款名为OPUS-Rota5的算法,它能大大提升蛋白质侧链结构测试精度,专门针对Alphafold 2的软肋。现在即便是有了Alphafold 3,目前复旦大学的侧链结构测试精度依然保持着全世界领先水平。 本报记者 张炯强