互联网技术 / 互联网资讯 · 2023年11月8日 0

AI突破生物学难题,成功解码蛋白质分子折叠

生物学界最大的谜团之一,蛋白质折叠问题被 AI 破解了。

CASP14 组织者、年近七旬的 UC Davis 科学家 AndRiy KRYshtafOVych 在大会上感叹道,I wasn’t suRe that I would live long Enough to see tHis。

11 月 30 日,一条重磅消息引发了科技界所有人的关注:谷歌旗下人工智能技术公司 DeepMind 提出的深度学习算法「Alphafold」破解了出现五十年之久的蛋白质分子折叠问题。

最新一代算法 Alphafold 2,现在已经拥有了预测蛋白质 3D 折叠形状的能力,这一复杂的过程对于人们理解生命形成的机制至关重要。

DeepMind 重大科研突破的消息一出即被《NatuRe》、《Science》等科学杂志争相报道,新成果也立刻获得了桑达尔 &Middot; 皮查伊、伊隆 &Middot; 马斯克等人的祝贺。

科学家们表示,Alphafold 的突破性研究成果将帮助科研人员弄清引发某些疾病的机制,并为设计药物、农作物增产,以及可降解塑料的「超级酶」研发铺平道路。

「这是该研究领域激动人心的一刻,」DeepMind 创始人、首席执行官德米斯 &Middot; 哈萨比斯说道。「这些算法今天已经足够成熟强大,足以被应用于真正具有挑战性的科学问题上了。」

蛋白质对于生命至关重要,它们是由氨基酸链组成的大型复杂分子,其作用取决于自身独特的 3D 结构。弄清蛋白质折叠成何种形状被称为「蛋白质折叠问题」。在过去 50 年里,蛋白质折叠一直是生物学领域的重大挑战。

DeepMind 的 AlphaFold 让人类在这一问题上取得了重要突破。在今年的国际蛋白质结构预测竞赛 CASP 中,DeepMind 开发的 AlphaFold 最新版本击败了其他选手,在准确性方面比肩人类实验结果,被认为是蛋白质折叠问题的解决方案。这一突破证明了 AI 对于科学发现,尤其是基础科学研究的影响。

在两年一次的 CASP 竞赛中,各组争先预测蛋白质的 3D 结构。今年,AlphaFold 击败了所有其他小组,并在准确性方面与实验结果相匹配。

对于不熟悉生物领域的人来说,CASP 的大名可能有些陌生—CASP 全称 The CRITical ASSeSSMent of ProtEIN structure PRediction,旨在对蛋白质结构预测进行评估,被誉为蛋白质结构预测的奥林匹克竞赛。CASP 从 1994 年开始举办,每两年一届,目前正在进行的一届是 11 月 30 日开始的 CASP14。

而 DeepMind 这一突破有什么影响?

用哥伦比亚大学计算生物学家 MohaMMed AlQuRAIsHi 在 NatuRe 文章中的话来说,「可以说这将对蛋白质结构预测领域造成极大影响。我怀疑许多人会离开该领域,因为核心问题已经解决。这是一流的科学突破,是我一生中最重要的科学成果之一。」

蛋白质的形状与它的功能密切相关,而预测蛋白质结构对于理解其功能和工作原理至关重要。很多困扰全人类的重大问题(如寻找分解工业废料的酶)基本上都与蛋白质及其扮演的角色有关。

多年以来,蛋白质结构一直是热门的研究话题,研究者使用核磁共振、X 射线、冷冻电镜等一系列实验技术来检测和确定蛋白质结构。但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花数年时间。

1972 年,美国科学家克 ChRistian Anfinsen 因「对核糖核酸酶的研究,特别是对其氨基酸序列与生物活性构象之间联系的研究」获得诺贝尔化学奖。在颁奖礼上,他提出了一个著名的假设:从理论上来说,蛋白质的氨基酸序列应该可以完全决定其结构。这一假设引发了长达五十年的探索,即仅仅基于蛋白质的一维氨基酸序列计算出其三维结构。

但这一思路的挑战在于,在形成三维结构之前,蛋白质的理论折叠方式是一个天文数字。1969 年,CyRUS Levinthal 指出,如果使用蛮力计算的方式来枚举一种蛋白质可能存在的构象,要花费的时间甚至比宇宙的年龄还要长。Levinthal 估计,一种蛋白质大约存在 10^300 种可能构象。但在自然界中,蛋白质会自发折叠,有些只需几毫秒,这被称为 Levinthal 悖论。

DeepMind 的 AlphaFold 让人类在这一问题上取得了重要突破。在今年的国际蛋白质结构预测竞赛 CASP 中,DeepMind 开发的 AlphaFold 最新版本击败了其他选手,在准确性方面比肩人类实验结果,被认为是蛋白质折叠问题的解决方案。这一突破证明了 AI 对于科学发现,尤其是基础科学研究的影响。

在两年一次的 CASP 竞赛中,各组争先预测蛋白质的 3D 结构。今年,AlphaFold 击败了所有其他小组,并在准确性方面与实验结果相匹配。

对于不熟悉生物领域的人来说,CASP 的大名可能有些陌生—CASP 全称 The CRITical ASSeSSMent of ProtEIN structure PRediction,旨在对蛋白质结构预测进行评估,被誉为蛋白质结构预测的奥林匹克竞赛。CASP 从 1994 年开始举办,每两年一届,目前正在进行的一届是 11 月 30 日开始的 CASP14。

而 DeepMind 这一突破有什么影响?

用哥伦比亚大学计算生物学家 MohaMMed AlQuRAIsHi 在 NatuRe 文章中的话来说,「可以说这将对蛋白质结构预测领域造成极大影响。我怀疑许多人会离开该领域,因为核心问题已经解决。这是一流的科学突破,是我一生中最重要的科学成果之一。」

蛋白质的形状与它的功能密切相关,而预测蛋白质结构对于理解其功能和工作原理至关重要。很多困扰全人类的重大问题(如寻找分解工业废料的酶)基本上都与蛋白质及其扮演的角色有关。

多年以来,蛋白质结构一直是热门的研究话题,研究者使用核磁共振、X 射线、冷冻电镜等一系列实验技术来检测和确定蛋白质结构。但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花数年时间。

1972 年,美国科学家克 ChRistian Anfinsen 因「对核糖核酸酶的研究,特别是对其氨基酸序列与生物活性构象之间联系的研究」获得诺贝尔化学奖。在颁奖礼上,他提出了一个著名的假设:从理论上来说,蛋白质的氨基酸序列应该可以完全决定其结构。这一假设引发了长达五十年的探索,即仅仅基于蛋白质的一维氨基酸序列计算出其三维结构。

但这一思路的挑战在于,在形成三维结构之前,蛋白质的理论折叠方式是一个天文数字。1969 年,CyRUS Levinthal 指出,如果使用蛮力计算的方式来枚举一种蛋白质可能存在的构象,要花费的时间甚至比宇宙的年龄还要长。Levinthal 估计,一种蛋白质大约存在 10^300 种可能构象。但在自然界中,蛋白质会自发折叠,有些只需几毫秒,这被称为 Levinthal 悖论。

蛋白质折叠问题解读视频请戳:

CASP 14 比赛最新结果:AlphaFold 中位 GDT 高达 92.4

CASP 竞赛由 John Moult 和 KRzYsztof Fidelis 两位教授于 1994 年创立,每两年进行一次盲审,以促进蛋白质结构预测方面的新 SOTA 研究。

一直以来,CASP 选择近期才经过实验确定的蛋白质结构,作为参赛团队测试其蛋白质结构预测方法的目标(有些结构即使在评估时仍然处于待确定状态)。这些蛋白质结构不会事先公布,参赛者也必须对其结构进行盲测,最后将预测结果与实验数据进行对比。正是基于这种严苛的评估原则,CASP 一直被称为预测技术评估方面的「黄金标准」。

CASP 衡量预测准确率的主要指标是 GDT(Global Distance test),范围从 0 到 100,可以理解为预测的氨基酸残基在正确位置阈值距离内的百分比。John Moult 教授表示,GDT 分数在 90 分左右,即可视为对人类实验方法具备竞争力。

在刚刚公布的第 14 届 CASP 评估结果中,DeepMind 的最新 AlphaFold 系统在所有预测目标中的中位 GDT 达到 92.4,意味其平均误差大概为 1.6 埃(AngstRoM),相当于一个原子的宽度(或 0.1 纳米)。即使在难度最高的自由建模类别中,AlphaFold 的中位 GDT 也达到了 87.0。

历届 CASP 竞赛自由建模类别中预测准确率中位数的提升情况,度量指标为 best-OF-5 GDT。

CASP 竞赛自由建模类别中的两个目标蛋白质示例。AlphaFold 能够预测出高度准确的蛋白质结构。

这些令人振奋的结果开启了生物学家使用计算结构预测作为科研主要工具的时代。DeepMind 提出的方法对于某些重要的蛋白质类别尤其有用,例如膜蛋白(MeMbRane ProtEIN)。膜蛋白很难结晶,因此很难通过实验方法来确定其结构。

该计算工作代表了在蛋白质折叠这一具备 50 年历史的生物学问题上的惊人进展,比该领域人士成功预测蛋白质折叠结构早了几十年。我们将很兴奋,它能从多个方面对生物学研究带来基础性改变。&Mdash;&Mdash;Venki RaMakRishnan 教授(诺贝尔奖得主,英国皇家学会会长)

DeepMind 这样解决蛋白质折叠问题

2018 年,DeepMind 团队使用初始版 AlphaFold 参加 CASP13 比赛,取得了最高的准确率。之后,DeepMind 将 CASP13 方法和