1958年F.H.C. 克里克提出了生物学中重要的中心法则,DNA->RNA->蛋白质,中心法则说明,DNA可以转录形成RNA,RNA再翻译成一个个氨基酸,最后组合形成蛋白质。
通过中心法则不难看出,如果把DNA比喻为进行工业生产的设计蓝图,那么蛋白质就像实现这个蓝图的工具,所以说蛋白质是一切生命活动的基础,它几乎参与了所有的生物学过程,如遗传、发育、繁殖等等。对蛋白质进行深入地研究,能让我们从更深层次诠释生命体的构成和运作变化规律,进而全面揭示生命运行、发展的机制,激发生物科学、药物研发、合成生物学、酶科学等领域的发展。
因探究生物体内各种蛋白质的功能及其机制等是目前蛋白质研究的主要内容,同时也是后基因组时代生命科学领域的主要研究热点之一。蛋白质的功能很大程度上取决于蛋白质的结构,因此如何破解蛋白质的三维结构成为了科学家研究的重点。
AlphaFold2的诞生
近些年来,随着人工智能技术的发展,深度学习等相关技术也被应用在蛋白质结构预测领域。2018年的CASP 13(国际权威的蛋白质结构预测竞赛,每2年举办一次)上,谷歌DeepMind团队的AlphaFold拿下了70多分,打败众多研究团队,取得人工组第一,在该领域取得了里程碑式的进展。在2020年的CASP 14上,谷歌DeepMind团队的AlphaFold2以惊人的92.4分登顶第一,这一结果也被认为是基本解决了”困扰了生物学家50年”的问题,获得重大突破。92.4分,指的是对竞赛目标蛋白的预测精度GDT_TS分数达到92.4,一般认为该分数超过90分,基本可以替代实验方式啦,这也意味着AlphaFold2预测的结果与实验得到的蛋白质结构基本一致。
2021年7月15日, DeepMind团队在国际顶级期刊《NatuRe》上发表论文,详细描述了AlphaFold2的设计思路,并提供了可供运行的基于JAX的模型和代码。考虑到JAX受众偏向专业的AI科学计算研究人员,且飞桨社区尚没有蛋白质结构预测相关的开源项目,百度螺旋桨PaddleHelix生物计算团队,基于飞桨深度学习框架,复现了AlphaFold2模型,提供给广大飞桨开发者使用,帮助大家快速入门蛋白质结构预测。
AlphaFold2算法的设计思路
AlphaFold2通过独特的神经网络和训练过程设计,第一次端到端地学习蛋白质结构。整个算法框架通过协同学习蛋白质的多序列比对(MSA)和氨基酸对(pAIRwise)的表征,将蛋白质序列的进化信息、蛋白质结构的物理和几何约束信息结合到深度学习网络中。我们将从数据预处理、EvofoRMeR和structure module三个模块分析AlphaFold2算法的设计思想。