Nature子刊:百图生科宋乐团队开发新型蛋白质结构预测工具,不依赖多序列对比,效率更高

2023-10-17
基因疗法
与基于MSA的的主流蛋白质结构预测工具AlphaFold2和RoseTTAFold方法相比,HelixFold-Single在预测效率上具有很大优势,耗时要少得多,可以应用于需要大量预测的蛋白质相关任
百图生科宋乐博士联合百度自然语言处理部的研究人员,在 Nature 子刊 Nature Machine Intelligence 上发表了题为:A method for multiple-sequence-alignment-free protein structure prediction using a protein language model 的研究论文。
该研究开发了一种名为HelixFold-Single的端到端的蛋白质结构预测方法,该方法结合了大规模蛋白质语言模型(PLM)和AlphaFold2优越的几何学习能力,不依赖多序列比对(MSA),仅从初级结构(氨基酸序列)预测原子三维坐标,从而实现对蛋白质结构的准确预测。此外,HelixFold-Single比目前基于MSA的主流蛋白质结构预测工具(AlphaFold2和RoseTTAFold)耗时少得多,在治疗性蛋白(多肽、抗体和纳米抗体)设计中具有很大的应用潜力。
Nature子刊:百图生科宋乐团队开发新型蛋白质结构预测工具,不依赖多序列对比,效率更高
Preview
来源: 生物谷
研究团队认为,大规模的蛋白质语言模型(PLM)可以作为多序列比对(MSA)的替代方案,以学习不依赖MSA的预测的协同进化知识。
基于MSA的方法利用信息检索技术从蛋白质序列数据库中明确捕获目标蛋白质的协同进化信息,而基于PLM的方法在训练过程中将协同进化信息嵌入到大规模模型参数中,并通过模型推理进行隐式检索,其中PLM可视为蛋白质知识库。相比MSA,基于PLM的方法在信息检索方面效率更高。
在过去的几年里,大语言模型(LLM)在自然语言处理领域取得了巨大成功,例如现在爆火的ChatGPT。而现在,已经有一些研究尝试将蛋白质语言模型(PLM)应用于蛋白质结构预测,但预测效果还不尽如人意。
受蛋白质语言模型(PLM)和AlphaFold2进展的启发,研究团队提出了一个端到端不依赖MSA的蛋白质结构预测工具——HelixFold-Single。
HelixFold-Single中使用的模型由两个主要组件组成——作为基础的大规模蛋白质语言模型(PLM)和来自AlphaFold2的用于蛋白折叠的基本组件。PLM可以将主结构编码为单表征和对表征来学习领域知识。然后集成AlphaFold2中的Evoformer和Structure模块来处理表征,学习几何知识,然后预测原子坐标。这两个组件连接起来,给出一个端到端的可微模型(Differentiable Model)。
HelixFold-Single包含两个训练阶段,在第一阶段,通过掩码语言预测任务,用数百万个未标记的单序列训练大规模PLM。在第二阶段,使用由实验解析和AlphaFold2生成的增强结构组成的蛋白质结构来训练整个模型。
Nature子刊:百图生科宋乐团队开发新型蛋白质结构预测工具,不依赖多序列对比,效率更高
Preview
来源: 生物谷
接下来,研究团队将HelixFold-Single与两款主流蛋白质结构预测工具AlphaFold2(由DeepMind公司开发)和RoseTTAFold(由华盛顿大学David Baker实验室开发)在CASP14和CAMEO数据集上进行比较。
Nature子刊:百图生科宋乐团队开发新型蛋白质结构预测工具,不依赖多序列对比,效率更高
Preview
来源: 生物谷
HelixFold-Single在具有足够数量的同源序列的蛋白质上实现了与AlphaFold2和RoseTTAFold相当的准确性。研究团队还分析了HelixFold-Single在具有不同数量同源序列的靶标上的性能:HelixFold-Single能够对大多数靶标,特别是具有大同源家族的靶标提供准确的结构预测。
此外,与基于MSA的的主流蛋白质结构预测工具AlphaFold2和RoseTTAFold方法相比,HelixFold-Single在预测效率上具有很大优势,耗时要少得多,可以应用于需要大量预测的蛋白质相关任务。
具体来说,研究团队探索了HelixFold-Single在各种类型的代表性蛋白质(包括多肽、抗体和纳米抗体)上的预测精度,以评估其在治疗性蛋白质设计中的应用潜力。结果表明,HelixFold-Single在预测这些蛋白质的柔性区域方面表现良好,突出了其在此类应用中的优势。
更多内容,请访问原始网站
文中所述内容并不反映新药情报库及其所属公司任何意见及观点,如有版权侵扰或错误之处,请及时联系我们,我们会在24小时内配合处理。
靶点
-
药物
-
立即开始免费试用!
智慧芽新药情报库是智慧芽专为生命科学人士构建的基于AI的创新药情报平台,助您全方位提升您的研发与决策效率。
立即开始数据试用!
智慧芽新药库数据也通过智慧芽数据服务平台,以API或者数据包形式对外开放,助您更加充分利用智慧芽新药情报信息。