点击蓝字 关注我们
投
医
问
药
Summary
当前人工智能模型虽在分子结构预测和设计领域取得一定进展,但大多依赖针对特定任务定制的专用算法,缺乏统一的分子表示形式,且自然语言提示在定义分子任务时精度不足,这些问题导致不同任务间和分子类型间的可迁移性受限,统一多样化的分子生成相关任务仍面临巨大挑战。
2026 年 2 月 18 日,清华大学马剑竹(Lead contact)、王新泉、宣武医院/福州医科大学王子华以及北京大学基础医学院韩传辉联合团队,研究人员在《Cell》上发表题为 “Unified modeling of 3D molecular generation via atomic interactions with PocketXMol”(《基于原子相互作用的 3D 分子生成统一模型(PocketXMol)》)的研究论文。研究团队开发了原子级生成式 AI 模型 PocketXMol,该模型以原子提示作为任务说明,可统一小分子和肽类的结构预测、从头设计等多种与蛋白质口袋相互作用相关的生成任务,无需任务特异性微调。其在 13 项计算任务中的 11 项达到最先进性能,设计的半胱天冬酶 9 抑制剂效果与商业药物相当,生成的 PD-L1 结合肽段具有高亲和力和体内肿瘤靶向性,为 AI 辅助药物发现提供了通用平台。
欢迎关注公众号并设置星标
01
|INTRODUCTION
人工智能已彻底改变分子结构预测和设计领域,但当前模型通常依赖针对特定任务定制的专用算法。一个关键发现是,所有分子任务均受原子相互作用的通用物理原理支配。由此引出一个自然的问题:能否借鉴自然语言、视觉等领域的基础模型,利用大规模数据开发出统一的原子级模型,以捕捉分子相互作用的基本规律?然而,统一多样化任务面临诸多关键挑战。尽管文本提示在大型语言模型中已被证实有效,但自然语言在定义分子任务时不够精确,尤其是涉及复杂空间关系或多个分子片段时。当前生成式模型的另一关键局限在于,尽管在单个任务中表现出色,但它们对任务特异性先验分布和采样过程的依赖,阻碍了多任务同时学习的整合。此外,现有模型缺乏统一的分子表示形式,不同模型采用截然不同的类型特异性格式,这本质上限制了任务间和分子类型间的可迁移性。为应对这些挑战,研究团队推出 PocketXMol,这一统一的原子级生成式模型基于三个关键组件构建:(1)任务提示机制,直接在原子层面定义输入和输出,比基于文本的描述提供更精确的控制;(2)“通用去噪器” 架构,将不同的任务分布映射到统一的噪声空间,无需任务特异性微调即可实现联合多任务训练;(3)原子级任务表示,无需显式建模氨基酸,便于跨分子类型迁移。
为训练 PocketXMol,研究团队收集了包含 3D 分子结构的数据集,涵盖 11,985,300 个小分子、39,911 个蛋白质 - 肽复合物和 85,434 个蛋白质 - 小分子复合物,这些数据来源于多个数据库。研究团队在 13 项生成任务中对 PocketXMol 进行了评估,包括小分子对接、线性 / 环肽对接、3D 构象预测、基于结构的药物设计、3D 分子生成、片段连接、蛋白水解靶向嵌合体设计、片段生长、分子优化、线性 / 环肽设计及肽逆折叠,并通过 51 项指标与 55 种基线方法进行对比。PocketXMol 在 13 项任务中的 11 项表现出色,其余两项也保持高度竞争力。研究团队还展示了该模型在多种应用中的实际效用,包括结合先验知识的约束对接、酶 - 底物筛选、虚拟筛选和非标准氨基酸设计。利用 PocketXMol,研究团队设计了 16 种半胱天冬酶 9 抑制剂,并发现其中一种分子能有效抑制半胱天冬酶 9,且在 ABT-737 处理下可抑制下游半胱天冬酶 3 / 聚腺苷二磷酸核糖聚合酶 1 的切割。最后,研究团队设计出高命中率的程序性死亡配体 1 靶向肽段,在 382 种合成肽段中,有 15 种候选肽段的结合亲和力达到 10⁻⁸M。代表性肽段在 PD-L1 阳性细胞中表现出特异性结合,后续通过配体抑制试验和体内肺肿瘤成像验证,证实了其治疗和诊断潜力。
02
|RESULTS
研究人员通过构建包含生成流程、训练过程、典型任务提示和带不同任务特异性噪声的分子 t-SNE 可视化的框架,展示了 PocketXMol 的工作原理。该模型将输入分子抽象为原子和化学键集合,通过任务提示定义生成目标,利用通用去噪器迭代添加和去除噪声,将不同噪声类型转化为统一的分子表示空间,实现多任务联合训练,无需微调即可直接应用于不同任务。
Figure 1:PocketXMol 框架
研究人员在基于结构的药物设计、3D 分子生成、片段连接、PROTAC 设计、片段生长和分子优化等任务中评估 PocketXMol 性能。结果显示,其在 SBDD 任务的 14 项指标中 11 项排名第一,生成的高质量 3D 分子比例远超基线模型;在 3D 分子生成任务中,生成分子有效性高且原子间距分布与类药物分子匹配;在片段连接、PROTAC 设计和片段生长任务中,在分子有效性、结构恢复度和结合亲和力等方面均优于基线;分子优化任务中,可快速将分子 LogP 值优化至目标范围。
Figure 2:小分子设计性能
研究人员将 PocketXMol 应用于半胱天冬酶 9 靶向化合物设计,合成了 16 种设计分子,其中编号 84663 的分子能有效抑制 ABT-737 诱导的半胱天冬酶 9 和半胱天冬酶 3 激活,且与已知半胱天冬酶抑制剂相似度低。通过对该分子优化得到的 D12、D13、D18 和 D19 等分子,抑制效果与商业抑制剂 QVD-OPh 和 Z-LEHD-FMK TFA 相当,且不直接抑制半胱天冬酶 3,SPR 实验证实其通过结合半胱天冬酶 9 发挥作用。
Figure 3:半胱天冬酶 9 抑制剂设计
研究人员在 linear 肽设计、肽逆折叠、环肽设计和非标准氨基酸肽设计任务中测试 PocketXMol 性能。该模型将肽生成视为特殊的片段生长任务,直接生成全原子位置,无需后续处理。与 RFdiffusion pipeline 相比,其生成的肽段在氨基酸分布、序列恢复率、结构质量和二级结构比例等方面更优;在肽逆折叠任务中,序列恢复率和多样性高于 ProteinMPNN;在环肽设计中,Rosetta 结合能表现出色;还能自然支持非标准氨基酸肽设计,生成的非标准氨基酸肽具有良好的结合能。
Figure 4:肽设计性能
研究人员利用 PocketXMol 设计 10 残基 PD-L1 靶向肽段,在 382 种合成肽段中,15 种解离常数达到 10⁻⁸M,76 种达到 10⁻⁷M,即使不进行生成后排序或针对未见过的靶点,也能生成高亲和力结合物。选取的 P65、P73、P282 等代表性肽段,在 PD-L1 阳性细胞中表现出特异性结合,体内成像显示其能在肿瘤部位聚集,具有良好的肿瘤靶向性和选择性,且 P282 能抑制 PD-1/PD-L1 相互作用,有望应用于癌症免疫治疗。
Figure 5:PD-L1 结合肽设计
研究人员在小分子对接、酶 - 底物识别、虚拟筛选和分子构象生成任务中评估 PocketXMol。在小分子对接任务中,其生成的构象 RMSD<2Å 的比例仅次于 AlphaFold 3,且结合先验知识可进一步提升性能;在酶 - 底物识别中,模型的对接置信度得分能有效区分活性和非活性底物,基于其提取的特征训练的分类器预测效果更优;在虚拟筛选任务中,性能与最佳基线模型相当;在分子构象生成任务中,可生成与低能量真实构象高度匹配的有效构象。
Figure 6:小分子结构生成性能
研究人员在 linear 肽对接、环肽对接和新设计分子对接准确性任务中测试 PocketXMol。该模型将肽对接与小分子对接同等处理,在 linear 肽对接任务中 DockQ 得分高于其他基线方法,对含非标准残基的肽段对接准确性高,结合约束条件可进一步提升性能;在环肽对接任务中,性能与专用方法相当;对新设计的小分子和肽段,其对接准确性与化学 / 序列相似度相关,能准确预测新设计配体的结合结构。
Figure 7:肽对接性能
03
|DISCUSSION
综上所述,PocketXMol 作为一款原子级生成式 AI 模型,通过统一的任务提示机制、通用去噪器架构和原子级任务表示,成功实现了多种与蛋白质口袋相互作用相关的分子生成任务的统一建模,在小分子和肽类的设计、对接、构象预测等 13 项任务中表现优异,所设计的抑制剂和肽段经实验验证具有良好的生物活性和靶向性,为人工智能辅助药物发现提供了高效、通用的新平台。尽管存在一定局限性,但该模型的创新框架和显著性能有望推动药物研发领域的效率提升,且其多任务学习思路为其他领域的生成式模型发展提供了借鉴。
References
[1] Peng X, Guo R, Guo F, et al. Unified modeling of 3D molecular generation via atomic interactions with PocketXMol[J]. Cell, 2026, 189: 1-19.
[2] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596: 583-589.
[3] Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with alphafold 3[J]. Nature, 2024, 630: 493-500.
[4] Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning–based protein sequence design using ProteinMPNN[J]. Science, 2022, 378: 49-56.
[5] Watson J L, Juergens D, Bennett N R, et al. De novo design of protein structure and function with RFdiffusion[J]. Nature, 2023, 620: 1089-1100.
[6] Ingraham J B, Baranov M, Costello Z, et al. Illuminating protein space with a programmable generative model[J]. Nature, 2023, 623: 1070-1078.
[7] Krishna R, Wang J, Ahern W, et al. Generalized biomolecular modeling and design with RoseTTAFold All-Atom[J]. Science, 2024, 384: eadl2528.
[8] Guo D, Yang D, Zhang H, et al. DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning[J]. Nature, 2025, 645: 633-638.
[9] Hayes T, Rao R, Akin H, et al. Simulating 500 million years of evolution with a language model[J]. Science, 2025, 387: 850-858.
[10] Varadi M, Bertoni D, Magana P, et al. AlphaFold Protein Structure Database in 2024: providing structure coverage for over 214 million protein sequences[J]. Nucleic Acids Research, 2024, 52: D368-D375.
[11] Han C, Liu Z, Zhang Y, et al. Tumor cells suppress radiation-induced immunity by hijacking caspase 9 signaling[J]. Nature Immunology, 2020, 21: 546-554.
投医问药
投医问药起源于清华大学、北京大学和中国科学院,包含投医问药分享会和投医问药俱乐部,以及与清华大学生命科学学院合办的行业大咖论坛等板块,为生物医药领域专业人士专门打造,通过小型圆桌论坛和分享会的形式,提供一个深度交流和合作的平台。俱乐部成员包括PI、博士后、博士生以及生物医药产业和金融界的专业人士。在这里,大家可以分享自己的研究成果,讨论科研转化的可能性,寻找合作伙伴和资本介入的机会。投医问药注重建立信任关系,保持公益性,为生物医药相关人士促成各类资源的精准匹配,促进科研成果、创业想法的转化和社会价值的实现。
欢迎关注投医问药,并添加小编微信号:seekmedicine,添加微信时请备注:单位/职业/姓名,如果是PI/教授、创始人、合伙人等,还请注明。
声明:本内容仅用作生物医药行业信息传播,不构成任何用药和投资建议。如需转载,请务必注明文章作者和来源。对本文有异议或投诉,请联系seekmedicine@163.com。
点赞
收藏
分享