引言:打破分子设计的模态壁垒
生物分子间的相互作用是生命活动的核心。尽管小分子、多肽和抗体等不同模态的分子工具已被广泛用于疾病治疗,其设计方法长期依赖各自独立的表征与规则,缺乏统一物理原理的指导。针对这一问题,近日,字节跳动AI制药团队与清华大学联合发布了AnewOmni,一个基于全原子层面的通用分子生成基础模型,旨在通过统一生成框架实现跨模态分子的从头设计。
AnewOmni:原子精度的可编程通用设计引擎
AnewOmni 是一个基于超过 500 万个生物分子复合物 (涵盖小分子、多肽、抗体等)训练而成的全原子生成模型。它的核心创新在于,它将不同模态的分子统一表示为原子“零件”(atomic building blocks)的集合。这些构件是具有化学意义的基本单元,如氨基酸、核苷酸,或从大型化学库中挖掘出的高频分子片段。
具体而言,模型包含一个全原子变分自编码器和一个隐空间扩散模型:模型通过全原子变分自编码器,将这些原子“零件”编码到一个共享的几何隐空间中,保留了关键的相互作用和结构信息。在压缩后的隐空间中进行生成,使得这一过程更高效、更稳定。值得注意的是,该模型在架构上并未沿用 AlphaFold 系列等结构预测模型的设计思路,而是构建了一个基于等变 Transformer 的全原子生成框架,在保持建模能力的同时显著降低了计算复杂度,使模型更适合随着数据规模和模型规模的扩大而持续扩展。
统一生成与零样本泛化:超越模态限制
为了验证统一框架的有效性,研究者首先进行了一系列严格的计算模拟评估。
在针对小分子、多肽和抗体设计的公开基准测试中,AnewOmni 的综合性能(结合能、物化合理性、分布保真度等多个指标)整体上优于为单一模态设计的多种现有模型和仅使用单一模态数据训练的消融模型。得益于对底层原子交互规律的学习,AnewOmni 展现了惊人的零样本泛化能力。当被要求为训练数据中完全未见过的靶点类型DNA 和 RNA设计结合物,模型能够生成大量具有较高预测结合得分的小分子和多肽。在近期发表的一个包含实验验证的 RNA-小分子结合数据集上,AnewOmni 的生成似然可以有效地区分结合与非结合分子。
另一个有趣的发现是,随着生成分子大小的增加至超越传统小分子的范畴,AnewOmni 仍保持了较高的物理合理性,表现优于前沿文献中的基准模型,以及仅基于小分子数据训练的消融模型。这种超出“Lipinski五规则”限制的化学空间的探索,对于靶向那些传统上被视为“难成药”的靶点,如蛋白质-蛋白质相互作用界面,具有里程碑式的意义。
可编程设计:支持传统方法难以覆盖的复杂设计任务
现代分子设计的核心需求之一,是在生成过程中施加精确、可定制化的控制。AnewOmni 通过引入“可编程图提示”(Programmable Graph Prompts)机制,在这一点上提供了较为灵活的支持。该机制允许用户提供化学、拓扑和几何约束编码引导分子生成过程,无需重新训练模型,即可支持多种复杂的设计任务:
拓扑控制:通过施加连接约束,生成头尾环肽或通过二硫键成环的多肽。
化学组成控制:可以强制在序列中包含特定功能基序(如一段已知的细胞穿透肽序列),或从用户定义的库中采样并插入非天然氨基酸 (ncAA),以探索非传统化学空间。
相互作用控制:能引导分子与靶点表面的特定锚定残基形成相互作用,或设计能与特定残基形成共价键的分子。
分子生长与连接:支持在已有的分子骨架上定向生长出新的片段,以探索更深的口袋区域;或两个独立的分子片段之间设计一个刚性或柔性的连接子(Linker)。
首个完成湿实验闭环的“小分子-多肽-抗体”通用设计模型
计算模拟的结果可以提供初步参考,但真正的检验仍来自真实的生物实验。研究团队选择围绕两个难度较高的药物靶点:KRAS G12D 和 PCSK9 ,开展湿实验验证。
靶向“不可成药”的 KRAS G12D:跨模态设计尝试
KRAS 是最常见的致癌基因之一,其 G12D 突变体因表面光滑、缺少深结合口袋,长期被认为是“不可成药”的靶点。研究团队利用 AnewOmni,围绕其 Switch II 口袋,同时设计小分子、多肽、抗体抑制剂。值得一提的是,在同一个高难度靶点上,使用单一模型设计出三种不同模态、且均经实验验证有效的分子,在现有公开工作中极其少见。
小分子:由于靶点口袋浅,需要较大的分子骨架才能触及分散的关键残基,从头设计难度较高。AnewOmni 生成了一批候选分子,经过计算过滤、合成难度评估后,挑选了 3 个进行合成与测试。2 个分子展现出微摩尔级别的抑制活性 (IC50 分别为 24 μM 和 36 μM),成功率为 67%;而其中活性最强的KRAS G12D-compound-3因以四种立体异构体混合物形式存在,其真实活性可能被低估。同时,这些分子的化学骨架与已知抑制剂 MRTX1133 差异较大(Tanimoto 相似度仅为 0.12-0.15),说明模型有能力生成包含全新骨架的活性分子。
多肽:分别使用AnewOmni设计了线性肽和环肽。在线性肽中,30 个送测多肽分子中有 7 个满足 IC50 < 100 μM 的标准,成功率 23%,最佳活性达到 2.37 μM。在环肽中,20 个送测分子中有 7 个达到上述标准,成功率 35%,最佳活性为 11 μM。值得注意的是,训练数据中并无环肽,这一结果与模型的可编程性和跨模态知识迁移密切相关。
纳米抗体:结合 AlphaFold3 进行结构预测和筛选,AnewOmni 设计的纳米抗体在实验中表现出较高命中率。在使用严格的结构自洽性筛选时,4 个合成的纳米抗体中有 3 个显示出结合活性,成功率 75%。若仅依赖模型自身的生成似然进行筛选,同样有 33% 的成功率,并且发现了亲和力最强(Kd = 587 nM)的候选纳米抗体。
PCSK9:正构与变构两种策略,探索新的药物位点
PCSK9 是调节血液中“坏胆固醇”(LDL)水平的关键蛋白,抑制其功能是治疗心血管疾病的热门策略。
PCSK9与靶蛋白 LDLR 的结合是典型的蛋白-蛋白相互作用(PPI),其结合界面平坦而巨大,这给药物设计特别是小分子药物设计带来了巨大的挑战。基于此,AnewOmni 采用了两种不同策略:
正构抑制(多肽设计):在 PCSK9 与 LDLR 的天然结合界面上设计正构抑制肽。仅凭生成似然这一简单的计算指标进行筛选,在合成的7 个多肽分子中,有 4 个显示出低于 10 μM 的结合亲和力(Kd),成功率 57%,最佳者 Kd 达到 3.19 μM。
变构抑制(小分子设计):研究者注意到一个临床阶段的 PCSK9 小分子调节剂 AZD0780 作用机制尚不清晰,因此提出可能存在变构位点的假设,并利用 AlphaFold3 预测 AZD0780 与 PCSK9 的复合物结构。结果显示,94.5% 的预测结构都指向了一个位于 PCSK9 C-terminal 结构域的此前未被充分表征的变构口袋。以这个新发现的口袋为靶点,AnewOmni 从头设计了一批小分子,在合成的 9 个化合物中,3个显示出低于 10 μM 的结合亲和力(Kd),最佳者 Kd 为 2.72 μM。细胞实验证实,其中最有效的分子能够上调 LDLR 的表达,其效果与阳性药相当,并有效抑制了 PCSK9 的分泌,阐释了其可能通过“抑制 PCSK9 分泌来减少 LDLR 降解”的方式发挥作用。
原子级精度验证: 复合物晶体结构解析结果显示,AnewOmni 设计的小分子精准结合于预测的变构口袋中,实际结合构象与计算模型高度一致(RMSD = 0.92 Å),为 AnewOmni 的原子级设计精度提供了直接的结构生物学证据。
总结与展望
AnewOmni 的工作展示了在 AI 分子设计领域探索统一生成框架的一种全新思路。它通过一个原子级生成框架,在同一模型中处理小分子、多肽、抗体等不同模态,验证了跨模态知识迁移在实际任务中的可行性。其可编程性为应对复杂设计需求提供了较大的空间,而在高难度靶点上的实验结果,尤其是围绕新作用机制的探索,表明这一方向有望成为后续分子发现研究的重要工具之一。
当然,当前的工作流仍有优化空间,例如生成后筛选仍需要结合物理模拟和 AlphaFold3预测。但 AnewOmni 展示的框架为后续工作提供了一个值得进一步打磨的起点:未来的分子设计有望从孤立的单点技术,逐步走向通用的、可编程的、能够进行深度分子推理的整合平台,在更大程度上拓展我们探索分子空间的能力边界。
参考资料
Xiangzhe Kong, Junwei Chen, Ziting Zhang, Gaodeng Li, Qingyuan Zhu, Lei Wei, Mingyu Li, Yan Shi, Weiyang Dai, Zishen Zhang, Wenjuan Tan, Rui Jiao, Xiaolun Wang, Jiqing Zheng, Ziyang Yu, Qilong Wu, Zhiye Guo, Li Zhang, Wentao Li, Qiaojing Huang, Tian Zhu, Xiaowo Wang, Wenbing Huang, Yuli She, Jian Zhang, Yang Liu, Kai Liu, Jianzhu Ma.
bioRxiv 2026.03.12.711044;
doi: https://doi.org/10.64898/2026.03.12.711044