点击左下角 阅读原文 查看论文原文bioRxiv|AnewOmni 全原子生成模型:统一设计小分子、肽和纳米抗体,5 百万复合物训练,23%-75% 成功率
清华大学 + 字节跳动 AI 药物发现团队开发统一生成框架,跨分子模态可迁移设计,KRAS G12D 和 PCSK9 靶点验证,无需高通量筛选
论文速览
技术路线
构建统一训练数据集:整合 BioLiP2、CrossDocked2020、PDBbind v2020、SIU、PepBench、ProtFrag、SAbDab 等公共数据库,超过 500 万个生物分子复合物结构
设计原子到片段(atom-to-block)潜在空间:捕获原子细节和结构先验,支持跨分子模态的可迁移学习
开发全原子扩散生成模型:在潜在点云上操作,实现可扩展和高效的分子生成
引入可编程图提示(programmable graph prompts):支持用户定义的化学、拓扑和几何引导,探索超越经典结构的混合和非常规化学
靶点验证:KRAS G12D 开关 II 口袋(小分子、肽、纳米抗体)和 PCSK9(正构肽和变构小分子抑制剂,无已知结合位点)
低通量实验验证:23%-75% 成功率,无需模态特异性高通量筛选
实验阶段
数据整合:统一处理多源结构数据,标准化原子类型和相互作用表示,构建跨模态训练集
模型训练:在 500 万 + 复合物上训练扩散模型,学习分子识别的共享物理化学原理
潜在空间构建:atom-to-block 表示学习,将原子细节与结构片段关联,实现跨尺度迁移
图提示工程:设计化学约束(官能团、药效团)、拓扑约束(环系统、连接性)、几何约束(距离、角度)提示
KRAS G12D 验证:针对难成药开关 II 口袋,并行设计小分子、肽、纳米抗体三种模态
PCSK9 验证:在无已知结合位点情况下,设计正构肽和变构小分子抑制剂
实验测试:低通量结合实验验证,成功率 23%-75%, bypass 传统高通量筛选
方法复现要点
数据集构建:BioLiP2(https://aideepmed.com/BioLiP/download.html)、CrossDocked2020(Google Drive)、PDBbind v2020(https://www.pdbbind-plus.org.cn/)、SIU(Hugging Face)、PepBench/ProtFrag(Zenodo)、SAbDab(OPIG)
原子表示:全原子分辨率,包括重原子和氢原子,原子类型编码(元素、杂化、形式电荷),空间坐标归一化
扩散过程:在潜在点云上定义前向加噪和反向去噪过程,使用等变神经网络保证旋转平移不变性
图提示编码:将用户约束转化为图结构提示,与生成模型的条件输入融合,引导生成方向
生成采样:从先验分布采样,迭代去噪生成原子坐标和类型,后处理优化(能量最小化、立体冲突检查)
实验验证:表面等离子共振(SPR)或等温滴定量热法(ITC)测定结合亲和力,晶体学验证结合模式
关键数据:500 万 + 训练复合物、atom-to-block 潜在空间、可编程图提示、KRAS G12D/PCSK9 验证、23%-75% 成功率
论文标题:Programming Biomolecular Interactions with All-Atom Generative Model
研究团队:清华大学计算机系 + 智源研究院 + 字节跳动 AI 药物发现 + Anew Therapeutics
发表期刊:bioRxiv(预印本)
发布日期:2026 年 3 月 15 日
DOI:https://doi.org/10.64898/2026.03.12.711044研究背景
生物分子相互作用是细胞生命的核心,跨越从小分子到核酸和蛋白质的多种分子模态。然而,尽管分子识别共享相同的物理化学原理,设计策略仍然分离:小分子药物发现依赖基于结构的药物设计(SBDD)和虚拟筛选,肽设计聚焦于序列 - 结构关系,抗体工程则采用种系分析和亲和力成熟。这种模态分离限制了跨尺度知识迁移,导致每个领域都需要独立的专业知识和高通量筛选平台。
近年来,生成式 AI 在分子设计领域取得显著进展。扩散模型、变分自编码器和生成对抗网络已成功应用于小分子生成、蛋白质设计和抗体优化。然而,现有方法通常局限于单一分子模态:小分子生成模型无法处理大生物制剂,蛋白质设计模型不考虑小分子配体。这种局限性源于训练数据的模态分离和模型架构的尺度限制。
AlphaFold 3 展示了统一预测生物分子复合物结构的潜力,但预测能力不等同于设计能力。真正的分子设计引擎需要能够从相互作用模式反向推导分子结构,支持用户定义的约束,并跨越分子尺度进行可迁移学习。这需要一个生成式基础模型,能够理解生物分子相互作用的通用原理,并在原子分辨率上实现可编程设计。
Figure 1:AnewOmni 统一生成框架概览
图注:AnewOmni 框架整合多源生物分子复合物数据(BioLiP2、CrossDocked2020、PDBbind、SIU、PepBench、ProtFrag、SAbDab),构建超过 500 万复合物的统一训练集。模型学习 atom-to-block 潜在空间,捕获原子细节和结构先验。扩散生成模型在潜在点云上操作,支持小分子、肽、纳米抗体等多种分子模态的可编程设计。用户可通过图提示定义化学、拓扑和几何约束,引导生成过程。核心创新
统一生成框架 AnewOmni
AnewOmni 是首个实现跨所有分子尺度功能分子设计的生成模型,从小化学实体到大生物制剂。该框架的核心创新在于 atom-to-block 潜在空间,它将原子级细节(元素类型、杂化状态、形式电荷)与结构片段(氨基酸、核苷酸、药效团)关联,实现跨模态的可迁移学习。通过在全原子分辨率上训练,模型学习了分子识别的通用物理化学原理,而非特定模态的经验规则。
训练数据集整合了超过 500 万个生物分子复合物,涵盖蛋白质 - 配体、蛋白质 - 肽、蛋白质 - 抗体、蛋白质 - 核酸等多种相互作用类型。这种数据多样性使模型能够学习跨模态的共享特征:氢键网络、疏水效应、π-π堆积、阳离子 -π相互作用、盐桥等非共价相互作用的几何和能量约束。统一训练避免了模态特异性偏差,使模型能够灵活适应不同设计任务。
全原子扩散生成模型
AnewOmni 采用扩散模型作为生成架构,在潜在点云上定义前向加噪和反向去噪过程。与基于 SMILES 或图的方法不同,全原子表示保留了三维结构信息,使模型能够直接学习空间约束和立体化学规则。扩散过程的迭代特性允许模型逐步细化生成结构,从粗糙形状到精确原子位置,类似于蛋白质折叠的能量景观探索。
模型使用等变神经网络(equivariant neural networks)保证旋转和平移不变性,这对于分子生成至关重要。无论输入复合物如何定向,生成的配体结构应保持一致。等变性还使模型能够学习方向敏感的相互作用,如氢键的方向性、芳香环的平面约束等。这些几何先验对于生成可结合、可合成的分子至关重要。
可编程图提示
AnewOmni 引入可编程图提示(programmable graph prompts)机制,支持用户定义的化学、拓扑和几何引导。化学提示可指定必需官能团(如羧酸、胺、酰胺)、禁止子结构(如毒性基团、代谢不稳定位点)、药效团约束(氢键供体/受体、疏水区域、电荷中心)。拓扑提示可定义环系统(芳香环、脂环)、连接性(线性、分支、大环)、分子量范围。几何提示可约束距离(结合口袋关键残基距离)、角度(氢键角度)、二面角(构象偏好)。
图提示通过与生成模型的条件输入融合,在去噪过程中引导生成方向。这种方法超越了传统的基于规则的过滤,允许用户在生成过程中实时干预,探索混合和非常规化学空间。例如,用户可以提示模型生成含有非天然氨基酸的肽、含有硼原子的有机小分子、或含有 D 型氨基酸的手性翻转肽。这种灵活性使 AnewOmni 能够探索超越经典药物化学的设计空间。
跨模态可迁移设计
AnewOmni 的关键优势是跨分子模态的可迁移设计能力。传统方法需要为小分子、肽、抗体分别建立独立模型,每个模型只能在其训练模态内生成。AnewOmni 通过统一表示和联合训练,实现了知识跨模态迁移:从小分子 - 蛋白复合物学习的结合模式可以指导肽设计,从抗体 - 抗原复合物学习的界面特征可以指导小分子设计。
这种可迁移性在难成药靶点设计中尤为重要。对于 KRAS G12D 等缺乏深口袋的靶点,单一模态设计往往失败。AnewOmni 可以并行设计小分子、肽、纳米抗体,比较不同模态的结合潜力,选择最优方案。这种多模态筛选策略显著提高了成功率,避免了在单一模态上过度投入资源。
Figure 2:AnewOmni 的计算机模拟分析
图注: 对 AnewOmni 生成设计的物理有效性、计算结合能、相互作用忠实度及跨模态泛化能力进行了全面评估,涵盖分布内和分布外设置。a, 整合多个公开基准测试的加权总分,涵盖小分子、多肽和抗体的从头设计。b, 构建块潜空间的 t-SNE 可视化,展示了分子片段与氨基酸(标注主链与侧链)的结构聚类。c, 相互作用类型分布分析(左)及联合训练与单模态训练在疏水作用和氢键生成上的差异对比(右)。d, 针对同一靶标位点(9DMV)生成的多种模态结合剂可视化及其相互作用统计。e, 在 139 个 DNA/RNA 靶标上的小分子生成成功率,以达到天然结合剂不同比例结合能为衡量标准。f, 在具有二元标签的新实验数据集上,利用生成似然值实现 RNA 结合小分子的零样本预测。g, 针对磷酸化位点生成小分子的 XDock 评分分布及代表性结构展示。h, 生成小分子的 PoseBusters 物理有效性随分子量的变化曲线,对比了不同模态组合训练对模型性能的贡献,并展示了高分子量下的代表性生成实例。领域对比
AnewOmni 与现有分子生成方法的性能对比
训练数据规模:500 万 + 生物分子复合物,超越单一模态数据集(如 ZINC 2.5 亿小分子、PDB 20 万蛋白质结构)
分子模态覆盖:小分子、肽、纳米抗体、核酸,统一框架支持跨模态设计
分辨率:全原子级别,包括氢原子,保留立体化学和构象信息
可编程性:图提示支持化学、拓扑、几何约束,用户可实时干预生成过程
成功率:23%-75%(低通量验证),bypass 高通量筛选
靶点验证:KRAS G12D(难成药开关 II 口袋)、PCSK9(无已知结合位点)
可迁移性:跨模态知识迁移,小分子 - 肽 - 抗体设计共享学习特征
生成效率:扩散模型在潜在点云上操作,可扩展到大型生物制剂关键数据
500 万 + 训练复合物:整合 BioLiP2、CrossDocked2020、PDBbind、SIU、PepBench、ProtFrag、SAbDab 等公共数据库
全原子分辨率:包括重原子和氢原子,保留立体化学和构象信息
atom-to-block 潜在空间:捕获原子细节和结构先验,支持跨尺度迁移
可编程图提示:化学、拓扑、几何约束,用户可定义引导策略
KRAS G12D 验证:小分子、肽、纳米抗体三种模态并行设计
PCSK9 验证:正构肽和变构小分子抑制剂,无已知结合位点
23%-75% 成功率:低通量实验验证,bypass 高通量筛选
首个跨所有分子尺度:从小化学实体到大生物制剂的功能分子设计
Figure 3:定制化控制的可编程设计
图注: AnewOmni 支持在分子生成过程中灵活引入化学、拓扑和几何控制。a, 通过强制 N 端与 C 端形成酰胺键,生成具有指定氨基酸数量的头尾环化肽。b, 通过设定两个半胱氨酸残基形成二硫键,生成特定长度的二硫键环肽。c, 通过固定特定的序列模板,在多肽生成中嵌入预定义的细胞渗透性基元。d, 支持从用户定义的库中采样并插入指定数量的非天然氨基酸 (ncAA) 进行多肽设计。e, 引导多肽生成,使其与结合位点上的特定锚定残基产生相互作用。f, 通过引入反应性非天然氨基酸,生成能与目标残基形成共价键的多肽。g, 基于支架的分子增长,将现有分子延伸至结合位点更深处的区域。h, 在结合位点内设计连接体(Linker),以连接两个预定义的分子片段。
Figure 4:针对 KRAS G12D 的多模态结合剂设计
图注: 展示了针对 KRAS G12D 同一 Switch II 结合位点设计的小分子、多肽和纳米抗体。a, 设计的小分子、多肽及纳米抗体的代表性可视化图,并标注了相对于参考配体的半抑制浓度 (IC50) 或测得的解离常数 (Kd)。b, 由 AnewOmni 生成的小分子 compound-3 与 KRAS G12D 结合的化学结构及三维几何构象。c, 通过均相时间分辨荧光 (HTRF) 实验测得的 compound-3 对 KRAS G12D 的 IC50 值。d-g, 线性肽(linpep-12, -5)与环肽(cycpep-5, -1)结合 KRAS G12D 的结构展示,以及通过 HTRF 确定的相对于参考配体的 IC50。h-i, 纳米抗体(nanobody-7, -1)与 KRAS G12D 的结合结构,以及通过生物膜层干涉技术 (BLI) 测得的结合亲和力。
Figure 5:针对 PCSK9 的正构与变构抑制剂设计
图注: 展示了针对 PCSK9 的正构多肽设计,以及通过识别变构结合位点设计具有潜在新作用机制 (MoA) 的小分子抑制剂。a, 生理状态下 LDLR 循环与 LDL 清除的示意图:LDL 与细胞表面的 LDLR 结合后通过内吞作用降解,而 LDLR 循环回细胞表面。b, PCSK9 介导的 LDLR 溶酶体降解示意图:PCSK9 结合促进了 PCSK9–LDLR 复合物的降解,减少了 LDLR 丰度。c, 正构与变构抑制 PCSK9 功能的机制示意图:正构抑制剂直接阻断 PCSK9–LDLR 相互作用,而变构抑制剂则可能通过阻断 PCSK9 分泌来间接防止 LDLR 降解。d, 左侧展示了 PCSK9 上的正构与变构位点(变构位点由 AlphaFold3 预测得出);右侧展示了设计的多肽与小分子的实测解离常数 (Kd) 分布。e-f, 针对正构位点设计的多肽 peptide-7, -3 的结构及其通过表面等离子体共振 (SPR) 测得的亲和力。g-h, 针对变构位点设计的小分子 compound-3, -6 的结构及 SPR 亲和力,其中 compound-3 的晶体结构与设计结构的 RMSD 仅为 0.92 Å。i, 细胞实验结果显示,设计的小分子能浓度依赖性地上调 LDLR 并抑制 PCSK9 分泌,图中包含了阳性对照 AZD0780 的对比数据。研究意义
AnewOmni 代表了分子设计领域的重要突破,是首个成功实现跨所有分子尺度功能分子设计的生成模型。通过统一训练和 atom-to-block 潜在空间,AnewOmni 证明了分子识别的共享物理化学原理可以被学习并迁移到不同模态。这一发现挑战了传统药物化学中模态分离的范式,为理性设计提供了新的理论基础。
可编程图提示机制将用户专业知识整合到生成过程中,实现了人机协同设计。药物化学家可以基于经验和直觉定义约束,引导模型探索特定化学空间,而不是被动接受模型输出。这种交互模式保留了人类创造力,同时利用 AI 的生成能力,代表了 AI 药物发现的未来方向。
AnewOmni 的成功验证(23%-75% 成功率,bypass 高通量筛选)展示了生成式 AI 在药物发现中的实际价值。传统药物发现依赖大规模化合物库筛选,成本高、周期长、成功率低。AnewOmni 通过理性设计直接生成活性分子,显著缩短发现周期,降低研发成本。对于难成药靶点(如 KRAS G12D),多模态并行设计策略提供了新的解决思路。局限性与未来方向
ADMET 性质预测整合
AnewOmni 当前专注于结合亲和力和结构设计,未直接优化 ADMET(吸收、分布、代谢、排泄、毒性)性质。未来可将 ADMET 预测模型整合到生成过程中,通过多目标优化同时考虑效力和药物性质。例如,可添加提示约束 logP、溶解度、代谢稳定性、hERG 抑制等性质。
可合成性评估
生成分子的可合成性是关键挑战。虽然图提示可约束化学合理性,但复杂结构可能难以合成。未来可整合逆合成分析工具(如 AiZynthFinder、ASKCOS),在生成过程中实时评估合成路线,优先选择易合成分子。
动态相互作用建模
AnewOmni 基于静态结构训练,未考虑蛋白质构象变化和结合动力学。未来可整合分子动力学模拟数据,学习动态相互作用模式,设计适应构象变化的变构调节剂。
临床前验证
当前验证仅限于体外结合实验,需要体内药效、药代、毒理评估。AnewOmni 设计分子的临床前开发将验证生成模型的实际应用价值。
Take Home Message
清华大学 + 字节跳动团队开发 AnewOmni,首个跨所有分子尺度的统一生成框架。
500 万 + 生物分子复合物训练,atom-to-block 潜在空间实现跨模态可迁移学习。
全原子扩散模型支持小分子、肽、纳米抗体并行设计,可编程图提示允许用户定义化学、拓扑、几何约束。
KRAS G12D 和 PCSK9 靶点验证,23%-75% 成功率,bypass 高通量筛选。AnewOmni 代表生成式 AI 药物发现的重要进步,为理性分子设计提供通用基础模型。
参考文献
Kong, X., Chen, J., Zhang, Z., Li, G., Zhu, Q., Wei, L., Li, M., Shi, Y., Dai, W., Zhang, Z., Tan, W., Jiao, R., Wang, X., Zheng, J., Yu, Z., Wu, Q., Guo, Z., Zhang, L., Li, W., Huang, Q., Zhu, T., Wang, X., Huang, W., She, Y., Zhang, J., Liu, Y., Liu, K., & Ma, J. (2026). Programming Biomolecular Interactions with All-Atom Generative Model. bioRxiv.
Abramson, J., Adler, J., Dunger, J., et al. (2024). Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630, 493–500.
Ingber, D. E. (2025). AI-driven drug discovery: From hype to reality. Nature Reviews Drug Discovery, 24, 1-2.
Vamathevan, J., Clark, D., Czodrowski, P., et al. (2019). Applications of machine learning in drug discovery and development. Nature Reviews Drug Discovery, 18, 463–477.