从零创造分子捕手:小分子结合蛋白设计的故事
一个关于人类如何学会用计算机"写"出自然界不存在的蛋白质,来捕捉任意小分子的进化史。目录
叙事篇:方法与应用的演化史
引子:一个根本的生物学问题
第一幕:热力学的铁律——为什么结合这么难
第二幕:物理建模时代——地高辛的胜利
第三幕:结构单元的发现——从旋转异构体到结合密码
第四幕:幻觉与扩散——AI学会设计蛋白质
第五幕:正设计+负设计——不只是结合,更是特异性结合
第六幕:医药——分子海绵时代来临
第七幕:酶催化——让简单骨架做化学
第八幕:农业与环境——从实验室到田间
尾声:未来已来——从零样本到通用设计
工具篇:工具箱系统解析
工具物语:蛋白设计工具系统解析
A. 工具全景图
B. 骨架生成:RFdiffusion三部曲
C. 序列设计:ProteinMPNN→LigandMPNN
D. 全原子预测:Boltz-1/2与RFAA
E. 新框架:BoltzDesign1与BoltzGen
F. 物理评估:Rosetta体系
阅读指南:不同背景读者如何使用本文
参考文献(JACS格式)引言:一个根本的生物学问题
想象一个场景: 你体内刚摄入了一种药物,需要有一个蛋白质精准地抓住它。或者,你希望有一种蛋白质能检测到水中万亿分之一浓度的农药残留。再或者,你想创造一种自然界从未存在过的酶,让它在工业反应器中高效催化化学反应。
这三个场景指向同一个根本问题:如何设计一个蛋白质,让它精确地识别并结合一个小分子?
在很长一段时间里,这个问题的答案只有两个字——进化。自然界用数十亿年的时间,通过随机突变和自然选择,筛出了抗体、受体、酶等无数精确的分子识别机器。但进化是盲目的、缓慢的、不可控的。
计算蛋白质设计(Computational Protein Design)的目标,就是让这个过程变得可控。
小分子结合蛋白的从头设计——即从零开始创造能识别并结合特定小分子的蛋白质——是这一领域最具挑战也最具实用价值的子领域。它位于结构生物学、物理化学、计算科学和合成生物学的交汇处,其进展反映了一个时代的技术极限。
这个故事,就是关于人类如何一步步突破这一极限。第一幕:热力学的铁律——为什么结合这么难
在讲任何工具之前,我们必须先理解一个基础物理问题:蛋白质和小分子为什么能结合?又为什么很难从头设计?1.1 结合的本质:一场焓与熵的交易
蛋白-小分子结合的核心方程只有简单的四个符号:
ΔG = ΔH − TΔS
这个方程支配着一切。ΔG是结合自由能——它必须是负数,结合才能发生。而让它变负有两种方式:
降低焓(ΔH < 0):形成氢键、范德华力、盐桥、阳离子-π相互作用——物理上"粘在一起"
增加熵(ΔS > 0):疏水效应——把非极性表面周围有序排列的水分子释放回自由溶剂中
但每件事都有代价。大自然是一位严格的会计:
你想得到的
你必须付出的
一个完美的氢键(~2 kcal/mol)
如果这个氢键在蛋白质内部没形成,代价是 2-5 kcal/mol 的惩罚
疏水残基埋藏带来的熵增
配体失去平动和转动自由度(~15 kcal/mol的熵惩罚)
结合位点的完美几何匹配
蛋白质本身的折叠稳定性可能被破坏
这就是为什么从头设计结合蛋白很难:你需要同时满足多个物理约束,而它们常常相互矛盾。1.2 为什么形状互补性是第一道关卡
想象你要做一个能精确容纳一颗钻石的盒子。这个盒子不能太大(钻石会晃动),不能太小(放不进去),内壁必须与钻石的每一个面贴合。这就是形状互补性(Shape Complementarity, Sc)。
在原子层面,范德华力随距离的6次方衰减。这意味着只有间距在3-4 Å之间的原子对才真正贡献于结合。如果结合界面有空洞或碰撞,你的设计基本就失败了。
Sc值的物理含义:0 = 两者完全没接触;1 = 完美贴合。天然酶-底物界面的Sc通常在0.6-0.75。低于0.5意味着你的设计存在严重问题。1.3 最致命的错误:埋藏但未配对的极性原子
在所有设计错误中,这是最致命的:一个极性原子(如羰基氧、酰胺氮)被埋藏在蛋白质内部,周围是疏水环境,却没有任何氢键伙伴。
为什么这么致命?
这个极性原子在水中时,周围的水分子会通过氢键配位它——这是有利的。当你把它埋入蛋白内部却不给它替代的水或蛋白氢键伙伴,相当于你剥夺了它的溶剂化稳定,却什么都没补偿。
每个这样的"未满足"极性原子,代价约2-5 kcal/mol。
换算成亲和力:
ΔG = −RT ln(KD)
3 kcal/mol ≈ 150倍亲和力损失
一个未满足极性原子可以把nM级的结合剂变成μM级
因此这个领域有了一条铁律:delta_unsatHbonds 必须等于零。零容忍。
💡 启发点1:计算机设计的最大敌人不是"算不准",而是"算出来了但物理上不可能"。理解底层物理化学原理,远比调参重要。后面你会看到,即使在AI时代,这些物理检查仍然是不可跳过的最后防线。第二幕:物理建模时代——地高辛的胜利(2013–2019)2.1 改变一切的论文
2013年,华盛顿大学David Baker实验室在Nature上发表了一篇里程碑论文,标题平淡无奇:"Computational design of ligand-binding proteins with high affinity and selectivity"。
它回答了一个在当时看来几乎不可能的问题:我们能否完全从零开始,用计算机设计一个自然界不存在的蛋白质,让它以皮摩尔级的亲和力结合一个小分子药物?
答案是:可以。2.2 他们做了什么:步步为营的设计逻辑
目标分子是地高辛(digoxigenin, DIG)——一种强心苷类药物。他们定的目标是5个关键相互作用:3个氢键 + 2个疏水堆积。
然后是一个优雅的四步流程:
第一步:匹配(Matching)。用RosettaMatch在401个天然蛋白骨架中搜索——哪些骨架能在几何上同时容纳这5个相互作用的约束?这就像在401个不同的盒子里找哪个能放下你的钻石。
第二步:第一轮序列设计。 在选中的骨架上,用Rosetta的能量函数优化界面氨基酸序列,最大化配体结合亲和力。
第三步:第二轮序列设计——恢复稳定性。 这是关键创新。他们意识到最大化结合可能会破坏蛋白质本身的稳定性,所以第二轮设计在维持界面的同时偏向保留天然残基,给配体-蛋白相互作用×1.5的权重,同时限制高保守位点的突变数量。
第四步:实验验证和迭代。 首轮设计DIG10有微弱的结合,经过三轮突变优化(DIG10.1 → DIG10.2 → DIG10.3),最终获得了皮摩尔级亲和力,媲美天然抗地高辛抗体。2.3 为什么这件事如此重要
这是人类历史上第一次完全从零开始设计一个小分子结合蛋白,并获得晶体结构验证。设计模型与实验结构的Cα RMSD仅0.54 Å——相当于几乎完美预测了蛋白质每一个原子的位置。
同时发表的姊妹篇(Schreier et al.)提出了设计"配方":
结合位点必须有高形状互补性
结合位点在未结合态就应预组织
所有埋藏的极性原子必须形成氢键
疏水表面应最大化埋藏
这四个原则,至今仍是这个领域的"圣经"。
💡 启发点2:Tinberg的成功不是靠"算得多",而是把问题简化到了极致——只定义5个关键相互作用。当问题太复杂时,先找最小可行约束集。另外,两轮设计(先优化结合,再恢复稳定性)的思想,体现了对蛋白质"能量漏斗"本质的深刻理解——结合只是漏斗的一部分,折叠稳定性才是地基。2.4 β-桶的突破:RIF算法的诞生
2018年,同实验室的Dou et al.在Nature上实现了另一个"第一次":从头设计β-桶状折叠蛋白,并且让它结合荧光小分子DFHBI并激活荧光。
这里的方法学创新是RIF(Rotamer Interaction Field)算法:
传统RosettaMatch一次只能搜索一个配体-骨架组合。RIF用分层网格搜索,同时优化配体的6自由度位置和周围氨基酸侧链类型。这使得搜索速度提升了几个数量级。
另一个关键教训来自β-桶设计:他们发现同质化的β链会导致聚集。必须打破对称性——故意引入甘氨酸破坏理想的对称排列,才能形成正确的氢键网络。这暗示了一个深层原理:完美的对称性在蛋白质设计中往往是陷阱。 自然界讨厌完美对称,因为它减少了折叠特异性。第三幕:结构单元的发现——从旋转异构体到结合密码(2020–2023)3.1 氨基酸有旋转异构体,配体-蛋白相互作用也有
在Rosetta中,每个氨基酸侧链用一套离散的"旋转异构体(rotamer)"表示——即侧链在空间中最常出现的构象。这大大降低了搜索空间,是Rosetta成功的基础。
Polizzi & DeGrado (2020) 在Science上发表的工作提出了一个革命性的类比:蛋白质-配体相互作用也有自己的"旋转异构体"。
他们定义了一种叫做vdM(van der Mer)的结构单元:将主链的特定位置+化学基团(如酰胺、羟基、羰基)的全对全叠加,按RMSD聚类,形成一个配体-蛋白相互作用的"结构单元库"。
然后他们问:在PDB(蛋白质数据库)中,哪些vdM出现频率显著高于随机期望? 用对数几率富集分数C来排名。
这个思路的美妙之处在于:它利用了大自然数十亿年的进化数据,告诉我们"什么样的蛋白-配体相互作用是可行的"。
用这个体系,他们为抗凝药阿哌沙班(apixaban)设计了从头四螺旋束:
6个设计中2个有结合(33%命中率)
ABLE: KD~5 μM; LABLE: KD~0.6 μM
X射线结构分辨率1.3 Å, Cα RMSD=0.7 Å3.2 伪环幻觉:让AlphaFold2"做梦"
2023年,An, Hicks, Zorine, Baker等在NSMB上展示了另一个巧妙的策略:利用AlphaFold2的幻觉(hallucination)来生成蛋白骨架。
原理是这样的:AlphaFold2本是被训练来从序列预测结构的。但如果反过来——给它一个随机的序列,在序列空间做MCMC采样,同时用结构约束(想要的折叠类型)来引导,会发生什么?
AlphaFold2会"幻觉"出一个它认为这个序列应该折叠成的结构。通过精心设计的损失函数(如让螺旋参数趋向闭合环),可以引导它生成具有中央口袋的闭合重复蛋白(伪环)。
结果:
21,021个设计生成
81/96可溶表达
38个折叠良好
3个晶体结构验证(Cα RMSD 0.5-0.8 Å)
这暗示了一个深层概念:与其显式设计结构,不如让AI在"序列-结构"的联合空间中探索——AI已经在训练中内化了蛋白质折叠的规律。
💡 启发点3:vdM的发现告诉我们,最强大的方法往往来自最简单的洞察——"等一下,蛋白质-配体相互作用是不是也有像rotamer那样的统计规律?"而这恰恰是初学者和资深研究者都可以学的:在动手设计之前,先去理解自然界已有的规则。 统计数据中藏着你需要的一切。第四幕:幻觉与扩散——AI学会设计蛋白质(2024–2026)4.1 RFdiffusionAA:从噪声中生成蛋白质
2024年是分水岭。Krishna, Baker等在Science上发表了RoseTTAFold All-Atom (RFAA)和RFdiffusionAA。
要理解这个突破,你需要理解"扩散模型"的基本思想:
传统设计:先有骨架库 → 搜索匹配 → 序列设计 → 验证。你必须从已有的东西出发。
扩散模型:从纯噪声开始,逐步"去噪",最终生成一个有意义的蛋白质骨架——而且是在目标小分子的引导下。你不需要骨架库了。
RFdiffusionAA的创新在于双轨表示:蛋白质/核酸用残基层面表示(高效),小分子/金属用原子图表示(精确)。这让它成为第一个能同时处理蛋白质和任意小分子的扩散模型。
实验验证极其漂亮:
地高辛结合蛋白(与你前面读到的Tinberg 2013同一靶标,用了完全不同方法)
血红素(heme)结合蛋白——晶体结构Cα RMSD = 0.86 Å
胆绿素(bilin)结合蛋白4.2 LigandMPNN:让序列设计"看到"配体
编注:LigandMPNN 本质上是序列设计(反向折叠)工具,与 ProteinMPNN(2022)同属 GNN 编码器-解码器家族。之所以放在本幕而非工具篇单独详述,是因为它在2025年的发表标志着"配体感知序列设计"能力的成熟——恰好与 RFdiffusionAA(2024)形成"骨架生成+配体感知序列设计"的完整管道,两者共同定义了全原子设计时代的方法学范式。详细架构见工具篇 D.2。
2025年,Dauparas, Baker等在Nature Methods上发表了LigandMPNN——这是ProteinMPNN的升级版,首次以非蛋白原子(小分子、金属、核苷酸)为条件来设计蛋白序列。
为什么这很重要?
ProteinMPNN设计序列时只能"看到"蛋白质骨架。对于结合蛋白,它不知道口袋里有个配体——它只是在设计骨架的序列,然后希望配体能结合。
LigandMPNN在生成每个氨基酸时都能"看到"配体原子,因此它可以:
在配体羰基旁边放一个氢键供体(Tyr/Ser/Thr)
在配体芳环旁边放一个芳环(Phe/Tyr/Trp)
在配体羧基旁边放一个正电荷(Arg/Lys)
性能提升是显著的:配体接触残基序列恢复率63.3%——这意味着每3个配体接触残基中,LigandMPNN能正确预测约2个。对比ProteinMPNN的50.5%和Rosetta的50.4%。4.3 形状互补伪环:两轮策略实现700倍提升
An, Baker等2024年在Science上的另一篇论文展示了将伪环骨架与RIF对接和LigandMPNN结合的威力:
第一轮:初始骨架对接 → 形状互补性过滤 → μM级命中(胆酸3.2-5.3 μM;甲状腺素47-575 nM)
第二轮:围绕第一轮命中区域进行骨架重采样(生成1000-3000万对接) → 更严格的形状互补性过滤 → ~700倍亲和力提升(胆酸4.7 nM;甲状腺素18.2 nM)
这个"两轮策略"是Tinberg 2013思想的现代升级版:先粗筛找方向,再精细搜找最优解。4.4 NISE:零样本的魔力
然而,2025年最让人惊叹的可能是Fry, Polizzi等的NISE(Neural Iterative Selection-Expansion)。
传统设计管道需要大量计算筛选(数万到数百万个设计),NISE只需要一个循环:
选择(Selection):用自洽性过滤——设计模型与RFAA预测结构之间的RMSD必须低,配体pLDDT必须高
扩展(Expansion):用LASErMPNN在高温下对每个"存活"结构采样多条序列
迭代至收敛
靶向抗癌药exatecan的结果震惊了领域:
4/4设计有结合——100%命中率
初始最佳KD ~100-120 nM
经"神经校对"后亲和力提升>100倍:KD = 1.2 ± 0.2 nM
更妙的是,设计蛋白还保护了药物中不稳定的内酯环免于水解——这在药物化学中是一个实际应用价值极高的意外收获。
为什么NISE有效? 因为它隐式地实现了我们下一幕要讲的"负设计"。自洽性过滤淘汰了那些"序列不能强制配体保持正确位置"的设计——这不就是"不具备结合特异性"的定义吗?4.5 还有更多
RFdiffusion3(2025):DNA结合、高级酶设计、速度提升10倍
CLAIRE(2026):混合物理能量函数和深度学习,在α-β骨架上实现组合设计
NTF2蛋白家族(Lee, Baker et al. 2026):从一个骨架出发设计结合6种不同小分子的蛋白家族,并集成为皮质醇生物传感器(KD=68 nM, EC50≈72 nM)
💡 启发点4:从2013到2026,命中率从<5%提升到100%(当然是在小规模测试中)。这背后最重要的变化不是算力的增长,而是范式的转换——从"手工定义约束→搜索有限库"到"AI从噪声中生成→物理检查把关"。前者是你告诉计算机做什么,后者是计算机学会了自己做。但请注意:物理检查(Sc>0.5, unsat=0, clash-free)从未被取代——深度学习降低了探索门槛,但物理学仍然是质量的守门人。第五幕:正设计+负设计——不只是结合,更是特异性结合(基础方法论)
这一节是全文的理论核心。如果你只想理解一件事,就理解这个。5.1 为什么仅"让蛋白结合配体"不够
所有设计方法——无论是Rosetta还是RFdiffusion+LigandMPNN——本质上都在做正设计(Positive Design):让蛋白质在目标结合状态能量最低。
但仅做正设计会导致四个问题:
折叠错误:序列可能在另一种折叠中能量更低→蛋白根本不按设计折叠
聚集:表面疏水基团在不同链间非天然堆积→包涵体
非特异性结合:结合界面太过"通用"→脱靶
多态性:未考虑的替代构象更具优势→功能丧失
论文中的经典洞察(Berezovsky, Zeldovich & Shakhnovich, 2007):
"天然蛋白质通过从疏水性尺度的两端同时操作来扩大能量间隙:疏水残基(Ile, Val, Leu)通过稳定天然核心贡献正设计,而带电残基(Glu, Lys, Arg)通过在非天然构象中相互排斥贡献负设计。"
翻译成人话:正设计把目标态往下拉,负设计把竞争态往上推。两者协同,才能造出真正的"能量漏斗"。5.2 负设计的三个层次
层次1:隐式负设计——"防御性编程"
不需要显式建模竞争态,而是通过设计原则间接避免问题:
表面放极性残基(不粘)
核心用形状特异的β支链残基(Ile, Thr——在其他构象中制造冲突)
螺旋正确封端(N-cap/C-cap稳定螺旋方向)
层次2:显式多态负设计——"给每个脱靶配体建模"
使用MPI-MSD(多态设计遗传算法)或Rosetta MSF,同时优化多个状态:
正状态:靶标配体复合物——能量越低越好
负状态1:脱靶配体1复合物——能量越高越好
负状态2:脱靶配体2复合物
apo态:无配体的蛋白质——必须自身稳定
适应度函数大致如下:
这里的
是关键:只惩罚与脱靶配体的有利结合,不惩罚脱靶配体本来就结合不上的情况。 如果你不设这个截断,算法会制造物理上不可能的大冲突来"完成任务"。
层次3:迭代负设计——"让负状态也进化"
核心挑战:负状态的构象多样性决定了负设计的准确性。第一轮你对脱靶配体的结合姿势只是"猜"的。所以在每轮设计后:
重新用RosettaLigand对接脱靶配体到新设计的口袋
收集低能脱靶结合姿势
将它们添加为新的负状态
重新运行设计
重复直到预测结合能收敛(通常3-4轮,论文报告第4轮误差从16.5降到4.8 REU)5.3 为什么深度学习时代负设计更隐蔽但同样重要
RFdiffusion和LigandMPNN没有内建的负设计功能。你给它们一个配体,它们就给你一个结合蛋白。但它们的输出是否具备特异性?
有三种补偿策略:
策略1:量变引起质变。 生成10³-10⁵个设计,然后对靶标配体和脱靶配体分别计算结合能,筛出特异性窗口>2 kcal/mol的。简单粗暴,但计算量巨大。
策略2:隐式引导。 LigandMPNN中的omit_AA(排除特定氨基酸)和bias_AA(偏倚特定氨基酸)可以在序列层面推离"通用粘性界面"——例如在疏水口袋周围限制芳香族残基。
策略3:NISE的自监督。 自洽性过滤天然淘汰了"对配体无特异性"的序列——因为如果序列不强制配体保持正确位置,RFAA预测的配体位置就会飘忽不定,配体pLDDT就低,设计就被淘汰。这可能是目前最优雅的隐式负设计。
💡 启发点5:正设计和负设计的概念,其实是所有工程问题的通用框架——不只是"把事情做对",还要"让错误的事情不可能发生"。 在蛋白质设计中,这个框架以极清晰的物理形式呈现。当你理解了能量间隙原理,你就理解了为什么大自然是"漏斗"形状——而好的设计,就是造出一个底部够深、坡面够陡、没有旁路的漏斗。第六幕:医药——分子海绵时代来临
当你能从头设计任何小分子的结合蛋白时,医药领域的可能性是革命性的。6.1 药物解毒与分子海绵
Fry et al. (2025) 的NISE直接展示了药物结合蛋白的潜力。靶向exatecan(一种抗癌药)的设计蛋白不仅以nM级亲和力结合,还意外保护了药物中不稳定的内酯环免于水解。
这意味着什么?设计蛋白不仅可以"抓住"药物,还可以"保护"药物。 这对药物递送和控释有直接影响。
更直接的应用是药物解毒。2025年的一篇论文展示了从头设计蛋白用于快速清除血液中的非手性小分子药物——本质上是一个可编程的"分子海绵",可以设计来清除任何过量药物。6.2 生物传感器的医学应用
Lee et al. (2026) 的工作展示了从NTF2骨架出发设计的蛋白家族如何被集成为基于NanoBiT的皮质醇生物传感器(EC50≈72 nM)。皮质醇是压力激素,其快速检测在临床上有广泛应用。
更宏观的图景是:设计蛋白传感器可能补充甚至部分替代抗体在诊断中的应用。 设计蛋白比抗体更小(更好组织穿透)、更稳定(无需冷链)、更容易工程化改造、生产成本更低。6.3 毒素中和
综述文献(Fox et al. 2025)报告了多个令人震惊的成果:
蛇毒α-神经毒素:pM级亲和力的从头结合蛋白,小鼠模型100%存活率
艰难梭菌毒素B:双特异性mini-binder,抵抗肠道蛋白酶
淀粉样蛋白:针对历史上"不可药物化"靶标的第一代结合剂6.4 免疫肿瘤学
传统抗体是"抑制型"的——它们拮抗受体。但设计蛋白可以做信号激活:
TNFR1被"重新编程"为OX40/4-1BB激动剂
效力是天然配体的3倍
这意味着一个新的治疗范式:设计蛋白不仅是阻断剂,也可以是精确的信号调节器。6.5 细胞控制与化学遗传学
2026年的一篇论文展示了从头设计的小分子调控蛋白开关——蛋白在小分子存在时改变构象,从而可以控制细胞行为(化学光遗传学)。这为精准细胞治疗提供了"遥控器"。
💡 启发点6:医药是蛋白设计最自然的应用方向,但真正有趣的是范式转变——从"发现"到"设计"。抗体是发现的(免疫动物→筛选),小分子药物是筛选的(高通量筛选化合物库)。设计蛋白让你从"在已有的里面挑"变成"需要什么造什么"。这就像从"采猎时代"进入了"农业时代"。第七幕:酶催化——让简单骨架做化学
如果说小分子结合是"抓住了",那么酶催化就是"抓住并改造了"。这是蛋白质设计的终极挑战。7.1 最简单折叠也能做高效催化剂
2026年,UCSF的Fraser & DeGrado实验室做出了也许是最令人惊讶的发现。
他们从ABLE(阿哌沙班结合四螺旋束——记得吗?就是2020年Polizzi/DeGrado设计的那个)出发,先做了一件事:X射线晶体学片段筛选。
320个有机小分子片段被浸泡到ABLE晶体中。43个片段显示了结合——大多数结合在阿哌沙班位点。一个从头设计的蛋白,表现出了类似天然蛋白的"结合杂乱性"(promiscuity)。
然后他们利用这些信息,将ABLE重新设计成两个新蛋白:
FABLE(荧光ABLE)——一个生物传感器
KABLE(Kemp消除酶ABLE)——催化效率~7,000 M⁻¹s⁻¹
KABLE是有史以来最活跃的从头设计酶——比之前最好的设计高约10倍,仅用了两轮定向进化。
最令人震惊的是:这一切发生在一个简单的四螺旋束上——蛋白质折叠中最简单、最基本的形状。而自然界为了催化Kemp消除,进化出了TIM桶等极其复杂的结构。7.2 定向进化微调的机制:远端突变的秘密
但仅把活性位点做好还不够。在定向进化中,很多有益突变出现在离活性位点很远的地方。为什么?
2025年Nature Communications上的一篇论文系统分析了三个从头Kemp消除酶谱系,揭示了远端突变的真实作用:
活性位点突变:提高化学转化效率(90-1500× kcat/KM提升)——这很好理解
远端突变:促进底物结合、加速产物释放、拓宽活性位点入口——它们改变了蛋白质的动态特性,而非静态结构
简单说:活性位点突变让"化学反应"更快,远端突变让"物流"更顺畅。晶体结构看不太出来区别,但动力学测量揭示了真相。7.3 人工金属酶:让非天然化学在活细胞中发生
2025年Nature Catalysis的烯烃复分解人工金属酶是另一个里程碑。
他们取了一个超稳定的从头设计环状螺旋重复蛋白(dnTRP, T50>98°C),在里面精确放置了一个钌催化剂(Hoveyda-Grubbs催化剂),实现了在活大肠杆菌细胞质中的烯烃复分解——这是自然界完全不会做的化学反应。
经过5轮定向进化:
TON ≥ 1,000
在pH 6.0和90°C下仍有活性
晶体结构显示钌辅因子距计算预测位置仅3.4 Å——对一个含金属有机物的从头设计来说,精度惊人。
更有趣的是:AlphaFold3、Chai-1、Boltz-1、PLACER都无法正确预测这个有机金属辅因子的几何结构。 深度学习的边界在这里清晰可见。7.4 "一枪命中"的工业酶设计
Graz理工大学/ACIB的团队在2025年展示了另一个方向:不需要大规模筛选的设计管道。
他们的Riff-Diff管道(RFdiffusion + LigandMPNN + MD/QM筛选):
逆醛缩酶:35个设计测试,91%有活性
对映选择性高达99% ee
大部分设计在90°C以上仍保持折叠
一个Morita-Baylis-Hillman酶变体性能超过了经过8轮定向进化的参考酶
这意味着什么? 你可以在计算机上设计一个酶,合成基因,表达蛋白——然后它就直接有活性,而且活性很高。传统酶工程可能需要数月到数年的筛选和进化,现在可能只需要几周。7.5 从通用结合到催化:进化的可重复性
2026年Science上的一篇相关论文探讨了一个哲学问题:特异性结合和催化是如何从"什么都结合一点"的通用蛋白中产生的?
答案是:通过引入少量关键突变。一个"通用型"结合蛋白可以经过少数几个精确的突变,变成对特定配体有高亲和力和催化活性的"专家型"蛋白。这暗示着,在自然界中,新功能可能是从杂乱的原始蛋白通过"功能聚焦"演化而来,而不是从零创造。
💡 启发点7:酶设计领域最令人兴奋的不是某一个具体突破,而是范式的快速迭代——从2013年"我们需要精确理解每一个相互作用"到2025年"AI生成+物理检查+少量定向进化就能上市"。KABLE用两轮进化就超过了之前5-10轮的成果。这告诉我们:当你的设计起点足够好(由AI保证),进化就只需要做微调。第八幕:农业与环境——从实验室到田间
小分子结合蛋白在农业和环境科学中的应用,是这个领域最被低估但潜力最巨大的方向。8.1 农药和污染物的即时检测
想象一个场景:农民在田间地头,用一张试纸蘸一下水样,用手机拍张照,就知道水中的农药是否超标。
这不是科幻。2025年多条技术路线正在走向这个目标:
有机纳米酶(氨基酸/PEG材质):可降解、无毒,集成在纸基微流控芯片上,结合智能手机比色读取。已演示了对草甘膦(全球用量最大的除草剂)和组胺的检测。
细菌表面展示草甘膦氧化酶:工程改造的氧化酶变体展示在枯草芽孢杆菌表面,便携式试纸,检出限0.82 μM,35天常温稳定性(游离酶仅保持20%活性)。
蛋白电化学传感器:α-淀粉酶修饰的电极对赭曲霉毒素A(霉菌毒素)检出限0.074 ng/mL,在实际玉米、辣椒、大米样品中验证。8.2 PYR1:一个"万能"传感骨架
最令人兴奋的是PYR1系统——来自植物的ABA(脱落酸)受体。
Tian, Beltrán, Cutler等(2025, PNAS)展示了PYR1可以被重新编程以检测几乎任意小分子:
筛选了针对2,726种药物和配体的突变体库
获得了569个传感器,覆盖182种不同分子
包括:FDA批准药物、植物天然产物、NSAIDs、类固醇、农药、TNT及其降解产物、PFAS"永久化学品"(包括PFOA、PFOS)
为什么PYR1如此特别?
PYR1使用化学诱导二聚化(CID)机制:配体结合→PYR1构象变化→招募HAB1效应蛋白。这种级联提供了灵敏度放大——μM级别的受体-配体相互作用可以产生nM级别的体内响应。
对于农业和环境的实际意义:
PFAS检测:这些"永久化学品"在环境中极其稳定,传统检测需要昂贵的LC-MS/MS。一个PYR1传感器可以改变这个局面。
TNT检测:从地雷探测到环境修复,快速、便携的爆炸物检测需求巨大。
农药残留监测:在田间实现实时检测,而不是取样送实验室等一周。8.3 食品安全
霉菌毒素(如赭曲霉毒素A、黄曲霉毒素)是全球食品安全的主要威胁,尤其在发展中国家。蛋白电化学传感器提供了一种低成本、高灵敏度的检测方案。虽然目前还是使用天然蛋白(α-淀粉酶),但从头设计的高亲和力结合蛋白可以大幅提升灵敏度和特异性。8.4 环境修复的潜力
虽然目前的从头设计蛋白主要展示在传感应用,但一个逻辑延伸是:设计能结合并隔离环境污染物的蛋白。
PYR1传感器能检测PFAS——这意味着它也能结合PFAS。如果能将这种结合能力工程化为环境修复工具(如固定化的蛋白柱处理污染水),其影响将是巨大的。
💡 启发点8:农业和环境应用经常是"高端技术"最后到达的领域。但小分子结合蛋白设计可能是个例外——因为PYR1这样的系统展示了"抗体一样的简单性",而有机纳米酶展示了不需要冷链、不需要昂贵仪器的便携检测。当技术的成本和复杂度降到一定程度,它就会从高端医学渗透到田间地头。尾声:未来已来——从零样本到通用设计9.1 当前瓶颈
尽管进展惊人,几个核心挑战仍然悬而未决:
1. 诱导契合。 大多数管道使用刚性骨架——假设蛋白质在结合前后构象不变。但现实中的结合常常涉及构象变化。如何设计能"拥抱"配体的蛋白?
2. 水分子桥接。 许多天然蛋白-配体相互作用通过水分子桥接氢键实现。从头设计这类相互作用极其困难——你在设计一个你看不到的东西。
3. 配体柔性。 高度柔性的小分子(多可旋转键)成功率低——构象熵惩罚太大。在你面前的是一个在溶液中形态百变的小分子,你需要设计一个口袋来固定它的某一种构象。
4. 可开发性预测。 你能设计出结合剂,但它能高效表达吗?会稳定吗?会聚集吗?这些"工程化"问题常常比"设计"问题更棘手。
5. 负设计代价。 对多脱靶分子进行全面计算筛选极其昂贵。如何在深度学习框架中内建负设计,而不是事后筛选,是一个关键方向。9.2 正在兴起的新方向
协同折叠设计(Co-folding)。 像BindCraft一样,同时让蛋白和配体"折叠"到彼此。这可能解决诱导契合问题——因为在设计过程中蛋白和配体就已经互相适应了。
流匹配(Flow Matching)。 RFdiffusion3采用的替代扩散方案,可能更高效。如果扩散模型是"从噪声慢慢去噪",流匹配是"沿一条更直接的路径从噪声到数据"。
序列-结构协同设计。 NVIDIA的Proteina-Complexa这类模型同时生成骨架、侧链和序列——不再分开做"生成骨架→设计序列"两步走。
主动学习闭环。 Protein CREATE框架将噬菌体展示+NGS数据直接反馈到模型再训练。实验数据不再只是"验证",而是"训练"的一部分。
条件生成可控性。 更精确地控制口袋的物理化学性质——不仅仅是"结合",而是"用指定的电荷/极性/动态特性结合"。9.3 对入门者的建议
如果你今天想进入这个领域,以下是一个务实的路径:
从RFdiffusionAA + LigandMPNN管道开始。 这是当前验证最充分、最通用的路线。有GPU就用GPU,没有就考虑云服务。
物理过滤不可跳过。 深度学习生成后,unsat=0, Sc>0.5, clash-free检查是必须的。这不是保守主义——这是物理。
多方法共识。 不要信任单一AlphaFold2预测。AF2系综+Chai-1+Rosetta三方一致,假阳性率大幅降低。
从小而刚性的配体入手。 1-3环、少可旋转键、logP接近0、HBD/HBA≤8-10的配体成功率最高。先跑起来,再挑战难的。
利用实验反馈。 即使初始命中率低,几个命中数据指导的第二轮设计就可以带来数量级提升。An 2024的700倍提升不是靠更好的算法,而是靠更好的实验数据引导。
失败也是信息。 一个设计蛋白不表达、不折叠、不结合——这告诉你的不仅是"这个设计不好",还告诉你的计算管道可能存在系统性问题。珍惜你的失败,分析它们,它们比成功更有信息量。9.4 来自不同应用视角的总结
如果你是做药物研发的:你手上最大的转变是从"筛选"到"设计"。传统小分子药物发现靠高通量筛选化合物库;抗体药物靠免疫动物。从头蛋白设计让你可以针对任意靶标——包括传统上"不可药物化"的靶标——设计高亲和力、高特异性的结合蛋白。而且它们比抗体更小、更稳定、更容易工程化。
如果你是做酶工程的:过去你要么从天然酶出发改造(受限于天然骨架),要么从头设计但成功率低。现在AI设计+少量定向进化的组合正在改变游戏规则。最好的策略是:用AI生成一个好的起点,然后让进化做最后的微调。 2025年的数据显示,一个好的计算起点可以将定向进化所需轮数从5-10轮降到1-2轮。
如果你是做农业/环境检测的:PYR1系统和有机纳米酶展示了两条互补的路径——前者追求灵敏度和广谱性,后者追求低成本和便携性。无论是哪种,核心趋势是:摆脱冷链依赖、摆脱实验室设备依赖、摆脱专业操作人员依赖。 田间检测的未来是"一张纸+一部手机"。
如果你是做基础研究的:这个领域提供了蛋白质"序列-结构-功能"关系的最干净模型系统。从头设计蛋白的每个残基、每个相互作用都是"按说明书组装的",这让你可以精确地测试假设——什么决定折叠?什么决定结合?什么决定特异性?什么决定催化?在天然蛋白中这些问题常常纠缠在一起,在设计蛋白中你可以逐一拆解。
如果你只是对科学感兴趣:这个领域的核心故事是:人类学会了用计算机设计生命分子。 这不仅仅是技术突破——这是一次认知革命。我们从"观察和理解自然"走到了"创造自然中不存在的东西"。2013年第一次设计出小分子结合蛋白时,是手工打造一件艺术品。2025年,工厂已经开工了。工具物语:蛋白设计工具系统解析
前文的叙事讲述了"发生了什么事"。这一节我们走进工具箱,看看每个工具的底层原理、架构差异,以及为什么它们以这样的方式被创造出来。如果你正在搭建自己的设计管道,这一节是必读的。A. 工具全景图
在进入细节之前,先建立一张"地图"——小分子结合蛋白从头设计涉及的工具可以按功能分为五类,构成一条从配体到验证的线性管道:
┌──────────────────────┐ │ 靶标配体定义 │ │ SMILES→3D→构象系综 │ └──────────┬───────────┘ ▼ ┌───────────────────────────────────────────────────────────┐ │ 骨架生成(Backbone Generation) │ │ RFdiffusion系列 / 幻觉设计 / RIFdock / 参数化骨架 │ └──────────────────────────────┬────────────────────────────┘ ▼ ┌───────────────────────────────────────────────────────────┐ │ 序列设计(Inverse Folding / Sequence Design) │ │ ProteinMPNN / LigandMPNN / Rosetta FastDesign │ └──────────────────────────────┬────────────────────────────┘ ▼ ┌───────────────────────────────────────────────────────────┐ │ 结构预测与验证(Structure Prediction) │ │ AlphaFold2/3 / RFAA / Boltz-1/2 / Chai-1 │ └──────────────────────────────┬────────────────────────────┘ ▼ ┌───────────────────────────────────────────────────────────┐ │ 物理评估与过滤(Physics-based Evaluation) │ │ Rosetta ddG/Sc/HBNet / 多方法共识投票 │ └───────────────────────────────────────────────────────────┘B. 骨架生成:RFdiffusion三部曲
这是当前蛋白设计的核心引擎。理解三代模型的演化,就是理解整个领域的演化。C.1 RFdiffusion (第一代, 2023)
发表在:Nature (2023, Vol.620, pp.1089–1100)
核心架构:基于RoseTTAFold结构预测网络,做扩散模型的微调(fine-tuning)——而不是从零训练。
架构细节:
三轨表示:1D序列信息 + 2D距离信息 + 3D坐标信息——同时流动
扩散过程:前向~200步加噪,反向~50步去噪(质量-速度最优平衡)
SE(3)-等变性:结构表示使用刚体框架(N, Cα, C, O, Cβ虚拟原子),遵守旋转和平移对称性
自条件化(Self-conditioning):模型接收自己上一轮的预测作为模板输入——类似于AlphaFold2的"回收"(recycling)机制
不需要MSA:纯粹从PDB结构分布中学习,不需要进化信息
五种条件生成模式:
模式
功能
典型应用
无条件生成
从随机噪声生成全新折叠
骨架库扩展
拓扑约束单体
指定二级结构排列
特定折叠类型设计
结合剂设计
围绕目标蛋白表面生成
蛋白-蛋白结合
基序支架
固定功能位点,生成周围骨架
酶活性位点移植
对称寡聚体
环状(Cn)、二面体(Dn)、四面体等
纳米材料
实验验证:
数百个设计在实验中验证
流感血凝素结合剂的cryo-EM结构验证(2.93Å分辨率)
55/96 (57%) 设计显示可检测结合(10μM浓度)
可生成长达600残基的蛋白
关键限制:只生成骨架——不包含侧链。侧链由下游ProteinMPNN补充。C.2 RFdiffusion2 (2025):酶设计的特化版本
发表在:Nature Methods (2025年12月) + Nature (2025年12月,增强版本)
升级内容:
解决催化残基放置问题——不再需要指定序列位置或主链坐标,只需提供理想原子几何
解决了41/41个困难酶设计挑战(原始RFD2仅16个)
设计了金属水解酶(Zn²⁺依赖,裂解最困难的化学键)
ZETA_1催化效率比之前从头金属水解酶高数个数量级
核心创新:将催化残基侧链作为固定原子"星座标记"(constellation token),网络在周围扩散生成蛋白以适配这个几何。C.3 RFdiffusionAA (2024):全原子的第一声号角
发表在:Science (2024, Vol.384, eadl2528),与RFAA同一篇
核心突破:双轨表示法:
蛋白质/核酸 → 残基层面表示(高效)
小分子/金属离子 → 原子图表示(精确)
这让RFdiffusionAA成为第一个能够围绕目标小分子生成蛋白质骨架的扩散模型。配体和蛋白在同一扩散过程中协调生成。
实验验证:地高辛、血红素、胆绿素结合蛋白,血红素设计的晶体结构Cα RMSD = 0.86 Å。C.4 RFdiffusion3 (2025):大一统模型
预印本:bioRxiv (2025年9月18日)
开源:2025年11-12月,代码+权重全开源
这是一次彻底的重写——与前两代不共享任何代码。
架构范式转变:
维度
RFdiffusion1/2
RFdiffusion3
基本单位
残基(主链框架)单个原子
(全部主链+全部侧链原子)
侧链建模
事后(ProteinMPNN)完全集成
到扩散过程中
非蛋白分子
不建模或刚体共扩散
:蛋白+DNA+配体一起扩散
架构
RoseTTAFold风格基于Transformer的U-Net
参数量
~350M168M
(不到AF3的一半)
Pairformer层数
48层(AF3风格)仅2层
推理速度
基线~10倍提升
计算成本
1×~0.1×
去噪
单次前向无分类器引导
(加权平均条件/无条件预测)
架构三组件:
下采样模块:将部分加噪结构编码为原子级和残基级特征
稀疏Transformer模块:处理token级信息,稀疏注意力——只允许几何上靠近的残基/原子互相注意(防止过拟合)
上采样模块:用token级特征调制原子级特征,预测坐标更新
每残基表示为 4个主链原子 + 10个侧链原子(色氨酸的最大值)。小侧链用放置在Cβ位置的虚拟原子填充。
新的条件控制能力(RFD1/2无法实现):
原子级热点:指定单个原子(而非残基)为结合表位
氢键供体/受体:显式标记哪些原子必须形成H-键——增加设计H-键频率从~27%到~37%
SASA控制:精确控制每个配体原子的埋藏/暴露程度
质心定位:指定生成蛋白相对目标分子的位置
共扩散:蛋白+DNA+小分子坐标同时扩散——捕获诱导契合效应
DNA结合蛋白设计:
给定目标DNA序列,共扩散蛋白质结构和DNA的3D构象
实验验证:一个设计显示特异性DNA结合,EC₅₀ = 5.89 ± 2.15 µM
酶设计:
AME基准(41个PDB活性位点):RFD3在90%案例中超越RFD2
多片段支架(>4个不连续残基片段):显著优于RFD2(此前RFD2在此类问题上严重挣扎)
半胱氨酸水解酶实验:190个设计测试,35个(18.4%)显示多轮催化活性
最佳酶k_cat/K_m ≈ 3,557——超越此前同一反应的所有AI从头设计
首席开发者Jasper Butcher的总结:
"核心创新是精确控制。我们现在可以精确地告诉模型哪些化学相互作用最重要,它将生成使这些相互作用成为可能的新蛋白质结构。"
💡 启发点9:RFD3的架构简化(从48层到2层Pairformer,从350M到168M参数)却带来性能飞跃,这告诉我们深度学习的一个重要教训——更大的模型不一定是更好的模型。 RFD3把复杂度从"堆层数"转移到了"改表示"——用全原子表示取代残基表示,用稀疏注意力取代全连接。哲学上,这是从"让网络更大来学习一切"到"给网络更好的归纳偏置让它更容易学习"的转变。C. 序列设计(反向折叠):ProteinMPNN → LigandMPNN → LASErMPNN
骨架生成后,下一步是给骨架"穿上氨基酸的外衣"。这是反向折叠问题——给定3D结构,预测序列。C.1 ProteinMPNN (2022–2024):基于消息传递的图神经网络
发表在:Science (2022)
开发者:Dauparas, Baker等(IPD, UW)
核心架构:消息传递编码器-解码器GNN,只有**~168万参数**——在深度学习时代精巧得惊人。
图构建:
节点:每个残基位置
边:每个残基到其k近邻(按Cα距离,k=48)
节点特征:主链原子坐标(N, Cα, C, O)+ 虚拟Cβ位置
边特征:所有5个主链原子之间的成对距离 + 相对方向 + 链成员标记(同链vs.异链)
编码器(3层,128隐藏维): 处理纯结构信息——无序列上下文。每层:
边更新:e_{ij} = MLP([h_i‖h_j‖g(d_{ij})])
节点更新:h_i = MLP(∑e_{ij})
编码器只运行一次——不管多少残基需要解码。
解码器(3层,128隐藏维):随机顺序(order-agnostic)自回归解码——每次随机采样一个排列π,按该顺序逐个预测残基。这个设计有两个精妙之处:
支持任意mask——你可以固定某些位置,只设计其他位置
支持约束解码(tied decoding)——对称寡聚体的对等位置共享序列概率
2024年的重要扩展:
ProteinMPNN-ddG(Dutton等,NeurIPS 2024):用"每个残基最后解码"策略实现~4%恢复率提升;新的约束解码将复杂度从O(N²)降至O(N log N);全人类蛋白质组(~23,000蛋白)的饱和突变扫描仅需30分钟/单V100 GPU。
性能:
天然序列恢复率:52.4%(vs. Rosetta的32.9%)
推理速度:~1秒/蛋白C.2 LigandMPNN (2025):看到配体的序列设计
发表在:Nature Methods (2025)
核心贡献:第一个以非蛋白原子为条件设计蛋白序列的图神经网络。
与ProteinMPNN的关键区别:
ProteinMPNN设计序列时不知道口袋里有个配体
LigandMPNN在生成每个氨基酸时显式地"看到"配体原子
配体表示:配体原子被编码为特殊的图节点,参与消息传递。这意味着网络可以"推理"配体原子和蛋白残基之间的关系。
性能:
配体接触残基序列恢复率:63.3%(vs. ProteinMPNN 50.5%, Rosetta 50.4%)
100+个实验验证的小分子和DNA结合蛋白
可同时生成序列和侧链构象
多层级策略(来自heme_binder_diffusion管道):
第1层:ProteinMPNN T=0.1 → 初始序列(折叠优先)
第2层:LigandMPNN → 设计结合位点序列(dist_bb=8 Å, dist_sc=5 Å)
第3层:LigandMPNN T=0.2–0.3 → 口袋周围序列多样化C.3 LASErMPNN:NISE的高温扩展引擎
用于NISE迭代循环中的"扩展"步骤。在高温下从每个存活结构采样多条序列,增加多样性。本质上是对ProteinMPNN/LigandMPNN的温度增强版本。D. 全原子结构预测与对接评估
设计完成后,需要验证。结构预测模型是验证的主力。D.1 AlphaFold2/3 与 RFAA
AlphaFold2 (2021):革命性的结构预测模型。在设计管道中用于验证——预测设计蛋白的结构并与设计模型比对(自洽性检验)。
AlphaFold3 (2024):全原子扩展——可以预测蛋白+小分子+核酸+金属的复合物结构。但不开源且限制使用。
RFAA (RoseTTAFold All-Atom, 2024):Baker实验室对AF3的开源回应。双轨表示(残基+原子图),可以预测蛋白-小分子复合物。与RFdiffusionAA共用架构。完全开源。D.2 Boltz-1 (2024) vs Boltz-2 (2025):开源AF3替代
开发者:MIT CSAIL + Jameel Clinic
Boltz-1:AlphaFold3的完全开源复现。在所有模态上与AF3竞争。
Boltz-2 (2025年6月):重大升级,一个模型的四个模块:
模块
功能Trunk
使用bfloat16混合精度,768-token裁剪(匹配AF3规模)去噪模块
扩散式结构生成,含引导组件置信度模块
预测token级和原子级置信度 + B因子亲和力模块
PairFormer + 双头(结合可能性分类 + 连续亲和力回归pIC₅₀)
Boltz-2的关键创新:
首次将结合亲和力预测集成到结构预测模型中。 接近FEP精度但快>1000倍(~20秒 vs. 数小时/天)。
动态系综训练:不仅训练于静态晶体结构,还训练于MD快照(MISATO, ATLAS, mdCATH)和NMR系综——可以预测RMSF,匹敌专门的动态模型。
Boltz-Steering:推理时用物理势能做引导,减少空间冲突,改善立体化学。
实验方法条件化:可以用X-ray/NMR/MD等不同实验方法作为条件。
亲和力训练数据:~120万连续亲和力值(ChEMBL, BindingDB)+ ~20万二元标记(PubChem HTS, CeMM碎片, MIDAS代谢物)+ 合成诱饵。
结构预测表现:匹配或略优于Boltz-1,与AlphaFold3紧密竞争,超越Chai-1和ProteinX。在RNA链和DNA-蛋白复合物上增益最强。
独立评估(Bret等, J. Chem. Inf. Model.):在区分真假对接命中方面表现优秀(ROC AUC ~0.74–0.76),但对结合位点突变的敏感性有时不足——可能存在"记忆化"问题。D.3 关键置信度指标的统一解读
在设计管道中,所有这些模型都输出置信度。下面是跨模型的统一解读:
指标
AlphaFold2/3
RFAA
Boltz-1/2
含义
设计过滤阈值
pLDDT
✓
✓
✓
残基/原子级预测置信度
>85
PAE
✓
✓
✓
残基对间预测位置误差(Å)
<10(界面)
ipTM
✓
—
✓
界面预测TM分数
>0.60
pTM
✓
—
✓
整体折叠置信度
>0.80
亲和力(Kd)
—
—
✓(Boltz-2)
预测结合亲和力
排序使用E. 新一代设计框架:BoltzDesign1 与 BoltzGen
除了RFdiffusion体系,2025年出现了一个重要的竞争框架。E.1 BoltzDesign1 (2025年4月):梯度引导的幻觉设计
开发者:Yehlin Cho, Martin Pacesa, Bruno Correia, Sergey Ovchinnikov (MIT/EPFL)
预印本:bioRxiv, 2025年4月
核心理念:翻转Boltz-1模型——不做微调,直接在预训练网络上做梯度优化来"幻觉"出结合序列。
架构——多阶段优化:
阶段1: 预热 (~20步) └─ softmax(logits, T=1.0) — 探索连续序列空间阶段2: 软探索 (~50步) └─ 混合编码: (1-λ)·logits + λ·softmax(logits/T) └─ 允许每个位置有多个氨基酸阶段3: 温度退火 (~50步) └─ T = 1e-2 + (1-1e-2)·(1-step/iter)²阶段4: 硬精炼 (~10步) └─ one-hot + 直通梯度估计
关键技巧:不通过原子坐标做反向传播(昂贵、单样本),而是直接优化distogram——塑造原子距离的概率分布。这引导设计进入更强的能量最小值。
避免扩散模块:Boltz-1的扩散模块(200步)被梯度阻断——不反向传播,避免内存/梯度消失问题。
支持的目标类型:蛋白质、小分子、核酸、金属离子——每种有独立配置文件。
下游管道:BoltzDesign1 → LigandMPNN重设计 → AF3/Boltz-1交叉验证 → Gnina对接评分 → PyRosetta能量评估。E.2 BoltzGen (2025年10月):统一的生成扩散模型
开发者:Hannes Stärk等(MIT),26+实验合作者
预印本:bioRxiv, 2025年11月
与BoltzDesign1的本质区别:BoltzDesign1是"翻转已有模型"(不需要训练),BoltzGen是从头训练的生成扩散模型。
架构:
Trunk (运行一次) ├─ PairFormer (三角注意力) └─ 几何残基编码 → Token + 成对表示 ↓扩散模块 (迭代) └─ Transformer (原子级 + Token级) └─ 预测噪声向量 → 去噪3D坐标
关键创新:
几何残基编码:不把氨基酸类型离散化——在连续空间中推理残基类型和原子坐标。这让模型可以真正理解结构而非记忆数据。
多任务训练:每次迭代随机分配任务(折叠预测、结合剂设计、结构补全)——在不同上下文中迁移学习。
设计规格语言:用户可以指定共价键、结构群组、二级结构要求、序列长度、设计掩码、结合位点柔性等。
训练数据:PDB + AFDB + Boltz-1生成样本(小分子结合、RNA/DNA互作)。去除了抗体/TCR上采样以保持多样性。
实验验证:26+湿实验活动;9个新靶标中6个(66%)获得nM级亲和力的纳米抗体结合剂。E.3 BoltzDesign1 vs BoltzGen vs RFdiffusion3
维度
BoltzDesign1
BoltzGen
RFdiffusion3
方法
梯度幻觉(翻转预训练模型)
训练生成扩散模型
训练生成扩散模型
需要训练
否
是(多任务联合训练)
是
扩散
避免(仅用Pairformer+置信度)
核心(迭代去噪)
核心(迭代去噪)
残基编码
Softmax序列表示
连续几何残基编码
全原子坐标
控制方式
损失函数权重
设计规格语言
原子级条件
实验验证
计算基准vs RFdiffusionAA
66% nM成功率(9靶标)
18.4%酶活性率
开源
MIT
MIT
Rosetta CommonsF. 物理评估工具:最后一道防线
无论你用什么AI工具生成设计,物理评估都是不可跳过的。F.1 Rosetta体系
Rosetta InterfaceAnalyzer:
计算Sc(形状互补性)、dSASA(埋藏面积)、delta_unsatHbonds(未满足极性原子)、hbonds_int(界面氢键数)
结合能分解:fa_atr(吸引力)、fa_rep(排斥力)、fa_elec(静电)、hbond(氢键)
HBNet(氢键网络优化器):
在整个结合位点搜索所有可能的氢键网络
关键过滤器:每个极性原子至少参与一个氢键
输出:hbonds_int和delta_unsatHbonds
PyRosetta:
Python接口的Rosetta
最常用于管道中的弛豫(relax)和ddG计算
结合能密度:ΔG/dSASA(归一化指标,排除大而弱的界面)F.2 完整管道中的工具配合
以RFdiffusionAA体系为例的标准管道:
Step 0: RFdiffusionAA → 骨架生成Step 1: ProteinMPNN (T=0.1) → 初始序列Step 2: AlphaFold2 → 结构预测 + pLDDT/PAE过滤Step 3: LigandMPNN (T=0.2) → 结合位点序列精炼Step 4: LigandMPNN (T=0.3) → 口袋周围多样化Step 5: AlphaFold2/AF3/Boltz-2 → 多模型预测 + 自洽性检查Step 6: PyRosetta → 弛豫 + ddG + Sc + unsat + 最终过滤参考文献
以下文献按在文中出现的逻辑顺序排列,采用 J. Am. Chem. Soc. (JACS) 引用格式。凡可查得的文献均提供DOI。核心方法学文献(按年代排列)
(1) Tinberg, C. E.; Khare, S. D.; Dou, J.; Doyle, L.; Nelson, J. W.; Schena, A.; Jankowski, W.; Kalodimos, C. G.; Johnsson, K.; Stoddard, B. L.; Baker, D. Computational Design of Ligand-Binding Proteins with High Affinity and Selectivity. Nature 2013, 501, 212–216. DOI: 10.1038/nature12443.
(2) Schreier, B.; St-Pierre, F.; Baker, D. et al. A Recipe for Ligand-Binding Proteins. Nature 2013, 501 (companion paper).
(3) Dou, J.; Vorobieva, A. A.; Sheffler, W.; Doyle, L. A.; Park, H.; Bick, M. J.; Mao, B.; Foight, G. W.; Lee, M. Y.; Gagnon, L. A.; Carter, L.; Sankaran, B.; Ovchinnikov, S.; Marcos, E.; Huang, P.-S.; Vaughan, J. C.; Stoddard, B. L.; Baker, D. De Novo Design of a Fluorescence-Activating β-Barrel. Nature 2018, 561, 485–491. DOI: 10.1038/s41586-018-0509-0.
(4) Polizzi, N. F.; DeGrado, W. F. A Defined Structural Unit Enables De Novo Design of Small-Molecule–Binding Proteins. Science 2020, 369, 1227–1233. DOI: 10.1126/science.abb8330.
(5) Basanta, B.; Bick, M. J.; Bera, A. K.; Norn, C.; Chow, C. M.; Carter, L. P.; Goreshnik, I.; DiMaio, F.; Baker, D. New Computational Protein Design Methods for De Novo Small Molecule Binding Sites. PLoS Comput. Biol. 2020. DOI: 10.1371/journal.pcbi.1008178.
(6) Dauparas, J.; Anishchenko, I.; Bennett, N.; Bai, H.; Ragotte, R. J.; Milles, L. F.; Wicky, B. I. M.; Courbet, A.; de Haas, R. J.; Bethel, N.; Leung, P. J. Y.; Huddy, T. F.; Pellock, S.; Tischer, D.; Chan, F.; Koepnick, B.; Nguyen, H.; Kang, A.; Sankaran, B.; Bera, A. K.; King, N. P.; Baker, D. Robust Deep Learning–Based Protein Sequence Design Using ProteinMPNN. Science 2022, 378, 49–56. DOI: 10.1126/science.add2187.
(7) An, L.; Hicks, D. R.; Zorine, D.; Dauparas, J.; Wicky, B. I. M.; Milles, L. F.; Courbet, A.; Bera, A. K.; Nguyen, H.; Kang, A.; Carter, L.; Baker, D. Hallucination of Closed Repeat Proteins Containing Central Pockets. Nat. Struct. Mol. Biol. 2023, 30, 1755–1760. DOI: 10.1038/s41594-023-01112-6.
(8) Watson, J. L.; Juergens, D.; Bennett, N. R.; Trippe, B. L.; Yim, J.; Eisenach, H. E.; Ahern, W.; Borst, A. J.; Ragotte, R. J.; Milles, L. F.; Wicky, B. I. M.; Hanikel, N.; Pellock, S. J.; Courbet, A.; Sheffler, W.; Wang, J.; Venkatesh, P.; Sappington, I.; Torres, S. V.; Lauko, A.; De Bortoli, V.; Mathieu, E.; Ovchinnikov, S.; Barzilay, R.; Jaakkola, T. S.; DiMaio, F.; Baek, M.; Baker, D. De Novo Design of Protein Structure and Function with RFdiffusion. Nature 2023, 620, 1089–1100. DOI: 10.1038/s41586-023-06415-8.
(9) van Kempen, M.; Kim, S. S.; Tumescheit, C.; Mirdita, M.; Lee, J.; Gilchrist, C. L. M.; Söding, J.; Steinegger, M. Fast and Accurate Protein Structure Search with Foldseek. Nat. Biotechnol. 2024, 42, 243–246. (Published online 2023). DOI: 10.1038/s41587-023-01773-0.
(10) Kalvet, I.; Ortmayer, M.; Baker, D. et al. Design of Heme Enzymes with a Tunable Substrate Binding Pocket Adjacent to an Open Metal Coordination. J. Am. Chem. Soc. 2023, 145, 14307–14315.
(11) An, L.; Said, M.; Tran, L.; Majumder, S.; Goreshnik, I.; Lee, G. R.; Juergens, D.; Dauparas, J.; Anishchenko, I.; Coventry, B.; Bera, A. K.; Kang, A.; Levine, P. M.; Alvarez, V.; Pillai, A.; Norn, C.; Feldman, D.; Zorine, D.; Hicks, D. R.; Li, X.; Sanchez, M. G.; Vafeados, D. K.; Salveson, P. J.; Vorobieva, A. A.; Baker, D. Binding and Sensing Diverse Small Molecules Using Shape-Complementary Pseudocycles. Science 2024, 385, 276–282. DOI: 10.1126/science.adn3780.
(12) Krishna, R.; Wang, J.; Ahern, W.; Sturmfels, P.; Venkatesh, P.; Kalvet, I.; Lee, G. R.; Morey-Burrows, F. S.; Anishchenko, I.; Humphreys, I. R.; McHugh, R.; Vafeados, D.; Li, X.; Sutherland, G. A.; Hitchcock, A.; Hunter, C. N.; Kang, A.; Brackenbrough, E.; Bera, A. K.; Baek, M.; DiMaio, F.; Baker, D. Generalized Biomolecular Modeling and Design with RoseTTAFold All-Atom. Science 2024, 384, eadl2528. DOI: 10.1126/science.adl2528.
(13) Dauparas, J.; Lee, G. R.; Pecoraro, R.; An, L.; Anishchenko, I.; Glasscock, C.; Baker, D. Atomic Context-Conditioned Protein Sequence Design Using LigandMPNN. Nat. Methods 2025, 22, 717–723. DOI: 10.1038/s41592-025-02626-1.
(14) Fry, B.; Slaw, K.; Polizzi, N. F. Zero-Shot Design of Drug-Binding Proteins via Neural Selection-Expansion. bioRxiv 2025. DOI: 10.1101/2025.04.22.649862.
(15) Butcher, J.; Krishna, R.; Baker, D. et al. De Novo Design of All-Atom Biomolecular Interactions with RFdiffusion3. bioRxiv 2025. DOI: 10.1101/2025.09.18.676967.
(16) Lee, G. R.; Pellock, S. J.; Norn, C.; Tischer, D.; Dauparas, J.; Anishchenko, I.; Mercer, J. A. M.; Kang, A.; Bera, A. K.; Nguyen, H.; Brackenbrough, E.; Sankaran, B.; Goreshnik, I.; Vafeados, D.; Roullier, N.; Han, H. L.; Coventry, B.; Haddox, H. K.; Liu, D. R.; Yeh, A. H.-W.; Baker, D. Small-Molecule Binding and Sensing with a Designed Protein Family. Nat. Commun. 2026. DOI: 10.1038/s41467-026-70953-8.
(17) Galvin, E.; et al. A Hybrid Physics–Deep Learning Framework for Combinatorial De Novo Design of Small-Molecule Binding Proteins. bioRxiv 2026.
(18) Chen, Y.; Bhattacharya, S.; Bergmann, L.; Correy, G. J.; Tan, S. K.; Hou, K.; Biel, J.; Lu, L.; Bakanas, I.; Volkov, A. N.; Korendovych, I. V.; Polizzi, N. F.; Fraser, J. S.; DeGrado, W. F. Emergence of Specific Binding and Catalysis from a Designed Generalist Binding Protein. Nat. Chem. 2026. DOI: 10.1038/s41557-026-02125-6.工具与框架文献
(19) Passaro, G.; Corso, G.; Stärk, H.; et al. Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction. bioRxiv2025. DOI: 10.1101/2025.06.14.659707.
(20) Cho, Y.; Pacesa, M.; Zhang, Z.; Correia, B. E.; Ovchinnikov, S. BoltzDesign1: Inverting All-Atom Structure Prediction Model for Generalized Biomolecular Binder Design. bioRxiv2025. DOI: 10.1101/2025.04.06.647261.
(21) Stärk, H.; et al. BoltzGen: Toward Universal Binder Design. bioRxiv2025. DOI: 10.1101/2025.11.20.689494.
(22) Gilchrist, C. L. M.; Mirdita, M.; Steinegger, M. Multiple Protein Structure Alignment at Scale with FoldMason. Science2026, 391, 485–488. DOI: 10.1126/science.ads6733.基础理论与应用文献
(23) Berezovsky, I. N.; Zeldovich, K. B.; Shakhnovich, E. I. Positive and Negative Design in Stability and Thermal Adaptation of Natural Proteins. PLoS Comput. Biol.2007, 3, e52. DOI: 10.1371/journal.pcbi.0030052.
(24) Leaver-Fay, A.; Tyka, M.; Lewis, S. M.; Lange, O. F.; Thompson, J.; Jacak, R.; Kaufman, K.; Renfrew, P. D.; Smith, C. A.; Sheffler, W.; Davis, I. W.; Cooper, S.; Treuille, A.; Mandell, D. J.; Richter, F.; Ban, Y.-E. A.; Fleishman, S. J.; Corn, J. E.; Kim, D. E.; Lyskov, S.; Berrondo, M.; Mentzer, S.; Popović, Z.; Havranek, J. J.; Karanicolas, J.; Das, R.; Meiler, J.; Kortemme, T.; Gray, J. J.; Kuhlman, B.; Baker, D.; Bradley, P. ROSETTA3: An Object-Oriented Software Suite for the Simulation and Design of Macromolecules. Methods Enzymol.2011, 487, 545–574. DOI: 10.1016/B978-0-12-381270-4.00019-6.
(25) Coronado, M.; Zhu, J.; Mann, S. et al. De Novo Design of Four-Helix Bundle Proteins to Bind Metalloporphyrin Cofactors. Methods Enzymol.2025, 720.
(26) Pereira, J.; Simpkin, A. J.; Hartmann, M. D.; Rigden, D. J.; Keegan, R. M.; Lupas, A. N. Step-by-Step Design of Proteins for Small Molecule Binding. Protein Sci.2021, 30, 1140–1153. DOI: 10.1002/pro.4098.
(27) Braun, M.; Tripp, C.; Chakatok, D. et al. One-Shot Computational Enzyme Design with High Activity and Enantioselectivity. Nature2025.
(28) Distal Mutations Enhance Catalysis in Designed Enzymes by Facilitating Substrate Binding and Product Release. Nat. Commun.2025, 16, 8662.
(29) De Novo Design and Evolution of an Artificial Metathase for Cytoplasmic Olefin Metathesis. Nat. Catal.2025, 8, 1208–1219.
(30) Tian, J.; Beltrán, J.; Cutler, S. R. et al. Unusually Broad-Spectrum Small-Molecule Sensing Using a Single Protein Scaffold. Proc. Natl. Acad. Sci. U. S. A.2025. DOI: 10.1073/pnas.2519924122.
(31) Fox, N. et al. AI-Driven De Novo Binder Design: From Complex Code to Functional Application. Structure2025. DOI: 10.1016/j.str.2025.05.005. (Review)
(32) Dutton, O.; et al. Improving Inverse Folding Models at Protein Stability Prediction without Additional Training or Data. NeurIPS MLSB Workshop2024.阅读指南:不同背景读者如何使用本文如果你是完全的初学者
从第一幕(热力学)和第二幕(地高辛故事)开始。这两个部分用最少的技术细节讲清楚了"为什么难"和"如何做到"。之后可以直接跳到应用场景(第六、七、八幕),看看这些技术能做什么。第五幕(正负设计)是这个领域的理论核心——如果你想深入理解"为什么有的设计成功有的失败",这是必读的。如果你是有经验的蛋白质设计研究者
第五幕(正负设计)对你来说可能是最有价值的部分。大多数技术综述不会把正设计的每一步、负设计的三个层次、权重扫描协议和迭代负设计协议写得这么详细。第九幕的表格(多态设计工具对比、小分子结合负设计特殊挑战)可能提供你在文献中找不到的细节。
启发点#5(能量漏斗与正负设计的关系)和启发点#7(AI起点+少量进化的范式)可能是你想与同事讨论的核心概念。如果你是生物技术/制药行业的从业者
第六幕(医药)和第九幕(对入门者的建议)与你最相关。前者告诉你技术能做什么,后者告诉你如何起步。特别关注启发点#6(从"发现"到"设计"的范式转变)——这可能是影响你未来5-10年工作方式的核心趋势。如果你是农业/食品/环境领域的从业者
第八幕(农业与环境)是为你写的。PYR1系统和有机纳米酶是目前最接近田间的技术路线。特别关注两者的互补性——PYR1提供灵敏度(nM-pM),纳米酶提供低成本(无需冷链)。关键数据速览方法学里程碑
年代
里程碑
命中率
核心方法
2013
地高辛结合蛋白(Tinberg)
~6%
RosettaMatch + RosettaDesign
2018
β-桶荧光蛋白(Dou)
—
RIF算法
2020
vdM结构单元(Polizzi/DeGrado)
33%
统计驱动设计
2023
RFdiffusion(Watson/Baker)
57%结合检测率
RoseTTAFold扩散微调
2023
伪环幻觉(An/Baker)
靶标依赖
AF2 MCMC序列幻觉
2022
ProteinMPNN(Dauparas/Baker)
52.4%序列恢复率
消息传递GNN编码器-解码器
2024
RFdiffusionAA(Krishna/Baker)
10-50%+
双轨表示全原子扩散
2024
Boltz-1(MIT)
—
AF3的完全开源复现
2025
LigandMPNN(Dauparas/Baker)
63.3%接触残基恢复率
配体感知序列设计
2025
RFdiffusion2增强版(Butcher/Baker)
41/41酶挑战解决
催化残基星座标记
2025
NISE(Fry/Polizzi)
100%
神经迭代选择-扩展
2025
工业酶"一枪命中"(ACIB)
91%
Riff-Diff管道
2025
Boltz-2(MIT/Recursion)
—
结构预测+亲和力一体化
2025
BoltzDesign1(Cho/Correia)
—
梯度幻觉,翻转Boltz-1
2025
BoltzGen(Stärk/MIT)
66% nM成功率
统一生成模型,设计规格语言
2025
RFdiffusion3(Butcher/Krishna/Baker)
18.4%酶活性率
全原子原子级扩散,10×加速
2026
KABLE酶(Fraser/DeGrado)
—
片段筛选+定向进化
2026
NTF2蛋白家族(Lee/Baker)
多靶标命中
RIFdock+LigandMPNN
基于小规模测试核心工具架构对比
工具
年份
基本单元
架构类型
参数量
开源
RFdiffusion
2023
残基框架
RoseTTAFold扩散
~350M
✓
ProteinMPNN
2022
残基
消息传递GNN编码器-解码器
~1.68M
✓
RFdiffusionAA
2024
残基+配体原子
双轨全原子扩散
~350M
✓
Boltz-1
2024
全原子
AF3风格开源复现
—
✓
LigandMPNN
2025
残基+配体原子
配体感知GNN
~1.7M
✓
RFdiffusion3
2025
单个原子
Transformer U-Net稀疏注意力
168M
✓
Boltz-2
2025
全原子+亲和力
四模块统一(Trunk+扩散+置信度+亲和力)
—
✓
BoltzGen
2025
全原子
PairFormer扩散+几何残基编码
—
✓通往未来的路
站在2026年回看,小分子结合蛋白设计领域用了13年时间,从一个手工操作的"精品作坊"进化到了AI驱动的"设计工厂"。2013年设计一个结合蛋白需要世界顶级的计算和实验能力,2026年一个好的研究生经过适当培训就能操作。
但真正的挑战并没有消失——它们只是转移了。
从"能结合"到"能特异性结合"——这是负设计要解决的。
从"能结合"到"能催化"——这是酶设计要解决的。
从"实验室能工作"到"田间能工作"——这是工程化要解决的。
从"我们能做"到"我们理解为什么做对了"——这是科学要解决的。
不管你是哪个领域的从业者,这个时代最激动人心的事情是:蛋白质——生命最基础的分子机器——正在从"我们只能发现和理解"变成"我们可以设计和创造"。
你不是在观察自然。你是在扩展自然。
本文基于2013–2026年发表的约30篇核心文献整理,结合了截至2026年5月的最新研究进展。文中的"启发点"和解释性内容旨在让不同背景的读者都能获得自己的洞见。
未完待续
暑
去
秋
来
END OF HEAT