引言
在“AI for Science”的浪潮下,药物研发正在经历一场从“筛选发现”到“从头设计(De Novo Design)”的范式转变。
传统的药物发现往往依赖于对现有化合物库的高通量筛选,但这在估计高达 1060 量级的庞大化学空间面前犹如大海捞针。近年来,生成式人工智能(Generative AI)作为一种强大的计算引擎,使得在广阔的化学空间中高效探索并生成具有特定属性的新颖分子成为可能。
近日,重庆大学薛伟伟教授团队与上海第二工业大学陈英军在期刊 ACS Chemical Neuroscience 上发表综述文章 “Machine Learning for De Novo Molecular Generation: A Comprehensive Review”。
该综述系统地梳理了机器学习驱动的分子生成领域,从分子表征、模型架构到评估框架进行了全景式解析,并特别关注了中枢神经系统(CNS)药物设计这一高难度领域的应用挑战。
( 影响因子: 3.93;JCR: Q2;中科院: 3区;TOP期刊: 否 )
摘要配图
图 1 本综述的整体结构与研究框架
01 分子表征:计算化学的“语言”
将分子的化学结构转化为计算机可读的格式,是所有计算流程的基石。文章总结了目前主流的三种分子表征方式及其优劣:
1D 字符串表示 (String-Based): 如经典的 SMILES 和近年来为解决语法有效性而提出的 SELFIES。这类表示计算效率高,兼容自然语言处理(NLP)模型,但缺乏3D构象信息。
2D 图表示 (Graph-Based): 将原子视为节点,化学键视为边。这是分子最自然的拓扑表达,具有旋转不变性,非常适合图神经网络(GNN),但同样忽略了空间立体信息。
3D 几何表示 (3D Geometry): 如点云(Point Clouds)和体素网格。对于基于结构的药物设计(SBDD)至关重要,能捕捉物理真实性,但计算成本高昂,且需处理旋转平移等变性(E(3)-equivariance)问题。
表 1 分子表征方法对比
02 生成模型分类学:六大流派各显神通
文章深入剖析了当前最先进的生成模型架构,不仅仅是描述原理,更批判性地分析了各自的“算法故障模式”:
表 2 生成模型架构的对比分析
图 2 模型示意图
1. 变分自编码器 (VAEs):
优势: 拥有平滑的连续潜空间,适合进行分子性质的梯度优化。
局限: 存在“有效性-质量权衡”问题,生成的分子往往结构较为模糊或单一。
表 3 分子生成中变分自编码器(VAE)方法与应用综述
2. 生成对抗网络 (GANs):
优势: 能生成高保真度的分子结构。
局限: 训练不稳定,容易出现“模式坍塌(Mode Collapse)”,即生成大量重复的分子;在结合强化学习时易发生“奖励黑客(Reward Hacking)”现象。
表 4 分子生成中生成对抗网络(GAN)方法综述
3. 循环神经网络 (RNNs) & Transformer:
优势: 基于序列生成,数据效率高。Transformer尤其擅长捕捉长程依赖(如大环分子的闭合)。
局限: 容易出现“化学幻觉”,即生成语法正确但化学上不合理的结构。
表 5 分子生成中循环神经网络(RNN)方法综述
表 6 基于 Transformer 的分子生成方法综述
4. 扩散模型 (Diffusion Models):
地位: 目前3D分子生成的SOTA(最先进)方法。
原理: 受非平衡统计物理启发,通过逆向去噪过程生成分子。
挑战: 采样速度慢,计算成本高。
表 7 分子生成中扩散模型方法综述
5. 其他模型: 包括归一化流(Normalizing Flows)和基于能量的模型(EBMs),以及结合多种架构优势的混合模型(如VAE+GAN,或Transformer+遗传算法)。
03 核心战场:CNS药物设计的挑战
本综述的一个独特视角是特别关注了中枢神经系统(CNS) 药物的生成。
CNS药物研发是药物化学的“皇冠明珠”,因为药物必须穿过血脑屏障(BBB)。这意味着生成模型不能仅仅优化结合亲和力,还必须在极窄的物理化学性质窗口内进行多参数优化(MPO):
严格的约束: 需同时满足低分子量、低极性表面积(TPSA)、适当的脂溶性(LogP)等。
安全性: 需规避P-糖蛋白(P-gp)外排和神经毒性。
策略: 文章指出,针对CNS领域,基于RNN的迁移学习和基于Transformer的双靶点配体设计展现出了巨大潜力。
图 3 药物发现中核心生成模型的代表性应用示例。
(a) 分布学习:抗菌类甲硝唑衍生物示例,IC50 = 6.85 μM(金黄色葡萄球菌)。
(b) 定向生成:NLRP3 抑制剂示例,IC50 = 44.43 nM。
04 现实差距与挑战
尽管算法日新月异,但在实际药物研发中大规模部署生成模型仍面临严峻挑战:
评估指标的虚幻: 传统的QED(药物相似性)和SA(合成可及性)分数往往只是粗糙的过滤器。很多模型在这些指标上得分很高,但生成的分子在药物化学家眼中却毫无意义。
合成可行性 (Synthesizability): 这是最大的痛点。虽然有CASP(计算机辅助合成规划)工具,但模型生成的许多“完美”分子在实验室中根本无法合成。
Oracle瓶颈: 生成模型依赖于预测器(Oracle)的反馈。如果预测器本身不准确(例如结合亲和力预测),模型就会陷入“垃圾进,垃圾出”的循环。
域外生成 (OOD): 真正的创新需要模型跳出训练数据的分布,探索未知的化学空间,但目前大多数模型仍倾向于插值而非外推。
表 8 评价指标与基准测试平台汇总
05 未来展望
文章最后指出了几个极具前景的发展方向:
大型语言模型 (LLMs): 利用海量文本数据进行预训练(如MolT5, ChemLLM),实现通过自然语言描述来生成分子。
物理感知人工智能 (Physics-Informed AI): 将数据驱动的方法与第一性原理(如DFT、MD模拟)相结合,提高生成的物理真实性。
自主实验室 (Self-driving Labs): 构建“设计-合成-测试”的闭环自动化系统,最大程度减少人工干预,加速科学发现。
06 结语
从早期的SMILES生成到如今基于扩散模型的3D结构设计,AI分子生成技术已经取得了长足的进步。然而,要真正实现从“计算生成”到“临床药物”的跨越,我们不仅需要更强大的算法,更需要深入理解化学与生物学的本质,建立更可靠的评估体系,并拥抱“干湿结合”的未来。
收稿日期:2025 年 11 月 3 日
修回日期:2026 年 1 月 28 日
录用日期:2026 年 2 月 2 日
论文信息:
Chen, Y., & Xue, W. (2025). Machine Learning for De Novo Molecular Generation: A Comprehensive Review. ACS Chemical Neuroscience.
https://doi.org/10.1021/acschemneuro.5c00861