药物靶标识别与验证是新药研发的首要环节,其关键挑战在于筛选出同时满足疾病机制关联性、结构可靶向性及成药潜力的生物分子靶标。通过早期且全面的靶标验证,可明确建立靶点调控与疾病治疗效应的因果关系。基于对靶标三维结构及功能特征的深度解析,结合理性药物设计策略,能够高效发现和优化与靶标特异性结合的活性化合物,显著缩短药物发现周期并降低研发成本。在复杂疾病治疗领域,靶标发现技术与药物设计方法的协同应用,不仅提升了药物的靶向性和治疗效力,更推动了医药研发范式从“广谱治疗”向“精准干预”的转型。
2025年7月28日,华东师范大学药学院/人工智能新药创智中心李洪林教授团队在《中国科学:化学》期刊发表综述,题为“药物潜在靶标识别与药物设计方法研究”,该文系统总结了李洪林教授课题组在华东理工大学和华东师范大学近二十年间,在靶标识别、药物设计以及人工智能药学等方法和平台上的发展及原创新药研究进展,并基于当前研究态势,深入探讨药物设计领域亟待解决的关键科学问题,进而对未来发展趋势与挑战提出展望。
1.靶标识别方法
新药研发的首要环节是药物靶标的识别与确证,这一过程直接决定研发效率和治疗效果。虽然病理生理过程中涉及的生物大分子都可作为潜在干预对象,但并非所有分子都适合成为有效的药物靶标。因此,必须对候选分子的结构、理化特性和生物学功能进行全面评估,才能筛选出最具开发潜力的靶标,为开发兼具选择性、有效性和安全性药物的分子靶标奠定基础。
针对靶标发现的复杂性,本课题组开发了一系列创新计算方法:
图1 本课题组在靶标发现领域开发的方法和平台
1.1 反向对接:
TarFisDock:通过对接搜索配体的潜在结合靶标,使用配体-靶标相互作用能评估,可高效识别活性分子和天然产物的潜在结合靶标;
1.2 反向药效团匹配:
PharmMapper:基于三角形特征哈希表查找方法寻找最优匹配方式,发展了药效团特征空间匹配算法,其结合已构建的药效团靶标库PharmTargetDB,以活性小分子为探针,进而搜寻药物潜在靶标,预测化合物生物活性;
1.3 多向药理学:
ChemMapper:基于小分子三维结构相似性和随机游走网络推理的药物靶标预测方法,通过化学结构相似性信息关联药理学空间,识别并预测小分子可能的靶标和结合位点,并集成了靶标识别、多向药理学、先导化合物发现以及骨架跃迁等研究功能;
1.4 基于结合位点的靶标预测:
SiteMapper:突破序列限制,通过几何形状、侧链方向和残基理化性质分析,实现蛋白功能位点的精准识别与分类;
RNAProSite算法:引入了残基静电表面势和三联体界面倾向两个判别型结构描述符,提出了一个随机森林分类器算法用以预测RBR(RNAProSite);
这些方法不仅提高了靶标预测效率,还为多向药理学研究提供了重要工具,形成了从靶标发现到药物设计的完整计算体系。
2.药物设计方法
药物设计是一种根据生物靶点的现有知识寻找与发现新型药物的过程。现代药物设计方法主要分为两类,,即基于结构的药物设计(structure-based drug design, SBDD)和基于配体的药物设计(ligand-based drug de sign, LBDD)。本课题组通过优化分子对接算法、评分函数及分子相似性技术,并结合人工智能(AI)辅助手段,建立了一套系统的计算辅助药物发现体系。
图2 本课题组在药物设计领域开发的方法和平台
2.1 分子对接:
GAsDock:将配体的空间位置、取向和可旋转键参数编码为优化变量,以力场能量函数为优化目标,并行演化多个配体构象种群,结合信息熵理论动态优化搜索空间,显著提升了计算效率,为大规模虚拟筛选提供了高效、精准的解决方案
改进的自适应遗传算法:通过拟精确罚函数将约束优化问题转化为无约束优化问题简化了求解过程,同时引入了自适应策略,将交叉概率和变异概率作为优化变量,而非固定值进而动态调整,提升了算法的适应性和搜索效率;
MOSFOM:克服单一评分函数的局限性,基于多目标优化算法同时优化能量评分和接触评分,在COX-2、雌激素受体和凝血酶等靶点验证中表现优异;
TF-Binder:DNA特异性分子对接方法体系,结合碱基特异性静电势修正与骨架柔性校正提升DNA结合位点的描述精度;基于序列指纹评分增强特定DNA序列的分子特征识别能力,整合多构象采样算法有效解决DNA结合位点构象多样性问题,并已成功应用于AP-1转录因子抑制剂的发现;
iFitDock:整合格点模型、多目标优化算法、改进的MM/GBSA自由能计算方法和马尔可夫链计算转移概率矩阵,构建自由能全景图,精确预测药物驻留时间,提出“快结合、慢解离”的药物设计策略,实现结合亲和力与动力学参数的同步预测,并成功模拟了石杉碱甲与乙酰胆碱酯酶的结合过程。该方法为华为盘古大模型中核心药物筛选程序。
图3 药物-靶标结合动力学预测算法iFitDock用以指导药物设计
2.2 评分函数:
FMOScore:整合了FMO计算的气相相互作用能、PM7/COSMO模型计算的溶剂化自由能、配体形变能,通过线性拟合预测结合自由能,在Schrödinger FEP+数据集上表现出优于FEP+、MM/PB(GB)SA和AutoDock Vina等传统方法的预测精度;
Kscore:突破传统分子对接对金属蛋白-配体相互作用的局限,开发了一种改进的基于知识的平均力势(potential mean force,PMF)评分函数,不仅重新定义了配体和蛋白质的原子类型,还在PMF框架中明确引入了通用的金属离子原子类型(MET) 和水分子原子类型(OW),从而能够更直接地模拟金属离子与配体以及溶剂化的相互作用;
MpSDock:针对金属蛋白(如锌金属蛋白)的特异性对接程序,采用双评分函数策略,提高预测精度;
2.3 分子相似性分析:
FMOScore:整合了FMO计算的气相相互作用能、PM7/COSMO模型计算的溶剂化自由能、配体形变能,通过线性拟合预测结合自由能,在Schrödinger FEP+数据集上表现出优于FEP+、MM/PB(GB)SA和AutoDock Vina等传统方法的预测精度;
Kscore:突破传统分子对接对金属蛋白-配体相互作用的局限,开发了一种改进的基于知识的平均力势(potential mean force,PMF)评分函数,不仅重新定义了配体和蛋白质的原子类型,还在PMF框架中明确引入了通用的金属离子原子类型(MET) 和水分子原子类型(OW),从而能够更直接地模拟金属离子与配体以及溶剂化的相互作用;
MpSDock:针对金属蛋白(如锌金属蛋白)的特异性对接程序,采用双评分函数策略,提高预测精度;
图4 SHAFTS用于数据库虚拟筛选工作流程示意图
2.4 药效团建模和虚拟筛选:
SHAFTS:采用混合相似性度量,结合分子形状信息和药效团特征(如疏水中心、氢键供体/受体等),利用特征三元组哈希算法快速枚举分子叠合构象,并基于高斯密度函数计算形状与特征的重叠分数,有效提高三维分子相似性计算的准确性和效率,并在应用中发现坦索罗辛新活性;
SHeMS:基于球谐函数的分子形状比较方法,提升了分子形状比较的针对性和灵活性,为基于形状的虚拟筛选提供了一种高效且可定制化的解决方案;
SimG:基于形状和化学特征相似性的分子比较方法,采用高斯体积重叠算法精确匹配配体与结合位点的形状相似性,通过化学特征互补性评估优化配体位姿;突破性支持无先验配体信息的靶标筛选,特别适用于全新靶点的活性化合物发现;
2.5 人工智能辅助药物设计(AIDD):
e-TSN:基于AI文本挖掘技术构建的疾病-靶点知识图谱,通过整合3亿+靶标-疾病关联数据,采用文献计量学方法建立重要性/新颖性评分体系,实现关键疾病靶标的高效筛选,并提供可视化分析工具,在突发传染病药物研发中展现出重要应用价值;
PISTE:物理启发的滑动注意力Transformer模型,专注于预测TCR-抗原-HLA三元组结合特性,通过引入物理驱动的动态注意力机制模拟氨基酸残基在相互作用梯度场中的滑动行为,显著提升新抗原免疫原性预测精度,为肿瘤个性化免疫治疗提供可靠靶点筛选工具;
CIRS:多模态化学信息重建系统,通过异构数据生成器实现专利文本与结构图像的自动对齐,将非结构化专利信息转化为结构化分子数据库,显著扩展近药化学空间;
MacFrag:AI赋能的分子分割方法,通过扩展BRICS规则(支持环状键切割)结合高效子图枚举算法,快速生成高质量分子片段库,为药物发现提供优质分子构建模块;
Macformer:基于Transformer架构的大环分子生成方法,通过智能连接子添加技术将无环分子转化为结构新颖的大环化合物,有效探索大环化学空间,加速先导化合物优化进程,并在JAK2大环抑制剂中展现巨大潜力;
scRISE:面向单细胞转录组学的深度聚类方法,通过图自编码器迭代平滑与自监督判别嵌入的双模块协同,有效解决scRNA-seq数据中的复杂结构和噪声问题,显著提升数据表征和聚类性能。
图5 AI辅助药物设计方法
从知识图谱技术为药物靶点发现提供了系统化的知识框架与高效的分析工具,到新抗原预测方法显著推动了肿瘤免疫治疗的精准化发展,再到发展化学库构建与分子生成技术为候选药物的多样性与创新性提供了坚实保障,AIDD技术的研究在多个药物设计领域相辅相成,串联起从靶点发现到药物设计与优化的完整研发链条,充分展现了人工智能驱动的药物研发新范式的巨大潜力与广阔前景。
3.药物发现计算平台及软件
本课题组致力于开发并提供了一系列靶标发现计算平台,采用了多样化的技术路径来应对靶标识别与确证的挑战,形成了互补的工具集。这些平台整合了不同的信息来源和算法策略,旨在将快速增长的生物、化学与文本数据转化为可操作的知识,为新药研发提供有力的计算支持,并已获得广泛应用。
3.1 靶标发现平台:
PharmMapper:基于药效团匹配策略的在线靶标识别服务器,利用高效的匹配算法在包含超过1.6万个可药性药效团模型的大型数据库中进行“靶标垂钓”。通过引入Z’-score排序等优化,提高了预测准确性,并已成功应用于多种天然产物和化合物的作用机制阐释与药物重定位研究;
ProfKin:专门用于基于结构的激酶谱分析的网络服务器,其后台整合了一个精心构建的激酶-配体复合物数据库KinLigDB,收录了来源于蛋白质数据库(protein data bank,PDB)的4200多个高质量的人类激酶-配体复合物三维结构,覆盖了近300种人类激酶;
e-TSN:通过交互式散点图并创新性地引入基于文献计量的显著性和新颖性评分体系,帮助用户可视化并优先发现那些与疾病关联性强(高显著性)但研究尚不充分(高新颖性)的潜在新靶标,为数据驱动的靶标发现和机制探索提供了独特视角。
3.2 药物设计软件与平台:
eSHAFTS:基于SHAFTS核心算法开发的图形化桌面软件,该软件集成分子编辑、蛋白质分析、多线程/多模式相似性计算以及多维信息可视化等功能于一体,旨在提供一个流畅、直观的CADD工作环境,便于用户执行从分子设计、虚拟筛选到结果分析的全过程;
ChemMapper:将三维相似性方法应用于连接化学结构空间与药理功能空间,该平台利用SHAFTS等三维相似性算法作为引擎,通过将用户查询分子与大型已知活性和靶标注释的化合物数据库进行比对,预测潜在的靶标谱和多向药理学效应,从而支持药物重定位和作用机制探索,例如其曾被用于发现新型铜离子转运蛋白抑制剂;
iDrug:作为一个集成化的在线药物发现平台,整合了多种关键的CADD工具,不仅包括基于三维相似性的虚拟筛选(SHAFTS)和靶标预测,还涵盖了结合位点检测(Cavity)和基于受体结构的药效团建模(PocketV.2)。用户可以通过iDrug的统一网页界面执行分子编辑、可视化、任务提交以及基于会话的工作管理,无需本地安装复杂软件即可调用后台强大的计算资源完成多样化的药物设计任务,显著提升了CADD技术的可及性;
ePharmer:针对药物设计中应用广泛的药效团方法,现有软件在方法整合度、用户界面友好性及结果分析深度方面仍存在不足。ePharmer作为一款桌面应用程序,将基于配体和基于结构的药效团模型构建方法整合到统一框架中,支持从模型生成、虚拟筛选到结果可视化和分析(包括代谢物预测)的全流程操作;
VRPharmer:为进一步克服传统二维屏幕在展示复杂三维分子结构和相互作用时的局限性,并提升用户对计算过程的直观理解与交互能力,VRPharmer将整个药效团虚拟筛选工作流引入到虚拟现实(VR)环境中。利用VR技术的沉浸式视觉和交互优势,让用户能够身临其境地观察分子结构、自由探索结合模式;
靶标发现和药物设计软件与平台,代表了计算科学赋能新药研发的不同策略和实现方式。开发这些工具的核心驱动力在于将快速增长的生物、化学和文本数据转化为可操作的知识,并通过计算模拟与预测能力,显著提升靶标识别的准确性、先导化合物发现的效率以及候选药物优化的成功率。平台化和集成化的趋势则进一步放大了这些工具的价值,实现了数据、方法和工作流的整合,提升了协同创新的潜力。
4.药物研发应用实例
4.1 靶向二肽基肽酶IV——长效抗糖尿病药物博格列汀的发现:
II型糖尿病需要长效抗糖的药物改善患者依从性。本课题组通过反向对接方法TarFis Dock搜索潜在药物靶标数据库PDTD,结合反向药效团匹配方法PharmMapper及生物实验发现天然产物——异瑞香新素,其对二肽基肽酶IV表现出中等强度的抑制活性(IC50=14.13 μM)。以此天然产物为起点通过分子相似性方法SHAFTS、药效团匹配和骨架跃迁等手段获得一类骨架新颖的2-苯基-3,4-二氢-2H-苯并[f]色满-3-胺类DPP-4抑制剂,在此基础上仅设计合成了7个化合物就将其抑制活性提高近万倍,获得代表性化合物HL-011(IC50=2.0 nM). 为进一步延长药物在体内的作用时间,借助FMO理论精准设计并合成了候选药物博格列汀(化合物HL-012)。该化合物具有快结合、慢解离的结合动力学特性及缓慢清除、超长半衰期的药代动力学性质,具备良好的安全性特征。
图6 长效抗糖尿病候选药物博格列汀(HL-012)的发现流程
4.2 表皮生长因子受体抑制剂——新型不可逆抑制剂的设计与发现:
表皮生长因子受体(EGFR)通过调控下游信号通路(如Ras-MAPK和PI3K/Akt)在细胞增殖、分化和凋亡过程中发挥核心作用。EGFR的异常激活(包括过度表达和突变)与多种实体瘤的发生发展密切相关,尤其在非小细胞肺癌(NSCLC)中,EGFR突变(如L858R和外显子19缺失)被确认为重要的驱动基因变异。针对前期发现的吡啶类可逆抑制剂的活性不足和专利问题,本组通过SHAFTS算法骨架跃迁设计出候选药物ZW-49,目前,该候选药物已完成I期临床研究。
图7 通过SHAFTS进行骨架跃迁发现新的EGFRT790M突变抑制剂
4.3 二氢乳清酸脱氢酶抑制剂——广谱抗RNA病毒潜在药物分子的发现:
急性病毒感染,如流感病毒、严重急性呼吸综合征冠状病毒 (SARS-CoV)、中东呼吸综合征冠状病毒 (MERS-CoV)、埃博拉病毒等,对全球公共卫生安全构成的威胁日益严峻。现有的直接作用抗病毒药物 (direct-acting antivira,DAA) 通常具有特异性,无法迅速应用于新发病毒的感染。本课题组前期通过基于结构的虚拟筛选方法,从包含约280000个化合物的SPECS数据库中针对DHODH泛醌结合位点筛选候选分子,并通过结构优化,获得了高效的抑制剂S312和S416 (IC50值分别为29.2和7.5 nM),抑制活性较已获美国食品药品监督管理局批准的特立氟胺高出约一个数量级。 此外,S312和S416的半衰期(分别为8.20和9.12h)也比特立氟胺(约18~19d)短得多且更合适,表明其在体内蓄积而产生毒副作用的风险更低。通过应用这两种有效的抑制剂,我们在细胞感染模型和动物感染模型中,对DHODH作为宿主靶标的潜在价值进行了评估。研究结果表明,靶向DHODH能对多种RNA病毒产生广谱抗病毒效果,包括对DAA有抗药性的流感病毒和新型冠状病毒SARS-CoV-2。因此,通过靶向参与病毒基因组复制和免疫调节中的关键酶DHODH,S312/ S416有望成为治疗SARS-CoV-2或全球流行的其他RNA病毒感染的候选药物。
5. 总结与展望
立足于现有基础,并着眼于未来,药物靶标识别与设计领域正步入一个由多学科交叉、数据驱动和智能技术引领的新阶段。然而,AI在药物研发中的应用仍面临模型泛化性、可解释性、复杂问题建模等问题,未来的挑战在于如何更有效地整合多源异构数据,发展更可信、更具泛化能力的计算模型,尤其是针对传统上认为“不可成药”靶点、瞬时构象靶点、多靶点协同调控等复杂靶点识别及药物设计,建立计算预测与实验验证之间高效、可靠的迭代闭环。
华东师范大学药学院/人工智能新药创智中心博士研究生龚道鸿为本文第一作者。华东师范大学药学院/人工智能新药创智中心李洪林教授为本文的通讯作者。本研究得到了国家重点研发计划 (2022YFC3400501) 和国家自然科学基金 (82425104) 的资助。值此陈凯先院士80华诞之际,谨以此文,献给在药学领域做出卓越贡献的陈先生。
图源 中国科学:化学
参考文献
Gong D, Tang J, Wang B,. et al. Method development for potential drug target identification and drug discovery. Sci Sin Chim.2025, 55(8): 2223-2242.
https://doi.org/10.1360/SSC-2025-0118
--------- End ---------
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位或姓名-学校-职务/研究方向。