作者:Rácz, A.等( 原载《Nature Reviews Drug Discovery》综述,2025年)
摘要
小分子药物发现的目标是开发满足目标产品概况标准的化学实体,以推进临床试验。这一目标通过多参数药物化学优化实现,通常通过识别命中阶段具有高后续成功概率分子性质的化合物,然后迭代优化这些性质——往往并行进行——以识别先导化合物,并最终获得药物候选物。为了评估药物化学优化对分子性质的影响,作者分析了文献中 2015–2022 年报道的新药物候选物及其对应的命中化合物和先导化合物,并将其与 2000–2010 年鉴定的药物候选物及其对应的命中化合物和先导化合物进行比较。这一分析由阿斯利康和诺华内部药物化学项目的类似分析补充。在这里,作者强调并讨论了观察到的趋势的影响,这些趋势包括关键理化性质的转变以及药物化学项目的战略变化。引言
多项分析强调了二十一世纪制药研发(R&D)生产力的下降[^1–4]。在被认为导致下降的诸多因素中,在启动临床前研究前和期间做出的决策——如聚焦的疾病类型、追求的靶点类型以及用于识别药物候选物的途径——被视为逆转负面趋势的机会[^5–8]。
这些分析揭示了小分子药物发现活动中选定靶点类型的转变,更具挑战性的靶点类型如蛋白质–蛋白质相互作用(PPIs)、表观遗传蛋白和转录因子变得更受欢迎,导致管道中包含这些新兴靶点类别以及传统靶点类别(如激酶、G 蛋白偶联受体(GPCRs)和转运体)的项目[^9–11]。
对更具挑战性靶点类别的关注转变创造了对新型命中发现途径和模态的强烈需求,如共价药物、大环和靶向蛋白降解剂。此类途径和模态的更广泛应用可能影响化学性质、命中化合物的理化概况以及从命中到先导再到开发候选物的优化策略。
2000–2012 年期间的各种出版物分析并指导了药物化学途径的发展,包括命中到先导[^12] 和先导到候选物优化的景观分析[^13–16],并提出了一种药物化学优化的“甜点”[^17]。尽管过去十年小分子药物发现的靶点焦点和策略发生了变化,但最近仅发表了少数关于命中化合物与其对应先导化合物和药物候选物之间路径的分析。Brown 和 Boström[^18] 仅评估了端点(即,命中到候选物对)在 2 年期间(2016–2017 年),随后是对 2018–2021 年的类似分析[^19]。采用不同途径,Beckers 等将优化过程视为众多分子的化学系列,而不考虑命中、先导或药物候选物的指定,并考察了其结构性质、ADMET(吸收、分布、代谢、排泄、毒性)性质以及靶点活性相关指标随时间演变[^20]。大型公司内部数据集的分析为此类分析增添了另一个维度,通过探索未发表药物化学项目中的优化趋势及其变化[^14–16],但这些研究未包括候选物优化过程的命中和先导阶段细分,也未将不同趋势作为靶点类型、命中发现方法和优化策略的函数进行分析。
在这里,作者旨在改善对近年来口服小分子药物候选物命中发现和优化策略演变的理解,呈现了对文献中 2015–2022 年报道的新口服药物候选物及其对应命中化合物和先导化合物(称为“当前命中、先导和候选物”)的分析,以及与 2000–2010 年鉴定的口服药物候选物及其对应命中化合物和先导化合物(称为“基准命中、先导和候选物”)的比较。这一分析详述于框 1 中,并由阿斯利康和诺华在相同时间范围内的内部药物化学项目针对口服可用药物候选物的类似比较分析补充(框 2)。这些对公共和公司数据集跨多个治疗领域的化合物概况的分析揭示了几个关键性质趋势,这些趋势清楚地依赖于命中发现和优化策略,因此质疑了先前启发式规则的普遍性。这些发现共同证实了过去十年药物化学项目的不断演变景观,并支持实施新途径和工具以实现临床前研究生产力的进一步改善[^21]。框 1 | 文献药物候选物的数据收集与分析
本观点分析的两个文献药物候选物数据集是从 2015–2022 年和 2000–2010 年期间发表的研究论文中手动整理的。对于当前(2015–2022 年)候选物数据集,使用搜索关键词“clinical candidate”从《Journal of Medicinal Chemistry》收集潜在相关出版物,时间段设置为 2015 年至 2022 年(含)。文章主题过滤限于“Article”、“Featured article”、“Drug annotation”和“Brief article”。
收集的出版物被分析,以查看是否能识别报道药物候选物对应的命中和先导结构(候选物由“clinical candidate”或“development candidate”术语识别)。所有关键化合物由作者声明识别,如果存在的话。如果识别多个命中,则使用最强效者进行进一步分析。如果缺少先导化合物声明或选择不明确,则将选择用于 ADMET(吸收、分布、代谢、排泄、毒性)/药代动力学优化的最高效价化合物指定为先导。识别前药作为候选物的出版物、鉴于上述考虑无法识别先导或候选物的研究以及针对非口服给药开发的候选物均被排除。
最终数据集包含 247 个命中–先导–候选物三元组,用于进一步分析。相应分子使用 Chemaxon 的 MarvinSketch 绘制,结构转换为 SMILES 字符串用于后续分析。
命发现策略基于作者声明识别。如果缺少明确声明,则应用以下标准对命发现策略分类:
• 定向筛选:通过筛选基于靶点类别或靶点知识选择的化合物子集识别命中。库大小显著小于高通量筛选(HTS)化合物集合(≤104)。
• DNA 编码库(DEL)筛选:通过筛选由极大量(通常 >108)小分子化合物组成的库识别命中,使用涉及将化学化合物与用作条形码识别命中的 DNA 片段偶联的技术。
• 片段筛选:通过筛选含有数千个低分子量(MW;通常 <250 Da)化合物的库,在高浓度下识别命中。验证命中在片段基药物发现(FBDD)程序中优化。
• HTS:通过筛选随机小分子化合物集合识别命中,对于大型制药组织可为大型(105–106 化合物),但也可能更小。
• 已知:药物化学优化项目的起始点是先前已知化合物,源于与靶点相关的内部或外部化合物,且未在导致药物候选物的特定发现程序中识别。
• 基于结构的药物设计(SBDD):命发现策略包括从头设计或体外筛选化合物集合,包括使用靶点蛋白 3D 结构;在该语境中,这些方法用于命发现活动生成新型化学实体。请注意,使用 3D 蛋白–配体结构优化结合配体(如骨架跳跃)的特定案例标记为已知而非 SBDD。
发现项目的靶点分为七个子类(表观遗传、核受体、离子通道、G 蛋白偶联受体(GPCR)、激酶、其他酶和杂项),并大多在出版物中明确给出。如果提及多个靶点,则选择出版物明确声明的作为进一步分析的主要靶点。如果缺少明确声明,则选择候选物效价最高的靶点。
治疗领域使用参考文献 18 中的类别分配——免疫/炎症、泌尿、感染、代谢、呼吸、肿瘤学、中枢神经系统(CNS)/疼痛、心血管、血液学——并根据出版物正文提取。如果注明多个适应症,则选择临床研究针对的适应症。
活性数据(IC50、EC50、AC50、Ki、Kb、Kd)从原始出版物提取。如果缺少活性数据,则使用 ChEMBL 收集此信息。如果文献搜索也失败,则省略给定化合物的活性数据。
为提取基准(2000–2010 年)数据集的 91 个命中–先导–候选物三元组,分析了《Journal of Medicinal Chemistry》在基准时间期间的出版物,类似于上述描述,应用相同过滤器识别相关出版物,但时间段设置为 2000 年至 2010 年(含)。此处,文章主题过滤限于“Article”、“Brief article”、“Expedited article”和“Letter”。
两个收集的文献和基准数据集的分子描述符使用 RDKit:开源化学信息学软件包计算(HA,重原子;rotB,可旋转键数量;TPSA,使用 RDKit 实现原始方法[^76] 计算的拓扑极性表面积;HBA,氢键受体;HBD,氢键供体;Fsp3,sp3 碳分数)和 Chemaxon 的 Instant JChem(logD、logS、logP)功能,使用 KNIME 平台[^77]。 “先导相似性”类别从参考文献 28 中检索,而五法则类别和规则集从参考文献 33 中提取。扩展连接性指纹(ECFPs)[^78](Morgan 指纹,大小 1,024 位,直径 4)和 2D/3D 药效团指纹使用 RDKit 计算;基于这些指纹的相似性使用 Tanimoto 系数[^79] 评估。统计分析使用 TIBCO Statistica 软件进行,独立 t 检验在 α = 0.05 下评估。含有 ≤5 个条目的命发现策略或靶点类别组从统计分析和轨迹图中排除,但存在于饼图中。配体效率(LE)计算为 LE = (1.37 / HA) × pIC50,亲脂配体效率(LLE)计算为 LLE = pIC50 – clogP,根据参考文献 80。请注意,代替 clogP,使用上述 Chemaxon 软件计算的 logP 值评估 LLE。如果 pIC50 不可用,则使用 pEC50、pAC50、pKi、pKb 或 pKd。框 2 | 公司药物化学程序的数据收集与分析
阿斯利康产品组合中命中、先导和药物候选物数据集的分析以类似于框 1 中描述的文献数据集方式进行。从两个时间期间,2015–2022 年和 2000–2010 年,成功通过候选药物投资决策里程碑的所有化合物被识别,并追溯公司档案至原始命中化合物。先导被识别为先导优化投资决策里程碑的关键化合物,在许多情况下这是具有确认体内疗效的化合物。仅考虑口服小分子;前药、纳米药物、肽类、生物制剂、药物偶联物和蛋白水解靶向嵌合体(PROTACs)均排除。在同一化学系列的多个候选物情况下(例如,备份程序的候选物,除非不同化学系列),仅包括第一个。最终数据集包含 81 个命中–先导–候选物三元组。对于数据子集分析,我们仅报告靶点类别或命发现策略的命中–先导–候选物三元组分析,当每个类别至少可用三个完整三元组时。后来阶段包含较少数据点,因为阿斯利康在这些期间之间改变了策略,并在项目进入管道和作为候选药物进展的关键标准中应用,以聚焦于较少项目,这些项目有更大机会实现临床成功[^21]。仅在化合物无测量 logD 时,使用计算 logD 进行分析。阿斯利康化合物的亲脂配体效率(LLE)值根据 Leeson 等[^13] 的原始定义使用 logD 而非 logP 计算。
诺华产品组合的命中–先导–候选物三元组也使用类似于公共文献数据集的内部数据分析进行调查。命中–先导–候选物三元组(>25)基于 Beckers 等[^20] 先前发表的化学系列重建识别,该重建包含数据集的详细描述。该数据集仅包含小分子,无肽类、大环、药物偶联物或 PROTACs。先导定义为过渡至先导优化前发现的最活跃化合物,这些化合物未进一步表征超出体内药代动力学。对于所有程序,无法识别完整三元组的多个原因,如缺少先导提名日期或无法忠实分配整个项目靶点活性测定。在同一化学系列的多个候选物情况下(例如,备份程序的候选物),仅考虑第一个。我们仅报告靶点类别或命发现策略的命中–先导–候选物三元组分析,当每个类别至少可用两个完整三元组时。框 3 | 新型模态药物候选物的数据收集与分析
为提取新型模态数据集,进行不限于《药物化学杂志》的彻底文献分析。以下综述文章被检查以提取相关命中–先导–候选物三元组——如果可用——或否则候选物分子:大环,参考文献 54,81;蛋白水解靶向嵌合体(PROTACs),参考文献 63,82–88;分子胶,参考文献 88–96;蛋白–蛋白相互作用(PPI)抑制剂,参考文献 97–101。从数据集中排除非口服给药化合物、批准药物和临床试验在 2015 年前结束的候选物。这导致 12 个大环、28 个 PROTACs、18 个分子胶和 15 个 PPI 抑制剂候选物(见补充表 13)。请注意,无可用候选物结构的若干条目已从结构依赖分析中省略。
命中、先导和候选物的不断变化概况文献化合物的分析
由于命中发现策略和化合物的理化概况可能高度依赖于靶点类别,首先调查了文献数据集中的疾病领域和靶点类型的分布。
当前(2015–2022 年)期间的最大药物候选物组为肿瘤学适应症(38%),较基准(2000–2010 年)组的相应 17% 比例大幅增加(图 1Aa,Ab)。针对中枢神经系统(CNS)适应症的候选物比例在基准集中最大(20%),在当前数据集中未发生显著变化(19%),使 CNS 成为当前候选物的第二大治疗领域。乍一看,这一发现有些令人惊讶,因为许多大型制药公司在过去十年左右停止或减少了对 CNS 药物发现的投资。然而,其中一些停用的研究被分拆到小型生物技术公司,这些公司现在被大型制药公司收购,因为该领域的兴趣重新涌现。作者分析期间的最大相对下降为心血管疾病(从 12% 降至 6%)和传染病(从 15% 降至 8%),这反映了大型制药公司在这些治疗领域投资的总体减少。
图 1 | 文献和公司化合物特征概述。A、B、C,分析的三个化合物集——文献、阿斯利康和诺华数据集——的关键特征,按三组垂直排列。在每个垂直组内,根据疾病领域、靶点类别和命发现策略的化合物分布显示在饼图中,用 a、c 和 e 进一步标记当前(2015–2022 年)期间,以及 b、d 和 f 标记基准期间(2000–2010 年)。无法明确识别命发现策略的发现活动从诺华数据集中省略。CNS,中枢神经系统;DEL,DNA 编码库;GPCR,G 蛋白偶联受体;HTS,高通量筛选;SBDD,基于结构的药物设计。请参阅补充图 10 以包含此类别化合物的分布图。
尽管 2015–2022 年期间针对非常规靶点如表观遗传蛋白的候选物比例有所增加(图 1Ac,Ad),但文献数据集表明 GPCRs 和激酶仍高度相关,二者合计约占当前组药物候选物的 45%。有趣的是,这两个靶点类别之间候选物的相对丰度已转向有利于激酶(当前数据集中 30% 激酶和 15% GPCRs,而基准数据集中 13% 激酶和 32% GPCRs)。
命中发现策略的分析揭示,高通量筛选(HTS)和先前已知化合物(框 1 中定义)的联合主导地位在基准药物候选物中观察到的现象在当前候选物集中保持(图 1Ae,Af),二者在两个时间期间合计占命中发现策略的 75% 以上。已知类别的候选物比例从基准数据集的 41% 略微增加到当前数据集的 43%,而源于 HTS 的候选物比例则从 40% 更大幅度下降到 33%。已知化合物作为起始点的受欢迎程度可能归因于项目启动时潜在更简单且合成更高效的优化过程,因为此类化合物需解决的关键问题比新型命中化合物类别更可预测。此外,对于易于 HTS 命中率低的挑战性靶点,更可能依赖已知化合物。类似观察在 Roche 和 Genentech 的候选物中有所发现,源于 HTS 的比例分别为 21% 和 13%,已知起始点分别为 31% 和 35%[^22]。已知化合物作为起始点(59%)的重要作用也由 Brown[^19] 强调。
补充途径如筛选 DNA 编码库(DELs)[^23] 或片段为改善命中发现期间化学空间采样的效率提供了宝贵替代方案。如已知化合物所述,挑战性靶点类别的较低 HTS 成功率可能也促成了当前数据集中源于片段筛选和 DEL 筛选的候选物比例增加(合计 8%),而基准数据集中仅为 1%。预计其份额将在未来进一步增长,因为最近和正在进行的发现活动达到候选物提名阶段。
源于基于结构的药物设计(SBDD)的候选物比例略有增加(从 4% 至 7%)。这与 X 射线晶体学或冷冻电子显微镜提供靶点结构信息的高可用性、高性能计算能力、启用数十亿化合物虚拟筛选的体外工具[^24,25] 以及近年来不断增长的商业库(如 Enamine 的 REAL[^26] 和 WuXi AppTec GalaXi)和专有虚拟库相一致。然而,虚拟筛选仍主要用作命中识别阶段的补充工具而非唯一方法,尽管在化合物优化期间常规应用(在 Brown 的最近分析中,SBDD 支持的项目数量自先前类似分析以来增长,贡献了近 65% 的成功命中到候选物进展[^19],相比先前 14%[^18])。
基准(2000–2010 年)和当前(2015–2022 年)数据集中的命中化合物体化化学特征比较揭示,仅氢键受体(HBA)数量发生显著变化(独立 t 检验,α = 0.05;见补充表 1);当前数据集中的命中平均比基准数据集多一个 HBA 基团。这一变化可归因于平均额外 HBA 对改善项目化合物极性的贡献,以及添加超过一个 HBA(或增加氢键供体(HBD)数量)可能导致溶解度和 ADMET 问题的预期[^27]。有趣的是,许多其他评估性质,如分子量(MW)、sp3 碳分数(Fsp3)、HBD 数量或重原子(HA)数量,在两个时间期间显示相似值(图 2)。
在先导化合物中,极性相关性质如 HBA 数量、拓扑极性表面积(TPSA)和 logP(化合物亲脂性的度量)在基准和当前时间期间显示出主要统计显著变化(见补充表 1)。基准和当前候选物之间这些理化性质的变化也显著。两个时间期间 logP 的差异在分子达到先导和候选物阶段时变得更明显。当前先导和候选物相对于基准对应物的亲脂性降低(图 2)可归因于在化合物获取、筛选库设计、命中选择和药物化学优化期间对这些性质的强调,可能由于过去二十年众多研究强调了化合物过度亲脂性与低临床成功率之间的联系[^4,5,21]。文献先导和候选物中发现的有利 logP 趋势也显现在公司特定候选物中(见下文),这些候选物也明显比十年前更低脂。总体而言,在作者的分析中,观察到的理化概况随时间变化主要限于先导和候选物,而命中化合物的总体概况保持相似。
接下来,调查了两个广泛应用的经验法则,用于理想理化参数范围的先导(先导相似性)[^28] 和口服可用药物(Lipinski 五法则(Ro5))[^29](见补充图 1)。在两个文献数据集中,约 60% 的先导化合物不符合先导相似性标准(亲和力 > 0.1 µM,MW < 350 Da 和 logP < 3)[^28]。最初,先导相似性被引入作为一种概念,以帮助选择在优化过程结束时最有可能产生药物样候选物的化合物。尽管先导相似性化合物的平衡亲和力和理化要求与研究组应用的通用先导标准一致,但这一先前建立的特征集基于 1990 年代末的小型历史数据集[^28]。由于先导相似性是一个直观概念,反映了先导优化的实际经验[^30],两个时间期间先导相似性化合物的意外小比例表明当今应用的先导标准和先导优化策略发生了相当大的变化。与基准集相比,当前集中高亲和力先导[^28](亲和力 < 0.1 µM,MW > 350 Da 和 logP < 3)的比例从 10% 增加到 34%,并行地,类药先导[^28](亲和力 > 0.1 µM,MW > 350 Da 和 logP > 3)的份额从 17% 降至 4%。这些转变可归因于演变的先导标准,以启动包括体内靶点结合和体内药效学的程序,这反过来需要强效且合理选择性的先导分子。总体而言,这些发展似乎迫使团队在投资昂贵的先导优化之前识别具有足够理化及 ADME 性质的高亲和力先导。
Ro5 指南将四个理化性质的值——MW (<500 Da)、logP (<5)、HBA 数量 (<10) 和 HBD 数量 (<5)——与化合物口服可用性的可能性联系起来,这些指南发表于 25 多年前[^29]。它们仍被视为相关,尽管过去二十年小分子新化学实体(NCEs)的理化性质发生了变化[^31],并有几项意见反对在药物发现中应用药物样概念(尤其是 Ro5)[^10,32]。此外,在过去十年,提出了并应用了新变体,如“扩展五法则(eRo5)”和“超出五法则(bRo5)”[^33]。eRo5 化合物应满足以下所有标准:500 Da < MW < 700 Da,0 < logP < 7.5,HBD 数量 < 5,HBA 数量 < 10,TPSA < 200 和可旋转键数量(rotB)< 20,而 bRo5 化合物符合 MW > 500 Da 且至少一个以下标准:700 Da < MW < 3,000 Da,logP < 0 或 logP > 7.5,HBD 数量 > 5,HBA 数量 > 10,TPSA > 200 和 rotB > 20。特别是,eRo5 性质空间[^34,35] 已被证明是渗透性和口服生物利用度化合物的丰富来源[^36]。
当前(2015–2022 年)数据集中的近 70% 候选物和基准(2000–2010 年)数据集中的 60% 候选物满足所有四个 Ro5 标准(见补充图 1)。仅很小比例(<10% 的候选物)未能遵守至少三个标准,从而违反了允许一个失败的原始 Ro5。使用 eRo5 和 bRo5 过滤器,几乎所有化合物均可分类,除少数违反 Ro5 中除 MW 外的 一个标准的候选物;然而,这些化合物将满足原始 Ro5。在大多数情况下,这些化合物因高亲脂性(logP > 5)违反 Ro5。Ro5 类别的分布显示当前集与基准集相似,当前集中 eRo5 组的份额略有增加,以牺牲“MW < 500 Da”类别的代价。这表明大多数候选物仍满足 Ro5。NCEs 在 Ro5 发布前后理化性质的比较研究得出类似结论[^37]:考虑 2013–2019 年期间,约 40% 的 NCEs 违反至少一个 Ro5 标准,这与作者为 2015–2022 年发现的 32% 比率相当。Bayer 的内部化合物分析也表明,可取化学空间仍处于 Ro5 内;然而,在 bRo5 区也能实现口服生物利用度[^36]。阿斯利康化合物的分析
按照框 2 中描述,对阿斯利康产品组合中两个时间期间的小分子化合物进行了类似分析。
在两个期间之间,产品组合从 2000–2010 年的多样化疾病领域阵列转变为 2015–2022 年的更少优先事项,其中约一半产品组合属于肿瘤学项目,心血管、代谢、呼吸和炎症疾病合计构成另一半(图 1Ba,Bb)。激酶和其他酶是 2015–2022 年最受欢迎的靶点类别(各占 28%),表观遗传修饰剂作为这一期间的新靶点类别出现(图 1Bc,Bd)。激酶项目的突出地位反映了公司遗产专业知识可辅助新项目的增加肿瘤学关注[^38]。GPCRs 的份额虽仍相关,但从 2000–2010 年的 34% 降至 18%,反映了阿斯利康疾病领域关注的演变,从 CNS 领域(GPCR 靶点突出)移开,对肿瘤学的增加关注(GPCR 机会有限),以及呼吸项目中 GPCR 靶点的减少。
分析还显示,源于已知起始点的候选物比例在分析时间期间增加,从 30% 至 43%(图 1Be,Bf)。这由重新应用现有机构知识和为新内部起始点重新利用化学系列驱动。此外,来自增加数量合作和文献的外部信息对先导发现起始点产生了影响。HTS 和定向筛选在当前期间继续是命中物的主要来源。然而,“其他”类别(在此情况下包括 DEL、片段、SBDD、表型和虚拟筛选)误导性地小,因为需要仅标注一个领先来源,而实际上大多数药物发现项目利用多种命中发现策略,片段、SBDD 和虚拟筛选途径并行进行以加速大多数项目早期命中演变是常态。
两个分析时间期间阿斯利康大多数先导化合物不符合先导相似性定义(见补充图 7),与文献数据集的观察一致。显然,在当前时间框架中,高效价在药物发现过程中更早实现。考察阿斯利康临床候选物的概况,它们主要遵守 Ro5 或 eRo5。当前时间期间 Ro5 外候选物百分比的上升主要是 HBA 数量较高造成的,logP 作用较小。这与基准期间形成对比,其中高 logP 在该组中主导。这些两个性质随时间反方向变化镜像了文献数据集的发现。诺华化合物的分析
对诺华疾病领域和靶点类别的比较分析也针对两个考虑的时间期间进行。重要的是,分析仅包括“完整三元组”(即,良好鉴定的命中–先导–候选物系列);因此,这里使用的整理数据无法给出公司实际数据集合大小和多样性的完整印象。
如图 1Ca,Cb 所示,疾病领域在 2015–2022 年相比 2000–2010 年期间变得更多样化。肿瘤学候选物的比例有所减少,呼吸疾病的比例也如此,而免疫–炎症和心血管疾病候选物的比例在最近几年增加。CNS 适应症候选物的份额保持相似。
关于靶点类别,针对激酶或 GPCRs 的候选物已从当前产品组合中消失(图 1Cc,Cd),尽管应记住数据因过滤出无法识别命中–先导–候选物三元组的项目而偏差。从 2000–2010 年所有靶点三分之一以上的激酶比例下降值得注意,因为这与文献数据集观察到的趋势相反,可能由于战略决策。其他酶靶点的比例增长,无法分配到经典靶点类别的靶点(“杂项”)大幅增加,从 0% 至 39%。
候选物起源的分析揭示,源于 HTS 活动的候选物比例略有增加(从 60% 至 62%),连同定向筛选,在两个期间合计是超过四分之三候选物的起源(图 1Ce,Cf)。最突出的变化是源于已知化合物的候选物份额,在两个时间期间减半以上,从 20% 至 6%——另一个与文献数据集观察到的趋势相反的方向,可能与靶点类别的趋势相关。重要的是,由于缺失历史记录,大部分候选物的原始命中发现策略无法分配(见补充图 11)。此外,分配单一命发现策略并不总是明确的,例如定向筛选通常使用也包含片段的化合物集合。此外,诺华通常在项目过程中进行多种命发现策略,往往在不同阶段。
不符合先导相似性的先导比例在当前期间减少,高亲和力、先导相似性和类药组的增加显而易见(见补充图 12)。相反,两个考虑期间大多数候选物均遵守 Ro5。在基准期间,20% 的 MW <500 Da 候选物因 HBA 数量 >10 违反 Ro5,80% 因 logP >5 违反,而 MW <500 Da 类别在当前集中缺失。药物化学优化的不断演变景观
药物化学优化通常分为两个主要阶段:从命中到先导,以及从先导到候选物。第一部分优化从一个可行的化学起始点开始,旨在识别一个有前景的化合物系列代表,即先导化合物,该化合物具有足够的潜力推进到完整的药物开发程序(确切定义通常在不同组织甚至不同先导发现活动中有所差异)。在第二阶段,先导进一步优化为开发候选物,该候选物具备适合临床研究的所需性质。由于这些阶段的目标不同,因此数据集分别编制,以单独调查每个优化阶段。文献化合物的分析
对于当前(2015–2022 年)文献数据集,在考察的十个分子性质中(图 2),四个分子性质(MW、HBA、HA 和 TPSA)在命中到先导对以及先导到候选物对之间发生统计显著变化(见补充表 2),而 rotB 的增长仅在命中到先导阶段显著。大多数命中、先导和候选物之间存在明显的尺寸差异,这是由于实现先导或候选物标准所需更高的分子复杂性所致。因此,观察到统计显著变化主要针对尺寸依赖描述符并不令人意外。随着化合物尺寸增长,在命中到候选物过程中平均仅添加一个新可旋转键,这与项目团队试图最小化可旋转键相关的预期熵罚相一致。
一个有趣的发现是 HBD 和 HBA 基团数量变化的分歧。后者的数量增加——平均而言,在优化至候选物期间向初始命中插入一到两个额外受体基团——而 HBD 基团在设计过程中不太可能被添加;事实上,HBD 基团数量在整个过程中保持恒定。这与另一项研究[^39] 的结论一致,该研究认为 HBA 基团可独立添加而不影响大多数关键参数,而 HBD 基团与理化概况的多个方面以及实现口服给药所需渗透性的能力密切相关。这些观察表明,HBA 基团数量的变化可用于改善亲和力或修改性质,而 HBD 基团数量需更严格控制。与亲脂性相关的参数 logP、logD 和 logS 在所有阶段保持恒定。这清楚表明,先前化合物质量研究[^12,13] 关于临床(前)失败与 logP 直接联系的结论已在大多数发现组织中实施到优化策略中。尽管 logP 值未发生显著变化,但 TPSA 与 HBA 和 HBD 基团数量的相关性比与 logP 更紧密,因此随着 HBA 基团数量一致增加。
当前和基准(图 2,全线和虚线红色线)优化景观的比较揭示了 logP 和 logD 参数演变之间的差异(logP 下降更大),以及 HBA 基团数量、TPSA、rotB 和三个亲脂性相关性质轨迹之间的主要差异。当前(2015–2022 年)文献命中、先导和候选物比其基准(2000–2010 年)对应物具有更多 HBA 基团、更高的 TPSA 值和更少的的可旋转键,且亲脂性控制比基准数据更明显。有趣的是,尽管基于片段先导发现的使用和影响不断增长,或报告强调需尽可能添加 3D 特征并“逃离平面”,但尺寸依赖特征(MW、HA 数量)和 Fsp3 随时间完全未变。事实上,最近一项分析表明 2009 年观察到的 Fsp3 趋势未持续[^40]。关于分析的进一步信息,包括基于命中发现策略和靶点类别的显著变化分子描述符的平均值、统计检验和轨迹图,提供于补充表 3 和 4 以及补充图 2 和 3。
药物化学优化可视为化学性质空间中的旅程,通常由针对不同理化描述符的图表示。由于许多描述符的相关性,优化路径可在配体效率(LE)–亲脂配体效率(LLE)空间中更具意义地分析[^41]。LE–LLE 图上描绘的轨迹(图 3)有助于监测分子尺寸、亲脂性和效价的整体变化。从命中到先导再到候选物的优化轨迹在两个时间期间均显示 LLE 值持续增加趋势(图 3Aa,Ba)。由于 logP 在整个优化过程中保持恒定,LLE 值随着亲和力的持续改善而增加。
相反,LE 通常在命中到先导阶段平均改善,在先导到候选物阶段趋于平稳或甚至轻微下降。LE 的急剧增加归因于亲和力是命中到先导优化中最关键目标之一。根据收集的文献数据集,两个当前和基准集中的候选物分子的典型 LE 值范围为 0.32–0.40。无论命发现策略或靶点类别,优化均收敛至此范围。
有趣的是,LE 不仅在大多数候选物中保持在先前提到的范围内,而且在大多数命中和先导中亦然,尽管当前 SBDD 命中、当前离子通道命中和先导,以及基准定向筛选先导是异常值。这一普遍发现与改善或保持 LE 恒定的常见优化策略一致。与此指令相反,当前和基准“已知”类别的轨迹显示 LE 持续下降,这在基准候选物的命中到先导阶段最突出。这一偏离普遍趋势可归因于选择先前针对相关靶点优化的化合物作为起始点留下的亲和力改善空间较小。
候选物分子可定义类似 LLE 限制,因为它们倾向于具有 4–6 之间的 LLE 值,除基准激酶和杂项靶点类别外。此外,基准化合物的轨迹显示更高变异性,因为定向筛选组的先导到候选物阶段 LLE 值下降,以及基准杂项靶点组从命中到候选物的 LLE 值下降。基准化合物较无序的 LLE 趋势并不令人惊讶,因为当时优化期间增加 logP 仍可接受。显然,对改善筛选库亲脂性的显著关注已见成效,因为 HTS 命中的 LLE 从基准期间低于 2.5 移至当前集高于 3。
值得注意的是,基准激酶候选物比当前激酶命中的 LE 和 LLE 值略低,使其在性质方面成为优秀起始点。这表明当前激酶命中是更精细的化合物,并且可能许多激酶起始点是先前发现的激酶抑制剂,甚至是先前候选物。
在 logP–MW 平面中优化路径的分析揭示了当前期间各种靶点(表观遗传组除外)的相似轨迹,但基准数据集中多样途径。命发现策略路径的比较识别片段筛选为预期异常值(见补充图 4),但基准集中的同一系列再次多样得多,HTS 组在所有三个阶段具有显著更高的 logP 值,且定向筛选从小型亲水分子开始。因此,在 logP–MW 平面中,基准定向筛选命中接近当前片段筛选命中,表明早期聚焦库在 MW 和 logP 方面类似于片段库。基准和当前集之间更大的偏差见于针对激酶的分子。
当前(2015–2022 年)和基准(2000–2010 年)文献数据集中的候选物平均“pPotency”分别为 8.28 和 8.35(图 4Aa,Ba),这与 2010–2020 年批准药物历史基准 8.37 一致[^10]。命中、先导和候选物的效价分布揭示,先导化合物在当前数据集中更接近候选物,这一现象可归因于最近转向高亲和力先导并优化更多参数的趋势。命中亲和力的更平坦、高斯样分布可归因于不同命发现策略的输出(例如,片段命中固有效价低于已知命中)。比较当前和基准命中、先导和候选物的亲和力,显然各自集的平均值未变。然而,当前数据集观察到的稍窄分布曲线暗示给定发现阶段的化合物在亲和力方面必须满足更严格标准。
图 4 | 文献和公司化合物的效价和相似性特征。A、B,当前(2015–2022 年)(面板 A)和基准(2000–2010 年)(面板 B)时间期间的命中、先导和候选物效价分布,针对文献、阿斯利康和诺华数据集(a、b 和 c 分别)。C、D,按命发现策略分隔的命中与先导、先导与候选物之间的分子(面板 C)和药效团(面板 D)相似性,针对文献、阿斯利康和诺华数据集(a、b 和 c 分别)。DS,定向(聚焦)筛选;ECFP,扩展连接性指纹;FBDD,片段基药物发现;HTS,高通量筛选;SBDD,基于结构的药物发现。
沿优化路径的分子和药效团变化以及计算的 Tanimoto 相似性指标(见框 1)使用化学指纹和药效团指纹分别调查。化学相似性分析(图 4Ca)揭示随时间无变化,但先导和候选物之间相似性高于命中和先导之间,这与先导具有接近候选物范围的高亲和力的发现一致。为实现先导阶段的亲和力优化进行主要结构变化,而其他药物化学参数通常在先导到候选物阶段通过更细微修改微调。这一早期和晚期优化之间的策略差异也在诺华先前全面内部研究中突出[^20],其中显示项目分子相似性变化在早期急剧下降后随时间变小。最低相似性观察于片段和定向筛选命中与其后续先导之间,证实了在 MW–logP 平面中观察到的当前片段筛选与基准直接筛选策略的相似性。
如预期,二者和先导到候选物相似性在 SBDD 和已知命发现类别中最高。SBDD 和已知命中理性识别,因此通常在命中演变过程中需要较少的大结构变化。此外,如前所述,已知类别的命中分子大多已接受先前性质优化,且起始时往往可用结构–活性关系(SAR)信息。使用 2D 和 3D 药效团指纹的药效团相似性比较(图 4Da)揭示了与化学相似性观察到的相同趋势。SBDD 和已知命中平均与其后续先导的药效团元素差异较少,这与作者对化学相似性的结论一致。先导到候选物 2D 药效团相似性高于化学相似性,表明在命中到先导阶段构建到先导中的关键结合药效团元素往往在后续优化中保留。阿斯利康化合物的分析
在阿斯利康数据集中,MW、HBA 数量和 HA 数量在命中到候选物过程中持续增加(图 2),且在当前(2015–2022 年)时间期间每个阶段更高。值得注意的是,HBD 基团数量在项目轨迹和最终候选药物中高度保守,而 HBA 基团有自由添加的总体趋势。当前期间的命中不仅 MW 更高,而且 logD 更高、溶解度更低且 Fsp3 更低,但优化轨迹更陡峭(不影响 rotB),候选物达到与基准数据相似的值。当前化合物从先导到候选物 HBA 基团数量和 TPSA 值急剧增加,且亲脂性,尤其是 logP,显著更低(见补充表 7)。这些趋势暗示更广泛的优化工作,可能反映更具挑战性靶点的增加。
在数据靶点特定细分中(见补充表 8 和补充图 8),GPCRs 突出,当前候选物具有更高的 MW、HA、HBA、Fsp3、rotB、logS 和 TPSA 值。这些偏差反映了阿斯利康策略的转变,对心血管和代谢适应症 GPCR 靶点的关注更多,对 CNS 适应症 GPCR 更少,进一步反映在 HBD 数量增加中。相反,当前激酶项目观察到 HBD 基团数量减少和 Fsp3 增加,这可归因于对需穿越血脑屏障的 CNS 靶点的更大关注。
当前期间命发现策略的分析(见补充表 9 和补充图 9)显示,源于定向筛选的命中在成为先导化合物过程中 Fsp3、HBD 数量和 TPSA 的变化比基准期间更剧烈。此外,当前 HTS 命中比基准期间命中 Fsp3 富集,且已知命中具有更高的尺寸相关性质(MW、HA、rotB、TPSA)。尽管上述折叠分析中 rotB 保持恒定,但源于定向筛选或 HTS 的候选物显著不同。
从当前和基准期间 LE–LLE 平面优化轨迹分析清楚表明,改善 LLE 是命中到先导和先导到候选物阶段的焦点,且无论命中 LE 如何,均达到相似 LLE 范围(图 3Ab,Bb)。
对于具有大量遗产知识的公认靶点类别,如激酶和其他酶,LLE 总体更高。这也反映在定向筛选的起源中,该筛选常用于这些靶点类别,初始高 LLE 的优势保留至候选物。当前 GPCR 项目起始和结束 LE 远更低(但 LLE 相似)并不令人惊讶,基于上述尺寸相关性质。这在 LogD–MW 平面分析中显而易见(见补充图 10),该分析还突出候选药物独立于起始点的窄 logD 范围。
平均而言,当前期间命中、先导和候选物的效价相对于基准期间增加(图 4Ab,Bb),特别是命中。
阿斯利康先导到候选物相似性(图 4Cb,Db)一致低于文献数据集中的化合物。从定向筛选起源的分子和药效团相似性在当前时间框架中从命中到先导显著更低。定向筛选库使用特定于靶点类别的药效团洞见选择(例如,激酶的铰链结合基序),观察到的低相似性表明显著结构演变和药物化学优化以达到候选物。与源于定向筛选的化合物相比,源于 HTS 的化合物分子和 2D 药效团相似性更高,但 3D 药效团相似性表明从先导到候选物进展期间等价结构多样化。数据集中的已知组分析显示命中到先导相似性更大,表明使用高级已知化合物作为起始点可通过较少分子变化满足先导标准,但随后在候选物结构中构建多样化。诺华化合物的分析
总体而言,诺华化合物(两个考察期间)倾向于变大(MW 和 HA 数量更高)和更灵活(rotB 更高),且 Fsp3 在命中到候选物进展期间增加(图 2)。值得注意的是,所有这些性质在当前(2015–2022 年)期间更小。与基准集相比,当前集的亲脂性相关参数(logP、logD、logS)改善。然而,由于样本量小,以上所有参数的变化并非统计显著(见补充表 10)。
总体而言,对不同靶点类别和命中发现策略的分析(见补充表 11 和 12 以及补充图 13 和 14)揭示了与上述讨论相似的趋势。基准期间针对离子通道的优化处理比其他靶点类别实质更小且更简单的化合物。值得注意的是,当前期间 HTS 命中在所有阶段 Fsp3 更高。此外,SBDD 命中比其他命中更大(34 个非氢原子 vs <27)。然而,再次,无法找到统计显著差异。
LE 倾向于从命中到先导改善,并在从先导到候选物下降(图 3Ac,Bc)在当前期间。这些趋势对靶点类别(图 3Ac)——除离子通道外——和命发现策略(图 3Bc)显而易见。LLE 也倾向于从命中到先导改善。总体而言,LLE 从命中到候选物的增加比 LE 更强。此外,在基准期间,从命中到候选物的 LE 增加几乎不可见,且候选物往往比命中更低。这与命中效价优化的关注以及随后向候选物的性质优化一致。
SBDD 命中的优化倾向于从 LE 非常低的化合物开始(图 3Bc)。因此,根据 LE 定义,SBDD 命中倾向于更大和/或效价更低,可能由于虚拟筛选的确认成功率差。根据实践经验,弱命中可更快优化至强效先导,且优化轨迹在候选物阶段结束于与其他策略相当的 LE 和 LLE 范围。
命中、先导和候选物的效价分布揭示,先导和候选物倾向于比命中更活跃(图 4Ac,Bc)。此外,先导倾向于比候选物更活跃。这可归因于先导进一步针对 ADMET 和选择性优化,往往以牺牲靶点效价为代价。
化合物相似性分布的分析困难,因为统计不确定性高(图 4Cc,Dc)。值得注意的是,对于定向筛选,最近期间的命中到先导相似性似乎远低于先导到候选物相似性。这对分子(图 4Cc)和 2D/3D 药效团(图 4Dc)相似性均可见。
更仔细考察命发现策略之间 MW 和亲脂性的相互作用显示,MW 倾向于从命中到先导以及从先导到候选物增加(见补充图 15)。对于 logP,在当前期间 SBDD 从命中到先导倾向于增加,从先导到候选物减少,而定向筛选和 HTS 保持相对稳定。药物化学策略中的新兴趋势
肿瘤学中激酶靶点的受欢迎程度是本分析中两个期间观察到的一些转变的基础,预计将在未来几年持续。最近一项分析指出,2024 年 1 月 1 日有 80 种美国食品和药物管理局(FDA)批准的药物针对超过 20 种不同蛋白激酶,其中 69 种药物注册用于肿瘤学适应症[^42]。尽管许多治疗相关且易于药物化的肿瘤学激酶靶点已通过开发一系列经典小分子可逆抑制剂成功解决,但仍有空间用于具有改善选择性或针对突变酶活性的新药物,这可能需要如靶向共价抑制的全新策略。超过十种共价激酶抑制剂,包括 BTK 抑制剂 ibrutinib、二代 EGFR 抑制剂 afatinib 和 T790M 突变选择性三代 EGFR 抑制剂 osimertinib,已获 FDA 批准[^43]。基于此类化合物的成功,共价作用机制(MOA)现在已确立用于广泛疾病范围[^44]。
肿瘤学和其他疾病领域的高未满足需求预计将继续驱动研究组织识别针对确立靶点的新型 MOA 并验证新靶点;例如,通过结合‘组学技术[^45,46] 与患者数据和人工智能(AI)工具分析大型数据集。以前被认为不太易处理甚至不可药物化的验证靶点,如小 GTP 酶、磷酸酶、转录因子和表观遗传靶点,也正在重新考虑[^47]。挑战性 MOA 和靶点类型的出现对新型模态产生了显著兴趣,如靶向蛋白降解剂(蛋白水解靶向嵌合体(PROTACs)[^48–51] 和分子胶[^52,53])、大环[^54] 和 PPI 调节剂[^55],这些模态可能具有更高成功机会。
例如,靶向蛋白降解剂提供了更大或更选择性活性的承诺,并可将小分子工具箱扩展超出调制特定蛋白活性,以涵盖如 IRAK4 的支架功能靶向[^56]。虽然分子胶可视为典型小分子,但 PROTACs 的较大尺寸已必要开发新化合物设计指南以识别临床候选物[^57,58]。
尽管针对挑战性靶点的大环和 PPI 调节剂仍直接影响靶点活性[^54,55],此类化合物往往需结合扩展和/或动态结合位点,这些位点仅具有浅沟槽和远距离结合热点,因此需要不同设计原则和理化性质。由于 RNA 中可用的高极性和结构灵活位点,针对 RNA 的口服小分子设计策略和候选物概况的变化也预期[^59–62]。迄今,仅一种化合物(risdiplam)直接针对人类 RNA 已上市,其他少数化合物处于临床试验,因此此类分子在本节中未详细讨论。
为调查这些新型模态在药物化学中的最近趋势,作者进行了文献搜索,聚焦于如 PROTACs、分子胶、大环和 PPI 调节剂等模态。收集的数据集标记为“新型模态”,并接受与先前数据集类似的统计分析(框 3)。仅有限条目可用完整命中到先导到候选物系列;因此,主要焦点是 73 个由新型模态鉴定的候选物。
在疾病领域方面,超过 80% 的候选物针对肿瘤学适应症(见补充图 5)。新型模态最频繁靶向类别与常规小分子途径相比激酶和 GPCRs 较少丰度。相反,其靶点大多分类为“杂项”,表明新型模态往往但并非总是应用于典型靶点类型之外的靶点。追求典型靶点的新型 MOA 也可能有益;例如,对于如激酶的靶点类别,靶向降解可能比靶点抑制更选择性地实现[^63]。
在命发现策略分析中,与文献数据集相比的最突出差异是大规模或聚焦筛选技术的急剧下降,HTS 和定向筛选合计仅贡献 8% 的候选物。由于新型模态的大型或聚焦筛选库往往不可用于筛选,大多数新型模态候选物已从已知化合物优化。用于识别 14% 新型模态候选物命中的 SBDD 的更高份额强调了可用结构信息和计算方法的重要性,鉴于这些模态缺乏历史专业知识和组织知识。
新型模态候选物与当前候选物的关键理化参数比较为新型模态子类别候选物标准提供了有用洞见(图 5;见补充表 5 和补充图 6)。作者的分析揭示,分子胶候选物与当前文献候选物高度相似,无显著不同参数。这可能是其传统小分子性质和相似结合机制的结果。最突出的差异见于 PROTACs 和大环的尺寸依赖参数(MW、HA 数量、TPSA),因为这些分子本质上比典型小分子候选物更大:PROTACs 通过各种连接子连接两个不同小分子配体(一个针对靶点,一个针对 E3 泛素连接酶),即使最小大环通常向可比小分子添加至少四至十个 HA。然而,与 PROTACs 相反,大环具有更宽尺寸范围,因为它们可有效定制以匹配各种靶向结合位点的尺寸。
图 5 | 新型模态候选物的特征
a–f,新模态候选物——大环、蛋白水解靶向嵌合体(PROTACs)、分子胶和蛋白–蛋白抑制剂(PPIs)——在 2015–2024 年期间(框 3)的理化特征,其中分子量(a)、sp3 碳分数(b)、氢键受体数量(c)、氢键供体数量(d)、可旋转键数量(e)和 logP(f)与当前(2015–2022 年)文献数据集(框 1;灰色显示)特征的差异统计显著(U 检验 α = 0.05)。进一步特征见补充图 6。
口服 PROTACs 的理化性质被发现与传统候选物显著不同[^49]。口服 PROTACs 通常具有 ~800 Da 的 MW(基于 CRBN 的 PROTACs)或 >800 Da(基于 VHL 的 PROTACs),且相当极性,正如其 TPSA 150–180 Å2 和 clogP 3–5.5 所示。作者的分析揭示,它们含有更多 sp3 碳和由于连接子部分的大量可旋转键,需要仔细优化以实现有效降解。口服 PROTACs 含有较少芳香环,且连接子优化的主要目标是减少其长度和灵活性,同时使靶点、PROTAC 和 E3 连接酶之间三元复合物的形成可行。
大环通常具有至少十个原子的较大环,可能预组织结构促进其结合平面或浅位点以及普通埋藏口袋。其构象流动性、立体相互作用和识别涉及的应变使其理性设计具有挑战性,因为它们可表现为分子变色龙。然而,这种变色龙性在优化其水溶解度和被动细胞渗透性时可能极有用[^54]。
口服大环的几乎所有性质介于 PROTACs 和小分子之间。PPI 调节剂也比当前文献候选物具有显著更大的 MW 和 HA 数量,且是亲脂性相关参数(logP/logD/logS)明显更高的类别,而有趣的是大环和 PROTACs 在此方面平均类似于小分子。这清楚表明 PPI 调节剂是更亲脂性分子,针对无溶剂暴露环境中高能极性配体–侧链相互作用的无极扩展蛋白表面。
尽管新型模态在命中和先导阶段可用数据点有限,但与传统小分子途径相反,其优化路径沿关键理化参数无显著变化(见补充表 6)。分子胶似乎类似于典型小分子优化。这与先前关于候选分子胶与当前数据集相似性质的结论一致。PROTACs 优化期间 rotB 的减少表明 PROTAC 命中到候选物过程主要聚焦于连接子优化,向更短或不太灵活的连接子,可能改善结合熵和口服生物利用度。相反,作者观察到 PPI 调节剂的 rotB、TPSA、HBA 数量和 HBD 数量增加,这可归因于最大化与靶向蛋白表面可用极性热点的极性相互作用,并抵消增长尺寸(MW 和 HA 数量)以保留已差溶解度和略低 logP 和 logD。大环在优化期间的相似尺寸增加导致更差的亲脂性和溶解度概况。
本研究中的不同优化路径暗示每个模态的具体优化目标。与分子胶和 PROTACs 的优化相反,大环的优化目标较不统一。当起始点已是 大环时,则需达到平衡活性、理化及 ADME 概况,但当已优化小分子刚性化为大环时,开发大环化策略和连接子优化更重要。最后,在 PPI 靶点的情况下,命中到候选物的主要目标往往是形成与邻近极性热点的全新相互作用,并填充蛋白表面额外小疏水沟槽,以获得候选物足够效价。
重要的是,尽管多参数优化目标非常不同,但最终所有不同新兴模态似乎收敛于当前候选物首选计算小分子亲脂性和溶解性参数(logP、logD、logS)的 1–1.5 单位范围内。因此,作者得出结论,这些参数是成功程序中识别口服药物候选物的理化性质中最重要驱动因素,无论模态,且未来很可能如此。结论与展望
从多样药物发现努力输出的文献数据集分析表明,肿瘤学继续是小分子药物发现活动的主要适应症,在两个研究期间份额增长。这也反映在新兴模态治疗领域中的肿瘤学主导地位以及两个大型制药公司分析的程序分布中。在当前文献数据集中,CNS 和免疫/炎症疾病领域也位列前三;然而,公司排名显示更大变异性和依赖性,基于单个组织对未满足医疗需求与内部历史专业知识和市场机会的评估。例如,阿斯利康的肿瘤学变得更普遍,连带激酶靶点份额增长,而诺华选择了追求更均匀分布适应症的不同路径,导致更多样靶点组合,其中尽管激酶不受青睐,下降的肿瘤学领域仍是最大。
文献分析中(以及阿斯利康)行业调查的三个主要靶点类别仍是易懂的激酶、GPCRs 和其他酶,尽管某些适应症可能使程序偏向某些额外靶点类型(如诺华数据所示)。这可能部分由于数据集固有时间滞后,因为靶点选择与候选物提名之间存在显著时间延迟,以及工业设置中提名与文献公开披露之间的进一步延迟。另一方面,重要的是,公司数据因过滤出无法识别命中–先导–候选物三元组的项目而偏差,因此数据未给出公司实际数据集合的完整代表,尽管整体方向反映组织策略。尽管如此,前三个靶点类别的项目稳定流表明大型药物发现组织热衷于维持风险平衡的靶点组合,以长期支持其性能和输出。
文献数据集的分析表明,HTS 在命发现技术中的地位下降,而已知化合物作为起始点的重要性增加(图 1Ae,Af)。这暗示其他命中发现方法针对这些靶点失败,或团队立即转向针对相关靶点活跃的化合物,而不尝试彻底化学空间探索。后一种可能信号药物化学组对从其他项目或靶点类别特权骨架衍生的分子系列快速构建新靶点必要选择性的信心增长,而新型具有多个缺陷的命中分子的多参数优化被视为更高风险努力。前者的一个好例子是肿瘤学中的 KRAS 抑制剂领域,其中靶点曾被认为不可药物化由于所有命发现方法失败,但单一共价抑制剂披露导致许多制药公司启动向临床候选物的药物发现项目[^64]。在这些情况下,披露的命中或命中将在整个制药行业用于高价值靶点利用。已知类别可能也由从工具化合物或多个学术组访问的筛选中心发现的命中启动的程序富集,这些组可找到相同化学系列作为不同药物发现项目的起始点。
阿斯利康的命中重新利用增加由特定机构专业知识和先前项目知识驱动,以及外部合作数量增加。阿斯利康的趋势与文献集在已知起始点比例、前靶点类别分布和命发现策略相对贡献方面相当相似,使这三个指标很可能相互交织。这一概念进一步由诺华数据集趋势支持,该趋势显示已知起始点比例下降、显著不同的前靶点类别组合以及命发现策略的明显分化,其中 HTS 仍是主要命发现技术。这些不同趋势很可能诺华靶点类别景观非常不同结果,因为公司战略决定向多样新型靶点景观移动,正如当前分析所示,其中已知配体罕见且通用大规模命发现技术价值巨大。
基于片段药物发现、DEL 和大规模虚拟筛选的使用增长以远低于扩展 HTS 化合物库所需的成本改善筛选策略的采样效率。这些技术很可能在未来占据更大份额,因为各自正在进行的药物优化程序达到候选物阶段。这尤其适用于无 HTS 访问的小型生物技术组织,尽管它们承担全球先导发现工作的增加份额,而大型公司已花费数十年大量资源构建 HTS 化合物集合[^65] 和筛选设施,可能在未来继续使用该技术。因此,HTS 和定向筛选仍是命中物的主要来源,且随着大型化合物集合的持续整理、多样化和更新,对这些已有宝贵途径的部分依赖预计将持续。
最常见类药启发式,Ro5,仍适用于三分之二候选物分子(甚至命中和先导),因为它们大多符合四个 Ro5 标准中的至少三个。另一方面,文献和公司数据集均表明,先导相似性[^28] 的公认标准集不再适合评估先导系列。亲和力已成为当前程序中在命中到先导阶段更大程度优化的关键参数,与基准期间相比,以启用更早选择性概况评估或更早体内概念验证研究以“早失败”。作为结果,此以及更常见使用已知预优化起始点,导致当前期间命中更强效。药物化学家常说“发现强效命中或优化效价不是问题”,本研究的发现支持这一陈述。因此,先导生成阶段进行更彻底优化,与创建先导相似性标准时相比。先导生成阶段发现候选物分子结构并非未知。
在典型公布的当前先导发现活动中,配体亲和力、LE 和 LLE 是命中到先导阶段同时广泛优化的主要参数,随后在先导到候选物多参数优化阶段进一步显著 LLE 优化,以牺牲 LE 略微改善亲和力,其中所有程序标准必须实现。文献示例的优化期间 logP、logS 和 logD 值未显著变化,但三个参数已在命中阶段处于可接受范围。这一观察暗示对识别具有良好性质的可行起始点的更大强调,因为此类程序有显著更好机会达到临床。呈现此处数据很可能因成功偏差,因为以差命中特征开始的项目失败更频繁,从而从本研究的数据集中排除。HTS 命中显示命中到先导阶段 LLE 大幅改善,且在诺华不罕见先导具有比程序最终候选物更好的 LLE。
除了考察靶点类别的明显重要性,优化路径很可能受战略和文化方面影响。在此方面,显然阿斯利康数据集在最近期间显示 logP 和 logD 的非常显著减少,先导到候选物阶段 TPSA、HBA 数量和 logS 增加。诺华的相同趋势更多样,因为尽管 logS 改善,logP 和 logD 略微更高。然而,根据分析,口服药物的特征不像优化路径那样受组织差异影响。作者发现三个不同当前数据源以及新兴小分子胶数据集在分析的先导和候选物所有理化性质的显著收敛(表 1)。作者提出表 1 中候选物性质的窄范围可作为口服小分子药物化学程序起始时目标产品概况的通用指南,而其他模态不适合此性质空间。
新型模态分析——主要针对肿瘤学适应症——揭示了与当前小分子文献数据集相比命发现策略和候选物性质的根本差异。关键理化参数的差异主要由新型模态候选物较大尺寸说明(分子胶除外,如上所述)。这些途径往往在常规小分子发现策略耗尽后调用,因此新型模态推动药物化学边界,并扩展我们对成功开发口服药物候选物可能性的想象[^66]。
除了新型模态和如 DEL 的筛选策略,近期新工具和技术进展将协助探索大型化学空间、缩短设计–制造–测试–分析(DMTA)循环、通过降低有缺陷类似物的优先级减少合成负担,并提供更好质量先导和候选物。人工智能在药物先导化合物发现领域的应用引发了强烈的关注。或许受此类工具影响最深的领域包括千兆级规模对接大规模类先导分子库[^67]、逆合成分析[^68,69]、深度学习从头生成分子设计[^70] 用于体外先导识别和优化[^71]、合成可行化学空间中的生成设计用于先导优化[^72]、机器和深度学习模型用于 ADMET 相关体外性质分析[^73] 和通过主动学习实现资源密集型任务的高性价比与时效性计算[^74]。这些及其他人工智能辅助工具已零星展现出加速和降低先导化合物发现成本的潜力[^75],但这条道路上也布满了早期开拓者们的显著挫折与失败。因此,可能需要等到下一个十年,才能对这些新兴且不断演变的创新技术从先导化合物到候选药物流程的影响做出公正评估。
参考文献(1)-(74) [原文本引用,详见英文原文]。
Rácz, A., Mihalovits, L.M., Beckers, M. et al. The changing landscape of medicinal chemistry optimization. Nat Rev Drug Discov (2025).