引言
体外活性很强、动物实验漂亮、融资顺利,为什么一到临床就折戟?真正决定新药成败的,常常不是“能不能打中靶点”,而是“能不能在正确患者、正确组织、正确剂量下,换来真实获益而不是不可接受的毒性”。[1]
要点速览
“90%失败”并不是危言耸听,但它指的是进入临床后的候选药物最终未获批;如果把临床前淘汰也算进去,整体失败率还会更高。[1]
不同研究因为样本窗口、统计口径和数据源不同,给出的临床总体成功率并不完全一致:I 期至批准成功率的代表性估计大致落在 9.6%–13.8%;其中 Hay 2014 为 10.4%,Wong 2019 为 13.8%,JAMA 2020 汇总表还列出 Thomas 等估计的 9.6%。这些研究都提示,II 期是临床开发的关键断点。[2, 3, 6] 更重要的是,各研究虽然口径不同,却对一个结论高度一致:II 期最难。 Hay 2014 估计 II 期到 III 期成功率仅 32.4%;Wong 2019 的估计高一些,为 48.6%,但仍明显低于 I 期和申报审批阶段。治疗领域差异也非常大:Hay 2014 中肿瘤药物从 I 期到批准的成功率仅 6.7%;Wong 2019 在更大样本下,肿瘤学的总体成功率甚至可低至 3.4%。[2, 6]
U.S. FDA 批准新药背后的资本化研发投入,中位数估计约 11.4 亿美元,均值约 15.6 亿美元;失败,是研发成本高企的主因。[3]
APSB 2022 的核心观点不是简单重复“疗效不够、毒性太大”,而是指出当代药物优化过度强调 SAR,却低估了药物在疾病组织与正常组织中的暴露/选择性,并因此提出 STAR 框架。[1]
结合人类遗传学、PK/PD、预测有效性、生物标志物分层和创新临床试验设计等研究,要真正提高成功率,至少要同时解决六件事:靶点因果性、组织暴露、靶点占领与药效链条、患者分层、生物标志物/终点设计、试验与监管策略。[4]
AI 可以明显改善早期分子设计和 I 期生存率,但它还没有自动解决 II/III 期的机制正确性、患者选择和临床终点问题。[5]一个残酷但真实的数字
“90%失败”最容易被误解的地方,是把它当成一个简单、固定、永远不变的比例。事实上,它更像一个行业均值级别的风险提醒:进入 I 期的人类候选药物,最终只有少数能走到批准。APSB 2022 将这一现实概括为“约 90% 的临床开发失败”;而 Hay 2014 基于 2003–2011 年数据估计的从 I 期到批准的 LOA 为 10.4%,Wong 2019 基于更大样本、不同统计方法估计的 POS 为 13.8%。这些数字不完全相同,但指向的是同一个现实:进入临床不等于接近成功。[1]
更重要的是,各研究虽然口径不同,却对一个结论高度一致:II 期最难。 Hay 2014 估计 II 期到 III 期成功率仅 32.4%;Wong 2019 的估计高一些,为 48.6%,但仍明显低于 I 期和申报审批阶段。治疗领域差异也非常大:Hay 2014 中肿瘤药物从 I 期到批准的成功率仅 6.7%;Wong 2019 在更大样本下,肿瘤学的总体成功率甚至可低至 3.4%。[2]
这也解释了为什么“新药贵”不能只从上市药品看利润,而必须把失败算进去。JAMA 2020 基于公开财报、ClinicalTrials.gov 和审批数据估计,2009–2018 年获批药物的资本化研发投入中位数为 11.417 亿美元,均值为 15.591 亿美元。与此同时,Scannell 等提出的 Eroom's law 指出:自 1950 年以来,按经通胀调整后的口径计算,每十亿美元研发投入能换来的新药批准数大约每 9 年减半一次。这意味着,失败不只是项目层面的问题,而是行业生产率问题。[3,17]失败不是一个原因
APSB 2022 对 2010–2017 年临床失败原因的归纳,仍然是今天最常被引用的总结之一:缺乏临床疗效约占 40%–50%,毒性不可管理约占 30%,成药性/药物性质不足约占 10%–15%,商业需求不足或战略规划失误约占约 10%。这个分布之所以有解释力,是因为它把“失败”从一个模糊标签拆解成了四种完全不同的风险。[1]
如果只把“缺乏疗效”理解为“药物本身没用”,就太简单了。很多项目的真正问题,是在最大耐受剂量内,药物并没有在病灶组织达到足够暴露;而很多所谓“毒性不可控”,本质上则是为了追疗效被迫抬高剂量,最终让正常组织先承受了过高暴露。也就是说,疗效与毒性的对立,不一定来自“靶点错了”,也可能来自“分子到了错误的地方,或没有足够到达正确的地方”。这正是 STAR 想解决的那个核心盲点。[1]
商业和战略因素常常被科研圈低估,但在真实产业世界里,它们并不“次要”。一个项目即使机制正确,如果适应症选择错误、竞争格局剧变、临床终点不被监管接受、入组速度严重失控,或者市场支付意愿无法支撑后续开发,它同样会被终止。也正因为如此,失败从来不是单点事故,而是科学、临床、监管、商业四条链条中的任何一环断裂。[1,6]STAR 把问题说明白
传统药物化学最擅长的是 SAR:结构怎么改,靶点活性更强、选择性更高、IC₅₀ 更低。但 APSB 2022 提醒我们,真正进入临床后决定成败的,不只是“打得准不准”,还包括“进不进得去病灶组织、会不会先堆到正常组织、为了达到疗效需要多大剂量”。因此他们提出了 STAR:Structure–Tissue exposure/selectivity–Activity Relationship,也就是把“结构—组织暴露/选择性—活性”合并为同一个优化目标。[1]
这个框架最有价值的地方,不在于它创造了一个新缩写,而在于它改变了筛选逻辑。按 STAR,候选物可以粗分为四类:Class I 是高活性、高组织暴露/选择性,是最理想的分子;Class II 活性很强,但组织暴露/选择性不佳,常常需要更高剂量,容易在临床上撞上毒性天花板;Class III 活性未必最强,却能在病灶中富集、在正常组织中相对克制,这类分子反而可能在临床上更有潜力;Class IV 则应尽早终止。也就是说,STAR 最“反直觉”的结论是:体外不一定最强的分子,有时反而更值得推进。[1]
这一点并不只是概念推演。Sun 团队同年发表的 STR 研究以 7 个 SERM 为例指出:血浆暴露并不与肿瘤、脂肪垫、骨、子宫等组织的暴露相一致;而且,细微结构变化可以在几乎不改变血浆 PK 的情况下,显著改变组织暴露/选择性。他们据此认为,单看血浆暴露、单看体外活性,都可能误导先导筛选。对做药的人来说,这相当于把优化目标函数从“亲和力最大化”升级成了“疗效/毒性窗口最大化”。[7]近十年被低估的变量靶点到底是不是“人体因果靶点”
提高成功率的第一件事,不是更努力地做 SAR,而是先把靶点选对。早在 2015 年,关于药物靶点与人类遗传学证据的经典研究就提出:有直接遗传学支持的靶点,其临床开发成功率可能大约翻倍。到了 2024 年,基于更大数据集的 Nature 研究把这个结论更新为:具有遗传学支持的药物机制,成功概率约为无遗传学支持者的 2.6 倍。更值得警惕的是,这些研究同时指出:具有遗传学支持的潜在靶点/适应症组合,只有极小一部分真正被推进到临床。换句话说,产业里仍有大量项目在“没有足够人体因果证据”的前提下进入昂贵开发。[8]暴露、靶点结合、功能药效,三者缺一不可
Morgan 等在 2012 年提出过著名的“三大支柱”:一个候选药若想在 II 期活下来,至少要证明三件事——作用位点暴露足够、靶点结合真实存在、功能性药理效应与前两者一致。这件事听起来像常识,但在大量失败项目里,真正完整证明这三步的并不多。很多项目做到了“靶点在体外能打”“血里有药”,却没有真正把“病灶位点浓度—靶点占领—药效学改变—临床终点”串成一条证据链。[9]高通量不等于高预测度
Scannell 团队在 Eroom's law 之外,后来又进一步提出 predictive validity 的概念:一个模型、筛选系统或决策工具的价值,不在于吞吐量高不高,而在于它对未来人体临床效用的预测相关性有多高。他们用一个很形象的比喻说,药物研发像在“大片沙漠中寻找少数绿洲”;一旦预测有效性不够,即使你筛得再快,也只是更高效地走错路。这个判断与今天很多团队的真实困境高度一致:工具越来越多,数据越来越大,但真正提高临床命中率的“人类相关性”并没有同步提高。[10]找对患者,比把所有患者都纳入更重要
Wong 2019 的大样本研究明确指出:使用生物标志物进行患者选择的试验,其总体成功概率高于未使用生物标志物的试验。 与此同时,FDA 关于 enrichment strategy 的正式指南也把这一点写得很清楚:试验可以通过降低变异、提高药效信号、挑出更可能获益的人群来提升开发效率。问题不在于“要不要分层”,而在于“有没有足够生物学依据支撑这次分层”。如果机制不清、诊断工具不稳、真实世界可执行性差,那么 enrichment 也可能把试验带偏。[11]终点、试验设计与监管协同,是后期成败的硬约束
EFPIA 关于临床试验创新设计的白皮书指出,enrichment、adaptive design、master protocol、historical control 都可能提高效率,但它们并不会自动提高成功率;真正决定成败的是:这些设计是否预先规划充分、统计学控制严谨、监管与支付方能否接受、各方是否在试验前就对证据标准达成一致。同一份白皮书也强调,与监管机构的早期沟通,以及把患者体验纳入方案设计,有助于减少招募困难、脱落和数据缺失。很多后期失败,不是因为药物绝对无效,而是因为试验问题让“可判定性”先坏掉了。[12]值得记住的案例与行动建议几个特别有代表性的案例
案例一:同样是流感 PB2 抑制剂,为什么结局并不相同Pimodivir 在两项 III 期研究中分别用于住院患者和高风险门诊患者;结果显示,它在住院场景下加到标准治疗上没有带来额外临床获益,而在高风险门诊场景下则能缩短流感症状缓解时间。研究者在讨论中明确提到,这类结果矛盾凸显了流感住院患者研究在人群定义、治疗时机、终点选择和宿主炎症因素上的复杂性。相对地,Onradivir 于 2025 年 5 月在中国获批上市,用于治疗成人单纯性甲型流感,其获批依据包括关键 III 期研究 NCT04683406。这个对比提醒我们:同靶点不等于同命运,适应症场景、入组时机、终点设计和对照选择,会决定一个机制究竟是“失败”,还是“终于被放在了正确问题上”。[13,18, 20]
案例二: Torcetrapib:当“漂亮的替代终点”遇到致命的真实结局Torcetrapib 的故事几乎成了药物开发教材:它可以显著改变血脂指标,但在高危冠心病患者中,治疗却导致死亡率和发病率上升。后续研究还发现,它引起的血压升高并不依赖 CETP 抑制本身,并伴随醛固酮升高。这说明,即使一个分子把“目标生物标志物”做得很漂亮,也不能自动推出“患者获益一定增加”;off-target 毒性和系统性代偿足以推翻前面的全部乐观判断。[14,19]
案例三: Verubecestat:强靶点结合,不等于临床有效BACE1 抑制剂 Verubecestat 是另一个经典警示。针对轻中度阿尔茨海默病的随机试验显示,它没有减缓认知或功能下降,并伴随治疗相关不良反应。更值得深思的是,Verubecestat 虽然能够显著降低 Aβ 相关生物标志物,但并没有转化为认知或功能获益。也就是说,“靶点打到了”并不自动意味着“疾病自然史会改写”。这类失败往往指向更深的问题:疾病时窗选错了、机制不是因果驱动、或者以为自己在做 disease-modifying,实际上只改了一个下游标志物。[15]
案例四: Ivacaftor:为什么精准分层会把成功率拉开与前述失败案例相反,Ivacaftor 在携带 G551D 突变的囊性纤维化患者中显示出明确临床获益,并最终开创了针对分子缺陷治疗该病的时代。这个案例常被引用,不是因为它“证明了精准医学”,而是因为它同时满足了几个条件:明确的人体因果机制、可识别的患者亚群、可验证的药效生物标志物,以及与疾病功能改善一致的临床终点。 这正是高成功率项目常见的结构。[16]
案例五: AI 能把 I 期变容易,但还不能保证 II/III 期胜利关于 AI,最值得传播的不是“它会不会替代科学家”,而是它具体改变了哪一段失败曲线。2024 年对 AI-native biotech 临床管线的首批系统分析显示,AI 发现分子在 I 期的成功率可达80%–90%,明显高于历史行业均值;但在 II 期,当前有限样本下的成功率大约 40%,与历史平均水平相近。这个结果非常重要:AI 似乎已经能更好地设计“像药的分子”,但还没有自动解决“像有效药的机制、像成功试验的设计、像真实临床受益的终点”。[5]面向科研团队、企业、投资人和监管者的六条建议:
立项时先问“这个靶点在人体里是不是真的”不要只看动物、细胞和文献热度;优先把人类遗传学、患者组学、因果推断和真实世界证据拉进来。
把“组织暴露”前移到 hit-to-lead,而不是等临床出问题再解释体外 IC₅₀、血浆 PK、动物 efficacy 不该再是唯一决策门槛。
在进入 II 期前,尽量证明完整的暴露—靶点占领—PD—临床链条能不能证伪自己的机制,往往比能不能再讲一个新故事更重要。
能做患者分层,就不要把所有患者都装进一个“大口袋”但前提是分层依据真的稳,而不是事后回看数据“找人群”。
把 II 期当成“最贵的真相时刻”,而不是“融资过渡期”II 期要回答的是机制在患者身上是否成立,而不是仅仅“信号看起来还行”。
对 AI 保持高期待,但不要把它当成临床成功率的自动兑换器AI 更可能先改善分子质量和筛选效率,后期成功仍取决于人类病理、生物标志物和试验设计。
这些建议并不是“行业常识”的重复,而是对过去十多年临床失败、靶点验证、PK/PD、组织暴露、患者分层和临床试验设计研究的综合回应。结语
新药开发之所以常常失败,不是因为科学做得不够多,而是因为真正决定临床成败的变量,长期没有被放在同等重要的位置。APSB 2022 的价值,恰恰在于它把这个盲点说透了:候选药物优化,不应只追求更强的体外活性,而要追求在正确患者、正确组织、正确剂量下实现尽可能大的净临床获益。 如果说过去几十年的药物研发过于迷信“能打中靶点”,那么未来更成熟的标准应该是:能打中、能到达、能证明、能分层、能注册、能落地。[1]
需要特别说明四点:
第一,“90%失败”通常指进入临床之后的总体失败,而不是所有发现项目从 hit 开始的总体失败。第二,成功率会随时间窗口、lead indication 还是 all indications、行业/学术主导、治疗领域而显著变化,因此 10.4%、13.8%、6.7%、3.4% 这些数字并不互相否定,而是反映不同口径。第三,研发成本估计高度依赖可获得的数据;JAMA 2020 的样本可得性更偏向 美国上市公司、较小企业与公开披露较充分的项目。第四,AI 分子的 II 期数据目前样本仍有限,因此对其“终局价值”的判断必须克制。[11]参考文献
[1] Sun D, Gao W, Hu H, Zhou S. Why 90% of clinical drug development fails and how to improve it? Acta Pharmaceutica Sinica B. 2022;12(7):3049–3062. DOI: https://doi.org/10.1016/j.apsb.2022.02.002
[2] Hay M, Thomas DW, Craighead JL, Economides C, Rosenthal J. Clinical development success rates for investigational drugs. Nature Biotechnology. 2014;32:40–51. DOI: https://doi.org/10.1038/nbt.2786
[3] Wouters OJ, McKee M, Luyten J. Estimated research and development investment needed to bring a new medicine to market, 2009–2018. JAMA. 2020;323(9):844–853. DOI: https://doi.org/10.1001/jama.2020.1166
[4] Minikel EV, Painter JL, Dong CC, Nelson MR. Refining the impact of genetic evidence on clinical success. Nature. 2024;629:624–629. DOI: https://doi.org/10.1038/s41586-024-07316-0
[5] Jayatunga MKP, Ayers M, Bruens L, Jayanth D, Meier C. How successful are AI-discovered drugs in clinical trials? A first analysis and emerging lessons. Drug Discovery Today. 2024;29(6):104009. DOI: https://doi.org/10.1016/j.drudis.2024.104009
[6] Wong CH, Siah KW, Lo AW. Estimation of clinical trial success rates and related parameters. Biostatistics. 2019;20(2):273–286. DOI: https://doi.org/10.1093/biostatistics/kxx069
[7] Gao W, Hu H, Dai L, He M, Yuan H, Zhang H, et al. Structure–tissue exposure/selectivity relationship (STR) correlates with clinical efficacy/safety. Acta Pharmaceutica Sinica B. 2022;12(5):2462–2478. DOI: https://doi.org/10.1016/j.apsb.2022.02.015
[8] Nelson MR, Tipney H, Painter JL, Shen J, Nicoletti P, Shen Y, et al. The support of human genetic evidence for approved drug indications. Nature Genetics. 2015;47:856–860. DOI: https://doi.org/10.1038/ng.3314
[9] Morgan P, van der Graaf PH, Arrowsmith J, Feltner DE, Drummond KS, Wegner CD, Street SDA. Can the flow of medicines be improved? Fundamental pharmacokinetic and pharmacological principles toward improving Phase II survival. Drug Discovery Today. 2012;17(9–10):419–424. DOI: https://doi.org/10.1016/j.drudis.2011.12.020
[10] Scannell JW, Bosley J, Hickman JA, Dawson GR, Truebel H, Ferreira GS, et al. Predictive validity in drug discovery: what it is, why it matters and how to improve it. Nature Reviews Drug Discovery. 2022;21:915–931. DOI: https://doi.org/10.1038/s41573-022-00552-x
[11] U.S. Food and Drug Administration. Enrichment Strategies for Clinical Trials to Support Approval of Human Drugs and Biological Products: Guidance for Industry. 2019. Link: https://www.fda.gov/regulatory-information/search-fda-guidance-documents/enrichment-strategies-clinical-trials-support-approval-human-drugs-and-biological-products
[12] EFPIA Clinical Research Expert Group. Innovation in Clinical Trial Design: A Review of the Clinical Trial Design Landscape. White Paper. 2020. Link: https://efpia.eu/media/547507/efpia-position-paper-innovation-in-clinical-trial-design-white-paper.pdf
[13] Leopold L, Vingerhoets J, Deleu S, Nalpas C, Bellamy T, et al. Efficacy and safety of pimodivir combined with standard of care in hospitalized and nonhospitalized high-risk adolescents and adults with influenza A infection. Journal of Infectious Diseases. 2025;231(1):e132–e143. DOI: https://doi.org/10.1093/infdis/jiae408
[14] Barter PJ, Caulfield M, Eriksson M, Grundy SM, Kastelein JJP, Komajda M, et al. Effects of torcetrapib in patients at high risk for coronary events. New England Journal of Medicine. 2007;357:2109–2122. DOI: https://doi.org/10.1056/NEJMoa0706628
[15] Egan MF, Kost J, Tariot PN, Aisen PS, Cummings JL, Vellas B, et al. Randomized trial of verubecestat for mild-to-moderate Alzheimer’s disease. New England Journal of Medicine. 2018;378:1691–1703. DOI: https://doi.org/10.1056/NEJMoa1706441
[16] Ramsey BW, Davies J, McElvaney NG, Tullis E, Bell SC, Dřevínek P, et al. A CFTR potentiator in patients with cystic fibrosis and the G551D mutation. New England Journal of Medicine. 2011;365:1663–1672. DOI: https://doi.org/10.1056/NEJMoa1105185
[17] Scannell JW, Blanckley A, Boldon H, Warrington B. Diagnosing the decline in pharmaceutical R&D efficiency. Nature Reviews Drug Discovery. 2012;11:191–200. DOI: https://doi.org/10.1038/nrd3681
[18] Yang Z, Zhan Y, Li Z, Lin Z, Fang Z, Li H, et al. Efficacy and safety of onradivir in adults with acute uncomplicated influenza A infection in China: a multicentre, double-blind, randomised, placebo-controlled and oseltamivir-controlled, phase 3 trial. The Lancet Respiratory Medicine. 2025;13(7):597–610. DOI: https://doi.org/10.1016/S2213-2600(25)00046-3
[19] Forrest MJ, Bloomfield D, Briscoe RJ, Brown PN, Cumiskey AM, Ehrhart J, et al. Torcetrapib-induced blood pressure elevation is independent of CETP inhibition and is accompanied by increased circulating levels of aldosterone. British Journal of Pharmacology. 2008;154(7):1465–1473. DOI: https://doi.org/10.1038/bjp.2008.229
[20] Lee A. Onradivir: First Approval. Drugs. 2025. DOI: https://doi.org/10.1007/s40265-025-02242-5