预约演示

如何从“成功”的II期数据中嗅出III期失败的味道？

2024-04-02

临床3期临床研究临床结果临床2期临床失败

关注并星标CPHI制药在线----扫码进入天然提取物线上主题展展厅----3月份两起临床研究结果的失败引发了行业内部对于临床研究设计的关注。 3月12日，Acadia Pharmaceuticals 宣布他们的产品Nuplazid（pimavanserin）在454名患有精神分裂症阴性症状的成年患者参加的III期ADVANCE-2研究中失败。Nuplazid是一种非典型抗精神病药，用于治疗与帕金森病相关的精神病引起的幻觉和妄想，它是该适应症的唯一获批药物，于2016年4月29日获得FDA的监管审批。图片来源：Nuplazid.com Acadia 一直试图将 Nuplazid 的标签扩展到更广泛的失智相关的精神病领域，这条路线在2021年被证明行不通。Acadia随后将希望倾注在了ADVANCE-2 III期研究，针对精神分裂症，但也无果而终。两次标签扩展的努力如今都不幸以失败的结局惨淡落幕。其实ADVANCE-2的失败早在Nuplazid的II 期 ADVANCE-1 研究中就已经初现端倪。2019 年 11 月下旬，Acadia 宣布在对 403 名精神分裂症阴性症状患者进行的 II期ADVANCE-1 研究中，Nuplazid 取得了"阳性顶线结果"。其主要终点为 26 周后阴性症状评估 16 (NSA-16) 总分相对于基线的变化。ADVANCE-1 研究结果的 p 值为 0.043，效应大小（Effect Size）为 0.21。此处涉及两个临床研究非常关键的表征结果：p值和效应大小（effect size）。这两个参数互为补充，是FDA检查临床结果的重要参考。P值表征的是临床研究的两个队列（例如安慰剂和研究组）之间是否存在统计意义上的显著区别。这通常是研究人员最为看重的结果之一。如果p值表明研究组同安慰剂组之间存在着统计意义上的显著区别，那么该研究就有可能被视为成功（当然存在例外情况，例如FDA前不久拒绝的默沙东慢性咳嗽药物Gefapixant），如果p值显示两个队列不存在统计意义的显著区别的话，那么这个药物的前景就堪忧了（当然也存在例外，例如Sarepta的杜氏肌营养不良症基因疗法Elevidys）。人们有一种普遍的误区，认为p值低于设定的显著性水平（significance level，α，通常设定为0.05）就代表测试药物同安慰剂之间存在显著差异。但前文提及，p值小于0.05但被FDA拒绝批准的申请是存在的。这就在"统计显著"的基础上引入了"临床意义"的表征。正如FDA在拒绝批准默沙东慢性咳嗽药物Gefapixant的评估报告中表述的那样， "统计显著性本身并不表明检测到的效果是否对应于有临床意义的治疗效果。因此，FDA专家委员会面临的问题不是具有统计学意义，而是这些微小的治疗效果是否具有临床意义。" 由此可知，除了p值之外，FDA同样关注临床意义。临床意义背后的是这个"真实世界"的"实际显著性"（相对于p值表征的统计显著性），可以通过"效应大小"（Effect Size）这个参数表征。统计显著性本身可能会产生误导，因为它受到样本量的影响。增加样本量理论上更有可能将没有显著性的结果"无中生有"地变身为有统计显著性，但在现实世界中的效应大小却仍然很低。相反，效应大小与样本大小无关，仅使用数据来进行计算。这就是为什么有必要在研究报告中给出效应大小的结果，表明研究的实际意义。效应大小有不同的计算公式，对应的结果包括Cohen's d和Pearson's r等不同表征结果。那么看一下Nuplazid在其II期研究ADVANCE-1和 III期研究ADVANCE-2的p值和效应大小的数值： • ADVANCE-1（II期）：p值=0.043；效应大小（Cohen's d）= 0.21 • ADVANCE-2（III期）：p值=0.48；效应大小（Cohen's d）= 0.07 从结果对比，我们就能理解前文提到的，III期试验失败，实际上在II期结果中就已经初现端倪的说法。Nuplazid的II期结果虽然在p值上勉强通过，但其效应大小属于微小的范畴。也就是说，虽然具有统计显著性，表明试验队列与安慰剂队列存在统计显著区别，但实际上的效应大小较低。虽然FDA允许Acadia将Nuplazid的研究推进到III期，但这个项目的命运在此时就已经显得有些"气若游丝"前景不妙了。然而许多投资者眼中只有小于 0.05 的 p 值，因此他们就会觉得这个II期研究获得成功。然而统计显著与现实显著之间并不能百分之百地画上等号，甚至在很多时候两个结果是相悖逆的。在大型研究中，即使很小的临床效应（实际显著性）也可能导致活性组和安慰剂组之间的 p 值小于 0.05，这就是前文说到的，当不断增加统计的样品数量时，统计不显著可能会被"裹挟"进入统计显著范围，也就是p值小于0.05。尽管 ADVANCE-1 不是一项非常大型的研究，但接近 0.05 的 p 值仍然应该敲响警钟。其次，绝对效应大小（不同队列平均值之间的原始差异）对于生存时间这样的临床终点可能很有指导作用，但对于像NSA-16这样的打分体系获得的临床结果，其评判效果就要大打折扣了，这也是为什么FDA在评审ALS，DMD这样的依靠这些打分系统获得的临床终点时，对于p值的使用非常谨慎，同时也非常关注真实的临床意义。 ADVANCE-1的效应大小，20 mg队列为0.21；34 mg稍大，但也只有0.34，勉强能够挤进中等有效范畴。这里的Cohen's d表征的效应大小，是通过两个组别（比如20 mg组和安慰剂组）的平均值的差异，除以安慰剂组的标准偏差得到的数值。通常来说，0.2为低，0.5为中等，0.8以上为大，处于阈值之间的数值可以视为两个标准之间的状态。ADVANCE-1实际上得到的一个统计显著，但实际不显著的临床结果。尽管获得FDA的批准进入III期阶段，但前景蒙尘。临床III期规模通常要显著大于II期，因为在更大、更多样化的患者队列中存在更高的现实世界变异性，FDA需要看到这一方面的效果。因此ADVANCE-2 的III期研究中有多达 227 名患者接受了 34mg 剂量的治疗，而 ADVANCE-1 研究中有只 107 名患者接受了 34mg 剂量，实际的结果更是对应了之前的担忧：II期成功III期可能失败。III期结果不仅p值不具备统计显著性（显然样本数量的增加并没有帮助p值降低），而且效应大小也显示了这款药物在实际疗效上与安慰剂几乎无异。与Nuplazid类似，Amylyx Pharmaceuticals也宣布了他们的Relyvrio（苯丁酸钠和牛磺二醇）在 664 名肌萎缩侧索硬化症 (ALS) 患者中进行的验证性 III 期 PHOENIX 研究失败。不同的是，Relyvrio之前已经获得了FDA的加速批准，其失败的III期研究实际上是上市后验证性研究的一部分。图片来源：drugs.com Relyvrio与Nuplazid的另一个"雷同之处"，在于它的137名患者参加的II期研究CENTAUR也"明显成功"。在CENTAUR试验中，137名患者中的89名被随即分配到了Relyvrio组，而III期的PHOENIX研究中，Relyvrio组的患者人数大约为400名。同Nuplazid的失败征兆一样，Relyvrio的II期研究CENTAUR同样显现出了令人不安的迹象。FDA 的第一个顾问小组于 2022 年 3 月以 6 比 4 的投票拒绝批准该药物，而第二个小组在六个月后却改弦更张，投票支持加速批准，但仍然对 Relyvrio 的功效保留了怀疑。据报道，有两个因素影响了第二个顾问小组风向调转的决定。第一是 Amylyx 承诺。他们表示，如果 PHOENIX III期研究失败，他们将主动撤回 Relyvrio。第二个因素是一份有 5 万人签名的请愿书。患者权益倡导者的呼吁显然对FDA的决定起到了一定作用。ALS（渐冻症）是一种罕见的、破坏性的进行性疾病，影响运动神经元功能，通常在症状出现后两到三年内致命。美国只有约 3万名 ALS 患者，但患者权益倡导者最终却搞到了一张五万人签名的请愿书。 Relyvrio 的II 期 CENTAUR 研究使用ALSFRS-R评分系统作为对主要终点的评判标准，获得了0.03的p值，效应大小约为0.4，和Nuplazid的II期临床结果有些类似。但考虑到基于小样本的统计数据，这样的结果并不能让人完全心安。事实也验证了人们的担忧，在规模大得多的 PHOENIX III期研究中，所有主要和次要终点均未达到。总结 II期成功III失败的案例其实并不少见，虽然II期和III期的研究目的有一定的重叠性，但样本数量完全不一样，甚至有时候临床终点也会发生改变。一项针对2000至2015年的研究表明，3期资产最终获批的比例为59.0%。也就是是说，每10款成功从II期进阶到III期的药物候选物，就有超过4款在III 期遭遇失败。这个数据在肿瘤学资产中表现得更为突出，其总体成功概率（从I期到获批）仅为3.4%，远远低于疫苗得33.4%和整体药物的13.8%。在II期试验中，可能由于样本量不足或者选取的患者群体不够代表性，导致结果出现偏差。观察到的效应可能是由于偶然性或者局部的效应，而不是真正的药物疗效。这可能会掩盖药物的真实效果，使得在更大规模的 III期试验中无法复现 II期的结果。在III期试验中，由于涉及更多的患者和更广泛的人群，这种偶然性或局部效应可能会被更全面地检测到，导致结果不符合预期。在分析临床结果的过程中，不应该将试验成败的结果完全系于p值一项指标。FDA在监管过程中非常看重临床意义，因此对于表征实际显著性的效应大小同样倚重。在II期研究中遇见p值显著但效应大小混沌不清的情况，应该认真分析数据，在III期研究中规划好试验设计、数据分析方法以及终点选定等方面的工作，尤其是在确定研究规模上更应该将II期结果的效应大小考虑进去。 Ref. Why Do Clinical Trials Fail? Allucent. Retrieved on 29. 02. 2024. Smith, A. Stock Watch: Acadia And Amylyx Trial Failures Were No Shock. Scrip. 26. 03. 2024. Grogan, K. Acadia's Nuplazid Expansion Bid Bites The Dust. Scrip. 12. 03. 2024. Smith, A. Stock Watch: The Two Sides Of A Complete Response Letter. Scrip. 12. 04. 2021. Power Analysis, Statistical Significance, & Effect Size. Meera. Retrieved on 26. 03. 2024. Efficacy and Safety of Pimavanserin as Adjunctive Treatment for the Negative Symptoms of Schizophrenia (ADVANCE-2). Clinicaltrials.gov. Retrieved on 26. 03. 2024. Trial of Sodium Phenylbutyrate-Taurursodiol for Amyotrophic Lateral Sclerosis. N Engl J Med 2020; 383:919-930. DOI: 10.1056/NEJMoa1916945【智药研习社近期课程预告】来源：CPHI制药在线声明：本文仅代表作者观点，并不代表制药在线立场。本网站内容仅出于传递更多信息之目的。如需转载，请务必注明文章来源和作者。投稿邮箱：Kelly.Xiao@imsinoexpo.com▼更多制药资讯，请关注CPHI制药在线▼点击阅读原文，进入智药研习社~