(声明:本文涉及的个人叙述与场景为虚构假设,但所引用的科学数据为真实。)
凌晨两点,我盯着屏幕上的一行数字发呆:r=0.99。
这是我刚用"分位数聚合"方法跑出来的结果——一个被叫停的阿尔茨海默病药物试验数据,按照常见的分析模板跑了一遍,结果"近乎完美"。清除淀粉样蛋白?完美相关。延缓认知衰退?统计学点头。
问题是:这个药,solanezumab,三期临床试验失败,2023年彻底停产。
我不是药企科学家。我是那个不小心发现了"成功药"和"失败药"用了同一个统计方法的人。
2026年5月,布朗大学的Flanders和Ackley在JAMA Neurology上发表了一封研究信,系统地揭示了这一问题(Flanders et al., 2026)。他们发现,礼来公司的科学家在分析donanemab(多纳奈单抗)的TRAILBLAZER-ALZ 2试验数据时,用了一种叫"分位数聚合"的统计方法,把淀粉样蛋白清除与认知改善之间的关联放大了整整29倍。
29倍。
值得注意的是,当他们用同样的方法处理solanezumab——那个已经被证明彻底失败的药物——相关数据同样变成了r=0.99。
这不是统计学的正确应用,而是方法论的挑战。淀粉样蛋白假说:三十年探索
要理解这件事的重量,我们得先把时间拨回1992年。
那一年,Hardy和Higgins在《Science》上发表了一篇里程碑式的论文——"淀粉样蛋白级联假说"(Hardy & Higgins, 1992)。逻辑链条简洁而吸引人:β-淀粉样蛋白斑块沉积→神经元损伤→tau蛋白缠结形成→认知功能崩溃。简单、清晰、可干预。
制药界为之振奋。
如果认知衰退是一场大火,淀粉样蛋白就是那根点燃一切的火柴。掐灭火柴,火不就灭了吗?
接下来的三十年,这个假说消耗了超过400亿美元的研发资金(Cummings et al., 2021)。bapineuzumab,失败。crenezumab,失败。gantenerumab,失败。solanezumab,失败。每一个名字背后都是巨大的投入和成千上万志愿者的希望。
然后,2021年,aducanumab带着争议上市了——它的临床获益证据薄弱,FDA外部顾问委员会以10票反对、1票不确定的结果建议不予批准。但FDA仍通过加速审批途径批准了该药,导致三位委员会成员辞职抗议。哈佛医学院的Aaron Kesselheim教授称之为"可能是美国历史上最糟糕的药物审批决定"(Kesselheim, 2021)。
但故事没完。
2023年,仑卡奈单抗(lecanemab)获批。临床试验显示它能延缓27%的认知衰退,听起来不错。但仔细看数字:CDR-SB评分差异是0.45分,而业内公认的"临床有意义"阈值是0.5分。差0.05分。这是统计学意义上的"有效"和患者感受中的"有效"之间的距离。
2024年,多纳奈单抗(donanemab)获批,低中tau蛋白组延缓35%衰退。听起来更好了。但别忘了ARIA——淀粉样蛋白相关成像异常,脑水肿和脑出血的发生率是36.8%。每三个用药的患者,就有一个面临脑部影像异常的风险。
2026年4月,Cochrane系统综述发布了重要发现:汇总17项随机对照试验、20342名参与者、7种抗体药物的数据后,结论是效果"微乎其微"(trivial)。第一作者Nonino指出:"现有令人信服的证据表明,这些药物的临床效果非常有限"(Nonino et al., 2026)。
这一结论在学术界引发广泛讨论。
支持者说:35%不是35%吗?对早期患者这就是希望。反对者说:0.45分不是0.5分,绝对差值太小,ARIA风险不可忽视。Cochrane被批评"把5个失败药物和2个成功药物混在一起分析不公平"。
但所有人都在争一个核心问题:什么算有效?
就在这场争论最激烈的时候,Flanders和Ackley的研究信像一颗石子扔进了水面——问题不只是"药物有没有效",而是"我们怎么知道有效"。分位数聚合:一个需要审慎看待的方法
让我们来做一个思想实验。
假设你有一所学校,1000个学生。你想知道"作业量"和"考试成绩"之间的关系。正常做法是什么?把每个学生的作业量和成绩配对,算相关系数。
但分位数聚合的做法完全不同:
第一步,把学生按作业量分成10个班级。班级1是最懒的10%,班级10是最努力的10%。
第二步,计算每个班级的平均作业量和平均成绩。
第三步,用这10个班级均值的配对数据算相关性。
你发现了问题吗?班级内部的学生差异被完全抹掉了。班级1里有人考90分、有人考20分,平均之后都是40分。班级10里同理,差异被"平均化"了。
礼来科学家的论文(Lu et al., 2025)就是这么做的。他们把TRAILBLAZER-ALZ 2试验中的患者按治疗后淀粉样蛋白水平分成十分位(decile),然后看这十个组的均值之间有没有趋势。
结果?相关系数0.87(CDR-SB量表)和0.73(iADRS量表)。漂亮的数字。
他们据此主张:淀粉样蛋白清除可以作为阿尔茨海默病药物的替代终点——也就是说,以后不用等患者认知衰退,等淀粉样蛋白清除就够了。审批可以加速,研发可以更快。
这个逻辑看起来很有吸引力,直到你意识到它跳过了什么。Flanders & Ackley:方法的审视
布朗大学的团队做了一件非常简单的事:他们对照着做了一遍。测试一:模拟数据
他们构建了一个虚拟的1600人临床试验,参数完全匹配TRAILBLAZER-ALZ 2的真实设计。
在个体层面——每个患者自己的淀粉样蛋白清除量和认知变化配对——相关系数是r=0.03。几乎等于零。
然后他们用同样的分位数聚合方法。出来的数字:r=0.87。
膨胀倍数:29倍。测试二:真实失败数据
第二个测试更具说服力。
A4研究(Anti-Aβ Asymptomatic Alzheimer's)是一个研究solanezumab对淀粉样蛋白阳性但未发病者的预防效果的试验。结果:药物既没有显著清除淀粉样蛋白,也没有减缓认知衰退。这是"双阴性"结果,一个未能达到主要终点的试验。
个体层面相关系数:r=0.04。
分位数聚合之后:r=0.99。
Ackley在评论中说道:"它让一个失败的试验看起来像是成功清除了淀粉样蛋白,并且清除淀粉样蛋白减少了认知衰退。而实际上,这个药两样都没做到。"
请再读一遍这句话。
那么问题到底在哪?
第一,抹平变异性。 分位数聚合本质上是一个数据平滑器。个体层面的噪音——真实的随机波动、测量误差、患者的异质性——被聚合过程吞掉了。换句话说,它把"我做了但是没用"变成了"看起来好像有用"。这不是发现信号,这是制造信号。
第二,破坏随机化。 临床试验的核心是随机分组——用药组和安慰剂组除了药物之外一切相同。但分位数聚合把所有人都混在一起,不区分用药与否。这直接丧失了因果推断的基础。你看到的相关性,可能只是"吃了药并且碰巧淀粉样蛋白低的人",而不是"因为淀粉样蛋白低了所以认知好"。
第三,生态谬误。 这是统计学教科书里的经典陷阱:群体层面的相关性不能简单推论到个体层面。国家层面的"人均收入和幸福感正相关",不等于你工资涨了你就会更幸福。十个班的平均分和班级作业量正相关,不等于每个学生多写作业成绩就会好。
Flanders和Ackley的结论很克制但很明确:"这种方法不能为治疗机制或替代终点有效性提供因果可解释的信息。"
翻译成人话:你可以说数字变好看了,但你没法用它解释为什么。不是方法问题,是系统问题
现在我们来聊聊为什么这个有缺陷的分析能发表、引用、并最终影响药品审批。
Lu et al. 2025的作者阵容里,有礼来公司的科学家。这不违法,也不罕见。药企资助的研究主导了大量临床数据分析,这本身就是一个结构性问题。Ackley说得直白:"在行业激励之外工作,给了我们仔细审查一些最有影响力的新药如何被理解的方法论问题的自由。"
这句话值得品味。在行业激励之外工作——这意味着,不是每个研究者都有这种自由。大部分人的经费、职位、影响力,都和"不惹事"绑定在一起。
更深的问题是数据透明度。
Flanders的团队用的是模拟数据。为什么?因为TRAILBLAZER-ALZ 2的个体层面患者数据至今没有公开。研究者只能根据已发表的描述性统计重建数据,然后验证方法论问题。这相当于让侦探去破案,但不让他看监控,只能根据嫌疑人的领口颜色推断身高。
Cochrane综述的作者们也提到了同样的问题:数据不透明使得独立再分析几乎不可能。
如果一个方法有缺陷,为什么它还能一路绿灯?
答案可能涉及多重因素:在高度竞争的药物研发环境中,能够支持药品价值主张的分析方法更容易获得关注和资源,而方法论的质疑则往往面临更大的阻力。
仑卡奈单抗年治疗费用超过2.6万美元。多纳奈单抗类似。ARIA发生率36.8%。当"淀粉样蛋白清除与认知改善完美相关"的叙事支撑起的不只是科学结论,而是数百亿美元的医保支付和制药公司股价时——这个方法论上的数字"好看"就变得非常有价值。
29倍的膨胀不只是统计学错误。当它被写进药品说明书、进入临床指南、被新闻标题引用——它重塑了风险-收益评估的天平。
天平本来应该指向患者。现在它指向哪儿?Cochrane综述与领域分歧
2026年的阿尔茨海默病研究界,分歧比以往任何时候都更明显。
Cochrane综述的结论——"微乎其微"——激起的反弹说明这不是一个纯粹的科学讨论。参与者的职业身份、利益关联、认知框架,都在对同一组数据做出截然不同的解读。
支持方的声音:仑卡奈单抗27%、多纳奈单抗35%的延缓效果是客观存在的数字,对早期患者来说这意味着更多时间——可以做自己想做的事、记得住家人的名字、能够独立生活。仑卡奈单抗的四年延长数据显示获益在累积,长期效果值得期待。
反对方的声音:绝对差值0.45分没有跨过临床有意义的阈值,ARIA风险不可忽视,尤其是当这个风险在真实世界(老年患者合并用药、影像监测条件差异)可能被放大时。把统计显著翻译成临床有效,是三十年来的老问题了。
一些研究者对延迟治疗设计的数据提出了不同解读。Daly、Kepp和Imbimbo(2024)分析指出,donanemab的长期随访数据显示,早期治疗组和延迟治疗组在36个月时的认知评分趋于接近,这可能提示药物的获益需要更长时间的观察才能确定。也有观点认为,这些药物可能主要起到延缓症状进展的作用,其能否真正改变疾病进程仍需更多研究证据。
分位数聚合争议让这场争论更加胶着。
如果连"淀粉样蛋白清除与认知改善相关"这个最基础的事实——支撑替代终点逻辑的核心假设——都可能是统计假象,那整个领域的方法论地基都需要重新检验。
这不是某个论文撤稿就能解决的小问题。这是整个淀粉样蛋白假说体系在方法论层面需要面对的系统性审视。更大的图景:统计方法谁来守门?
阿尔茨海默病领域的统计困境不是孤例。
p值操纵——把"边缘显著"包装成显著,把显著结果弱化成"边缘显著"。HARKing——Hypothesizing After Results are Known,根据结果倒推假设,假装自己一开始就猜对了。选择性报告——只报告"有效"的亚组分析,"无效"的藏在附录里。
这不是阿尔茨海默病独有的问题。整个生物医学领域都面临"方法论守门人缺失"的困境。
但阿尔茨海默病尤其脆弱。
终点指标的主观性——认知量表依赖于患者当下的状态、情绪、与测试者的互动,存在大量无法控制的变异。效应量的渺小——疾病进展缓慢,药物能改变的只是沧海一粟,容易被统计显著性"放大"。患者的异质性——每个患者的发病机制可能本就不同,把他们塞进同一个分析框架,本身就是一种粗糙化。利益冲突的深度——数十年的投入、数十亿美元的机会成本,药企承受不起又一次失败。
在这种环境下,一个方法论上的"技巧"——也许最初只是出于好奇或者方便——被嵌入了整个评价体系,然后成为共识,然后成为监管依据,然后成为定价基础。
2026年5月,就在Flanders和Ackley的研究信发表的同一个月份,中国学术圈也被一个叫"耿同学"的年轻人搅得天翻地覆。
耿同学,真名耿洪伟,吉林大学生物学本硕,北京航空航天大学生物医学工程博士读到第五年,退学了。不是因为毕不了业,而是因为他看到的科研环境和他想象中的"做研究"之间的落差,大到让他没法说服自己继续待在里面。
2026年4月9日,他在B站发布了一条视频,逐条拆解同济大学生命科学与技术学院院长王平团队发表在《Nature》上的论文数据——末位数字"5"出现了212次,第二多的"6"只出现了16次;两组关键数据完美相差0.3,像等差数列一样整齐;71个核心数据中51个末位是0或5。
他后来苦笑:"造假都懒得演了,连随机数都不会编。"
28天后,同济大学发布官方通报,确认王平团队学术不端,免去院长职务、降岗两级、24个月禁评职称,第一作者直接解聘。这是国内顶刊学术不端史上最严厉的处分(每日经济新闻, 2026)。
接下来36天,他又连续举报了南开大学、中山大学、上海大学等多所985高校的院长级学者,全部是杰青、长江学者级别的顶尖学者,论文全部发在Nature正刊或子刊上。全网相关视频播放量突破2亿,他的B站粉丝从不足10万暴涨到超过180万(星空区块链/网易, 2026)。
但真正让我感到担忧的,不是他揭露了多少问题,而是他提出的一个观点:
"这段时间做打假以来,没有任何一篇问题论文,是官方自己去找出来的。"
这句话,和Flanders团队的处境形成了一个令人不安的对照。
耿同学揭露的是"粗暴版"——数据末位全是5和0,列与列之间是加减关系,连稍微用点心编一下都不愿意。而分位数聚合是"精致版"——方法本身是合法的统计工具,发表在正规期刊,由有资质的科学家操作,但它的效果和粗暴编造异曲同工:都是把"没有关系"变成"完美相关"。
两者在本质上都是方法论的误用,只是表现形式不同。
更本质的共性是:在两种情况下,守门人都缺席了。
王平团队的Nature论文,图像雷同率高达83%、原始数据标准差趋近于零,这些"肉眼假"的信号,在论文送审、成果备案、职称评审的每一个环节都没有触发预警。分位数聚合把个体层面的零相关膨胀成0.99,这个方法论的严重缺陷,也在同行评议、期刊编辑审查、监管机构审核的每一个关卡被放行。
耿同学打假的案例中,论文经历了校内预答辩、盲审、正式答辩、成果入库、年度考核等全套流程,在中国知网、万方、Web of Science等主流数据库中持续可查,长期未被标记异常。阿尔茨海默病领域的分位数聚合分析,同样经历了同行评审、期刊发表、引用传播,最终影响了药品审批和临床指南。
两套系统,同一个故障:自我监督的独立性不足。
高校对本单位高层人员普遍采取"宽松备案制",监管部门对顶刊成果默认"权威背书",只要未引发公共舆情,问题成果就可稳定转化为职称晋升资本。药企资助的研究主导了临床数据分析,当分析结果直接影响数百亿美元的医保支付和公司股价时,方法论的质疑就变得"不合时宜"。
耿同学说:"一些比较厉害的课题组,他们造出来的造假论文也比较厉害,这样的学生会继续留在大学里当老师,他们就把这种坏风气延续下去了,所以危害会更大"(每日经济新闻, 2026)。把这个逻辑平移到阿尔茨海默病领域:当一个有缺陷的统计方法被顶刊认可、被药企采用、被监管引用,它也会"延续下去"——不是通过学生的论文,而是通过临床指南、医保目录和患者的治疗选择。
那么,我们需要什么?
数据共享。个体层面的患者数据必须公开,否则独立验证永远是空谈——耿同学能打假,恰恰是因为Nature等顶刊强制要求上传原始数据;而TRAILBLAZER-ALZ 2的个体层面数据至今不公开,Flanders团队只能用模拟数据间接验证。方法预注册。分析方案在数据揭盲之前就要确定,不能"量体裁衣"。独立验证。不依赖药企资助的分析,研究才能真正独立——耿同学之所以能打假,正是因为他在"行业激励之外"。更好的因果推断方法。因果中介分析、组内分析等技术,可以在不完全依赖聚合的前提下探索机制。
这些听起来都是常识。但常识之所以需要被重申,往往是因为它没有被执行。
耿同学在接受采访时说过一段很清醒的话:"我的目标不是把每一个造假的人都绳之以法。如果只是干掉某一个人,大家没有受益,这件事就没有意义"(知识分子, 2026)。他看重的是未来的改变,而不是过去的清算。
放在阿尔茨海默病领域,道理是一样的。揪出一篇方法有缺陷的论文不是终点,让整个系统不再生产这样的论文才是。当数学开始替药物说话
Ackley说过一句话:"我们的研究很简单,但它很好地证明了学术研究的价值。"
耿同学说过另一句话:"我只想让老实人不吃亏,造假者无处躲。"
一个在美国布朗大学,用模拟数据揭露统计方法的膨胀;一个在中国北航退学,用末位数字分布拆穿顶刊论文的编造。两个人,两个领域,两种语言,但说的是同一件事:学术研究的价值,不在于结论有多漂亮,而在于有没有人愿意做那个"简单但必要"的验证。
分位数聚合把0.03膨胀成0.87——29倍。王平团队的数据末位"5"出现212次——这不是误差,这是刻意的"美化",只不过一个用了高等数学,一个连小学数学都没用对。
但两者的后果,都一样真实:患者根据被放大的希望做出治疗决定,学生根据被粉饰的数据选择研究方向,医保根据被美化的证据支付账单。
耿同学说,他做学术打假以来最失望的事情,不是造假有多普遍,而是"没有任何一篇问题论文,是官方自己去找出来的"。Flanders和Ackley能做这项研究,也不是因为他们比同行评议的审稿人更聪明,而是因为他们在"行业激励之外"——用Ackley的话说,"这给了我们仔细审查方法论问题的自由"。
这两句话放在一起,指向同一个结论:当守门人集体失职,纠错就变成了偶然事件。 偶然依赖于一个退学博士的坚持,或者一组独立研究者的好奇。这不是制度,这是运气。
29倍不是一个小数字。它是一个警示。
3500万阿尔茨海默病患者需要的不只是新药。他们需要诚实的评估——告诉他们这个药真的能做什么、可能带来什么风险、值不值得他们和家人做出那个治疗决定。
耿同学说他希望"墓志铭上能写一句好话"。如果有一天,学术期刊用AI筛查数据异常成为标配,高校对顶刊成果不再默认"权威背书",药企的个体层面数据必须公开才能审批——那这句话就写成了。
被放大的希望,有时候比没有希望更残忍。
当数学开始替药物说话,我们需要有人替患者说话。当守门人集体沉默,我们需要有人替常识说话。
不是替他们选择,而是替他们追问:你的证据,真的站得住脚吗?
这个追问,永远不会过时。参考文献
Flanders, M. D., Caunca, M., La Joie, R., Schneider, L. S., & Ackley, S. F. (2026). Methodological considerations for quantile aggregation in Alzheimer disease trials. JAMA Neurology. https://doi.org/10.1001/jamaneurol.2026.1240
Lu, M., Kim, M. J., Collins, E. C., Zhu, Y., Kaplow, J., Arner, D., Duggan Evans, C., Le Bastard, N., Pontecorvo, M. J., Sims, J. R., & Williamson, M. K. (2025). Association between donanemab treatment, amyloid plaque clearance, and clinical progression across diverse subgroups in the TRAILBLAZER-ALZ 2 randomized clinical trial. JAMA Neurology, 82(12), 1251-1256. https://doi.org/10.1001/jamaneurol.2025.3844
Nonino, F., Tumati, S., Defina, G., Tindall, H., Philipose, D. C., Ng, D. C., Muirhead, K., Handley, J., Nischal, S., Brangsch, M., Botelho, M., Vachon, B., Vallerand, I. A., Rehman, H., Islam, M. S., Shi, J., Eichhorn, L., Sabarth, N., Ruether, F., ... Köhler, S. (2026). Anti-amyloid antibody therapies for Alzheimer's disease. Cochrane Database of Systematic Reviews, (4), CD016297. https://doi.org/10.1002/14651858.CD016297.pub2
Sims, J. R., Zimmer, J. A., Evans, C. D., Lu, M., Ardayfio, P., Sparks, J., Wessels, A. M., Shcherbinin, S., Wang, H., Serdaru, A., Kaplow, J., Lai, R. Y. K., Iga, J., Ozawa, Y., Fujise, T., Narita, K., Okada, M., Koyama, Y., Miyaoku, N., ... Minohara, Y. (2023). Donanemab in early symptomatic Alzheimer disease: The TRAILBLAZER-ALZ 2 randomized clinical trial. JAMA, 330(6), 512-527. https://doi.org/10.1001/jama.2023.13239
van Dyck, C. H., Swanson, C. J., Aisen, P., Bateman, R. J., Chen, C., Gee, M., Kanekiyo, M., Li, D., Reyderman, L., Cohen, S., Froelich, L., Katayama, S., Sabbagh, M., Vellas, B., Watson, D., Dhadda, S., Irizarry, M., Kramer, L. D., & Iwatsubo, T. (2023). Lecanemab in early Alzheimer's disease. New England Journal of Medicine, 388(1), 9-21. https://doi.org/10.1056/NEJMoa2212948
Hardy, J. A., & Higgins, G. A. (1992). Alzheimer's disease: The amyloid cascade hypothesis. Science, 256(5054), 184-185. https://doi.org/10.1126/science.1566067
Cummings, J. L., Goldman, D. P., Simmons-Stern, N. R., & Ponton, E. (2021). The costs of developing treatments for Alzheimer disease: A retrospective exploration. Alzheimer's & Dementia, 17(10), 1551-1563. https://doi.org/10.1002/alz.12450
Kesselheim, A. S. (2021, June 10). [Resignation letter from FDA Peripheral and Central Nervous System Drugs Advisory Committee]. STAT News. Retrieved from https://www.statnews.com/2021/06/10/third-member-of-fda-expert-committee-resigns-over-controversial-alzheimers-therapy-decision/
Daly, T., Kepp, K. P., & Imbimbo, B. P. (2024). Long-term extension data do not robustly support clinical disease course modification with donanemab. Alzheimer's & Dementia, 20(11), 6659-6661. https://doi.org/10.1002/alz.14114
Alzforum. (2026, May 19). Plaque removal as surrogate? Statisticians say not so fast. Retrieved from https://www.alzforum.org/news/research-news/plaque-removal-surrogate-statisticians-say-not-so-fast
每日经济新闻. (2026, May 22). 独家对话学术打假博主"耿同学":举报纯粹是因为反对学术圈造假行为. Retrieved from http://m.toutiao.com/group/7642731889962254848/
知识分子. (2026, May 20). 专访"学术造假吹哨人"耿同学:打假知名学者非有意为之. 界面新闻. Retrieved from https://www.jiemian.com/article/14445703.html
星空区块链/网易新闻. (2026, May 18). "耿同学"36天连环举报5名顶尖学者:民间"打假风暴"来袭. Retrieved from https://www.163.com/dy/article/KT8377I205319QAX.html