题目
Accelerating scientific discovery with Co-Scientist
期刊信息
期刊:Nature(IF=48.5,2024 Journal Impact Factor)(Nature)
在线时间:2026年5月19日(Nature)
DOI:10.1038/s41586-026-10644-y(Nature)
文章状态:Nature Accelerated Article Preview,已接收,后续仍会经历编辑与校样流程。
研究背景
科学发现最难的地方,往往不是“读完更多论文”,而是在海量文献中提出可验证的新假说。
Google DeepMind、Google Research、Google Cloud AI Research 等团队提出 Co-Scientist:一个基于 Gemini 的多智能体系统,目标是像“科研合作者”一样生成、批判、排序并进化科学假说。(Nature)
核心创新
多智能体科研引擎:系统包含 Generation、Reflection、Ranking、Evolution、Proximity、Meta-review 等智能体,分别承担假说生成、同行评审、排序、进化和综述分析等任务。
test-time compute 放大科研推理:不是一次性输出答案,而是在推理过程中反复“加算力、加辩论、加修正”,让假说质量逐步提升。
Elo 锦标赛式排序:不同假说像“打擂台”一样两两比较,通过科学辩论和胜负模式更新排名。
真实湿实验验证:系统提出的急性髓系白血病(AML)药物再利用候选、协同联合用药、肝纤维化靶点,以及抗菌耐药相关机制假说,均进入了实验或独立研究验证环节。
专家在环协作:Co-Scientist 并不替代科学家,而是允许研究者用自然语言设定目标、约束条件、反馈方向和实验偏好。
关键结果
图1:Co-Scientist 的设计、多智能体架构与实验验证总结
a,概览:作者展示了 Co-Scientist 结构化科学思维引擎的不同组成部分——多智能体系统,以及它与科学家的交互范式。
给定一个自然语言研究目标后,Co-Scientist 会生成新的研究假说。系统采用基于 Gemini 的专门智能体,包括 Generation、Reflection、Ranking、Evolution、Proximity(用于评估相关性)和 Meta-review(提供高层分析)智能体,在锦标赛框架中持续生成、辩论并进化研究假说。
来自锦标赛的反馈支持迭代改进,形成一个面向复杂科学问题、不断趋向新颖且高质量假说的自我改进循环。Co-Scientist 使用包括网页搜索和专门 AI 模型在内的工具,以提升生成假说的证据基础和质量。科学家可以通过指定用户界面,以自然语言与 Co-Scientist 对话,设定研究目标、纳入约束、提供反馈、引导方向,并建议新的探索路径。
b,底层多智能体架构:Supervisor 智能体解析用户的自然语言研究目标,并在异步任务队列中动态地将资源分配给专门的工作智能体。
“Co-Scientist specialized agents” 部分中的红色方框表示各个独立智能体,每个智能体都有其独特逻辑和角色。蓝色方框表示 scientist-in-the-loop 的输入和反馈。深灰色箭头表示 Co-Scientist 内的信息流,红色箭头表示专门智能体之间的信息反馈循环。
c,Co-Scientist在三个复杂程度不同的生物医学问题中的端到端验证:Co-Scientist 为急性髓系白血病提出新的药物再利用候选物(上),为肝纤维化识别新的表观遗传靶点(中),并独立重现了一个当时尚未发表、同期完成的、与抗菌耐药相关的新型细菌基因转移机制发现(下)。
所有由 Co-Scientist 生成的假说随后均通过独立的体外实验进行了验证。
图2:扩展 test-time compute 增强 Co-Scientist 的科学思维与假说质量
a,test-time compute 扩展对 Co-Scientist 假说质量的影响,质量由 Elo 自动评估衡量:研究者将 203 个多样科学研究目标中生成的假说划分为 10 个连续时间桶。
最高个体 Elo 评分(左)和前 10 个平均 Elo 评分(右)均呈持续上升趋势,提示该系统能够面向复杂问题,自我改进并趋向高质量科学假说。
b,与标准语言模型和人类专家的自动评估基准比较:在 15 个高度复杂、由专家策划的生物医学目标子集上,Co-Scientist 利用 test-time compute 扩展,最终超过人类领域专家以及最先进的大语言模型和推理模型,如 OpenAI o1、o3-mini-high、DeepSeek-R1,生成质量更高且更具新颖性的假说。
c,盲法人类专家评估:独立领域专家对 11 个经过策划的开放生物医学问题中的 AI 系统假说进行了严格评估。
左图:专家对假说新颖性和影响力的平均评分,采用 5 点 Likert 评分独立评估,并以分组柱状图展示。右图:总体专家偏好排序。Co-Scientist 在新颖性和影响力方面持续获得最高专家评分,并被专家选为更偏好的 AI 系统。
对于 a 和 b,数据以均值表示,阴影区域表示 95% 置信区间。对于 c 中两个子图,误差线表示 probable errors,数据以均值 ± probable errors 表示。精确样本量 n 分别为:a 中 203 个研究目标,b 中 15 个目标,c 中 11 个目标。
图3:Co-Scientist 生成的 AML 单药再利用候选物的体外生物学验证
Co-Scientist识别出具有前景的生物活性化合物,范围从已有临床前依据的候选物,到针对 AML 的全新治疗靶点。
a-c,MOLM-13 AML 细胞经 Binimetinib、Pacritinib 和 Cerivastatin 处理后的剂量反应曲线。Co-Scientist 提名了已有证据支持的候选药物,并显示出强效抗白血病活性。
d-h,Co-Scientist预测的全新候选物 KIRA6(一种 IRE1α 抑制剂)在不同 AML 细胞系(d-g)和正常淋巴母细胞样对照细胞系 TK6(h)中的剂量反应曲线。与非恶性 TK6 对照相比,KIRA6 对 KG-1a AML 细胞系表现出高度选择性细胞毒性。18 倍差异提示一个有前景的体外治疗窗口,并说明 Co-Scientist 具备搜索、推理和识别生物活性化合物的潜力。
X 轴表示药物浓度(µM),采用对数刻度;Y 轴表示生长抑制百分比。数据以 n=3 次生物学独立实验的均值 ± SD 表示。精确 IC50 值通过非线性回归曲线拟合确定。
图4:Co-Scientist 预测的 AML 协同多药组合验证
Co-Scientist成功在高维组合空间中提出有效的多药治疗方案,并在 MOLM-13 和 KG-1a AML 细胞系中进行了验证。
a、b,JNJ-64619178与 Selinexor 双药组合的定量协同分析。图中采用 Chou-Talalay 方法展示组合指数(Combination Index, CI)与受影响分数(fraction affected, Fa)之间的关系。水平红色虚线表示严格相加效应(CI=1.0)。低于该阈值的数据点表示协同区域(CI<1),高于该阈值的数据点表示拮抗区域(CI>1),证实 Co-Scientist 提出的这一双药组合具有强协同相互作用。
c、d,JQ1、Olaparib和 MSA2 三药组合的超额分数效应热图。研究者使用 Highest Single Agent(HSA)和Bliss independence 模型,在药物浓度矩阵(nM)上量化协同作用。颜色刻度表示相对于预测相加效应的偏离:红色区域表示正向超额效应,即协同;蓝色区域表示负向超额效应,即拮抗。
这些结果提示,Co-Scientist 能够在不依赖穷尽式经验筛选的情况下,识别高度活跃且复杂的组合治疗。完整相互作用谱见 Extended Data Figs. 5、6和 Extended Data Tables 1、2。所有协同分析实验均进行了 n=3 次生物学独立重复。
结论转述:读者该怎么看?
这篇文章最值得关注的,不是“AI 又会写论文了”,而是它把 AI 放进了科研链条中最难自动化的一环:提出可验证假说。
在 AML 药物再利用中,Co-Scientist 不只是给出文献综述,而是提出了 Binimetinib、Pacritinib、Cerivastatin,以及更具新颖性的 KIRA6 等候选策略;其中 KIRA6 对 KG-1a 细胞表现出更强敏感性,提示可能存在选择性治疗窗口。
在联合用药中,系统还能在组合爆炸的空间里提出候选方案,这一点对药物筛选非常关键。
从读者角度看,Co-Scientist 像一个“永不疲倦的科研讨论组”:它可以查资料、提想法、互相质疑、再把更好的想法推到前面。但论文也强调,它仍需科学家设定问题、判断价值,并通过实验把假说变成证据。
全文总结
Co-Scientist是一个基于 Gemini 的多智能体科学发现系统。它通过生成、反思、排序、邻近性分析、进化和元评审等模块,把科学假说从“一次性回答”变成“持续迭代的科研过程”。
作者用自动评估、专家评估和真实湿实验三条线验证了它:
一是随着 test-time compute 增加,假说 Elo 评分持续提高;二是在专家策划的生物医学难题中,Co-Scientist 的新颖性和影响力评分优于多个基线模型;三是在 AML 药物再利用、肝纤维化靶点发现和抗菌耐药机制解释中,系统输出进入了实验验证或独立发现对照。
机制解析
关键通路 / 相互作用:这里的“机制”不是单一生物通路,而是一个科研推理闭环。Generation 智能体负责提出假说;Reflection 智能体像审稿人一样质疑正确性、新颖性和可测性;Ranking 智能体用 Elo 锦标赛比较不同假说;Evolution 智能体吸收反馈、合并优点、修正缺陷;Meta-review 智能体再总结系统级问题,反哺下一轮推理。
这就像把一个课题组拆成多个角色:有人开脑洞,有人挑刺,有人排优先级,有人润色方案,有人总结组会纪要。不同的是,Co-Scientist 可以把这个循环跑得更快、更密集。
对药物研发而言,最核心的变化是:AI 不再只做“已有知识检索”,而是尝试给出“可实验验证的新连接”,例如旧药新用、组合疗法、跨疾病靶点迁移等。
对中医药研究的启发
中医药研究长期面对三个难题:成分复杂、靶点复杂、证候与现代疾病指标难以直接对齐。
Co-Scientist这类系统可用于提出“方剂—成分—靶点—通路—表型”的可验证假说。比如,面对一个经典复方,它可以从古籍适应证、现代药理、网络药理、单细胞数据、代谢组学和疾病模型中寻找交叉证据,再提出优先验证的关键成分组合或作用通路。
更重要的是,它适合解决“组合爆炸”问题。中药复方并非单成分药物,成分之间可能存在协同、拮抗或剂量依赖关系。Co-Scientist 在 AML 多药组合中的思路,未来可迁移到中药配伍优化、活性组分筛选和经典名方二次开发中。
但边界也必须说清楚:AI 生成的是假说,不是结论;它可以缩小实验搜索空间,却不能替代药效、毒理、质量控制和临床研究。
应用前景
Co-Scientist有望成为药物再利用、组合疗法设计、复杂疾病机制解析和中医药多组分机制研究的“假说发动机”。
它最适合放在科研前端:帮助团队更快找到值得做的实验,而不是替代最终实验验证。
研究团队 & 资金
通讯作者:Juraj Gottweis(Google Cloud AI Research, Zurich, Switzerland);Wei-Hung Weng(Google DeepMind, Mountain View, California, USA);Pushmeet Kohli(Google DeepMind, Mountain View, California, USA);Annalisa Pawlosky(Google Research, Mountain View, California, USA);Alan Karthikesalingam(Google DeepMind, Mountain View, California, USA);Vivek Natarajan(Google DeepMind, Mountain View, California, USA)。(Nature)
合作单位:Google Cloud AI Research、Google DeepMind、Google Research、Stanford University School of Medicine、Houston Methodist、Sequome、Fleming Initiative and Imperial College London。(Nature)
参考文献
Gottweis J, Weng WH, Daryin A, et al. Accelerating scientific discovery with Co-Scientist. Nature. Published online May 19, 2026. doi:10.1038/s41586-026-10644-y.(Nature)
Guan Y, et al. AI-Assisted Drug Re-Purposing for Human Liver Fibrosis. Adv Sci (Weinh). 2025:e08751.
Penadés JR, et al. AI mirrors experimental science to uncover a novel mechanism of gene transfer crucial to bacterial evolution. Cell. 2025;188(23):6654-6665.
He L, et al. Chimeric infective particles expand species boundaries in phage-inducible chromosomal island mobilization. Cell. 2025;188(23):6636-6653.
免责声明
本文仅供学术交流,非医疗建议。转载请联系作者并注明出处。