从大模型的出现到现在,不管是日常简单信息检索还是专业信息的收集和研究,搜索引擎用得已经越来越少了。因此自己觉得非常有必要系统地对比和评价下国产大模型在执行自己专业领域的不同难度的任务时的具体表现。
本次测评中,选取的模型包括:
1. 腾讯元宝 - deepseek(联网、深度思考)
2. 阿里千问(Qwen3.5 Plus深度研究,每日4次免费报告生成)
3. 豆包(深入研究,生成报告暂时没遇到限制)
4. Kimi(K2.5思考,K2.5 Agent每日有3次免费报告生成机会,但实际上因为网络堵车不订阅无法使用)
以上四个是目前不订阅即可使用的最新模型,其中只有Kimi在测评任务过程中弹出过流量限制降级为K2.5快速并询问是否升级订阅。通过元宝接入的deepseek比直接使用deepseek在回答上会更加详尽(token限制更少),并且不会出现网络拥堵。千问和豆包都有生成完整报告的功能,生成速度上豆包快于千问,元宝的deepseek没有这个功能。而Kimi虽然有,但因为网络拥堵,免费的3次生成机会不升级套餐没法使用。
测评共三个任务,分别涉及行业热点事件解读、临床数据解读和竞争格局分析,三个任务都和GLP-1相关,分别侧重于信息收集的准确性和完整性、基于信息的发散能力以及信息挖掘和整合能力。prompt如下:
任务一(热点事件解读):你现在是生物医药投资领域的专业研究员,我想对行业热点事件进行深入解读, 1月30日石药集团公布和阿斯利康的重磅BD后股价放量大跌,帮我解读背后的原因。
任务二(临床数据解读):诺和诺德近期公布了CagriSema和礼来Zepbound的头对头临床数据,帮我整理公布的结果并进行前瞻性解读,尽可能引用官方发布的数据或文献,尽可能使用英文数据源。
任务三(竞争格局分析):在诺和诺德公布数据的基础上,帮我整理当前减重领域在研疗法的竞争格局,结果通过表格展示,最左边两列为Wegovy和Zepbound的三期临床的给药形式、有效性、安全性、减重适应症获批时间、获批具体适应症,右边五列为你认为当前有效性最好的5款候选药物的相应数据,未获批的产品用预期获批时间、适应症代替,在最后一行标注信息来源,尽可能引用官方发布的数据或文献,尽可能使用英文数据源。
测评中,上述三个任务在同一个对话窗口让模型依次完成。
任务一是最简单的,因为事件发生在一个月前的1月30日,并且引发了行业内广泛的讨论。简单搜索可以获得大量不同来源的事件解读。模型只需要对内容进行归纳总结后输出即可。
四个模型对BD交易内容的总结以及大跌原因的归纳(资本市场提前计价、交易结构上的不确定性、GLP-1竞争格局激烈、企业基本面问题、行业逻辑的变化)在信息准确性和要点覆盖上都很全面。
元宝对回答中的每一个观点都给出了引用,其中包含微信公众号的内容。让我惊喜的是回答中两次引用了我石药重磅BD收获12亿美元首付款,股价为什么大跌?中的观点,而意外的是引用来源是我在雪球上转载的内容而非公众号的原文,这点元宝和自己腾讯系的生态还可以磨合地更好一些。
Kimi的表现和元宝差不多,但增加了BD对新诺威的影响,并进行了一定的拓展分析。
千问生成的报告可以直接导出为word,全文共4100字,106条引用,在内容深度和引用广度上是远超不具备深度研究能力的元宝和Kimi的。千问对外资机构持股、研报态度信息做了整理,这也是元宝结果中不具备的:
千问的美中不足在于,对于部分信息有一定的‘AI幻觉’。这是现阶段生成式AI在具备较强推理能力但又缺乏行业通识的情况下很容易出现的问题。比如下面这段对于交易结构问题的描述,终止条款和销售分成机制披露在石药的BD中属于行业常规的条款表述,不应该作为风险点单独放在这里。第5点没有引用,应该是模型自己推理的:
最后是豆包,豆包生成了13000字的完整报告,共130条引用。相比千问,豆包虽然在细节上也有细微瑕疵(阶段最低股价9.12港元)以及在归纳也存在一定‘幻觉’但它生成的报告排版更加清晰,基本上直接可用。内容上,豆包对股价异动表现、市场分歧、石药的战略转型、GLP-1赛道竞争态势、同类BD(恒瑞和GSK等)、机构行为、技术指标变化等内容都做了深入分析,甚至对事件前后的市场反应也做了细致的复盘:
豆包让人眼前一亮的还有在生成报告的同时,会附带生成一个html网页文件,一张图将报告内容进行了可视化(千问也可以通过切换深度研报模式将文本报告更好地可视化,但是元素没有豆包丰富),报告最后还给出了精简后的对不同类型投资者的投资建议:
在信息收集并梳理成逻辑清晰的报告这个任务上,除了一些难以避免的过度总结(即便是human研究员也很难),豆包的表现几乎是无可挑剔的。豆包的报告是带着明确观点和态度的汇报口吻,而非早期生成式AI的观点罗列模式,这点已经让我很难看出这份报告是不是AI生成的了。对打工人来说,好消息是文中的观点更多是‘总结’出来的,而非‘推理’出来的。市场的情绪和行为本质也还是人的情绪和行为(不知道还能维持多久)。所以行业通识+观点输出能力是保住工作的救命稻草,但是entry level的data工作可能真的要逐渐消失了。
任务二主要测评不同大模型对临床结果的前瞻性看法,难点在于发散能力。在这个任务上,四个模型在临床数据总结的全面性和准确性上都没有大的问题。元宝额外整理了CagriSema过往在REDEFINE1/2的结果以及在心血管适应症上的收益,这为其后续在前瞻性分析中指出CagriSema潜在可能可以在代谢综合管理中实现差异化定位奠定了基础。而Kimi只中规中矩整理了REDIFINE4的结果,因此在后续分析中miss了这个点。但是相比元宝,Kimi在市场变化、分析师观点以及临床选择上给出了更多信息,综合下来我觉得各分千秋。
千问是四个模型中唯一将前瞻性解读做成了销售额预测的,整体感觉千问的报告更像是在元宝、Kimi这类快速回答的基础上,对每个细分点补充了更详实的表述。在发散性上,千问的深度报告相比元宝和Kimi快速回答的结果并没有显著的提升,在其他代谢适应症的分析覆盖上甚至不如元宝。千问花了很大篇幅阐述口服和三靶点的在未来市场的主导地位,但是似乎完全miss了对便利性和疗效平衡、安全性以及市场定位的讨论,这可能是源于对某几篇高权重引用的过度依赖。
豆包在内容深度上依然是四个模型中最出色的,除了对剂量和人群的细化分析,它还加入了和其它GLP-1类药物的横向对比,但在对比药物的选取上我觉得还可以做得更好(报告选取了利拉鲁肽、贝那鲁肽和玛仕度肽,除信达管线均不是潜在的有利竞争者)。在其他代谢适应症的谈论中,豆包没有挖掘到REDIFINE1的post hoc analysis也没有将司美格鲁肽的心血管获益和CagriSema进行关联,因此在心血管获益对比中没能给出明确的结论。豆包做得非常好的是对应用场景的划分,毕竟‘推荐算法’是字节的强项:
从这个任务中我们可以看出,数据源的数量和质量直接影响了大模型生成的深度报告输出质量。显然,2月23日诺和诺德公布的这个临床更新并没有像任务一中石药的事件一样在医药投资圈引发广泛讨论,而英文互联网上公开可得的分析远不如国内丰富,所以在深度报告中千问和豆包的报告质量相比任务一都有不小的下滑。
任务三除了需要严格按照提示词生成对比表格,更具挑战的是在数据搜集的基础上给出竞争格局中排名前五的管线。在这个任务中,元宝是唯一完全按照提示词要求编制表格的。Kimi在表格中添加了对比作用机理、样本量、基线BMI和心血管结局实验结果的内容,虽然不是我要求的,但对于这个任务本身倒是可接受的发散。豆包在深度报告模式下只生成了文本报告,没有生成表格,并且在报告中出现了基本事实错误,将礼来的口服管线Orforglipron送给了辉瑞(辉瑞的是Danuglipron,长得很像,但已经终止开发):
切换为快速生成的专家模式后,豆包正确地生成了表格,并只额外补充了作用机制这一行。千问在这个任务中生成的表格完全没有按照提示词来,表格只对比了两款候选药物,表格中出现了重复内容,并且将药品名称放在了第一列,而非提示词要求的第一行。切换为深度思考模式后,千问给了我全英文的结果,即便如此,表格中替尔泊肽出现了两次,Retatrutide有归纳错误,候选药物中还包含了已经终止开发的TTP273:
在对比的候选药物选择上,元宝给出的是Retatrutide(礼来三靶点)、Orforglipron(礼来口服)、AMG133(Amgen双靶点)、Survodutide(BI/Zealand双靶点)和CagriSema(诺和诺德联用)。对于疗效排名前五的选取,由于管线药物无法直接跨研究对比,这里是可以有一定主观性的,不同研究人员也会有自己不同的选择,但是提示词给的是减重有效性最好的前五,那么在不加限定词的情况下,口服GLP-1就不应该包含在内,这点四个模型全部miss。此外,AMG133按临床表现也不应该进入这个列表。Retatrutide和CagriSema是最无争议应该被包含的,这点除了千问都做到了。Survodutide是可选之一,Kimi选择了上述三个,其余两个分别是是礼来的Orforglipron和信达的玛仕度肽,比元宝的选择稍微好一点点。千问在文本中给出的前五是罗氏的CT-388、恒瑞HRS9531、玛仕度肽以及诺和礼来的口服,除了口服两款其余都能接受。最后,豆包在专家模式下给出了Retatrutide、CagriSema、Orforglipron、VK2735以及Petrelintide,同样除了口服其余都能接受。
在最后这个任务中,如果先给出大致的范围(比如药企名称)然后通过提示词优化输出结果,几个模型应该都能很快给出预期中的表格。比较有意思的是豆包在整个测评过程中像极了打工人,在第一个小任务中强势输出1.3万字深度报告,然后就好像累了倦了一般在后面两个任务中逐渐开始摸鱼。
作为任务测评的结尾,这里放上豆包在任务三中总结出来的GLP-1减重疗效的对比表格:
总结
对于简单的事件回顾,四个国产模型都能快速让我们了解全貌并基于公开报道总结事件背后的原因和影响、公众号是腾讯专有的内容库,如果能够解决内部山头问题,真正打通资源,这会是元宝独特的竞争优势。其实在豆包给出的引用中也出现了抖音的内容,但是可以想见因为视频内容挖掘的难度以及抖音在专业领域内容质量的差距,豆包很难做到和元宝一样的输出效率。
在任务一中,内容准确性方面四个模型都没有犯明显错误,而对于内容的溯源,做得最好的是元宝,豆包只在深入研究模式下可溯源,Kimi的引用来源相对较少,千问则有一些引用无法显示或访问。
对于需要发散能力和信息整合能力的任务二和任务三,四个模型在对企业过往公布的数据和竞争对手的信息挖掘上各有侧重,最后给出的分析结果没有表现特别突出的,也没有明显拉胯的。千问和豆包都在这里出现了张冠李戴的问题。千问在任务三中还偏离了提示词的要求。
在生成完整报告能力上,元宝不具备,Kimi无法免费使用,豆包在内容饱满度和报告可用性上完胜。如果是信息来源丰富并且不涉及大量专业判断的报告工作,豆包的输出基本上可以直接使用,并且很难看出AI痕迹。豆包独特的报告可视化功能是向领导‘简单汇报’的出色工具。
基于上面几个维度,最终的测评结果可以汇总成下面的表格:
我自己是元宝的深度使用者,因为日常需要写代码挖掘数据和可视化,元宝接入deepseek的代码生成能力是国产四个模型中可靠性最高的,python数据库+可视化2-300行的小任务基本上只需要微调就能直接跑出来。
通过本次测评,以后简单的了解个大概的任务我会继续使用元宝,需要整合观点的我会使用元宝+豆包,而写报告我会在豆包的基础上通过元宝进行查漏补缺。
最后的最后,觉得内容不错的朋友麻烦帮忙点个关注和在看,给点小小的支持呀