如果说 2024 年是 RAG 的元年,那么 2025 年无疑是Deep Research的“战国时代”。
前有 OpenAI 的 Deep Research 惊艳亮相,后有 Google Gemini 的强势跟进。大家都在卷一个能力:如何让 AI 不仅仅是回答问题,而是像一个真正的分析师一样,花上半小时,翻阅几百个网页,给你写一份几十页的深度研报。
但在大家的固有印象里,要做到这一点,通常意味着两件事:
模型要大:没个 70B 甚至几百 B 的参数,逻辑根本跑不通。
架构要繁:必须得搞复杂的 Multi-agent(多智能体)编排,一个管搜、一个管写、一个管审,热火朝天。
但是,今天这篇论文可能要打破你的迷思了。
主角是来自阶跃星辰(StepFun)的Step-DeepResearch。这篇技术报告最反直觉的地方在于:它只用了一个32B 的中等模型,配合最朴素的单体(Single-agent)架构,就在专业的 ResearchRubrics 评测上拿下了61.42的高分,不仅甩开了众多开源模型,甚至在这个榜单上逼近了 OpenAI 和 Gemini 的闭源旗舰 。
我们先别急着看技术原理,直接看结果。如果说有什么图能让你一眼明白这个模型的价值,非下面这张莫属:
更离谱的是它的成本——单次报告生成只要不到 0.5 元(RMB),是 OpenAI 同类服务的十分之一 。
他们是怎么做到的?是黑魔法还是硬实力?今天我们就来拆解这篇 Technical Report 背后的门道。
01 核心洞察:搜索(Search)≠ 研究(Research)
很多开发者做 Agent 时容易陷入一个误区:以为给模型配一个联网搜索工具(Search Tool),它就能做研究了。
论文一针见血地指出:Search is not Research(搜索不是研究)。
搜索是填空题:你问“2025 年全球 AI 市场规模是多少”,它去把这个数字找出来。
研究是申论题:你需要规划方向、拆解意图、反复验证不同来源的数据、自我反思“我找得对不对”,最后把碎片化的信息整合成一篇有逻辑的报告 。
目前的很多模型,更像是一个高效的爬虫(Web Crawler),只会把网上的碎片信息堆砌给你,不仅逻辑断裂,还容易一本正经地胡说八道 。
StepFun 团队认为,要解决这个问题,不能光靠堆工具,而是要让模型内化出一套“专家的认知循环”。
02 技术解密:32B 模型是如何炼成的?
既然不能靠堆参数,那就得靠“练法”。Step-DeepResearch 的核心配方非常值得玩味,主要包含三个关键词:单体架构、原子能力、Mid-training。
1. 返璞归真的架构 (Single-agent ReAct)
在大家都在疯狂叠各种 Agent 搞“群聊”的时候,Step-DeepResearch 选择了一条看似复古的路:单体 ReAct 架构。
没有任何花哨的“分身术”,就是一个脑子在干活。它依然遵循经典的“思考-行动-观察”循环 。为什么要这么做?论文认为,通过端到端的训练,让一个模型自己把规划、执行、反思全包圆了,反而比强制拆分成多个模型协作要更高效,信息损耗也更小 。
当然,敢用单体架构,前提是你对这个“单体”的能力极度自信。
2. 四大“原子能力” (Atomic Capabilities)
为了让这个 32B 的小脑瓜变聪明,团队没有直接教它“怎么写报告”,而是把研究任务拆解成了四个原子能力(Atomic Capabilities)进行特训 :
Planning(规划):拿到模糊的需求,先拆解成可执行的子任务。这是为了防止模型像无头苍蝇一样乱搜 。
Information Seeking(深度搜素):不是简单的关键词匹配,而是要学会“顺藤摸瓜”,根据网页的超链接去挖掘深层信息 。
Reflection & Verification(反思与验证):这是最关键的。模型要学会自己问自己:“我搜到的这个数据靠谱吗?和其他来源矛盾吗?”如果错了,要自己修正 。
Reporting(写作):不是简单的拼接,而是要有领域风格(Domain Style),像分析师一样去论证观点 。
3. 秘密武器:Mid-training(中间阶段训练)
这是整篇论文最硬核的部分。
通常我们训练大模型是:Pre-training(预训练) -> SFT(精调)。但 StepFun 在这两者中间插了一个Agentic Mid-training。
这就像是一个学生在读完通识教育(Pre-training)后,不要急着去学写具体的八股文(SFT),而是先上一门“逻辑与研究方法论”的必修课。
在这个阶段,他们构造了大量的数据,把 Context 长度从 32K 一路拉练到 128K 。
32K 阶段:不给工具,纯靠阅读长文档,逼模型学会从海量文字里提炼逻辑 。
128K 阶段:上强度,引入工具调用、网页浏览、复杂规划,让模型适应超长上下文的决策 。
正是这个Mid-training,把模型从“预测下一个字”的语言模型,强行扭转成了“预测下一个行动”的决策模型 。
03 效果验证:不但强,而且省
光说不练假把式。效果到底怎么样?
这里的图最能说明问题
在ResearchRubrics评分上:
Gemini DeepResearch: 63.69
Step-DeepResearch: 61.42
OpenAI DeepResearch: 60.67
Kimi-Researcher: 53.67
是的,你没看错,它在这个榜单上甚至微弱领先了 OpenAI 。
自建的“魔鬼考场”:ADR-Bench
作者还顺手吐槽了一下现在的评测集(比如 BrowseComp)太简单了,全是找事实的填空题 。
于是他们搞了个ADR-Bench,专门收录真实世界的刁钻问题,还分了通用版和金融/法律专业版。
在最难啃的金融/法律领域,虽然 Gemini 依然是老大(Tier 1),但 Step-DeepResearch 稳稳站住了 Tier 2 的头部位置,和 OpenAI、Kimi 处于同一梯队,把其他模型甩在了后面 。这也说明了,在极度专业的领域,Agent 的流程优化固然重要,但模型本身的领域知识储备依然是硬门槛。
04 The Takeaway
Step-DeepResearch 给当下的 AI 行业打了一剂强心针。它证明了Deep Research 不一定是千亿模型或超级大厂的专利。
这篇论文最大的启示在于:
数据质量 > 模型参数:通过精心构造的“原子能力”合成数据,中等模型也能涌现出专家级的思考回路。
训练范式的胜利:Mid-training 可能会成为未来 Agent 模型的标配,它填补了“懂知识”和“会干活”之间的巨大鸿沟。
单体架构的潜力:别急着搞多智能体,先把单体的脑子练好,有时候“少即是多”。
对于我们普通开发者或企业来说,这意味着部署一个专家级 AI 研究员的成本,正在从“奢侈品”变成“日用品”。
Next Step:你对这种“小模型+强训练”的路线怎么看?欢迎在评论区分享你的看法。