葫芦岛市网站建设_网站建设公司_jQuery_seo优化-周口市网站建设公司

如果说 2024 年是 RAG 的元年，那么 2025 年无疑是Deep Research的“战国时代”。

前有 OpenAI 的 Deep Research 惊艳亮相，后有 Google Gemini 的强势跟进。大家都在卷一个能力：如何让 AI 不仅仅是回答问题，而是像一个真正的分析师一样，花上半小时，翻阅几百个网页，给你写一份几十页的深度研报。

但在大家的固有印象里，要做到这一点，通常意味着两件事：

模型要大：没个 70B 甚至几百 B 的参数，逻辑根本跑不通。
架构要繁：必须得搞复杂的 Multi-agent（多智能体）编排，一个管搜、一个管写、一个管审，热火朝天。

但是，今天这篇论文可能要打破你的迷思了。

主角是来自阶跃星辰（StepFun）的Step-DeepResearch。这篇技术报告最反直觉的地方在于：它只用了一个32B 的中等模型，配合最朴素的单体（Single-agent）架构，就在专业的 ResearchRubrics 评测上拿下了61.42的高分，不仅甩开了众多开源模型，甚至在这个榜单上逼近了 OpenAI 和 Gemini 的闭源旗舰。

我们先别急着看技术原理，直接看结果。如果说有什么图能让你一眼明白这个模型的价值，非下面这张莫属：

更离谱的是它的成本——单次报告生成只要不到 0.5 元（RMB），是 OpenAI 同类服务的十分之一。

他们是怎么做到的？是黑魔法还是硬实力？今天我们就来拆解这篇 Technical Report 背后的门道。

01 核心洞察：搜索（Search）≠ 研究（Research）

很多开发者做 Agent 时容易陷入一个误区：以为给模型配一个联网搜索工具（Search Tool），它就能做研究了。

论文一针见血地指出：Search is not Research（搜索不是研究）。

搜索是填空题：你问“2025 年全球 AI 市场规模是多少”，它去把这个数字找出来。
研究是申论题：你需要规划方向、拆解意图、反复验证不同来源的数据、自我反思“我找得对不对”，最后把碎片化的信息整合成一篇有逻辑的报告。

目前的很多模型，更像是一个高效的爬虫（Web Crawler），只会把网上的碎片信息堆砌给你，不仅逻辑断裂，还容易一本正经地胡说八道。

StepFun 团队认为，要解决这个问题，不能光靠堆工具，而是要让模型内化出一套“专家的认知循环”。

02 技术解密：32B 模型是如何炼成的？

既然不能靠堆参数，那就得靠“练法”。Step-DeepResearch 的核心配方非常值得玩味，主要包含三个关键词：单体架构、原子能力、Mid-training。

1. 返璞归真的架构 (Single-agent ReAct)

在大家都在疯狂叠各种 Agent 搞“群聊”的时候，Step-DeepResearch 选择了一条看似复古的路：单体 ReAct 架构。

没有任何花哨的“分身术”，就是一个脑子在干活。它依然遵循经典的“思考-行动-观察”循环。为什么要这么做？论文认为，通过端到端的训练，让一个模型自己把规划、执行、反思全包圆了，反而比强制拆分成多个模型协作要更高效，信息损耗也更小。

当然，敢用单体架构，前提是你对这个“单体”的能力极度自信。

2. 四大“原子能力” (Atomic Capabilities)

为了让这个 32B 的小脑瓜变聪明，团队没有直接教它“怎么写报告”，而是把研究任务拆解成了四个原子能力（Atomic Capabilities）进行特训：

Planning（规划）：拿到模糊的需求，先拆解成可执行的子任务。这是为了防止模型像无头苍蝇一样乱搜。
Information Seeking（深度搜素）：不是简单的关键词匹配，而是要学会“顺藤摸瓜”，根据网页的超链接去挖掘深层信息。
Reflection & Verification（反思与验证）：这是最关键的。模型要学会自己问自己：“我搜到的这个数据靠谱吗？和其他来源矛盾吗？”如果错了，要自己修正。
Reporting（写作）：不是简单的拼接，而是要有领域风格（Domain Style），像分析师一样去论证观点。

3. 秘密武器：Mid-training（中间阶段训练）

这是整篇论文最硬核的部分。

通常我们训练大模型是：Pre-training（预训练） -> SFT（精调）。但 StepFun 在这两者中间插了一个Agentic Mid-training。

这就像是一个学生在读完通识教育（Pre-training）后，不要急着去学写具体的八股文（SFT），而是先上一门“逻辑与研究方法论”的必修课。

在这个阶段，他们构造了大量的数据，把 Context 长度从 32K 一路拉练到 128K 。

32K 阶段：不给工具，纯靠阅读长文档，逼模型学会从海量文字里提炼逻辑。
128K 阶段：上强度，引入工具调用、网页浏览、复杂规划，让模型适应超长上下文的决策。

正是这个Mid-training，把模型从“预测下一个字”的语言模型，强行扭转成了“预测下一个行动”的决策模型。

03 效果验证：不但强，而且省

光说不练假把式。效果到底怎么样？

这里的图最能说明问题

在ResearchRubrics评分上：

Gemini DeepResearch: 63.69
Step-DeepResearch: 61.42
OpenAI DeepResearch: 60.67
Kimi-Researcher: 53.67

是的，你没看错，它在这个榜单上甚至微弱领先了 OpenAI 。

自建的“魔鬼考场”：ADR-Bench

作者还顺手吐槽了一下现在的评测集（比如 BrowseComp）太简单了，全是找事实的填空题。

于是他们搞了个ADR-Bench，专门收录真实世界的刁钻问题，还分了通用版和金融/法律专业版。

在最难啃的金融/法律领域，虽然 Gemini 依然是老大（Tier 1），但 Step-DeepResearch 稳稳站住了 Tier 2 的头部位置，和 OpenAI、Kimi 处于同一梯队，把其他模型甩在了后面。这也说明了，在极度专业的领域，Agent 的流程优化固然重要，但模型本身的领域知识储备依然是硬门槛。

04 The Takeaway

Step-DeepResearch 给当下的 AI 行业打了一剂强心针。它证明了Deep Research 不一定是千亿模型或超级大厂的专利。

这篇论文最大的启示在于：

数据质量 > 模型参数：通过精心构造的“原子能力”合成数据，中等模型也能涌现出专家级的思考回路。
训练范式的胜利：Mid-training 可能会成为未来 Agent 模型的标配，它填补了“懂知识”和“会干活”之间的巨大鸿沟。
单体架构的潜力：别急着搞多智能体，先把单体的脑子练好，有时候“少即是多”。

对于我们普通开发者或企业来说，这意味着部署一个专家级 AI 研究员的成本，正在从“奢侈品”变成“日用品”。

Next Step:你对这种“小模型+强训练”的路线怎么看？欢迎在评论区分享你的看法。

葫芦岛市网站建设_网站建设公司_jQuery_seo优化

01 核心洞察：搜索（Search）≠ 研究（Research）

02 技术解密：32B 模型是如何炼成的？

1. 返璞归真的架构 (Single-agent ReAct)

2. 四大“原子能力” (Atomic Capabilities)

3. 秘密武器：Mid-training（中间阶段训练）

03 效果验证：不但强，而且省

这里的图最能说明问题

自建的“魔鬼考场”：ADR-Bench

04 The Takeaway

热门文章

文章分类

标签云

需要专业的网站建设服务？

葫芦岛市网站建设_网站建设公司_jQuery_seo优化

01 核心洞察：搜索（Search）≠ 研究（Research）

02 技术解密：32B 模型是如何炼成的？

1. 返璞归真的架构 (Single-agent ReAct)

2. 四大“原子能力” (Atomic Capabilities)

3. 秘密武器：Mid-training（中间阶段训练）

03 效果验证：不但强，而且省

这里的图最能说明问题

自建的“魔鬼考场”：ADR-Bench

04 The Takeaway

热门文章

文章分类

标签云

相关文章

Mac用户必看：如何在M1/M2芯片上流畅运行Open-AutoGLM？这7个关键步骤缺一不可

yolo数据集生成

PaddlePaddle生态全景图：你不知道的强大工具链

需要专业的网站建设服务？