米拉-魁北克AI研究所教会小模型“聪明干活“

张开发
2026/4/18 8:06:18 15 分钟阅读

分享文章

米拉-魁北克AI研究所教会小模型“聪明干活“
这项由蒙特利尔学习算法研究所Mila – Quebec AI Institute与麦吉尔大学联合开展的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.07776。有兴趣深入了解的读者可通过该编号在arXiv上查阅完整原文。**研究概要一个以少胜多的故事**每天有数以亿计的人需要在网页上完成各种任务填写表格、查询数据库、管理在线文件、浏览电商平台……这些事情看似简单却需要人花费大量时间。于是让AI替人在浏览器里干活的想法应运而生。这类能自主操作网页的AI被研究者称为网页智能体Web Agent。问题在于真正能胜任复杂网页任务的AI目前几乎都是需要通过付费API才能使用的顶级大模型——比如GPT-4o、Claude 3.5 Sonnet等。这些模型不仅价格昂贵还需要把用户数据发送到第三方服务器无法在本地部署。对于希望保护数据隐私、降低运营成本的企业或个人来说这是一道绕不过的槛。相比之下参数量较小的开源模型比如90亿参数的小模型虽然可以在自己的服务器甚至消费级显卡上运行但在网页任务上的表现比大模型差了整整22个百分点以上。这个差距就好像让一位刚入职的新员工独立处理原本需要资深专家才能应对的复杂业务。蒙特利尔的研究团队提出了一个简洁而有效的解法既然大模型那么厉害何不让它来手把手带徒弟把自己的经验压缩传授给小模型这种方法在AI领域被称为知识蒸馏Knowledge Distillation。但关键不在于让大模型多教而在于怎么教才最有效。研究团队设计了一套名为**AGENT-AS-ANNOTATORS**智能体即标注员的框架模仿人类为AI评测基准创建训练数据时的分工方式系统化地生成高质量的训练轨迹。最终结果令人刮目相看一个只有90亿参数的小模型在主流网页任务评测基准WebArena上达到了41.5%的成功率不仅超越了付费大模型GPT-4o31.5%和Claude 3.5 Sonnet36.0%还几乎是此前同类最佳开源小模型成绩21.7%的两倍。---**一、为什么让大模型当老师不是新鲜事难点在哪里**在AI领域用能力更强的大模型来训练小模型的想法由来已久。但正如现实中好老师不一定能带出好学生这条路上有几个关键难题。首先训练数据的质量比数量更重要。以往很多研究倾向于收集海量数据——比如有研究从15万个网站上爬取了大规模轨迹数据。但数据多不代表数据好。就像用大量粗制滥造的练习题来备考不如用少量精挑细选的真题来得有效。其次已有的几种方法虽然各有长处但设计逻辑差异很大很难直接比较谁更好。有的方法是先让AI自由探索网页再事后给行为贴标签这叫追溯式任务生成有的方法是先设计好任务再让AI去执行这叫预设式任务生成。这些设计背后的逻辑是否真的重要各个环节分别贡献了多少没有人系统性地回答过这些问题。正是在这样的背景下研究团队希望做两件事第一建立一套统一的描述框架把现有方法都纳入同一个坐标系进行比较第二在这个框架下实现一套完整的最优方案看看极限在哪里。---**二、人类是怎么创建网页AI的评测数据集的为什么这很重要**要理解这套框架的设计逻辑需要先了解人类研究者是怎么为网页智能体创建评测数据的。以目前最权威的评测基准WebArena为例人类标注员在创建它时扮演了三种截然不同的角色。第一种是**任务设计师**这个人负责探索网页环境站在某种用户视角上设计出有意义的任务并写明什么叫做完成了这个任务的评判标准。第二种是**执行者标注员**他接到任务描述不知道任何背景细节直接上手在网页上操作一步一步留下完整的操作记录。第三种是**督导员**他回顾执行者的操作记录核实任务是否真的完成了。这三个角色分工明确、相互制衡任务设计师保证任务有意义且有可验证的标准执行者保证操作轨迹真实可信督导员保证训练数据的质量。研究团队发现现有的AI方法其实都在模仿这套流程只是各自选择了不同的实现方式缺了某些环节或者用不同的名字称呼同样的东西。于是他们提出把这三个角色都对应地替换成AI模块形成一个完整的、可系统比较的框架——这就是AGENT-AS-ANNOTATORS。---**三、AGENT-AS-ANNOTATORS框架一套完整的AI带徒弟流水线**在AGENT-AS-ANNOTATORS框架中整个训练数据生成过程分为两个阶段就像一个剧本的创作与排演。第一阶段是**任务合成**对应人类流程中任务设计师的工作。这个阶段有两个AI模块协同工作。第一个模块叫做**人格生成器Persona Generator**。它的作用是生成多样化的虚拟用户角色每个角色都有自己的职业背景、专业技能和个人兴趣。研究团队为六个网页环境共生成了250个不同角色包括像擅长Python和机器学习的数据科学家爱丽丝、专注平面设计和排版的资深设计师利亚姆、从事生物信息学研究的医学研究员法蒂玛等各色人物。为什么需要这个步骤因为同一个网站不同背景的人使用的方式完全不同。数据科学家在GitLab代码平台上会去创建机器学习项目的仓库平面设计师则会去上传设计素材文件。如果没有角色多样性生成的任务就会集中在少数几类常见操作上训练出来的模型就会有盲区。第二个模块叫做**任务生成器Task Generator**。它拿到一个角色描述然后扮演这个角色去实际操作网页——点击、翻页、查看内容——并把整个探索过程记录下来。基于这些真实的探索记录它再生成具体的任务描述以及对应的评判提示Hints。这个评判提示非常关键它描述的是当任务完成时网页上应该出现什么状态比如用户的评论应该出现在该帖子的评论区或者代码仓库中应该存在一个名为X的新文件。这个设计有一个重要好处生成的任务是**基于真实环境状态的**。AI不会凭空发明不存在的用户名或产品因为它是真实浏览过网页、看到了什么才说什么。第二阶段是**轨迹收集与过滤**对应执行者和督导员两个角色。**执行智能体Agent**接到的只有任务描述没有任何探索记录、评判提示或角色信息。它在一个全新重置的网页环境里从头操作一步一步把自己的行为记录下来。这种信息隔离设计非常重要它确保生成的操作轨迹反映的是AI真正解决任务的过程而不是作弊——不是靠记住探索时看到的路径走捷径。当执行智能体完成操作后**裁判模块Judge**登场。它同时拿到操作记录和评判提示回答四个标准化问题这个AI有没有陷入无效循环、有没有产生多余的副作用、完成任务的过程是否足够合理、最终有没有成功完成任务。只有被裁判判定为成功的轨迹才会被保留下来用于训练小模型。整套流程就像一个高度标准化的招聘流程先由HR人格生成器确保候选任务多样化再由业务专家任务生成器设计岗位要求和考核标准然后由候选人执行智能体在真实场景下答题最后由考官裁判严格打分只录取真正优秀的答卷用来培训新员工小模型。---**四、其他现有方法对比谁缺了哪块拼图**研究团队整理了学界现有的几种主流方法发现它们都可以被纳入这个框架来描述但各自都缺少某些关键环节。InSTA方法通过规模取胜从15万个真实网站上收集任务但没有用角色来增加任务多样性也没有在评判时提供评判提示只用了一个不带提示的LLM裁判。NNetNav方法采用的是追溯式设计先让AI自由探索网页再事后给探索轨迹贴上任务标签——这意味着任务评判提示根本无法在任务生成阶段产生。AgentTrek通过复用网络上的操作教程来生成任务但没有角色多样性设计也没有预设式的任务生成阶段。Explorer方法把任务生成和执行融合在一个循环里迭代优化规模达到了9.4万条轨迹但同样没有预设式任务生成因此也无法产生评判提示。Go-Browse方法用图搜索的方式遍历网址来发现任务同样没有角色设计和评判提示。AGENT-AS-ANNOTATORS是唯一一个同时具备所有六个模块的方法角色生成器、环境探索、预设式任务生成、评判提示、执行智能体、裁判。这套完整性正是它性能优势的来源。---**五、实验设置用什么大老师教教出什么小学生**研究团队选择了谷歌的**Gemini 3 Pro**作为大老师即教师模型用它来扮演框架中的任务生成器、执行智能体和裁判三个角色。一个模型身兼三职简化了整个流水线的复杂度。训练数据集被命名为**A3-SYNTH**覆盖WebArena的六个自托管网页环境一个类Reddit论坛、GitLab代码平台、电商网站及其管理后台、维基百科系统和OpenStreetMap地图服务。研究团队为250个角色各分配了全部六个环境进行探索共进行1500次探索每次探索产生两个任务描述总计生成3000个任务。经过裁判过滤后根据不同环境成功轨迹的比例在69%到85%之间最终保留了2322条成功轨迹包含16353个观察-行动训练样本对每条轨迹平均包含7步操作平均每步的模型回复长度为1920个字符其中包含平均1021个字符的推理过程。被训练的小学生是**Qwen3.5-9B**一个只有90亿参数的开源多模态模型同时支持文本和图片输入。训练方式是标准的监督微调SFT在4到8块GPU上训练了2个轮次大约1022步学习率为0.00001批量大小32最大序列长度8192个词元。整个评测在五个基准上进行WebArena训练环境的测试集381个任务、VisualWebArena需要理解网页截图的视觉任务449个任务、WorkArena L1ServiceNow企业软件平台330个任务、WorkArena更复杂的企业多步骤任务185个任务、MiniWoB简化版网页交互原子技能测试625个任务类型。除了WebArena其余四个基准对训练数据来说都是完全陌生的环境。---**六、核心成果数字背后的故事**训练完成后这个90亿参数的小模型在WebArena上达到了41.5%的成功率。要理解这个数字有多厉害可以这样类比假设100道网页操作题原来的小模型大概能答对31道付费大模型GPT-4o能答对31.5道Claude 3.5 Sonnet能答对36道此前最好的同类开源小模型能答对21.7道——而训练后的小模型能答对41.5道。这相当于把原来的能力提升了三分之一以上还顺便超越了两个需要付费API的商业大模型。更令人意外的是迁移能力。在完全没有见过的**ServiceNow企业平台**上WorkArena L1训练后的小模型从33.3%跳升到51.5%整整提升了18.2个百分点。ServiceNow和WebArena的六个网站在界面设计、导航逻辑、表单结构上完全不同没有任何表面上的相似之处。然而填写表单、筛选表格、导航找到正确页面这些底层操作技能是可以迁移的——就像一个学会了打字和文件管理的人不管是用Word还是用Pages上手都不会太慢。在视觉任务基准VisualWebArena上提升了5.4个百分点在复杂企业任务WorkArena上提升了7.5个百分点在原子网页技能测试MiniWoB上提升了5.8个百分点。五个基准全部提升没有任何退步。如果用更直观的方式来描述行为变化研究团队展示了一个购物后台任务的对比案例。任务是找到最近一条待处理订单的日期和订单号。训练前的小模型先点进销售订单页面然后打开筛选器在各种状态字段里翻来翻去折腾了10步之后给出了一个错误答案#301号订单4月19日。训练后的小模型直接在仪表板上看到了待处理的#299号订单点进去一看第2步就给出了正确答案#2995月31日。一个用10步还没答对另一个用2步直接搞定——效率差距悬殊而且前者还是错的。---**七、大老师的质量比数量重要一个反直觉的发现**研究团队比较了几种不同的教师模型配置得出了一个很有意思的结论教学数据的质量远比数据的数量重要。用Gemini 3 Pro降低思考预算配置作为教师3000个任务中有69%到85%能成功完成最终保留了16353个训练样本。而用能力相对较弱的Gemini 3 Flash作为教师成功率只有17%到53%而且失败的轨迹往往更长模型在放弃前会多走很多步反而产生了更多的训练样本——22707个。但训练出来的学生模型呢Flash版老师训练出的学生在WebArena上只有24.9%而Pro版老师训练出的学生达到了36.2%这里用的是早期实验用的Qwen3-VL-8B-Thinking模型。数据更多但学生更差——因为那些数据里充满了失败的、低质量的轨迹教给学生的是错误的经验。还有一个更反直觉的发现**降低教师模型的思考预算反而能提升训练数据质量和学生表现**。思考预算可以理解为模型在给出最终答案前用于内部推理的计算资源。按理说思考得越深入模型应该越厉害。但实验发现当Gemini 3 Pro被配置为较低思考预算产生更简洁的推理过程时它在六个网页环境上的任务完成率反而更高而高思考预算配置虽然生成了更长的内部推理却在最终行动上表现更差。为什么会这样研究团队提出了两种解释一方面过度思考可能导致模型纠结于边缘情况、执行出现失误另一方面更简洁的推理轨迹对学生模型来说是更干净的学习信号而过长的内部推理反而会把有用的信息淹没在冗余内容里。此外一个有趣的发现是更新的模型版本不一定是更好的老师。Gemini 3.1 Pro虽然是Gemini 3 Pro的后续版本但在四个网页环境上的任务完成率反而低于旧版比如地图环境上只有45.4%对78.0%。这说明对特定任务分布的适配能力比模型的版本新旧更重要。---**八、拆解每个零件哪些模块真正起了作用**为了确认框架中的每个设计决策都真正有用研究团队做了一系列拆零件实验每次去掉或改变一个模块看成绩会变多少。首先看**裁判过滤**的贡献。如果把裁判模块去掉直接用所有3000条轨迹包括失败的来训练数据量增加了40%但WebArena成功率从41.5%下降到37.0%——减少了4.5个百分点。数据更多反而更差原因正是前面提到的质量不如数量重要劣质轨迹会污染学生模型的学习。其次看**数据规模**的影响。把训练轨迹从2322条依次削减到1430条、715条、285条对应的成功率分别是40.2%、37.0%、32.0%。成绩随数据量减少而下降但下降幅度越来越小——从285条增加到715条能带来5个百分点的提升但从1430条增加到2322条只带来1.3个百分点。这是一条明显的收益递减曲线说明继续用同样的方式生成更多数据边际效益已经很低要想再有突破可能需要更多样化的环境或不同的方法。再看**推理轨迹**的贡献。训练数据中每一步操作都附带了教师模型的推理过程平均约1011个字符存储在特定标签块中。如果完全去掉这些推理过程成功率下降7.9个百分点——这是单个因素导致最大下降幅度的操作。更有趣的是如果不是完全去掉而是截断推理过程截到500字符或250字符结果比完全去掉还要差截断到500字符时成功率只有31%截断到250字符时只有26.8%。完整推理帮助最多截断推理有时比没有推理还糟糕。道理类似于看菜谱完整的菜谱最有用看一半的菜谱可能比不看菜谱还让人迷糊。关于**评判提示**的贡献研究团队做了一组对照实验在相同的600条轨迹规模下带评判提示的裁判训练出的学生成功率为37.8%而不带评判提示的裁判训练出的只有35.4%差了2.4个百分点。裁判在没有提示的情况下对21.3%的轨迹给出了不同的判断其中有144条轨迹被有提示的裁判判为失败、但被无提示的裁判误判为成功——这些假阳性数据混入训练集后会教给学生错误的示范。---**九、为什么六个网站就够了规模和深度的权衡**InSTA方法用了15万个网站而这套方法只用了六个网页环境却在更多样化的基准上实现了更好的迁移能力。研究团队认为这背后有一个重要的假设网页交互的底层技能是有限且可泛化的。填写表单、筛选表格、多步骤导航、搜索内容——这几类核心操作在几乎所有网页平台上都会用到无论是GitHub还是ServiceNow无论是Reddit还是企业ERP系统。在六个环境里通过角色多样化产生丰富的任务变化可能比在更多环境里但每个环境任务变化较少更为高效。这类似于深度练习与广度练习的权衡练好十道真正有代表性的题可能比泛泛地做一百道换汤不换药的题效果更好。当然研究团队也坦诚地指出目前的数据缩放曲线已经显示明显的收益递减继续在同样六个环境里生成更多数据预计效果有限。未来的方向可能是把这种深度聚焦的方法与更广泛的环境覆盖结合起来看两者是否互补。---**十、这套方法的边界和未来空间**研究团队对方法的局限性保持着清醒认识。角色生成器模块虽然在理论上贡献了任务多样性但由于重新从零生成无角色版本的数据成本过高没有做出完整的无角色对照实验这是一个未填补的验证空白。裁判模块的误判率也没有与人工标注进行系统性比对——建立一套能可靠标注多步骤网页交互轨迹的人工评测流程本身就是一项大工程研究团队计划通过公开发布数据集来让社区共同验证。所有教师模型对比实验都只用了Gemini系列因为当时只有谷歌提供了可配置思考预算的模型换用Claude或GPT-4系列是否会有不同结论还不清楚。训练方式目前只用了监督微调SFT没有结合强化学习RL。研究者认为在SFT的基础上再加入RL微调——让模型通过不断尝试和反馈来进一步优化——可能会进一步放大效果但这是独立于数据生成问题的另一个研究方向。说到底这项研究传递的核心信息是在AI能力蒸馏这件事上**数据质量的重要性远超数据数量结构化的生成流程比无结构的规模堆砌更有效**。用2322条精挑细选的高质量轨迹训练出的90亿参数小模型在五个不同类型的网页任务基准上全面超越了用付费API才能调用的商业大模型。这对于希望在本地部署可靠、经济、安全的网页智能体的开发者和企业来说是一个非常实际的启示。归根结底AI领域的教学艺术和人类教育异曲同工精心设计的课程、真实的练习环境、严格的质量把关以及完整保留的推理过程——这些要素的组合比单纯堆砌练习量更能造就有真正理解力的学生。感兴趣的读者可以通过arXiv编号2604.07776找到原论文研究团队还承诺将公开完整的轨迹数据集、流水线代码和微调后的模型权重方便社区复现和进一步研究。---QAQ1AGENT-AS-ANNOTATORS框架与InSTA等现有方法的核心区别是什么AAGENT-AS-ANNOTATORS是目前唯一同时具备六个完整模块的轨迹合成框架包括角色生成器、环境探索、预设式任务生成、评判提示、执行智能体和裁判模块。与InSTA等方法相比最关键的差异在于两点一是任务是在执行前就预设好的而非事后追溯贴标签这使得生成评判提示成为可能二是裁判模块能利用这些评判提示来更准确地判断轨迹是否成功从而提升训练数据质量。Q2为什么降低教师模型的思考预算反而能提升训练效果A研究发现Gemini 3 Pro在较低思考预算即推理过程更简洁的配置下在六个网页环境上的任务完成率反而更高。原因有两个一是过度思考可能导致模型在执行具体操作时反而犹豫出错二是更简洁的推理轨迹对学生模型来说是更干净的学习信号复杂冗长的内部推理反而会降低训练数据的信噪比使学生模型更难提炼出有效的行动模式。Q3用六个网站训练的模型为什么能在完全不同的企业平台上表现良好AWorkArena L1的大幅提升18.2个百分点来自网页交互的底层技能具有可迁移性。填写表单、筛选数据表格、多步骤页面导航等基础操作在几乎所有网页平台上都普遍存在无论界面设计差异多大。训练数据通过角色多样化覆盖了这些核心交互模式的丰富变体使模型习得的是通用的操作逻辑而非特定网站的页面路径记忆。

更多文章