令人惊叹!
基于Qwen-Image-Edit打造的DiffThinker,将图像编辑扩散模型变成了多模态视觉推理模型,视觉思维能力竟然将GPT-5和Gemini-3-Flash远远甩在身后。
DiffThinker让AI像人类一样直接在视觉空间中构思解题路径,彻底抛弃了文本中介的冗余,以生成式图像推理,开启了机器视觉思维的新可能。
告别文本中介的视觉思维革命
多模态大语言模型能看图说话,能理解复杂的指令。但这些模型在处理长流程、以视觉为核心的复杂推理任务时,依然显得力不从心。
无论是GPT-5还是Gemini-3,它们处理视觉任务的逻辑依然是文本中心的。
它们看到图像,将其转化为内在的文本描述,通过思维链(CoT)在符号空间里推演,最后尝试给出答案。
这种看图-转文字-推理的路径,像是一个试图用文字描述迷宫路径的盲人,不仅效率低下,而且极易丢失空间信息。
DiffThinker提出了一种全新的生成式多模态推理范式。
它不再强迫AI用语言去描述空间逻辑,它允许模型直接在视觉空间里思考。
通过扩散模型,它将推理过程重构为一个从噪声到清晰图像的生成过程。模型输出的不再是干瘪的坐标或文字步骤,而是一张直观的、包含解题路径的图像。
这种转变带来的提升是震撼的。
在涉及顺序规划、组合优化、数学约束满足和空间配置的七大类复杂任务中,DiffThinker展现出了对现有顶级闭源模型的碾压态势。
面对GPT-5,它实现了314.2%的性能提升;面对Gemini-3-Flash,提升幅度达到111.6%。
即便是经过特定微调的Qwen3-VL-32B,在DiffThinker面前也显得逊色,性能差距达到了39.0%。
上图左侧的雷达图清晰地展示了这种全方位的优势。在迷宫(Maze)、拼图(Jigsaw)、数独(Sudoku)和视觉空间规划(VSP)等任务上,DiffThinker展现了卓越性能。
右侧的可视化对比更是直观:DiffThinker直接画出了穿越障碍的红线路径,精准且连贯;而基线模型输出的文本路径往往在最后关头撞上障碍物或逻辑断裂。
传统的大模型在处理这类任务时,往往依赖于冗长的思维链。
这导致了两个致命问题:一是不可控的生成长度和高昂的延迟,二是文本无法精确追踪视觉状态的细微变化。
DiffThinker证明了,对于视觉任务,最好的推理语言不是英语或中文,而是像素本身。
从符号映射到像素流动的技术重构
理解DiffThinker的核心,需要对比三种不同的推理范式。
标准的多模态大模型采用的是多模态到文本的路径。给定图像和指令,模型在符号空间内进行序列映射,生成文本形式的推理踪迹(如思维链),最终得出答案。这种方式在逻辑推理上有效,但在空间感知上极其笨拙。
进阶一点的以图思考(Thinking with Image)范式,允许模型在推理过程中调用工具生成中间图像。这形成了一个推理-工具调用-观察的循环。模型每走一步,就生成一张新图来看看情况。
这种方式虽然引入了视觉反馈,但本质上仍受限于文本中枢的调度,且多轮交互带来了巨大的计算开销。
DiffThinker走了一条完全不同的路:多模态到图像(Multimodal-to-Image)。
它将推理视为图像生成任务。
模型作为一个生成器,直接根据输入的视觉和文本指令,从噪声中画出解决方案。
为了确保公平比较,DiffThinker生成的解答图像会被一个解析函数映射回符号空间,与标准答案进行比对。这种做法既保留了视觉推理的直观性,又保证了结果的严谨性。
DiffThinker建立在Qwen-Image-Edit的基础之上,利用流匹配(Flow Matching)作为其理论框架。
流匹配是一种比传统扩散模型更高效的生成方法,它通过常微分方程(ODE)来近似从噪声分布到数据分布的速度场。
在训练过程中,模型学习预测一个速度场,该速度场指示了如何将随机噪声平滑地转化为包含正确答案的图像。
具体而言,DiffThinker使用变分自编码器(VAE)将图像压缩到潜在空间进行处理,大大降低了计算成本。
输入的用户指令(文本和图像)通过大模型编码为条件向量,指导生成过程。
训练的目标非常直接:最小化预测速度场与真实速度场之间的均方误差。这意味着模型在学习如何以最直接的路径,从混沌的噪声中还原出清晰的解题逻辑。
推理过程则是一个求解ODE的过程。
从一个随机采样的噪声开始,模型沿着学习到的速度场,一步步流向最终的解答图像。
这个过程通常采用欧拉求解器,步数固定,计算量完全可控。这与大模型那种不知道要说多少废话才能得出结论的不可预测性形成了鲜明对比。
七大任务实战与性能深度剖析
为了全面验证生成式推理的有效性,研究团队精心设计了四个领域的七项任务。这些任务涵盖了顺序规划、组合优化、约束满足和空间配置,每一个都击中了传统文本推理模型的软肋。
在顺序规划领域,视觉空间规划(VSP)及其超级版(VSP-Super)要求模型在布满漏洞的冰湖上规划路径。
迷宫(Maze)任务则进一步增加了路径长度和死胡同的复杂度。
在这些任务中,模型必须具备极强的全局感知能力,既要避开障碍,又要找到通往目标的连续路径。
组合优化领域的代表是旅行商问题(TSP)。
给定地图上的多个城市点,模型需要画出一条连接所有点并回到起点的最短闭合回路。这不仅考验视觉识别,更考验几何规划能力。
约束满足领域则选用了经典的数独(Sudoku),模型需要填满网格,同时满足行、列、宫的数字不重复规则。
空间配置领域则由拼图(Jigsaw)和VisPuzzle组成,模型需要将打散的图像块在脑海中(或画布上)重新拼合。
上图展示了这些任务的实际效果。
第一行是输入,第二行是DiffThinker的输出,第三行是传统大模型的输出。
在迷宫任务中,DiffThinker绘制的红线如同老练的向导,穿梭于黑白迷阵之间,直达终点。
相比之下,大模型给出的往往是一串令人费解的坐标序列,还原成图像后,经常发现它在半路就撞墙了,或者莫名其妙地跳过了关键节点。
在拼图任务中,DiffThinker展现了惊人的视觉重构能力。
它生成的图像不仅内容连贯,而且边缘对齐完美。大模型只能输出一串数字序列代表拼图块的顺序,这种抽象的排序往往难以捕捉图像内容的细微连续性,导致拼出来的图错位严重。
量化结果令人咋舌。
在最困难的VSP-Super任务(32x32网格)中,DiffThinker的准确率达到了83%,而GPT-5和Gemini-3-Flash的准确率仅为个位数甚至接近于零。
即便是经过专门微调的Qwen3-VL-32B,在面对高难度迷宫时也全面崩盘。
在数独任务中,DiffThinker在极少线索(35个提示数)的情况下依然保持了57%的准确率,而闭源商用模型几乎全军覆没。
这些数据揭示了一个残酷的事实:随着任务复杂度的提升,基于文本的推理能力会急剧衰退。思维链越长,逻辑断裂的风险就越大。
而DiffThinker的生成式推理表现出了极强的鲁棒性,它的性能曲线随着难度增加下降得非常平缓,展现出了真正的视觉智能。
原生并行与高效协作的独特属性
深入探究DiffThinker的内部机制,我们发现了它区别于传统大模型的四大核心属性:高效推理、可控推理、原生并行推理和协作推理。这些属性构成了生成式多模态推理的护城河。
原生并行推理是扩散模型最迷人的特性之一。
大模型的思维链是串行的,必须想完第一步才能想第二步,一步错步步错。
DiffThinker则不同,它在生成的初期,实际上是在同时探索多条可能的路径。
上图生动地展示了这一过程。
在推理的早期步骤(Step 1),我们可以看到画面上布满了模糊的红色轨迹,这些轨迹覆盖了多条潜在的可行路径。这说明模型在潜意识里同时评估了多种走法。
随着推理步数的推进(Step 4, Step 7),这些模糊的路径逐渐收束,无效的路径被剪枝,能量集中到了最优的那一条路径上,最终形成清晰的解(Output)。
这种全局探索、逐步聚焦的能力,是串行文本推理无法模拟的。
在效率方面,DiffThinker同样表现出色。
尽管它要处理图像像素,但得益于在潜在空间的操作和流匹配的高效性,其推理速度极快。
实验数据显示,DiffThinker的平均推理延迟仅为1.1秒,与8B参数量的小型多模态模型相当,且快于32B的模型。
更重要的是,它的推理成本是固定的。通过设定固定的欧拉采样步数(例如20步),无论问题多难,它的计算时间都是确定的。
这消除了大模型因生成超长思维链而导致的不可控延迟。
上图左侧展示了训练时间的对比,DiffThinker的训练开销远低于基于强化学习(GRPO)的大模型训练方法。右侧的推理时间对比则进一步印证了其在实际应用中的高效性。
DiffThinker并非要完全取代大模型,它更像是一个完美的合作伙伴。
在协作推理模式下,DiffThinker可以作为视觉想象引擎,快速生成多个候选的视觉解。然后,大模型利用其强大的逻辑验证能力,从这些候选中挑选出最符合约束条件的一个。
在复杂的4阶拼图任务中,这种协作模式展现了威力。
单打独斗时,DiffThinker和大模型各有胜负。当两者结合,准确率随着候选数量N的增加而稳步上升,最终超越了任何单一模型的表现。
DiffThinker弥补了大模型视觉想象力的匮乏,而大模型弥补了DiffThinker在严格逻辑校验上的不足。
关键参数与视频生成的边界探索
DiffThinker的强大并非偶然,而是来自于精细的参数调优。研究人员对推理步数和分类器自由引导(CFG)比例进行了详尽的消融实验。
推理步数的选择是一个平衡艺术。
步数太少,图像模糊,逻辑不清;步数太多,边际收益递减,且增加延迟。
实验发现,20步是一个完美的平衡点。在此步数下,模型已经能够充分捕捉推理流形,生成高质量的解答,同时保持极高的推理速度。
CFG比例则控制了模型听从指令的程度与生成图像的多样性之间的权衡。
在DiffThinker中,CFG扮演了逻辑放大器的角色。当CFG比例为1时,模型生成的路径微弱且犹豫不决;当比例过高(如7)时,图像会出现过度饱和与伪影。
将比例设定为4时,模型能够生成既清晰大胆又严格符合约束的路径。这就像是给AI的直觉加上了理性的缰绳。
除了图像生成,研究团队还探索了视频生成的可能性。既然推理是一个过程,用视频来展示岂不是更直观?
他们基于Wan2.2-TI2V-5B模型构建了DiffThinker-Video。虽然视频模型确实能生成小球滚过迷宫的动态过程,展现出一定的推理能力,但其性价比极低。
视频生成的计算成本是图像生成的数倍,推理时间长达2.0秒,且准确率反而不如图像模型。
这说明在当前的算法水平下,将时间维度引入推理过程虽然在概念上很酷,但在工程实践上并不划算。图像,作为一种将时间过程空间化的载体,依然是目前最高效的视觉推理媒介。
DiffThinker向我们展示了一条通往通用人工智能的新路径。
它打破了文本霸权,证明了视觉思维不仅是人类的本能,也是AI进化的必经之路。
未来的智能体,或许将加入沉默却敏锐的画师,在像素的海洋中,描绘出解决世界的蓝图。
参考资料:
https://diffthinker-project.github.io/
https://huggingface.co/yhx12/DiffThinker
https://github.com/lcqysl/DiffThinker