GLM-5.1 实测:面向 Agent 长任务 很能打

张开发
2026/4/4 1:46:29 15 分钟阅读
GLM-5.1 实测:面向 Agent 长任务 很能打
GLM-5.1 实测:面向 Agent 长任务 很能打前两天,Claude Code 的源码泄漏了。我拆解完源码后得出一个结论:Claude Code 的 Harness 工程做得很复杂,必须搭配一个顶级的模型,才能发挥出这套工程框架的最大潜力。于是我开始重新想 Agent产品的竞争格局:过去半年 Agent 产品井喷,各家都在卷框架、卷工具链、卷交互形态。但把 Agent 拆到最底层,其实核心就两个东西,一个是 Harness 工程,一个就是模型。由于 Claude Code 的被迫开源,Agent 框架层面的 Harness 工程再过一段时间,可能就要被彻底解决了。随着框架逐渐趋同,真正拉开 Agent 体验差距的,始终是底层模型,尤其是模型面向长程任务的能力。什么是长程任务?就是那些一句提示词搞不定的事情。模型要自己拆目标、规划路径、协调多个工具、遇到报错能自行排查修复,在跨越几十个步骤之后依然记得最初的约束条件。这是一个确定的趋势:METR 的研究显示,AI 能以 50%成功率完成的任务复杂度,近期加速到每 4 到 6 个月翻一倍。长程任务能力,正在成为检验模型智能的下一个标准。上周智谱发布了 GLM-5.1,我实测了几天之后,有几个想分享的点。

更多文章