再探 Harness Engineering 该做点什么？

张开发

• 2026/4/21 16:49:41 • 15 分钟阅读

分享文章

最近在搞 Agent 或 AI Coding 的同学基本都绕不开一个词 —— Harness。很多人第一反应是 “是不是又一个新概念”但你真在业务里踩过坑就会发现这玩意儿不是锦上添花是救命用的。前几天看到 Lychee Technology 的一篇文章《Your AI Isnt Stupid — It Just Needs a Better Harness》讲得挺实在。今天我们就结合 Go 工程视角把这件事拆开聊清楚怎么用工程化手段把大模型驾驭住。一个现实例子在写 Agent 的时候很多人都遇到过类似场景给模型安排一个长链路任务前面几步执行得非常漂亮甚至让你觉得 “这波稳了”。但是很无奈的是一旦跑到中后段它开始逐渐失控要么胡说八道要么输出结构开始漂移最后直接给你吐一个少括号的 JSON。然后你的 Go 服务一接var resp PriceResponse _ json.Unmarshal(raw, resp) // boom直接 panic。这类问题本质上就是长链路的不确定性累积爆炸。很多同学第一反应是改 Prompt“必须返回合法 JSON”“绝对不能省略字段”“请严格遵守格式”说实话这套在短链路还行一旦链路变长基本就是玄学。这时候思路就得变了从 Prompt 工程 → RAG → Harness 工程。核心思想一句话总结不要指望模型变聪明要让系统变严格。什么是 Harness 工程简单来说Harness 就是一层包在 LLM 外面的 “执行壳”。在这个体系下模型不能直接对用户说话模型不能直接调用外部系统所有输入输出必须经过 “检查点”可以理解为模型只是一个 “函数”而 Harness 才是 “运行时”。约束大于指导强契约与校验这个点在 Go 里特别好理解。与其在 Prompt 里祈求模型 “返回正确格式”不如直接用结构体校验兜底。type PriceResponse struct { Price float64json:price Currency stringjson:currency } func ValidateLLMOutput(rawJSON []byte) (*PriceResponse, error) { var resp PriceResponse // 结构校验 if err : json.Unmarshal(rawJSON, resp); err ! nil { returnnil, fmt.Errorf(契约校验失败: %v, err) } // 业务校验 if resp.Currency { returnnil, errors.New(缺少必须的 Currency 字段) } return resp, nil }可以看到这其实就是经典的 Go 风格写死规则不信任输入。如果失败怎么办本地重试Fail locally不让脏数据进入后续链路这比你在 Prompt 里写 10 行 “请务必返回 currency 字段” 靠谱多了。状态外置记忆与持久化很多人刚写 Agent 会踩一个坑把状态全放在上下文里。问题在于Context Window 是有限的Token 一旦超了前面的信息直接被截断也就是说你的 “记忆” 是会丢的。工程上正确做法是状态外置。type AgentState struct { TaskID string json:task_id Completed []string json:completed InProgress string json:in_progress } func SaveState(ctx context.Context, state AgentState) error { data, err : json.Marshal(state) if err ! nil { return err } return os.WriteFile(state.json, data, 0644) }每完成一个步骤就落一次状态。这样即使API 超时、进程崩溃、模型抽风等。都可以从断点继续。这其实就是把 Agent 当成 “分布式任务系统” 来做。应对上下文焦虑这里有个很有意思的现象上下文焦虑。当 Token 使用接近上限比如 70% 以上模型会出现开始省略步骤回答变短逻辑变乱这时候很多人会做摘要压缩但效果有限。更硬核的做法是直接重启上下文if float64(tokensUsed)/float64(maxContext) 0.7 { // 保存状态 SaveState(ctx, currentState) // 终止当前 Agent cancelCurrentAgent() // 拉起新实例 StartNewAgentInstance(currentState) }简单粗暴但有效kill → restore → continue这在 Go 服务里实现成本很低但收益非常高。利用外部工具Tool而不是纯靠模型这里有一个很多人一开始都会踩的坑把大模型当成万能执行器。比如查数据 → 让模型“猜”计算 → 让模型“推”调 API → 让模型“编参数”问题在于模型本质上是在“生成”不是在“执行”。一旦信息不完整它就会开始“补全”说白了就是编。所以 Harness 的一个关键转变是让模型负责决策让工具负责执行。工具层本质是一个“受控执行环境”在一个健康的 Harness 架构里模型决定要不要调用工具Harness校验调用工具工具返回确定性结果但有一个很关键的点工具的输出不能直接喂回模型。因为数据可能过大爆 Token内容可能重复可能包含噪音。所以必须经过一层处理例如排序只保留关键结果去重避免信息膨胀截断控制上下文大小等操作。这样通过工具调用的结果就算更准确更有效更省 token。社区观点关于大模型怎么用社区一直是 “各打各的”搞微调卷 Prompt做 RAG。但一旦进入长链路工程化落地这些方案都会遇到同一个问题不可控性无法被彻底消除这时候Harness 派的思路就很明确了用工程手段把 “不确定性” 压缩到局部。这就是为什么有了驾驭工程这一说法的缘来。总结可以看到AI 开发正在发生一个很明显的转变早期谁 Prompt 写得好中期谁 RAG 做得全现在谁 Harness 做得稳哪怕刚开始写 Agent也建议优先把这几件事做好状态外置Schema 校验重试 backoffToken 控制工具调用剩下的再慢慢优化。至于未来会怎么发展大概率不是模型 “无限变强”而是 Harness 越来越标准化。甚至不排除未来会出现类似 “LLM Runtime” 的基础设施层。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

再探 Harness Engineering 该做点什么？

最新文章

3分钟实现浏览器人脸识别：face-api.js零配置入门指南

别再只改颜色了！用ECharts GL给你的3D地图加上背景图和地表纹理（Vue3实战）

从POC到生产阻断：Docker 27中3个金融场景特有逃逸漏洞（含eBPF提权链），附FIPS 140-3兼容加固checklist

NomNom存档编辑器：解锁《无人深空》无限可能的神器

CSS移动端实现卡片悬浮投影_利用box-shadow设置层次感

晶体管工作原理与半导体技术解析

推荐文章

支付回调幂等与对账怎么设计？一次讲清重复通知、状态校验、补单与差异修复

企业内网部署EVA-02：安全策略与内网穿透方案

【HALCON 25.11 + C#】 03：HImage、HRegion、HXLD、HTuple——C#中HALCON数据类型实战详解（避坑指南+工业案例）

3种创新方法让Windows电脑直接安装安卓APK文件

Linux 设备树DTS语法精讲：从节点到属性的实战解析

如何高效实施开源医疗信息系统：完整医院数字化转型方案

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

智能自动化神器：3个核心功能彻底改变你的英雄联盟游戏体验

别再瞎折腾了！一份能直接用的VSCode settings.json配置（含ESLint+Prettier+保存自动格式化）

Spring Boot依赖注入那些坑：以RuoYi的sysConfigServiceImpl为例，详解Bean初始化失败的全场景

超级结MOSFET PCB抗干扰与EMI优化

3个颠覆性改变：让微软PowerToys真正成为你的中文效率伙伴

3步掌握Audacity音频编辑器：从新手到专业音频处理的完整指南

深度探索NVIDIA隐藏设置：解锁显卡性能的终极钥匙

深入DDS的QoS：如何像配置网络路由器一样，为你的机器人设定数据交付规则

Figma中文插件终极指南：5分钟告别英文界面困扰

VS2013配置OpenGL环境：除了复制DLL到System32，还有哪些更优雅的工程级配置方案？

PyTorch模型加载的“冷启动”与“热加载”：深入理解load_state_dict的内部机制

QQ空间导出助手终极指南：3步轻松备份你的十年青春记忆

再探 Harness Engineering 该做点什么？

最新文章

3分钟实现浏览器人脸识别：face-api.js零配置入门指南

别再只改颜色了！用ECharts GL给你的3D地图加上背景图和地表纹理（Vue3实战）

从POC到生产阻断：Docker 27中3个金融场景特有逃逸漏洞（含eBPF提权链），附FIPS 140-3兼容加固checklist

NomNom存档编辑器：解锁《无人深空》无限可能的神器

CSS移动端实现卡片悬浮投影_利用box-shadow设置层次感

晶体管工作原理与半导体技术解析

推荐文章

支付回调幂等与对账怎么设计？一次讲清重复通知、状态校验、补单与差异修复

企业内网部署EVA-02：安全策略与内网穿透方案

【HALCON 25.11 + C#】 03：HImage、HRegion、HXLD、HTuple——C#中HALCON数据类型实战详解（避坑指南+工业案例）

3种创新方法让Windows电脑直接安装安卓APK文件

Linux 设备树DTS语法精讲：从节点到属性的实战解析

如何高效实施开源医疗信息系统：完整医院数字化转型方案

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统