【Hermes Agent 技术解析】:Nous Research 自进化多平台 AI 智能体架构深度剖析

张开发
2026/4/17 2:39:52 15 分钟阅读

分享文章

【Hermes Agent 技术解析】:Nous Research 自进化多平台 AI 智能体架构深度剖析
文章目录Hermes Agent 技术解析Nous Research 自进化多平台 AI 智能体架构深度剖析一、引言二、整体架构四层解耦设计三、Agent 主循环感知 → 规划 → 行动 → 进化四、工具系统70 工具的自注册体系4.1 工具分类全景4.2 并行安全的批量执行五、技能系统程序性记忆的工程实现5.1 技能文件结构5.2 渐进式加载Progressive Disclosure5.3 内置技能体系六、内存与持久化跨会话学习的基础设施6.1 SQLite 会话数据库6.2 内存插件体系七、多平台网关真正的无处不在八、执行环境六种沙箱后端九、横向竞品对比十、总结Hermes Agent 技术解析Nous Research 自进化多平台 AI 智能体架构深度剖析一、引言亲爱的朋友们创作不容易若对您有帮助的话请点赞收藏加关注哦您的关注是我持续创作的动力谢谢大家有问题请私信或联系邮箱funian.gmgmail.com2026 年AI Agent 的战场已不再只是能不能用而是能在哪里用、用完会不会变聪明。大多数 Agent 框架解决的是单次任务问题——给它一个指令它跑完结束。而Hermes AgentNous Research 推出的开源 AI 智能体平台走的是另一条路跨会话自我进化无处不在地运行。它不依赖固定工具集不锁死在某个模型不限制只能在终端或某个 IDE 里用——它同时活在你的 Terminal、Telegram、Discord、WeChat、iMessage乃至一台远程 Modal 无服务器容器里。更关键的是它在每次任务结束后会主动提炼新技能让自己下次更快、更准。本文从架构设计、工具系统、技能体系、内存持久化、多平台网关五个维度对 Hermes Agent v0.9.02026 年 4 月 13 日发布进行深度技术剖析。二、整体架构四层解耦设计Hermes Agent 的代码库包含 856 个 Python 文件但核心逻辑高度内聚可以归纳为四层┌────────────────────────────────────────────────────┐ │ 接入层Interface │ │ CLI 终端 · Telegram · Discord · Slack · WeChat │ │ Signal · Matrix · iMessage · WhatsApp · DingTalk │ ├────────────────────────────────────────────────────┤ │ Agent 执行层Core Loop │ │ AIAgent 主循环 · 工具调度 · 上下文压缩 · 错误分类 │ ├────────────────────────────────────────────────────┤ │ 能力层Capabilities │ │ 70 工具 · 技能系统 · 内存系统 · 沙箱环境 │ ├────────────────────────────────────────────────────┤ │ 模型层Model Abstraction │ │ Anthropic · OpenAI · OpenRouter · Kimi · Qwen │ │ z.ai/GLM · MiniMax · xAI/Grok · 200 模型 │ └────────────────────────────────────────────────────┘层次核心文件职责接入层gateway/run.py、cli.py多平台消息收发、会话隔离、并发管理Agent 执行层run_agent.py10,829 行主循环、工具调用链、迭代预算控制能力层tools/、skills/、plugins/工具注册、技能加载、内存同步、沙箱调度模型层agent/anthropic_adapter.py、agent/model_metadata.py多供应商适配、Token 估算、故障转移这种解耦设计的好处是更换模型不影响工具新增平台不影响 Agent 逻辑技能更新无需重新部署代码。三、Agent 主循环感知 → 规划 → 行动 → 进化Hermes 的核心是run_agent.py中的AIAgent类实现了一个最多 90 次迭代的闭合学习循环用户消息/平台事件 │ ▼ [构建系统 Prompt] • 身份文件SOUL.md • 技能索引名称 描述按需加载全文 • 上下文引用file: / git: / url: • 内存上下文memory-context 标签隔离 │ ▼ [调用 LLM传入 70 工具 Schema] │ ├── 无工具调用 → 直接回复 │ └── 有工具调用 ──▶ [并行执行工具批次8 workers] │ ▼ [收集结果追加消息历史] │ ├── 迭代 90 → 继续循环 │ └── 完成 → 持久化会话 检查是否生成新技能关键设计机制实现作用迭代预算IterationBudget线程安全计数器默认 90防止无限循环兼顾复杂任务深度上下文自动压缩agent/context_compressor.py接近 Token 上限时自动摘要旧消息无感续航错误分类故障转移agent/error_classifier.py区分限速/鉴权/过载/上下文超长采取不同恢复策略中断处理全局interrupt事件CLI / Gateway CtrlC 即时打断长任务技能自生成任务结束后 LLM 自评若发现可复用模式自动提议写入新 Skill四、工具系统70 工具的自注册体系Hermes 的工具不是硬编码在主循环里的而是自注册的——每个工具文件import时向tools/registry.py注册自身主循环通过registry.get_all_tools()动态获取。4.1 工具分类全景类别工具数代表工具典型场景Web 检索6web_search, web_extract, web_crawl联网调研、信息提取终端执行3terminal, process, delegate_task运行命令、管理进程文件操作6read_file, write_file, patch, search_files代码读写、内容搜索浏览器自动化10browser_navigate, browser_click, browser_screenshotGUI 操作、表单填写视觉理解3vision_analyze, image_generate, vision_compare图片分析、生成技能管理4skills_list, skill_view, skill_manage, skill_create技能浏览与更新内存管理3memory, session_search, todo跨会话记忆与任务管理消息通信2send_message, cronjob主动推送、定时任务智能家居4ha_list_entities, ha_get_state, ha_call_serviceHome Assistant 集成扩展工具20MCP、TTS、代码执行、RL 训练专项场景4.2 并行安全的批量执行工具调用支持最多 8 个并发 Worker但在并行前会做两项安全检查安全检查机制说明路径重叠检测对比所有文件操作目标路径防止同一文件被并发写入交互工具串行clarify等工具不参与并行需要用户确认的操作必须串行危险命令如rm -rf、git reset --hard会触发用户审批门控支持once / session / always / deny四档授权粒度。五、技能系统程序性记忆的工程实现如果说工具是 Hermes 的手技能Skills就是它的经验库。Hermes 没有把每个新功能都实现为一个新工具那样会导致工具膨胀而是用Markdown 技能文件封装可复用的操作流程。5.1 技能文件结构每个技能是一个目录核心是SKILL.md---name:arxiv-searchdescription:Search and summarize academic papers from arXiv by topic or paper IDversion:1.0.0license:MITplatforms:[macos,linux]prerequisites:commands:[curl,jq]metadata:hermes:tags:[research,academic]related_skills:[web-search,literature-review]---# arXiv Search Skill## InstructionsWhen the user asks about a paper or research topic...5.2 渐进式加载Progressive DisclosureHermes 不会把所有技能的完整内容一次性塞进 System Prompt而是分三层按需加载层级内容加载时机Token 消耗元数据层名称≤64字符 描述≤1024字符每次对话启动时极低指令层SKILL.md 完整内容模型判断需要使用该技能时中等引用层关联文件模板、示例、API文档技能执行时按需注入按需这个设计解决了一个真实问题如果有 100 个技能把所有技能全文塞入 Prompt 会消耗数万 Token但只传名字和描述模型能根据语义判断该调用哪个再按需加载全文。5.3 内置技能体系大类典型技能方向软件开发Git 工作流、Docker 操作、K8s 部署、代码审查学术研究arXiv 检索、文献综述、论文摘要MLOps模型训练脚本、评估流水线、实验管理创意生产内容生成、图文排版、多语言翻译安全审计漏洞扫描、依赖检查、合规分析可选扩展区块链、医疗数据、HPC 作业管理13个可选类别六、内存与持久化跨会话学习的基础设施6.1 SQLite 会话数据库Hermes 使用 SQLiteWAL 模式存储所有对话历史通过 FTS5 全文索引实现跨会话语义搜索表内容关键设计sessions会话元数据模型、Token 消耗、费用估算、标题按平台来源分组messages完整对话记录含工具调用与结果支持父子会话链压缩用messages_ftsFTS5 虚拟表跨 1000 会话全文检索为什么选 SQLite 而非 JSONL跨文件搜索需要全量扫描而 FTS5 可以在毫秒级内检索所有历史会话同时 WAL 模式保证了 Gateway 多平台并发写入的安全性。6.2 内存插件体系插件核心机制特点Builtin本地 MEMORY.md / USER.md始终激活零依赖Honcho AI辩证式用户建模记录推理过程最强的用户偏好建模Mem0向量嵌入检索语义相似度召回Supermemory长期记忆存储服务托管方案开箱即用Holographic多尺度记忆表示实验性适合复杂用户模型内存读写时机每轮对话前预取每轮响应后同步内容以memory-context标签包裹注入 Prompt防止模型将其误解为指令。七、多平台网关真正的无处不在Gateway 是 Hermes 作为独立守护进程运行的消息总线支持 25 平台适配器平台类别支持列表即时通讯Telegram、Discord、Slack、Signal、WhatsApp、Matrix端对端加密国内平台微信Weixin、企业微信WeCom、钉钉、飞书、Mattermost苹果生态iMessagevia BlueBubbles开发工具Webhook、API Server、Home Assistant语音/邮件邮件Email、SMSGateway 作为独立进程的设计解耦了三件事CLI 会话崩溃不影响 Telegram 消息Slack 限速不阻塞 Discord 响应Gateway 可水平扩展而无需重启 Agent 核心。八、执行环境六种沙箱后端后端适用场景关键特性Local默认最快直接在宿主机执行Docker隔离执行容器化文件系统持久化SSH远程服务器密钥认证端口转发Modal无服务器 GPU自动扩缩容适合 ML 工作负载Daytona云开发环境批量文件同步工作区管理SingularityHPC 集群共享计算资源上的容器执行所有后端都支持文件状态持久化mtime跟踪 删除检测沙箱重建后工作状态不丢失。九、横向竞品对比Hermes Agent 的定位是无处不在的自进化 Agent与三类竞品存在差异维度Hermes AgentClaude CodeAutoGen / CrewAIDevin运行方式CLI 25 平台消息CLI IDE 插件Python SDK 调用Web 平台模型绑定无绑定200 模型深度绑定 Claude可配置多模型专有模型技能/知识积累✅ 自动生成并沉淀技能❌ 无跨会话技能⚠️ 需手动配置⚠️ 有限多平台接入✅ 25 平台原生支持❌ 仅终端/IDE❌ 纯 API❌ 仅 Web沙箱执行✅ 6 种后端⚠️ 本地为主❌ 依赖用户配置✅ 托管云沙箱部署成本开源自托管免费订阅制 API 费用开源自托管高商业产品目标用户重度 Power User / 开发者软件工程师AI 应用开发者企业研发团队Hermes 的差异化优势在于三个组合多模型无绑定 跨平台原生 技能自进化。这三件事任意一件做到极致都能形成壁垒三者同时做到是当前同类工具中罕见的。明显短板文档和社区成熟度不及 Claude Code上手曲线较陡配置文件 1400 行面向普通用户的引导体验有待改善。十、总结维度核心要点架构设计四层解耦接入层 / Agent 层 / 能力层 / 模型层各层独立演进工具体系70 自注册工具8 并发 Worker路径安全检测危险操作审批门控技能系统Markdown 驱动的程序性记忆渐进式加载任务后自动提炼新技能内存持久化SQLite FTS5 全文检索8 种内存插件跨会话知识积累多平台网关25 平台适配独立守护进程会话隔离与并发安全执行环境6 种沙箱后端从本地到 GPU 无服务器文件状态持久化模型无锁定支持 200 模型供应商故障自动转移推理预算可控Hermes Agent 代表了 AI Agent 设计的一个重要方向工具不是终点技能积累才是护城河。它把每次任务都视为学习机会让 Agent 随时间变得更懂用户、更高效。随着多模态、多模型协作能力的成熟这类会成长的 Agent平台将在企业和个人生产力领域占据重要位置。参考资料Hermes Agent GitHub 仓库 — Nous Researchv0.9.02026-04-13OpenRouter 多模型 API 文档Anthropic Tool Use 文档agentskills.io 技能规范

更多文章