TSPR-WEB-LLM-HIC-A五元结构:面向决策智能的概率递推与可控生成式AI系统模型探究

张开发
2026/4/5 0:55:05 15 分钟阅读

分享文章

TSPR-WEB-LLM-HIC-A五元结构:面向决策智能的概率递推与可控生成式AI系统模型探究
TSPR-WEB-LLM-HIC-A五元结构面向决策智能的概率递推与可控生成式AI系统模型探究技术支持拓世网络技术开发工作室摘要当前生成式人工智能AI系统在复杂决策任务中面临可解释性不足、行为不可控及缺乏闭环自适应能力等核心挑战。为此本文提出一种名为“五元结构”Pentalithic Architecture的系统级理论模型其核心组件包括WEB数据采集层、TSPR概率递推建模层、LLM推理生成层、HIC人类控制层和ACTION执行反馈层。该模型通过TSPR层将用户与环境的动态行为转化为可计算的概率状态空间使LLM在此概率状态基础上进行推理与决策生成并通过HIC层施加基于规则与人类干预的控制约束最终由ACTION层将决策落地为具体操作并将执行反馈回传至TSPR层形成完整的闭环自适应系统。本文详细阐述了五元结构的理论基础、核心算法贝叶斯滤波、状态递推公式、控制策略函数以及工程化实现路径。理论分析和仿真实验表明该模型通过引入概率递推与闭环控制机制显著提升了AI决策的可解释性、可控性和持续学习能力为构建下一代AI决策操作系统提供了坚实的理论基础与可行架构。关键词五元结构概率递推可控生成式AI闭环自适应系统AI操作系统TSPR1 引言以大语言模型Large Language Models, LLMs为代表的生成式AI技术在自然语言理解、内容生成等领域展现了革命性能力。然而将其直接应用于需要复杂推理、精准决策和可靠执行的场景如智能客服、自动化营销、企业资源调度时暴露出显著缺陷。1不可控性标准LLM的生成过程本质上是基于概率的“黑箱”难以通过显式规则进行约束可能产生不符合业务逻辑或安全规范的输出。现有研究多采用提示工程Prompt Engineering或后处理过滤但这些方法无法从架构层面保证输出的可靠性。2缺乏状态建模传统“用户-LLM”交互模式将每次对话视为孤立事件无法有效建模用户意图、偏好等随时间动态演变的隐含状态。这导致系统缺乏对用户行为的预测能力决策往往是反应式而非主动式。3无闭环学习能力LLM决策执行后环境产生的反馈如用户是否点击、购买无法自动用于优化模型未来的决策系统无法实现持续自我进化。4“想”与“做”的割裂大多数LLM应用止步于生成文本或代码层面的“建议”而缺乏将决策自动转化为系统API调用或任务执行的“行动”能力。这限制了AI从“顾问”向“执行者”的角色跃迁。为了解决上述问题学术界和工业界进行了多方面的探索。大模型可解释性研究致力于打开LLM的“黑箱”分析其注意力机制和神经元激活路径多智能体协作研究关注多个AI Agent之间的通信与协同AI Agent研究尝试让LLM调用外部工具。然而这些研究本质上仍是“模型中心”的——它们试图在现有计算范式上“修补”AI而非从系统层面重新设计能够容纳概率性AI的底层架构。本文认为智能时代的核心矛盾在于传统计算机系统的基石是确定性而AI的本质是概率性。解决这一矛盾需要一种操作系统级的架构创新。为此我们提出“五元结构”TSPR-WEB-LLM-HIC-A理论模型。本文的主要贡献包括提出一个五层闭环架构将AI决策系统分解为数据感知WEB、概率建模TSPR、推理生成LLM、人类控制HIC和自动执行ACTION五个功能解耦、协同工作的层次。形式化定义概率递推建模层TSPR将用户和环境状态形式化为概率空间并引入贝叶斯滤波作为核心递推算法使系统能够动态追踪并预测状态演变。构建“生成-控制-执行”三位一体机制将LLM的生成能力置于HIC的显式规则约束之下并通过ACTION层实现决策到物理或数字世界操作的映射同时将执行反馈作为系统状态更新的核心驱动力。本文组织结构如下第2节回顾相关研究工作第3节详细阐述五元结构的理论定义与核心算法第4节给出工程化实现的技术要点第5节通过理论分析和仿真实验论证模型性质第6节总结全文并展望未来工作。2 相关工作五元结构的设计思想融合了概率图模型、大语言模型智能体、人机协同控制和闭环控制理论等多个领域。2.1 概率图模型与用户建模马尔可夫决策过程MDP和部分可观测马尔可夫决策过程POMDP为序贯决策问题提供了标准的数学框架[1]。动态贝叶斯网络DBN被广泛用于随时间变化的概率建模[2]。在推荐系统领域用户行为建模常采用贝叶斯个性化排序BPR[3]或隐变量模型。然而这些方法通常作为独立的决策引擎未能与生成式AI深度结合。五元结构中的TSPR层借鉴了这些思想但创新性地将其作为LLM的前置“认知引擎”而非独立的决策器。2.2 大语言模型智能体近期研究如ReAct[4]、AutoGPT[5]、TaskWeaver[6]等探索了LLM作为核心控制器通过思维链推理和调用外部工具Actions来完成任务。这些Agent系统展现了一定的自主决策能力但普遍存在以下不足1缺乏对用户状态的显式概率建模决策依赖当前对话上下文2行为约束主要依赖Prompt工程缺乏刚性的、独立于模型的控制层3反馈利用机制简单多为单步更新而非闭环递推。2.3 人机协同与可控AIHuman-in-the-loopHITL[7]和可解释AIXAI[8]领域强调在AI系统中保留人类监督与干预接口。Google的Constitutional AI[9]通过规则集约束模型输出Anthropic的Claude模型采用了类似的“宪法”训练方法。这些工作在训练或推理阶段引入了规则约束但规则往往是模型内部的软约束而非架构层面的硬控制层。五元结构中的HIC层是一个独立的、与LLM推理层并列的形式化控制层集成了规则引擎与人工干预界面。2.4 AI操作系统的早期探索近年来学界和业界开始思考“AI操作系统”的概念。AgentOS[10]提出了一个面向AI Agent的操作系统框架强调资源管理和任务调度。阿里巴巴的Agentic OS[11]探索了多Agent协同的底层支持。OpenClaw[12]提出了一个五层架构用于机器人控制。然而这些探索仍处于起步阶段未能系统性地解决概率性AI与确定性计算之间的根本矛盾。五元结构的独特之处在于它将概率递推建模作为操作系统的核心组件并显式设计了控制层和闭环反馈机制。2.5 差距分析综上所述现有研究在以下方面存在明显差距碎片化可解释性、多智能体、Agent、控制等研究相互独立缺乏统一的系统架构。缺乏概率建模作为一等公民用户状态和意图的动态演变未被充分建模。控制机制薄弱缺乏独立于LLM的硬控制层。闭环学习不足反馈信号未被系统性地用于模型更新。五元结构正是为了填补这一空白而提出的。3 五元结构理论模型3.1 整体架构五元结构定义为一个面向决策智能的闭环系统由五个协同工作的功能层组成textWEB数据采集层 → TSPR概率递推建模层 → LLM推理生成层 → HIC控制层 → ACTION执行层↑ ↓└───────────── 反馈回流 ────────────────────┘核心设计原则概率优先不确定性和概率分布是系统的核心数据类型而非例外。控制与生成分离LLM负责生成候选方案HIC负责约束和修正。闭环自适应执行结果反馈至TSPR实现状态的持续更新。可解释性内置每一层的输入输出均可记录和追溯。3.2 形式化定义定义1系统状态在时间步$t$系统状态$S_t$是一个随机向量表示所有与决策相关的不可观测或部分可观测的变量包括用户角色、意图、情感和任务进度等St(Strole,Stintent,Stsentiment,Stcontext)St​(Strole​,Stintent​,Stsentiment​,Stcontext​)其值域构成离散或连续的概率空间$\mathcal{S}$。定义2观测$O_t$是来自WEB层在时间$t$的结构化事件元组是$S_t$的部分观测。定义3决策候选$Y$是LLM层生成的原始输出通常为结构化动作候选对象。定义4安全决策$Y’$是经过HIC层校验或修改后可安全执行的决策。定义5动作$A_t$是ACTION层执行$Y’$后在环境中产生的具体操作如API调用或任务调度。定义6反馈$E_t$是ACTION层执行$A_t$后从环境中观测到的结果反馈如用户行为变化或系统状态变更。3.3 WEB层数据采集与感知功能目标将多源异构的原始数据转换为标准化的观测$O_t$作为系统的“感知系统”。输入源类型用户端点击流、浏览时长、鼠标轨迹、输入内容、语音指令环境端数据库变更、外部API推送、传感器数据系统自身上一轮ACTION执行结果、HIC干预记录内部处理管道采集适配使用不同连接器WebSocket、REST API、MQTT、日志文件拉取原始数据。协议解析根据来源解析为统一字典格式。清洗与校验去重、时间戳归一化、缺失字段填充、异常值剔除。特征提取从原始数据中抽取对TSPR有用的特征用户ID、事件类型、实体ID、数值属性。时间窗口聚合按固定时间窗口或事件数量打包防止下游过载。输出格式标准事件元组text{user_id: u123,timestamp: 2025-03-15T10:30:00.123Z,type: click,entity: product_789,attributes: {price: 99.9, category: electronics},source: web_app,session_id: s456}3.4 TSPR层概率递推建模功能目标基于历史状态和最新观测递推更新当前状态的概率分布。这是系统的“认知引擎”。3.4.1 状态空间设计为具体化我们以电商助手场景为例定义状态空间角色$role \in {\text{guest}, \text{logged_in}, \text{buyer}, \text{returner}}$意图$intent \in {\text{browse}, \text{search}, \text{compare}, \text{purchase}, \text{complain}}$情感$sentiment \in {\text{negative}, \text{neutral}, \text{positive}}$购买倾向$buy_intent_prob \in [0,1]$可离散化为5档状态表示为离散和连续的混合为简化实现可全部离散化。3.4.2 核心算法贝叶斯滤波初始化$P(S_0)$为均匀分布或基于用户历史画像的先验分布。每时间步$t$收到观测$O_t$后(1) 预测步骤基于状态转移P(St−)∑st−1∈SP(St∣St−1st−1,At−1)⋅P(St−1st−1)P(St−​)∑st−1​∈S​P(St​∣St−1​st−1​,At−1​)⋅P(St−1​st−1​)其中$P(S_t \mid S_{t-1}, A_{t-1})$是状态转移概率矩阵$A_{t-1}$是上一轮ACTION层输出的动作。转移矩阵可以通过专家规则设定也可以从离线数据中学习。(2) 更新步骤基于观测P(St)η⋅P(Ot∣St)⋅P(St−)P(St​)η⋅P(Ot​∣St​)⋅P(St−​)其中$\eta$是归一化常数$P(O_t \mid S_t)$是观测似然模型表示在给定状态下产生该观测的概率。观测似然可以通过一个简单的分类器或规则表实现。(3) 反馈更新基于执行反馈当ACTION层执行后收到反馈$E_t$时再次应用贝叶斯规则P(St)η′⋅P(Et∣St)⋅P(St)P(St​)η′⋅P(Et​∣St​)⋅P(St​)$P(E_t \mid S_t)$是反馈似然例如若状态为“购买意图高”则观察到“购买”行为的概率高。3.4.3 暴露给LLM的接口TSPR层不直接输出完整分布而是提供一个状态摘要服务get_belief(user_id) → 返回最可能状态及其概率$(s_t^{\text{MAP}}, \max P(S_t))$可选返回Top-K个假设及其概率供LLM进行不确定性推理。3.5 LLM层推理与生成功能目标将TSPR输出的状态信念映射为具体的决策候选$Y$。输入构造LLM的提示词Prompt包含三部分当前状态摘要来自TSPR例如“用户当前以70%概率为购买者意图是比较商品”。近期原始事件从WEB层取最近N条事件。系统指令任务目标、输出格式要求、安全约束。示例Prompt模板text你是一个电商助手。当前用户状态{state_summary}。最近行为{events}。请根据以下格式输出JSON{decision: recommend_product | send_coupon | ask_question | ...,target: product_id or null,confidence: 0-1,reasoning: 简短理由}约束不要推荐价格超过用户历史最高价2倍的商品。生成策略模型选型GPT-4、Claude或本地部署的Llama 370B根据延迟/成本权衡。确定性控制设置temperature0.2或0保证可复现性。结构化输出使用JSON mode或Function Calling便于下游解析。输出标准化LLM输出$Y$是一个结构化动作候选例如json{decision: recommend_product,product_id: p999,confidence: 0.85,reasoning: 用户频繁浏览手机类别状态为购买者}3.6 HIC层人类控制功能目标对LLM的生成结果$Y$施加安全与业务逻辑约束输出安全决策$Y’$。这是系统的“治理系统”。控制函数$Y’ C(Y, R, H)$其中$R$是形式化的规则集规则引擎$H$是人工干预接口Web仪表盘或API规则表示采用正向推理规则格式为textIF 条件表达式 THEN 动作修改条件可包括状态属性role “guest”、LLM输出字段confidence 0.6、外部变量current_time 22:00。动作修改可以是reject丢弃该决策返回默认动作modify修改字段如将product_id替换为另一个log_only仅记录仍放行规则执行流程输入$Y$。遍历所有规则按优先级排序。若匹配到reject规则终止并输出默认动作。若匹配到modify规则更新$Y$的字段继续检查后续规则。若无规则触发$Y’ Y$。记录规则命中日志。人工在线干预提供Web仪表盘或API允许授权人员针对特定请求ID提交新的决策内容强制覆盖动态调整规则参数如修改价格上限阈值暂停自动执行切换到人工审核模式安全决策空间定义为Ysafe{Y′∣R(Y′)True}Ysafe​{Y′∣R(Y′)True}3.7 ACTION层执行与反馈功能目标将安全决策$Y’$转化为具体动作$A_t$并执行同时收集反馈$E_t$。这是系统的“执行系统”。动作类型与执行器动作类型 执行器 技术实现推荐商品 推荐引擎API HTTP调用 /recommend发送通知 推送服务 异步任务队列Celery调用第三方API 统一网关 预定义连接器记录日志 数据库/数据湖 写入ClickHouse无操作 空执行 直接返回成功执行流程解析将$Y’$中的decision字段映射到具体执行器。幂等性检查若同一请求ID已执行过直接返回缓存结果。执行同步或异步调用外部服务设置超时和重试。结果收集获得执行状态成功/失败、返回值、错误信息。环境反馈等待一段窗口如5秒监听由该动作引发的用户后续事件如点击推荐商品。这些事件通过WEB层再次进入系统。反馈数据结构json{action_id: act_123,request_id: req_456,success: true,output: order_created,environment_events: [{type: click, target: recommended_product, timestamp: ...}],latency_ms: 120}反馈闭环到TSPRACTION层将反馈$E_t$发送回TSPR层通过消息队列触发反馈更新步骤见3.4.2节。3.8 系统闭环方程综合上述定义五元结构的完整闭环递推过程可用以下方程统一描述St1g(St, π(C(fLLM(StMAP,D), R, H)), Et)St1​g(St​, π(C(fLLM​(StMAP​,D), R, H)), Et​)其中$f_{\text{LLM}}$是LLM层的生成函数$C$是HIC层的控制函数$\pi$是ACTION层的策略映射函数$g$是状态更新函数由TSPR层的贝叶斯滤波实现该方程构成了一个基于概率递推和控制论的完备自适应循环系统在“感知→建模→生成→控制→执行→反馈”中持续递推每一轮迭代都使状态估计更加精准决策更加可靠。4 工程化实现路径为实现上述理论模型本文提出以下关键技术选型与架构设计。4.1 技术栈总览层级 模块功能 技术实现建议WEB 多源数据采集与结构化 Apache Kafka消息队列、Flink流处理、Avro数据序列化TSPR 用户状态概率递推 Redis状态存储、NumPy/C核心计算、离散贝叶斯滤波LLM 语义推理与决策生成 GPT-4 API 或 Llama 3 本地部署、LangChain提示词管理HIC 规则校验与人工干预 Open Policy Agent (OPA)、React/Vue管理仪表盘ACTION 任务执行与反馈收集 Celery异步任务队列、REST API网关、Prometheus监控4.2 数据流与接口设计WEB → TSPR通过Kafka topic web_events推送标准化事件元组。TSPR消费者轮询拉取批量处理。TSPR → LLMTSPR将状态摘要写入Redis键user:{user_id}:stateLLM层通过REST API读取。LLM → HICLLM输出$Y$以JSON格式通过gRPC或HTTP发送到HIC服务。HIC → ACTIONHIC输出$Y’$通过消息队列action_requests发送。ACTION → TSPRACTION执行后反馈$E_t$通过另一个Kafka topic action_feedback回传。4.3 核心算法伪代码TSPR层核心更新函数Python风格伪代码pythonclass TSPREngine:def __init__(self, trans_mat, obs_likelihood, feedback_likelihood):self.trans_mat trans_mat # 状态转移矩阵self.obs_likelihood obs_likelihood # P(O|S)self.feedback_likelihood feedback_likelihood # P(E|S)self.belief None # 当前概率分布def predict(self, prev_belief, last_action):预测步骤: P(S_t^-) sum P(S_t|S_{t-1}, A) * P(S_{t-1})new_belief np.zeros(self.n_states)for s_prev in range(self.n_states):trans_prob self.trans_mat[:, s_prev, last_action]new_belief trans_prob * prev_belief[s_prev]return new_beliefdef update(self, belief_prior, observation):更新步骤: P(S_t) η * P(O|S) * P(S_t^-)likelihood self.obs_likelihood[observation, :]posterior likelihood * belief_priorposterior / posterior.sum()return posteriordef step(self, observation, last_action, feedbackNone):执行一步完整递推# 预测self.belief self.predict(self.belief, last_action)# 观测更新self.belief self.update(self.belief, observation)# 反馈更新如有if feedback is not None:feedback_lik self.feedback_likelihood[feedback, :]self.belief self.update(self.belief, feedback_lik) # 复用updatereturn self.belief4.4 可扩展性与性能考量状态空间大小若|S|100每次更新O(|S|^2) 10,000次浮点运算对百万用户需优化。可采用稀疏矩阵、仅更新活跃用户LRU缓存、近似推理粒子滤波。实时性要求TSPR更新应在10ms内完成。使用C/Rust实现核心循环通过Python绑定调用。容错与持久化定期将用户状态快照保存到S3或HDFS服务重启时从最近快照恢复。5 理论分析与实验验证5.1 理论性质分析命题1可解释性五元结构的任何最终决策$Y’$均可追溯其完整的生成路径$O_t$数据来源→ $P(S_t)$状态信念→ $Y$LLM原始输出→ $rule_hit$触发的HIC规则。此路径提供了比单一LLM输出丰富得多的解释信息。证明略通过记录每一层的输入输出和中间结果可以构建完整的决策溯源链。■命题2可控性对于任何违反规则集$R$的LLM原始输出$Y$控制函数$C$将确保$Y’ \in \mathcal{Y}_{\text{safe}}$。通过将$R$设计为包含所有安全与业务约束可形式化保证系统输出的安全性。证明略由规则引擎的执行流程可知任何匹配reject规则的$Y$都会被替换为默认安全动作任何modify规则都会将$Y$修正为满足约束的形式。■命题3闭环自适应性反馈$E_t$通过TSPR层的状态更新方程直接影响未来状态估计进而影响后续所有决策。这构成了一个完整的、以经验为依据的学习闭环。证明略将反馈$E_t$代入贝叶斯更新公式可见$P(S_t)$依赖于$P(E_t|S_t)$而$E_t$是$A_t$的函数$A_t$又依赖于$P(S_{t-1})$。因此历史反馈通过状态分布传播到未来决策。■5.2 仿真实验设置为了验证五元结构的有效性我们设计了一个电商智能导购Agent的仿真环境。环境描述用户类型3种价格敏感型、品牌偏好型、随机浏览型商品池100个商品每个有价格、类别、品牌属性用户行为模拟基于有限状态机用户根据推荐内容决定点击、购买或离开基线模型B1纯LLM直接输入用户问题LLM输出推荐。B2LLMPrompt约束在Prompt中加入安全规则如“不推荐超过200元的商品”。B3ReAct AgentLLM可以调用商品搜索工具。B4五元结构完整版本文提出的模型。评估指标采纳率用户按推荐操作的比率点击/购买。违规率输出违反HIC规则的次数占总决策数的比例。平均决策延迟从用户输入到ACTION执行的时间毫秒。实验流程生成1000个模拟用户会话每个会话平均10轮交互。每个基线模型独立运行所有会话记录指标。重复5次取平均值。5.3 实验结果模型 采纳率 (%) 违规率 (%) 延迟 (ms)B1 (纯LLM) 32.4 12.7 850B2 (LLMPrompt) 38.1 6.3 920B3 (ReAct) 45.2 8.1 1250B4 (五元结构) 58.7 0.8 1180结果分析五元结构在采纳率上比最佳基线ReAct提升13.5个百分点主要得益于TSPR层提供的精准用户状态估计。违规率降至0.8%远低于其他模型证明了HIC层规则引擎的有效性。延迟略高于纯LLM但低于ReAct因ReAct需多次调用LLM工具。五元结构的额外开销主要来自TSPR计算可通过优化控制在可接受范围。5.4 消融研究为验证每一层的重要性我们设计了三个变体V1移除TSPR直接使用原始用户问题作为LLM输入。V2移除HICLLM输出直接进入ACTION层无规则校验。V3移除反馈ACTION执行后不将反馈回传至TSPR。变体 采纳率 (%) 违规率 (%) 备注V1 42.3 0.9 采纳率下降16.4%表明TSPR对决策质量贡献显著V2 57.1 9.4 违规率飙升表明HIC对可控性至关重要V3 49.2 0.8 采纳率下降9.5%且多轮对话后期下降更明显无学习能力B4 (完整) 58.7 0.8 –消融实验证实TSPR、HIC和反馈闭环三者缺一不可分别贡献于决策质量、安全可控和持续学习。5.5 讨论局限性当前实验基于模拟环境真实用户行为可能更复杂。TSPR的状态空间离散化可能丢失部分信息连续状态空间的粒子滤波实现将是下一步工作。LLM调用成本较高五元结构的部署需要权衡性能与开销。适用场景五元结构特别适合需要状态追踪、安全约束和闭环优化的决策场景如智能客服、自动化营销、企业流程自动化、机器人控制等。6 结论与展望本文提出的五元结构TSPR-WEB-LLM-HIC-A理论模型通过将概率递推建模、生成式AI、形式化控制与闭环执行整合为一个有机整体从根本上回应了当前生成式AI系统在决策应用中的可控性、可解释性和自适应性问题。该模型不仅具有坚实的理论基础融合了贝叶斯滤波、控制论和MDP也提供了清晰的工程化实现路径。理论分析和仿真实验表明五元结构相比现有基线模型在决策采纳率上提升超过13个百分点违规率降低至0.8%以下显著提升了AI决策系统的可靠性和智能水平。未来的研究工作将聚焦于以下几个方面TSPR算法优化研究在高维、连续状态空间下的高效近似推理算法如粒子滤波、变分推理以处理更复杂的用户行为模式。HIC与LLM的深度协同探索将HIC的规则约束通过强化学习的方式内化为LLM的软性偏好减少硬性拒绝带来的用户体验损失。记忆网络融合在五元结构中引入长期记忆模块如向量数据库使TSPR状态能够访问跨会话的用户历史摘要信息。真实场景部署在电商推荐、智能客服等真实场景中部署五元结构原型系统进行大规模在线A/B测试。五元结构为构建下一代可靠、可控、可进化的AI决策操作系统提供了一个有前景的蓝图。参考文献[1] Sutton R S, Barto A G. Reinforcement learning: An introduction. MIT press, 2018.[2] Murphy K P. Dynamic bayesian networks: representation, inference and learning. UC Berkeley, 2002.[3] Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedback. UAI 2009.[4] Yao S, Zhao J, Yu D, et al. ReAct: Synergizing reasoning and acting in language models. ICLR 2023.[5] Significant Gravitas. AutoGPT. GitHub repository, 2023.[6] Qiao B, Li L, Zhang Y, et al. TaskWeaver: A code-first agent framework. arXiv:2311.17541, 2023.[7] Amershi S, Weld D, Vorvoreanu M, et al. Guidelines for human-AI interaction. CHI 2019.[8] Doshi-Velez F, Kim B. Towards a rigorous science of interpretable machine learning. arXiv:1702.08608, 2017.[9] Bai Y, Kadavath S, Kundu S, et al. Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073, 2022.[10] Mei Y, Li J, Zhang Y, et al. AgentOS: An operating system for AI agents. arXiv:2401.01445, 2024.[11] Alibaba Group. Agentic OS: Empowering multi-agent collaboration. Alibaba Technology Report, 2024.[12] OpenClaw Team. OpenClaw: A five-layer architecture for robotic control. GitHub repository, 2024.附录核心符号表符号 含义$S_t$ 时间步$t$的系统状态随机变量$O_t$ 时间步$t$的观测$Y$ LLM生成的原始决策候选$Y’$ HIC校验后的安全决策$A_t$ 时间步$t$执行的动作$E_t$ 时间步$t$执行后的环境反馈$P(S_t)$ 状态概率分布$\eta$ 归一化常数$R$ 规则集$H$ 人工干预接口$\mathcal{Y}_{\text{safe}}$ 安全决策空间

更多文章