浙江省网站建设_网站建设公司_Django_seo优化-阿拉尔市网站建设公司

RSSM的世界模型 loss 本质是 ELBO：观测重建（+奖励预测）项，减去一个把后验拉向先验的 KL 正则项。

策略：从状态到动作（或动作分布）的映射。

重建是h,z->o,r和o,r的差

KL是h,a,o -> z和 h,a -> z的差

critic（值函数）是在 world model 里、沿着当前策略（actor）生成的想象轨迹，回归“想象回报目标（λ-return）”的神经网络

创新点在于不改环境奖励，只改策略学习时的“风险调整回报目标”，让 value/advantage 自动把高不确定/高风险区域判成“低价值”，从而把 actor 推向更保守的行为。

强化学习是让智能体在环境里试错互动：根据状态选动作，环境给奖励并转移到下一状态。目标最大化长期累计回报。通常要么学价值函数评估动作好坏，或直接学策略并处理探索和利用的权衡。

世界模型就是一个学出来的环境近似：输入当前隐状态（由当前观测+历史记忆编码得到）和动作，预测下一步隐状态以及奖励。它的意义是：用少量真实交互把模型校准后，可以在模型里快速 rollout 多步，来做规划或训练策略/值函数，让每一步真实数据更值钱、更省样本。

隐状态是世界模型和真实观测之间的桥：观测历史压缩成一个内部状态st=(ht,zt)s_t=(h_t,z_t)st=(ht,zt)，其中hth_tht负责记忆历史，ztz_tzt负责表达不确定性。真实交互时用观测把隐状态校正成后验，想象时只用（隐状态+动作）推进到下一步并预测奖励。

隐状态和世界模型让离散的s,a->r映射建模为了一套可导的函数，从而把昂贵、不可反传的真实交互，替换成模型里低成本的多步 rollout（想象/模拟经验）；并且因为这条计算链是可导的，‘长期回报/价值’的优化信号可以在模型内反向传播到要学习的函数（策略/值函数）参数上——所以同样一段真实数据能被反复利用、触发更多次更新，显著提高样本效率。

真实交互昂贵指“数据获取成本”（慢/危险/难并行/有预算），世界模型用可并行算力在模型内生成多步想象经验，从而减少所需真实交互步数，提高样本效率。

浙江省网站建设_网站建设公司_Django_seo优化

热门文章

文章分类

标签云

需要专业的网站建设服务？

浙江省网站建设_网站建设公司_Django_seo优化

热门文章

文章分类

标签云

相关文章

一分钟启动Qwen-Image-2512，AI作画从未如此轻松

ReTerraForged终极指南：3步快速打造震撼Minecraft世界

不用写复杂代码！MGeo让地址对齐变得直观

需要专业的网站建设服务？