黄南藏族自治州网站建设_网站建设公司_CMS_seo优化
2026/1/17 15:35:55 网站建设 项目流程

一、强化学习(RL)和监督学习(SL)的核心区别

  • 监督学习(比如分类, 回归):本质是“老师教学生”——给固定的“输入-输出答案”(比如图片->猫/狗标签、历史数据->股票价格),模型学“输入到答案的映射”,学会就只能做同类预测。
  • 强化学习:是“学生自己摸爬滚打”——没有固定答案,只有“教练给反馈”(奖励/惩罚),模型(智能体)要通过不断和环境互动,试错找到“长期收益最高的做事方式”(最优策略)。

举两个直观例子:

学习范式核心逻辑生活类比典型任务
监督学习学 “输入→输出” 的映射背单词(单词→中文意思,有标准答案)股票预测、图像分类
强化学习学 “状态→动作→奖励” 的最优策略学骑自行车(没人教 “每一步怎么蹬”,摔了 = 惩罚、稳住 = 奖励,自己试错找到平衡方法)机器人导航、围棋 AI、文本生成

二、强化学习的5个核心概念(用“围棋AI”贯穿理解)

这5个概念是RL的基石

  1. 智能体(Agent):做决策的主题——就是这个围棋AI(可以是深度学习模型,实体机器人等)
  2. 环境(Environment):智能体互动的场景——围棋规则(落子规则、输赢判断)+ 实时棋盘 
  3. 状态(State,S):环境的当前情况——当前棋盘上的棋子布局(比如“黑棋占右上角,白棋占中路”)
  4. 动作(Action,A):智能体的决策——AI下一步落子的位置(比如“右下星位”)
  5. 奖励(Reward,R):环境给智能体的反馈——赢棋得+1分(正奖励)、输棋得-1分(负奖励),无关落子得0分(无奖励)

核心逻辑链:

智能体在“状态S”下选“动作A”->环境变到新状态S'->环境给“奖励R”->智能体根据奖励调整决策,最终找到“赢棋概率最高的落子方式”。

三、智能体要学的2个核心技能:策略和价值函数

如果把智能体比作“想赢棋得棋手”,这两个技能就是“怎么落子”和“怎么判断局势”

1.策略(Policy,π):“落子的决策指南”

策略是一个函数:

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询