黄南藏族自治州网站建设_网站建设公司_CMS_seo优化-贺州市网站建设公司

监督学习（比如分类，回归）：本质是“老师教学生”——给固定的“输入-输出答案”（比如图片->猫/狗标签、历史数据->股票价格），模型学“输入到答案的映射”，学会就只能做同类预测。
强化学习：是“学生自己摸爬滚打”——没有固定答案，只有“教练给反馈”（奖励/惩罚），模型（智能体）要通过不断和环境互动，试错找到“长期收益最高的做事方式”（最优策略）。

举两个直观例子：

学习范式	核心逻辑	生活类比	典型任务
监督学习	学 “输入→输出” 的映射	背单词（单词→中文意思，有标准答案）	股票预测、图像分类
强化学习	学 “状态→动作→奖励” 的最优策略	学骑自行车（没人教 “每一步怎么蹬”，摔了 = 惩罚、稳住 = 奖励，自己试错找到平衡方法）	机器人导航、围棋 AI、文本生成

这5个概念是RL的基石

核心逻辑链：

智能体在“状态S”下选“动作A”->环境变到新状态S'->环境给“奖励R”->智能体根据奖励调整决策，最终找到“赢棋概率最高的落子方式”。

如果把智能体比作“想赢棋得棋手”，这两个技能就是“怎么落子”和“怎么判断局势”

策略是一个函数：

黄南藏族自治州网站建设_网站建设公司_CMS_seo优化