名词简称
TD: 时序差分学习(Temporal Difference Learning)
DQN: Deep Q-Network
具体技术
Q-Learning
Q-Learning通过时序差分学习(Temporal Difference Learning)逼近Q ∗ Q^*Q∗.
Q-Learning是离策略(Off-Policy)算法——它用行为策略(Behavior Policy)生成数据,但更新的是目标策略(Target Policy)。这使它能高效利用历史经验。
Q-Learning的数学之美在于:
✅ 通过自举估计(Bootstrapping)将无限时域问题转化为递归计算
✅ 离策略特性使其能高效利用任意策略生成的数据
✅ TD误差提供了无偏且低方差的价值估计更新方向
✅ ϵ-greedy在理论上保证了遍历性,从而确保收敛到全局最优
讲Q-Learning和DQN: 知乎文章