无限期强化学习中的策略迭代与价值空间近似
1. 策略迭代算法概述
策略迭代(PI)算法是强化学习中的重要方法,与之前的近似值迭代(VI)相比,当状态数量较大时,其性能保证更具优势。PI算法的核心思想与第2章的滚动算法类似,都是从某个策略开始,通过成本函数评估和一步或多步最小化来产生改进的策略。PI算法则是将这一思想扩展为多次连续的策略评估和策略改进过程。
2. 精确策略迭代
精确策略迭代在不同问题中有不同的应用,下面分别介绍在SSP问题和折扣问题中的应用。
2.1 SSP问题中的精确策略迭代
对于SSP问题,每个策略迭代包含两个阶段:策略评估和策略改进。
-策略评估:给定典型策略 $\mu_k$,计算 $J_{\mu_k}(i)$($i = 1, \ldots, n$)作为以下线性贝尔曼方程组的解:
[J_{\mu_k}(i) = \sum_{j=1}^{n} p_{ij}(\mu_k(i)) \left[ g(i, \mu_k(i), j) + J_{\mu_k}(j) \right], \quad i = 1, \ldots, n]
-策略改进:计算新策略 $\mu_{k + 1}$ 如下:
[\mu_{k + 1}(i) \in \arg \min_{u \in U(i)} \sum_{j=1}^{n} p_{ij}(u) \left[ g(i, u, j) + J_{\mu_k}(j) \right], \quad i = 1, \ldots, n]
重复此过程,直到 $J_{\mu_{k +