学习RL(五)

1. 为什么要有Policy Gradient

学习RL(三)当中提到，相比策略评估和策略迭代分开进行的方法，GPI已经有了进步，能够在策略评估的阶段就先把actions: (离散的)遍历一遍，找到使得action-value （为了把概念表达清晰，这里我想纠正我之前的blog当中对action-value采用的符号：）最大的那个 : 。之前在写blog的时候，脑子里面一直就藏着一个大问号：如果是控制电机的转速这种连续的场景，该怎么遍历呢？当时我的想法是将分段考虑，但是直到我知道有Policy Gradient。

2. 什么是函数的Gradient

梯度一般是在函数自变量空间当中的一个向量（假设函数的自变量是一个向量），坐标系统是在一个垂直正交的系统中，就是一个在坐标系统中有方向有大小的向量，方向代表了自变量沿着该方向移动微小距离，函数变化最大。)。 Gradient pic

3. 算法推导

对比之前的依据action-value寻找上的，本方法依旧会使用，但是并不在每次的迭代中（GDI）去直接做action的选择，而是参与到对（1）的梯度计算当中。

In this chapter we consider methods for learning the policy parameter based on the gradient of some performance measure with respect to the policy parameter. These methods seek to maximize performance, so their updates approximate gradient ascent in ：