20181129-Visual-RL-image-goal

Posted by Cww97 on 2018-11-29

年久失修的强化与概率论

为了清楚起见,我们先定义一些符号:

  1. stochastic policy \(\pi(s)\) 决定了 agent's action, 这意味着,其输出并非 single action,而是 distribution of probability over actions (动作的概率分布),sum 起来为 \(1\).
  2. \(\pi(a|s)\) 表示在状态 \(s\) 下,选择 action \(a\) 的概率;

而我们所要学习的策略 π,就是关于 state \(s\) 的函数,返回所有 actions 的概率。

我们知道,agent 的目标是最大化所能得到的奖励(reward),我们用 reward 的期望来表达这个。在概率分布 P 当中,value \(X\) 的期望是:

\[E_P[X] = \sum_i{P_iX_i}\]

其中 \(X_i\)\(X\) 的所有可能的取值,\(P_i\) 是对应每一个 value 出现的概率。期望就可以看作是 value \(X_i\) 与 权重 \(P_i\) 的加权平均。不就是个数学期望吗

我们再来定义 policy \(\pi\)value function \(V(s)\),将其看作是 期望的折扣回报 (expected discounted return),可以看作是下面的迭代的定义:

\[V(s) = E_{\pi(s)}[r + \gamma V(s')]\]

这个函数的意思是说:当前状态 s 所能获得的 return,是下一个状态 s‘ 所能获得 return 和 在状态转移过程中所得到 reward r 的加和。

此外,还有 action value function \(Q(s, a)\),这个和 value function 是息息相关的,即:

\[Q(s, a) = r + \gamma V(s')\]

此时,我们可以定义一个新的 function \(A(s, a)\) ,这个函数称为 优势函数(advantage function):

\[A(s, a) = Q(s, a) - V(s)\]

其表达了在状态 \(s\) 下,选择动作 \(a\) 有多好。如果 action \(a\) 比 average 要好,那么,advantage function 就是 positive 的,否则,就是 negative 的。

简单而言,这个期望内部的两项:

第一项,是优势函数,即:选择该 action 的优势,当低于 average value 的时候,该项为 negative,当比 average 要好的时候,该项为 positive;是一个标量(scalar);

第二项,告诉我们了使得 log 函数 增加的方向;

将这两项乘起来,我们发现:likelihood of actions that are better than average is increased, and likelihood of actions worse than average is decreased.

Actor-Critic

Reference