RL的概念

2022-03-11 Views 研究159字1 min read繁

Reward: $r$ ，奖励，由环境给出
Q: Q值，状态-动作值函数， $Q(s,a)$ 衡量在状态s选择动作a的好坏
V: 价值函数， $V(s)$ 衡量了状态s的好坏
A: 优势函数， $A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s)$ 衡量了策略 $\pi$ 执行a动作能比平均表现好多少
Return: $R$ ，回报，考虑长远效益的奖励累积，例如折扣回报的计算方式为 $R_t=\sum_{l=0}^{\infty} \gamma^l r_{t+l}$