RL的概念 2022-03-11 Views 研究159字1 min read繁 Reward: rrr,奖励,由环境给出 Q: Q值,状态-动作值函数,Q(s,a)Q(s,a)Q(s,a)衡量在状态s选择动作a的好坏 V: 价值函数,V(s)V(s)V(s)衡量了状态s的好坏 A: 优势函数,Aπ(s,a)=Qπ(s,a)−Vπ(s)A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s)Aπ(s,a)=Qπ(s,a)−Vπ(s)衡量了策略π\piπ执行a动作能比平均表现好多少 Return: RRR,回报,考虑长远效益的奖励累积,例如折扣回报的计算方式为Rt=∑l=0∞γlrt+lR_t=\sum_{l=0}^{\infty} \gamma^l r_{t+l}Rt=∑l=0∞γlrt+l