RL的概念

2022-03-11 Views 研究159字1 min read
  • Reward: rr,奖励,由环境给出
  • Q: Q值,状态-动作值函数,Q(s,a)Q(s,a)衡量在状态s选择动作a的好坏
  • V: 价值函数,V(s)V(s)衡量了状态s的好坏
  • A: 优势函数,Aπ(s,a)=Qπ(s,a)Vπ(s)A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s)衡量了策略π\pi执行a动作能比平均表现好多少
  • Return: RR,回报,考虑长远效益的奖励累积,例如折扣回报的计算方式为Rt=l=0γlrt+lR_t=\sum_{l=0}^{\infty} \gamma^l r_{t+l}
EOF