一. 背景
1.1 基础组成部分
-
强化学习里面包含三个部件:Actor,environment,reward function
文章来源:https://www.toymoban.com/news/detail-456896.html
-
Actor : 表示角色,是能够被玩家控制的。文章来源地址https://www.toymoban.com/news/detail-456896.html
- Policy of Actor:在人工智能中,Policy π \pi π 可以表示为一个神经网络,参数为 θ \theta
到了这里,关于强化学习系列之Policy Gradient算法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!