查看: 100|回复: 4

TD中Q函数更新公式怎么解释它合理性?

[复制链接]
论坛徽章:
2
知识图谱徽章
日期:2018-06-15 13:47:21OpenAI课程徽章
日期:2018-08-16 15:34:25
发表于 2018-7-12 23:37 | 显示全部楼层 |阅读模式

算法 函数 公式

RT,该公式为第四课中关于TD算法中Q函数的更新公式的合理性怎么说呢?  视频中没说明,避开了

回复

使用道具 举报

论坛徽章:
9
python徽章
日期:2017-11-09 17:09:37Julia徽章
日期:2017-12-25 17:39:25Java徽章
日期:2018-02-08 16:11:57金融徽章
日期:2018-03-01 16:43:15Hadoop研习者初级
日期:2018-03-29 16:08:43Keras徽章
日期:2018-04-08 16:26:06知识图谱徽章
日期:2018-06-15 13:47:21OpenAI课程徽章
日期:2018-08-16 15:34:26Tensorflow徽章
日期:2018-10-18 15:27:38
发表于 2018-7-13 21:54 | 显示全部楼层
td和mc推导到最后相差不多,差别在于td的起始位置是不断变化的,而mc的起始位置一直都是一个。α作为步长的话,可以使到梯度每次都能前进一点,能够适应任何方向,优化问题的话,方向是对的,就能优化好。
回复 支持 反对

使用道具 举报

论坛徽章:
1
OpenAI课程徽章
日期:2018-11-09 11:07:08
发表于 2018-9-21 13:51 | 显示全部楼层
第一行和第三行的公式应该属于确定性的MDP过程。第二行写的是随机MDP,也就是每个动作之后还可能产生多种可能状态。但是确定的MDP在选定动作之后,只有一种状态。
回复 支持 反对

使用道具 举报

论坛徽章:
1
OpenAI课程徽章
日期:2018-11-09 11:07:08
发表于 2018-9-27 17:32 | 显示全部楼层
第二个公式的随机部分应该理解为状态转移概率不确定。而第一和三个公式里的状态转移是的。
回复 支持 反对

使用道具 举报

论坛徽章:
1
OpenAI课程徽章
日期:2018-11-09 11:07:08
发表于 2018-9-27 17:34 | 显示全部楼层
状态转移是的也就是说从一个状态到下一个状态的转移概率在这个动作下的概率是1,而转移到别的状态的概率为0。仍然可以视为第二个公式的特殊情况。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-11-13 03:40 , Processed in 0.166711 second(s), 46 queries .