查看: 68|回复: 1

TD中Q函数更新公式怎么解释它合理性?

[复制链接]
论坛徽章:
2
知识图谱徽章
日期:2018-06-15 13:47:21OpenAI课程徽章
日期:2018-08-16 15:34:25
发表于 2018-7-12 23:37 | 显示全部楼层 |阅读模式

算法 函数 公式

RT,该公式为第四课中关于TD算法中Q函数的更新公式的合理性怎么说呢?  视频中没说明,避开了

回复

使用道具 举报

论坛徽章:
8
python徽章
日期:2017-11-09 17:09:37Julia徽章
日期:2017-12-25 17:39:25Java徽章
日期:2018-02-08 16:11:57金融徽章
日期:2018-03-01 16:43:15Hadoop研习者初级
日期:2018-03-29 16:08:43Keras徽章
日期:2018-04-08 16:26:06知识图谱徽章
日期:2018-06-15 13:47:21OpenAI课程徽章
日期:2018-08-16 15:34:26
发表于 2018-7-13 21:54 | 显示全部楼层
td和mc推导到最后相差不多,差别在于td的起始位置是不断变化的,而mc的起始位置一直都是一个。α作为步长的话,可以使到梯度每次都能前进一点,能够适应任何方向,优化问题的话,方向是对的,就能优化好。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-21 05:52 , Processed in 0.343415 second(s), 32 queries .