查看: 641|回复: 3

【课程调查】课程《强化学习》正在调研中,欢迎参与讨论!

[复制链接]
新浪微博达人勋 岸岸  未实名认证
论坛徽章:
1258
Hadoop研习者初级
日期:2013-08-25 13:46:57python徽章
日期:2013-08-25 13:53:26Oracle研习者高级
日期:2013-08-25 14:23:36Oracle研习者高级
日期:2013-08-25 14:23:53Oracle研习者高级
日期:2013-08-25 14:24:26Oracle研习者高级
日期:2013-08-25 14:25:21Oracle研习者高级
日期:2014-09-19 13:53:06Oracle研习者高级
日期:2014-09-19 13:53:26Oracle研习者高级
日期:2014-09-19 13:54:05nosql徽章
日期:2014-09-19 14:03:04Hadoop研习者初级
日期:2014-09-19 14:12:21Oracle研习者高级
日期:2014-09-19 14:27:40
发表于 2017-10-27 11:02 | 显示全部楼层 |阅读模式

算法 模型 编程 培训 案例

会员photoman007建议开设此课程,建议内容如下,大家看看如何,欢迎跟帖提出建议:

申请原因:进一步拓展机器学习的知识,对深度学习这个领域进行解惑和学习

课程内容:Reinforcement Learning这本作为主要教材进行讲授

课程大纲:1. 增强学习的问题
1.1 增强学习
1.2 案例
1.3 增强学习要素
1.4 限制和范围
1.5 一个延伸案例:Tic-Tac-Toe
1.6 小结
1.7 增强学习的历史
1.8 参考文献

列表法
2. 多臂赌博机(Muti-arm Bandits)问题
2.1 K-臂赌博机问题
2.2 行动值方法
2.3 增量实现
2.4 追踪一个非稳态解
2.5 优化初始值
2.6 置信上界行动选择
2.7 梯度赌博机算法
2.8 关联检索
2.9 小结

3. 有限马尔科夫决策过程
3.1 代理(agent)环境交互
3.2 目标和回馈
3.3 返回
3.4 为插入或连续性任务统一符号
3.5 马尔科夫属性
3.6 马尔科夫决策过程
3.7 价值函数
3.8 优化价值函数
3.9 优化和近似
3.10 总结

4. 动态编程
4.1 策略估计
4.2 策略改进
4.3 策略迭代
4.4 迭代值
4.5 异步动态编程
4.6 泛化的策略迭代
4.7 动态编程的效果
4.8 总结

5. 蒙特卡洛方法
5.1 蒙特卡洛预测
5.2 蒙特卡洛对行动价值的评估
5.3 蒙特卡洛控制
5.4 不读取(Explore)开始条件下的蒙特卡洛控制
5.5 通过重要抽样进行无策略(off-Policy)预测
5.6 增量实现
5.7 Off-Policy 蒙特卡洛控制
5.8 专用于返回的重要抽样
5.9 总结

6. 时间差分(TD)学习
6.1 时间差分预测
6.2 时间差分预测方法的优势
6.3 TD(o)的较佳性
6.4 Sarsa:在策略(On-Policy) TD 控制
6.5 Q-Learning:连策略TD 控制
6.6 期待的Sarsa
6.7 偏差较大化和双学习
6.8 游戏、afterstates 和其他具体案例
6.9 总结

7. 多步骤 bootstrapping
7.1 n-step TD 预测
7.2 n-step Sarsa
7.3 通过重要性抽样进行 n-step 离策略学习
7.4 无重要性抽样下的离策略学习:n-step 树反向算法
7.5 一个统一的算法:n-step Q( σ)
7.6 总结

8. 用列表方法进行计划和学习
8.1 模型和计划
8.2 Dyna:融合计划、行动和学习
8.3 模型错了会发生什么
8.4 优先扫除 (prioritized sweeping)
8.5 计划作为行动选择的一部分
8.6 启发式搜索
8.7 蒙特卡洛树搜索
8.8 总结

近似法解决方案
9. 使用近似法的在政策预测
9.1 价值函数的近似
9.2 预测目标(MSVE)
9.3 随机梯度和半梯度的方法
9.4 线性方法
9.5 线性方法中的特征构建
9.5.1 多项式
9.5.2 傅里叶基础
9.5.3 Coarse coding
9.5.4 Tile Coding
9.5.5 径向基函数
9.6 非线性函数近似:人工神经元网络
9.7 最小平方TD
9.8 总结

10. 用近似法控制on-policy 在策略
10.1 插入式的半梯度控制
10.2 n-step 半梯度Sarsa
10.3 平均回馈:连续任务中的新问题设定
10.4 “打折”的设置要考虑可用性
10.5 n-step 差分半梯度Sarsa
10.6 总结

11. 使用近似法的离策略方法
11.1 半梯度的方法
11.2 Barid 的反例
11.3 The deadly triad

12. 合格性追踪
12.1 λ-返回
12.2 TD(λ)
12.3 一个在线前瞻
12.4 真实的在线TD(λ)
12.5 蒙特卡洛学习中的Dutch Traces

13. 策略梯度方法
13.1 策略近似及其优势
13.2 策略梯度的原理
13.3 增强:蒙特卡洛策略梯度
13.4 使用基准增强
13.5 评估-决策方法(Actor-Critic)
13.6 连续问题中的策略梯度(平均回馈率)
13.7 连续行动中的策略参数化

更深层的展望
14.心理学
14.1 术语
14.2 预测和控制
14.3 经典的调节
14.3.1 rescorla wagner 方法
14.3.2 TD模型
14.3.3 TD 模型模拟
14.4 有用条件
14.5 延迟的增强
14.6 认知图
14.7 习惯和目标导向的行为
14.8 总结
14.9 结论
14.10 参考文献

15. 神经科学
15.1 神经科学基础
15.2 回馈信号、价值、预测误差和增强信号
15.3 回馈预测误差假设
15.4 回馈预测误差假设的实验支持
15.6 TD 误差/ 多巴胺对应
15.7 神经评估-决策
15.8 评估-决策的学习规则
15.9 快乐主义的神经元
15.10 集体增强学习
15.11 大脑中基于模型的方法
15.12 上瘾
15.13 总结
15.14 结论
15.15 参考文献

16. 应用和案例分析
16.1 TD-Gammon
16.2 Samuel 的西洋棋玩家
16.3 Acrobot
16.4 Watson的 Daily-Double(双保险,指在赛马中用一笔赌注买两匹马)。
16.5 优化记忆控制
16.6 人类水平的电子游戏
16.7 下围棋
16.8 热气流滑翔
16.9 个性的网页服务


支持开课,请进入培训首页下方,调查课程中点击 “我支持开课”:http://edu.dataguru.cn/ 如若你有希望我们开设的课程,可以在培训首页点击 “我希望开这门课”提交你的建议,您提交的课程最终开课,你将可以免费学习此课程哦!
回复

使用道具 举报

论坛徽章:
28
知识图谱徽章
日期:2018-06-15 13:47:20机器学习徽章
日期:2016-05-26 12:32:20架构徽章
日期:2018-06-14 15:37:42测试徽章
日期:2016-02-02 20:53:11Excel徽章
日期:2017-05-11 17:14:44Java徽章
日期:2018-01-04 17:15:14python徽章
日期:2018-06-07 16:21:43Hadoop研习者中级
日期:2017-06-01 17:06:50Oracle研习者初级
日期:2017-10-26 15:09:26nosql徽章
日期:2013-05-09 17:05:06R研习者中级
日期:2017-10-26 15:08:38算法导论徽章
日期:2017-06-01 17:07:52
发表于 2017-10-30 16:39 | 显示全部楼层
这个必须支持~
回复 支持 反对

使用道具 举报

论坛徽章:
27
python徽章
日期:2016-08-25 10:57:55算法导论徽章
日期:2016-03-16 10:46:54机器学习徽章
日期:2015-07-09 11:01:46pyspark徽章
日期:2018-04-08 16:26:31matlab徽章
日期:2018-03-29 16:03:57spark徽章
日期:2016-10-27 10:48:50linux徽章
日期:2016-03-03 15:43:37scala徽章
日期:2016-11-17 15:57:56Java徽章
日期:2015-05-14 10:24:43Hadoop研习者中级
日期:2017-11-09 17:09:09Oracle研习者中级
日期:2016-09-08 11:04:50SAS研习者初级
日期:2016-06-16 11:01:52
发表于 2017-11-9 17:45 | 显示全部楼层
加油加油,把这个课出来
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

 

GMT+8, 2018-9-26 22:14 , Processed in 0.100615 second(s), 41 queries .