100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > AI内训讲师叶梓-强化学习与深度强化学习提纲(强化学习讲师培训)

AI内训讲师叶梓-强化学习与深度强化学习提纲(强化学习讲师培训)

时间:2022-04-03 23:13:29

相关推荐

AI内训讲师叶梓-强化学习与深度强化学习提纲(强化学习讲师培训)

叶梓老师更多教程资料可点击个人主业​​​​​​​查看

第一天 强化学习

第一课 强化学习综述

1.强化学习要解决的问题

2.强化学习方法的分类

3.强化学习方法的发展趋势

4.环境搭建实验(Gym,TensorFlow等)

5.Gym环境的基本使用方法

第二课 马尔科夫决策过程

1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程

2.MDP基本元素:策略、回报、值函数、状态行为值函数

3.贝尔曼方程

4.最优策略

案例:构建机器人找金币和迷宫的环境

第三课 基于模型的动态规划方法

1.动态规划概念介绍

2.策略评估过程介绍

3.策略改进方法介绍

4.策略迭代和值迭代

案例:实现基于模型的强化学习算法

第四课 蒙特卡罗方法

1.蒙特卡罗策略评估

2.蒙特卡罗策略改进

3.基于蒙特卡罗的强化学习

4.同策略和异策略

案例:利用蒙特卡罗方法实现机器人找金币和迷宫

第五课 时序差分方法

1.DP,MC和TD方法比较

2.MC和TD方法偏差与方差平衡

3.同策略TD方法:Sarsa方法

4.异策略TD方法:Q-learning方法

案例:Q-learning和Sarsa的实现

第二天 从强化学习到深度强化学习

第一课 基于值函数逼近方法(强化学习)

1.维数灾难与表格型强化学习

2.值函数的参数化表示

3.值函数的估计过程

4.常用的基函数

第二课 基于值函数逼近方法(深度学习与强化学习的结合)

1.简单提一下深度学习

2.深度学习与强化学习的结合

3.DQN方法介绍

4.DQN变种:Double DQN, Prioritized Replay, Dueling Network

案例:用DQN玩游戏——flappy bird

第三课 策略梯度方法(强化学习)

1.策略梯度方法介绍

2.常见的策略表示

3.常见的减小方差的方法:引入基函数法,修改估计值函数法

案例:利用gym和tensorflow实现小车倒立摆系统等

第四课Alpha Go(深度学习与强化学习的结合)

1.MCTS

2.策略网络与价值网络

3.Alpha Go的完整架构

第五课GAN(深度学习)

1.VAE与基本GAN

2.DCGAN

3.WGAN

案例:生成手写数字的GAN

第三天 深度强化学习进阶

第一课AC类方法-1

1. PG的问题与AC的思路

2. AC类方法的发展历程

3. Actor-Critic基本原理

第二课AC类方法-2

1. DPG方法

2. DDPG方法

3. A3C方法

案例:AC类方法的案例

第三课 信赖域系方法-1

1.信赖域系方法背景

2.信赖域系方法发展路线图

3.TRPO方法

案例:TRPO方法的案例

第四课 信赖域系方法-2

1.PPO方法

2.DPPO方法简介

3.ACER方法

案例:PPO方法的案例

第五课 多Agent强化学习

1.矩阵博弈

2.纳什均衡

3.多人随机博弈学习

4.完全合作、完全竞争与混合任务

5.MADDPG

案例:MADDPG的案例等

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。