工程師
其他
機(jī)器學(xué)習(xí)
數(shù)據(jù)挖掘
數(shù)據(jù)分析
深度學(xué)習(xí)
強(qiáng)化學(xué)習(xí)
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

深度強(qiáng)化學(xué)習(xí):原理、算法以及應(yīng)用

鄒老師

長(zhǎng)春工業(yè)大學(xué) 人工智能學(xué)院院長(zhǎng)

鄒偉,長(zhǎng)春工業(yè)大學(xué)人工智能學(xué)院院長(zhǎng)、華東建筑設(shè)計(jì)研究總院研究員、山東交通學(xué)院客座教授、南昌航空大學(xué)碩士生導(dǎo)師、中國(guó)軟件行業(yè)協(xié)會(huì)專家委員、天津大學(xué)創(chuàng)業(yè)導(dǎo)師、中華中醫(yī)藥學(xué)會(huì)會(huì)員、中國(guó)醫(yī)藥教育協(xié)會(huì)老年運(yùn)動(dòng)與健康分會(huì)學(xué)術(shù)委員;領(lǐng)導(dǎo)團(tuán)隊(duì)與全國(guó)兄弟高校、企業(yè)建立了廣泛的項(xiàng)目合作,完成50多個(gè)深度學(xué)習(xí)實(shí)踐項(xiàng)目,應(yīng)用于醫(yī)療、交通、農(nóng)業(yè)、氣象、銀行、電信等多個(gè)領(lǐng)域。

鄒偉,長(zhǎng)春工業(yè)大學(xué)人工智能學(xué)院院長(zhǎng)、華東建筑設(shè)計(jì)研究總院研究員、山東交通學(xué)院客座教授、南昌航空大學(xué)碩士生導(dǎo)師、中國(guó)軟件行業(yè)協(xié)會(huì)專家委員、天津大學(xué)創(chuàng)業(yè)導(dǎo)師、中華中醫(yī)藥學(xué)會(huì)會(huì)員、中國(guó)醫(yī)藥教育協(xié)會(huì)老年運(yùn)動(dòng)與健康分會(huì)學(xué)術(shù)委員;領(lǐng)導(dǎo)團(tuán)隊(duì)與全國(guó)兄弟高校、企業(yè)建立了廣泛的項(xiàng)目合作,完成50多個(gè)深度學(xué)習(xí)實(shí)踐項(xiàng)目,應(yīng)用于醫(yī)療、交通、農(nóng)業(yè)、氣象、銀行、電信等多個(gè)領(lǐng)域。

課程費(fèi)用

5800.00 /人

課程時(shí)長(zhǎng)

2

成為教練

課程簡(jiǎn)介

課程強(qiáng)調(diào)從零開始,動(dòng)手操作;內(nèi)容以代碼落地為主,以理論講解為根,以公式推導(dǎo)為輔。講解強(qiáng)化學(xué)習(xí)的模型理論和代碼實(shí)踐,梳理強(qiáng)化學(xué)習(xí)的技術(shù)框架,從根本上解決如何使用模型、優(yōu)化模型的問題;每次課中,首先闡述算法理論和少量公式推導(dǎo),然后使用真實(shí)和模擬數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的數(shù)據(jù)分析、特征選擇、調(diào)參和結(jié)果比較。

目標(biāo)收益

數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的技術(shù)工程師; 對(duì)強(qiáng)化學(xué)習(xí)有一定基礎(chǔ)或致力于該方向研究的技術(shù)人員

培訓(xùn)對(duì)象

課程內(nèi)容

第一章 強(qiáng)化學(xué)習(xí)概述,0.5小時(shí)
1.強(qiáng)化學(xué)習(xí)的定義和原理
2.智能體的組成
3.強(qiáng)化學(xué)習(xí)和其他機(jī)器學(xué)習(xí)的關(guān)系
4.強(qiáng)化學(xué)習(xí)的分類
5.強(qiáng)化學(xué)習(xí)的研究方法
6.強(qiáng)化學(xué)習(xí)的重點(diǎn)概念
第二章 馬爾可夫決策過程,1。5小時(shí)
1.馬爾可夫性 ?
2.馬爾可夫過程 ?
3.馬爾可夫決策過程 ?
4.貝爾曼期望方程 ?
5.貝爾曼最優(yōu)方程 ?
6.最優(yōu)策略
第三章 動(dòng)態(tài)規(guī)劃,1小時(shí)
1.動(dòng)態(tài)規(guī)劃基本思想
2.策略評(píng)估
3.策略改進(jìn)
4.策略迭代算法
5.值迭代算法
代碼和案例實(shí)踐:網(wǎng)格世界尋寶
6.網(wǎng)格世界環(huán)境描述
7.策略迭代算法運(yùn)行流程
8.值迭代算法運(yùn)行流程
9.核心代碼演示
10.算法小結(jié)
第四章 蒙特卡羅,1.5小時(shí)
1.蒙特卡羅核心思想
2.蒙特卡羅評(píng)估
3.增量式方法
4.蒙特卡羅控制
5.在線策略/離線策略
6.在線策略蒙特卡羅算法
7.重要性采樣離線策略蒙特卡羅算法
8.加權(quán)重要性采樣離線策略蒙特卡羅算法
代碼和案例實(shí)踐: “十點(diǎn)半”游戲
9.游戲介紹及環(huán)境描述
10.在線策略蒙特卡羅算法運(yùn)行流程
11.加權(quán)重要性采樣離線策略蒙特卡羅算法運(yùn)行流程
12.核心代碼演示
13.算法小結(jié)

第五章 時(shí)序差分,1.5小時(shí)
1.時(shí)序差分簡(jiǎn)介、TD目標(biāo)值 / TD 誤差
2.DP/MC/TD對(duì)比
3.在線策略TD:Sarsa算法
4.離線策略TD:Q-learning算法
代碼和案例實(shí)踐:帶陷阱的網(wǎng)格世界尋寶
5.環(huán)境描述
6.Sarsa算法運(yùn)行流程
7.Q-learning算法運(yùn)行流程
8.核心代碼演示
9.算法小結(jié)

進(jìn)階篇:
第六章 資格跡,0.5小時(shí)
1.前向視角/后向視角
2.多步TD?
3.前向TD(λ)算法
4.后向TD(λ)算法
5.前向Sarsa(λ)算法
6.后向Sarsa(λ)算法
7.前向Watkins’s Q(λ)算法
8.后向Watkins’s Q(λ)算法
代碼和案例實(shí)踐:風(fēng)格子世界
9.環(huán)境描述
10.后向Sarsa (λ) 算法運(yùn)行流程
11.后向Watkins’s Q(λ)算法運(yùn)行流程
12.核心代碼演示
13.算法小結(jié)

第七章 值函數(shù)逼近,1小時(shí)
1.表格型強(qiáng)化學(xué)習(xí)/函數(shù)近似型強(qiáng)化學(xué)習(xí)
2.線性逼近/非線性逼近?
3.增量法
4.值函數(shù)逼近-Sarsa算法
5.批量法
6.值函數(shù)逼近-Q-learning算法
7.人工神經(jīng)網(wǎng)絡(luò)(卷積、池化、全連接)
8.DQN方法
9.Double DQN方法
10.Dueling DQN方法
代碼和案例實(shí)踐飛翔的小鳥
11.游戲簡(jiǎn)介及環(huán)境描述
12.DQN算法運(yùn)行流程
13.核心代碼演示
14.算法小結(jié)

第八章 隨機(jī)策略梯度,1小時(shí)
1.隨機(jī)策略梯度簡(jiǎn)介
2.策略梯度優(yōu)缺點(diǎn)
3.策略梯度方法分類
4.隨機(jī)策略梯度定理
5.REINFORCE方法
6.帶基線的REINFORCE方法
代碼和案例實(shí)踐:小車上山
7.游戲簡(jiǎn)介及環(huán)境描述
8.REINFORCE算法運(yùn)行流程
9.核心代碼演示
10.算法小結(jié)

第九章 Actor-Critic及變種,1小時(shí)
1.AC與帶基線 REINFORCE的不同
2.在線策略AC方法
3.離線策略AC方法
4.兼容性近似函數(shù)定理
5.A2C方法
6.異步方法簡(jiǎn)介及核心思想
7.異步 Q-learning 方法
8.異步 Sarsa 方法?
9.異步 n步 Q-learning方法
10.A3C方法
代碼和案例實(shí)踐:小車倒立擺
11.游戲簡(jiǎn)介及環(huán)境描述
12.AC算法運(yùn)行流程
13.核心代碼演示
14.算法小結(jié)
代碼和案例實(shí)踐:鐘擺
15.游戲簡(jiǎn)介及環(huán)境描述
16.A3C算法運(yùn)行流程
17.核心代碼演示
18.算法小結(jié)

第十章 確定性策略梯度,0.5小時(shí)
1.確定性策略
2.隨機(jī)策略梯度的缺陷
3.確定性策略梯度定理
4.在線策略確定性AC方法
5.離線策略確定性AC方法
6.兼容性近似函數(shù)定理
7.DDPG方法
代碼和案例實(shí)踐鐘擺
8.游戲簡(jiǎn)介及環(huán)境描述
9.DDPG算法運(yùn)行流程
10.核心代碼演示
11.算法小結(jié)

第十一章 逆強(qiáng)化學(xué)習(xí),0.5小時(shí)
背景(沒有獎(jiǎng)勵(lì)的場(chǎng)景)
有監(jiān)督思維下的建模方式
行為監(jiān)督的問題
逆強(qiáng)化學(xué)習(xí)(IRL)框架
IRL vs GAN
模仿學(xué)習(xí)

第十二章 博弈強(qiáng)化學(xué)習(xí),0.5小時(shí)
1.博弈及博弈樹
2.極大極小搜索
3.Alpha-Beta 搜 索
4.蒙特卡羅樹搜索
5.AlphaGo基本原理
6.AlphaGo神經(jīng)網(wǎng)絡(luò)
7.AlphaGo蒙特卡羅樹搜索
8.AlphaGo的整體思路
9.AlphaGo Zero下棋原理
10.AlphaGo Zero的網(wǎng)絡(luò)結(jié)構(gòu)
11.AlphaGo Zero的蒙特卡羅樹搜索
12.AlphaGo Zero總結(jié)
13.AlphaZero
代碼和案例實(shí)踐:五子棋
14.游戲簡(jiǎn)介及環(huán)境描述
15.算法運(yùn)行流程(MCTS算法和 MCTS+神經(jīng)網(wǎng)絡(luò)算法)
16.核心代碼演示
17.算法小結(jié)

活動(dòng)詳情

提交需求