課程信息

49,030 次近期查看

學生職業成果

33%

完成這些課程後已開始新的職業生涯

56%

通過此課程獲得實實在在的工作福利

33%

加薪或升職
可分享的證書
完成後獲得證書
100% 在線
立即開始,按照自己的計劃學習。
第 4 門課程(共 7 門)
可靈活調整截止日期
根據您的日程表重置截止日期。
高級
完成時間大約為26 小時
英語(English)

學生職業成果

33%

完成這些課程後已開始新的職業生涯

56%

通過此課程獲得實實在在的工作福利

33%

加薪或升職
可分享的證書
完成後獲得證書
100% 在線
立即開始,按照自己的計劃學習。
第 4 門課程(共 7 門)
可靈活調整截止日期
根據您的日程表重置截止日期。
高級
完成時間大約為26 小時
英語(English)

提供方

Placeholder

国立高等经济大学

教學大綱 - 您將從這門課程中學到什麼

內容評分Thumbs Up82%(2,348 個評分)Info
1

1

完成時間為 5 小時

Intro: why should I care?

完成時間為 5 小時
14 個視頻 (總計 85 分鐘), 6 個閱讀材料, 3 個測驗
14 個視頻
Why should you care9分鐘
Reinforcement learning vs all3分鐘
Multi-armed bandit4分鐘
Decision process & applications6分鐘
Markov Decision Process5分鐘
Crossentropy method9分鐘
Approximate crossentropy method5分鐘
More on approximate crossentropy method6分鐘
Evolution strategies: core idea6分鐘
Evolution strategies: math problems5分鐘
Evolution strategies: log-derivative trick8分鐘
Evolution strategies: duct tape6分鐘
Blackbox optimization: drawbacks4分鐘
6 個閱讀材料
About the University10分鐘
Rules on the academic integrity in the course10分鐘
FAQ10分鐘
Primers1小時
About honors track1分鐘
Extras10分鐘
2

2

完成時間為 3 小時

At the heart of RL: Dynamic Programming

完成時間為 3 小時
5 個視頻 (總計 54 分鐘), 3 個閱讀材料, 4 個測驗
5 個視頻
State and Action Value Functions13分鐘
Measuring Policy Optimality6分鐘
Policy: evaluation & improvement10分鐘
Policy and value iteration8分鐘
3 個閱讀材料
Optional: Reward discounting from a mathematical perspective10分鐘
External links: Reward Design10分鐘
Discrete Stochastic Dynamic Programming10分鐘
3 個練習
Reward design8分鐘
Optimality in RL30分鐘
Policy Iteration30分鐘
3

3

完成時間為 3 小時

Model-free methods

完成時間為 3 小時
6 個視頻 (總計 47 分鐘), 1 個閱讀材料, 4 個測驗
6 個視頻
Monte-Carlo & Temporal Difference; Q-learning8分鐘
Exploration vs Exploitation8分鐘
Footnote: Monte-Carlo vs Temporal Difference2分鐘
Accounting for exploration. Expected Value SARSA11分鐘
On-policy vs off-policy; Experience replay7分鐘
1 個閱讀材料
Extras10分鐘
1 個練習
Model-free reinforcement learning30分鐘
4

4

完成時間為 3 小時

Approximate Value Based Methods

完成時間為 3 小時
9 個視頻 (總計 104 分鐘), 3 個閱讀材料, 5 個測驗
9 個視頻
Loss functions in value based RL11分鐘
Difficulties with Approximate Methods15分鐘
DQN – bird's eye view9分鐘
DQN – the internals9分鐘
DQN: statistical issues6分鐘
Double Q-learning6分鐘
More DQN tricks10分鐘
Partial observability17分鐘
3 個閱讀材料
TD vs MC10分鐘
Extras10分鐘
DQN follow-ups10分鐘
3 個練習
MC & TD10分鐘
SARSA and Q-learning10分鐘
DQN30分鐘

審閱

來自PRACTICAL REINFORCEMENT LEARNING的熱門評論

查看所有評論

關於 高级机器学习 專項課程

高级机器学习

常見問題

還有其他問題嗎?請訪問 學生幫助中心