課程信息

111,110 次近期查看
可分享的證書
完成後獲得證書
100% 在線
立即開始,按照自己的計劃學習。
第 2 門課程(共 4 門)
可靈活調整截止日期
根據您的日程表重置截止日期。
中級

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode

完成時間大約為22 小時
英語(English)

您將獲得的技能

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
可分享的證書
完成後獲得證書
100% 在線
立即開始,按照自己的計劃學習。
第 2 門課程(共 4 門)
可靈活調整截止日期
根據您的日程表重置截止日期。
中級

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode

完成時間大約為22 小時
英語(English)

提供方

Placeholder

阿尔伯塔大学

Placeholder

Alberta Machine Intelligence Institute

教學大綱 - 您將從這門課程中學到什麼

內容評分Thumbs Up92%(2,626 個評分)Info
1

1

完成時間為 1 小時

Welcome to the Course!

完成時間為 1 小時
2 個視頻 (總計 10 分鐘), 2 個閱讀材料
2 個視頻
Meet your instructors!8分鐘
2 個閱讀材料
Reinforcement Learning Textbook10分鐘
Read Me: Pre-requisites and Learning Objectives10分鐘
完成時間為 3 小時

Monte Carlo Methods for Prediction & Control

完成時間為 3 小時
11 個視頻 (總計 58 分鐘), 3 個閱讀材料, 2 個測驗
11 個視頻
Using Monte Carlo for Prediction6分鐘
Using Monte Carlo for Action Values2分鐘
Using Monte Carlo methods for generalized policy iteration2分鐘
Solving the Blackjack Example3分鐘
Epsilon-soft policies5分鐘
Why does off-policy learning matter?4分鐘
Importance Sampling4分鐘
Off-Policy Monte Carlo Prediction5分鐘
Emma Brunskill: Batch Reinforcement Learning12分鐘
Week 1 Summary3分鐘
3 個閱讀材料
Module 1 Learning Objectives10分鐘
Weekly Reading40分鐘
Chapter Summary40分鐘
1 個練習
Graded Quiz30分鐘
2

2

完成時間為 5 小時

Temporal Difference Learning Methods for Prediction

完成時間為 5 小時
6 個視頻 (總計 37 分鐘), 2 個閱讀材料, 2 個測驗
6 個視頻
Rich Sutton: The Importance of TD Learning6分鐘
The advantages of temporal difference learning5分鐘
Comparing TD and Monte Carlo5分鐘
Andy Barto and Rich Sutton: More on the History of RL12分鐘
Week 2 Summary2分鐘
2 個閱讀材料
Module 2 Learning Objectives10分鐘
Weekly Reading40分鐘
1 個練習
Practice Quiz30分鐘
3

3

完成時間為 6 小時

Temporal Difference Learning Methods for Control

完成時間為 6 小時
9 個視頻 (總計 30 分鐘), 3 個閱讀材料, 2 個測驗
9 個視頻
Sarsa in the Windy Grid World3分鐘
What is Q-learning?3分鐘
Q-learning in the Windy Grid World3分鐘
How is Q-learning off-policy?4分鐘
Expected Sarsa3分鐘
Expected Sarsa in the Cliff World3分鐘
Generality of Expected Sarsa1分鐘
Week 3 Summary2分鐘
3 個閱讀材料
Module 3 Learning Objectives10分鐘
Weekly Reading40分鐘
Chapter summary40分鐘
1 個練習
Practice Quiz30分鐘
4

4

完成時間為 7 小時

Planning, Learning & Acting

完成時間為 7 小時
11 個視頻 (總計 47 分鐘), 4 個閱讀材料, 2 個測驗
11 個視頻
Comparing Sample and Distribution Models2分鐘
Random Tabular Q-planning3分鐘
The Dyna Architecture5分鐘
The Dyna Algorithm5分鐘
Dyna & Q-learning in a Simple Maze5分鐘
What if the model is inaccurate?3分鐘
In-depth with changing environments5分鐘
Drew Bagnell: self-driving, robotics, and Model Based RL7分鐘
Week 4 Summary1分鐘
Congratulations!2分鐘
4 個閱讀材料
Module 4 Learning Objectives10分鐘
Weekly Reading40分鐘
Chapter Summary40分鐘
Text Book Part 1 Summary40分鐘
1 個練習
Practice Assessment45分鐘

審閱

來自SAMPLE-BASED LEARNING METHODS的熱門評論

查看所有評論

關於 强化学习 專項課程

强化学习

常見問題

還有其他問題嗎?請訪問 學生幫助中心