課程信息

156,021 次近期查看

可分享的證書

完成後獲得證書

100% 在線

立即開始,按照自己的計劃學習。

第 1 門課程(共 4 門)

可靈活調整截止日期

根據您的日程表重置截止日期。

中級

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

完成時間大約為18 小時

建議:4-6 hours/week...

英語(English)

字幕:英語(English)

您將學到的內容有

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

您將獲得的技能

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems

可分享的證書

完成後獲得證書

100% 在線

立即開始,按照自己的計劃學習。

第 1 門課程(共 4 門)

可靈活調整截止日期

根據您的日程表重置截止日期。

中級

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

完成時間大約為18 小時

建議:4-6 hours/week...

英語(English)

字幕:英語(English)

提供方

阿尔伯塔大学 徽標

阿尔伯塔大学

Alberta Machine Intelligence Institute 徽標

Alberta Machine Intelligence Institute

教學大綱 - 您將從這門課程中學到什麼

內容評分Thumbs Up93%(4,468 個評分)Info
1

1

完成時間為 1 小時

Welcome to the Course!

完成時間為 1 小時
4 個視頻 (總計 20 分鐘), 2 個閱讀材料
4 個視頻
Course Introduction5分鐘
Meet your instructors!8分鐘
Your Specialization Roadmap3分鐘
2 個閱讀材料
Reinforcement Learning Textbook10分鐘
Read Me: Pre-requisites and Learning Objectives10分鐘
完成時間為 7 小時

The K-Armed Bandit Problem

完成時間為 7 小時
8 個視頻 (總計 46 分鐘), 3 個閱讀材料, 2 個測驗
8 個視頻
Learning Action Values4分鐘
Estimating Action Values Incrementally5分鐘
What is the trade-off?7分鐘
Optimistic Initial Values6分鐘
Upper-Confidence Bound (UCB) Action Selection5分鐘
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8分鐘
Week 1 Summary3分鐘
3 個閱讀材料
Module 2 Learning Objectives10分鐘
Weekly Reading30分鐘
Chapter Summary30分鐘
1 個練習
Exploration/Exploitation45分鐘
2

2

完成時間為 3 小時

Markov Decision Processes

完成時間為 3 小時
7 個視頻 (總計 36 分鐘), 2 個閱讀材料, 2 個測驗
7 個視頻
Examples of MDPs4分鐘
The Goal of Reinforcement Learning3分鐘
Michael Littman: The Reward Hypothesis12分鐘
Continuing Tasks5分鐘
Examples of Episodic and Continuing Tasks3分鐘
Week 2 Summary1分鐘
2 個閱讀材料
Module 3 Learning Objectives10分鐘
Weekly Reading30分鐘
1 個練習
MDPs45分鐘
3

3

完成時間為 3 小時

Value Functions & Bellman Equations

完成時間為 3 小時
9 個視頻 (總計 56 分鐘), 3 個閱讀材料, 2 個測驗
9 個視頻
Value Functions6分鐘
Rich Sutton and Andy Barto: A brief History of RL7分鐘
Bellman Equation Derivation6分鐘
Why Bellman Equations?5分鐘
Optimal Policies7分鐘
Optimal Value Functions5分鐘
Using Optimal Value Functions to Get Optimal Policies8分鐘
Week 3 Summary4分鐘
3 個閱讀材料
Module 4 Learning Objectives10分鐘
Weekly Reading30分鐘
Chapter Summary13分鐘
2 個練習
Value Functions and Bellman Equations45分鐘
Value Functions and Bellman Equations45分鐘
4

4

完成時間為 7 小時

Dynamic Programming

完成時間為 7 小時
10 個視頻 (總計 72 分鐘), 3 個閱讀材料, 2 個測驗
10 個視頻
Iterative Policy Evaluation8分鐘
Policy Improvement4分鐘
Policy Iteration8分鐘
Flexibility of the Policy Iteration Framework4分鐘
Efficiency of Dynamic Programming5分鐘
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7分鐘
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21分鐘
Week 4 Summary2分鐘
Congratulations!3分鐘
3 個閱讀材料
Module 5 Learning Objectives10分鐘
Weekly Reading30分鐘
Chapter Summary30分鐘
1 個練習
Dynamic Programming45分鐘

審閱

來自FUNDAMENTALS OF REINFORCEMENT LEARNING的熱門評論
查看所有評論

關於 强化学习 專項課程

The Reinforcement Learning Specialization consists of 4 courses exploring the power of adaptive learning systems and artificial intelligence (AI). Harnessing the full potential of artificial intelligence requires adaptive learning systems. Learn how Reinforcement Learning (RL) solutions help solve real-world problems through trial-and-error interaction by implementing a complete RL solution from beginning to end. By the end of this Specialization, learners will understand the foundations of much of modern probabilistic artificial intelligence (AI) and be prepared to take more advanced courses or to apply AI tools and ideas to real-world problems. This content will focus on “small-scale” problems in order to understand the foundations of Reinforcement Learning, as taught by world-renowned experts at the University of Alberta, Faculty of Science. The tools learned in this Specialization can be applied to game development (AI), customer interaction (how a website interacts with customers), smart assistants, recommender systems, supply chain, industrial control, finance, oil & gas pipelines, industrial control systems, and more....
强化学习

常見問題

  • 注册以便获得证书后,您将有权访问所有视频、测验和编程作业(如果适用)。只有在您的班次开课之后,才可以提交和审阅同学互评作业。如果您选择在不购买的情况下浏览课程,可能无法访问某些作业。

  • 您注册课程后,将有权访问专项课程中的所有课程,并且会在完成课程后获得证书。您的电子课程证书将添加到您的成就页中,您可以通过该页打印您的课程证书或将其添加到您的领英档案中。如果您只想阅读和查看课程内容,可以免费旁听课程。

還有其他問題嗎?請訪問 學生幫助中心