課程信息

82,473 次近期查看
可分享的證書
完成後獲得證書
100% 在線
立即開始,按照自己的計劃學習。
第 3 門課程(共 4 門)
可靈活調整截止日期
根據您的日程表重置截止日期。
中級

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

完成時間大約為22 小時
英語(English)

您將獲得的技能

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
可分享的證書
完成後獲得證書
100% 在線
立即開始,按照自己的計劃學習。
第 3 門課程(共 4 門)
可靈活調整截止日期
根據您的日程表重置截止日期。
中級

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

完成時間大約為22 小時
英語(English)

提供方

Placeholder

阿尔伯塔大学

Placeholder

Alberta Machine Intelligence Institute

教學大綱 - 您將從這門課程中學到什麼

內容評分Thumbs Up92%(2,060 個評分)Info
1

1

完成時間為 1 小時

Welcome to the Course!

完成時間為 1 小時
2 個視頻 (總計 12 分鐘), 2 個閱讀材料
2 個視頻
Meet your instructors!8分鐘
2 個閱讀材料
Read Me: Pre-requisites and Learning Objectives10分鐘
Reinforcement Learning Textbook10分鐘
完成時間為 5 小時

On-policy Prediction with Approximation

完成時間為 5 小時
13 個視頻 (總計 69 分鐘), 2 個閱讀材料, 2 個測驗
13 個視頻
Generalization and Discrimination5分鐘
Framing Value Estimation as Supervised Learning3分鐘
The Value Error Objective4分鐘
Introducing Gradient Descent7分鐘
Gradient Monte for Policy Evaluation5分鐘
State Aggregation with Monte Carlo7分鐘
Semi-Gradient TD for Policy Evaluation3分鐘
Comparing TD and Monte Carlo with State Aggregation4分鐘
Doina Precup: Building Knowledge for AI Agents with Reinforcement Learning7分鐘
The Linear TD Update3分鐘
The True Objective for TD5分鐘
Week 1 Summary4分鐘
2 個閱讀材料
Module 1 Learning Objectives10分鐘
Weekly Reading: On-policy Prediction with Approximation40分鐘
1 個練習
On-policy Prediction with Approximation30分鐘
2

2

完成時間為 5 小時

Constructing Features for Prediction

完成時間為 5 小時
11 個視頻 (總計 52 分鐘), 2 個閱讀材料, 2 個測驗
11 個視頻
Generalization Properties of Coarse Coding5分鐘
Tile Coding3分鐘
Using Tile Coding in TD4分鐘
What is a Neural Network?3分鐘
Non-linear Approximation with Neural Networks4分鐘
Deep Neural Networks3分鐘
Gradient Descent for Training Neural Networks8分鐘
Optimization Strategies for NNs4分鐘
David Silver on Deep Learning + RL = AI?9分鐘
Week 2 Review2分鐘
2 個閱讀材料
Module 2 Learning Objectives10分鐘
Weekly Reading: On-policy Prediction with Approximation II40分鐘
1 個練習
Constructing Features for Prediction28分鐘
3

3

完成時間為 6 小時

Control with Approximation

完成時間為 6 小時
7 個視頻 (總計 41 分鐘), 2 個閱讀材料, 2 個測驗
7 個視頻
Episodic Sarsa in Mountain Car5分鐘
Expected Sarsa with Function Approximation2分鐘
Exploration under Function Approximation3分鐘
Average Reward: A New Way of Formulating Control Problems10分鐘
Satinder Singh on Intrinsic Rewards12分鐘
Week 3 Review2分鐘
2 個閱讀材料
Module 3 Learning Objectives10分鐘
Weekly Reading: On-policy Control with Approximation40分鐘
1 個練習
Control with Approximation40分鐘
4

4

完成時間為 6 小時

Policy Gradient

完成時間為 6 小時
11 個視頻 (總計 55 分鐘), 2 個閱讀材料, 2 個測驗
11 個視頻
Advantages of Policy Parameterization5分鐘
The Objective for Learning Policies5分鐘
The Policy Gradient Theorem5分鐘
Estimating the Policy Gradient4分鐘
Actor-Critic Algorithm5分鐘
Actor-Critic with Softmax Policies3分鐘
Demonstration with Actor-Critic6分鐘
Gaussian Policies for Continuous Actions7分鐘
Week 4 Summary3分鐘
Congratulations! Course 4 Preview2分鐘
2 個閱讀材料
Module 4 Learning Objectives10分鐘
Weekly Reading: Policy Gradient Methods40分鐘
1 個練習
Policy Gradient Methods45分鐘

審閱

來自PREDICTION AND CONTROL WITH FUNCTION APPROXIMATION的熱門評論

查看所有評論

關於 强化学习 專項課程

强化学习

常見問題

還有其他問題嗎?請訪問 學生幫助中心