Reinforcement Learning: Mitchell, Ch. 13 (See Also Barto & Sutton Book On-Line)

Uploaded by

Anil Sahu

0% found this document useful (0 votes)

14 views14 pages

Original Title

ReinforcementLearning.ppt

Copyright

Available Formats

PPT, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPT, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

14 views14 pages

Reinforcement Learning: Mitchell, Ch. 13 (See Also Barto & Sutton Book On-Line)

Uploaded by

Anil Sahu

Copyright:

Available Formats

Download as PPT, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 14

Search inside document

Reinforcement Learning

Mitchell, Ch. 13
(see also Barto & Sutton book on-line)
Rationale
• Learning from experience
• Adaptive control
• Examples not explicitly labeled, delayed
feedback
• Problem of credit assignment – which
action(s) led to payoff?
• tradeoff short-term thinking (immediate
reward) for long-term consequences
Agent Model
• Transition function – T:SxA->S, environment
• Reward function R:SxA->real, payoff
• Stochastic but Markov
=

• Policy=decision function, :S->A

• “rationality” – maximize long term expected
reward
– Discounted long-term reward (convergent series)
– Alternatives: finite time horizon, uniform weights
R,T
Markov Decision Processes (MDPs)
• if know R and T(=P), solve for value func V(s)
• policy evaluation
• Bellman Equations
• dynamic programming (|S| eqns in |S| unknowns)
MDPs
• finding optimal policies

• Value iteration – update V(s) iteratively until

(s)=argmaxa V(s) stops changing

• Policy iteration – iterate between choosing  and

updating V over all states

• Monte Carlo sampling: run random scenarios

using  and take average rewards as V(s)
Q-learning: model-free
• Q-function: reformulate as value function
of S and A, independent of R and T(=)
Q-learning algorithm
Convergence
• Theorem: Q converges to Q*, after visiting
each state infinitely often (assuming |r|<)
• Proof: with each iteration (where all SxA
visited), magnitude of largest error in Q
table decreases by at least 
• “on-policy” Training
– exploitation vs. exploration
– will relevant parts of the space be explored if stick to
current (sub-optimal) policy?
– -greedy policies: choose action with max Q value
most of the time, or random action  % of the time
• “off-policy”
– learn from simulations or traces
– SARSA: training example database: <s,a,r,s’,a’>
• Actor-critic
Non-deterministic case
Temporal Difference Learning
• convergence is not the problem
• representation of large Q table is the
problem (domains with many states or
continuous actions)
• how to represent large Q tables?
– neural network
– function approximation
– basis functions
– hierarchical decomposition of state space

Reinforcement Learning: Mitchell, Ch. 13 (See Also Barto & Sutton Book On-Line)
Document14 pages
Reinforcement Learning: Mitchell, Ch. 13 (See Also Barto & Sutton Book On-Line)
Anil Sahu
No ratings yet
Reinforcement Learning (Part 2) : Nguyen Do Van, PHD
Document46 pages
Reinforcement Learning (Part 2) : Nguyen Do Van, PHD
Ác Qủy
No ratings yet
Reinforcement Learning
Document46 pages
Reinforcement Learning
Shagun
No ratings yet
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
Document40 pages
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
Sanja Lazarova-Molnar
No ratings yet
Reinforcement Learning
Document45 pages
Reinforcement Learning
Pooja Angolkar
No ratings yet
Stochastic Process - Markov Property - Markov Chain - Markov Decision Process - Reinforcement Learning - RL Techniques - Example Applications
Document39 pages
Stochastic Process - Markov Property - Markov Chain - Markov Decision Process - Reinforcement Learning - RL Techniques - Example Applications
Sarmi Harsha
No ratings yet
RL Unit 5
Document30 pages
RL Unit 5
gilloshanonp
No ratings yet
Lecture 30 Reinforcement-Learning
Document50 pages
Lecture 30 Reinforcement-Learning
prakuld04
No ratings yet
DOE Basics
Document61 pages
DOE Basics
Vikram Gobbi
0% (1)
Arima
Document65 pages
Arima
rkarthik403
No ratings yet
Linear Regression Analysis For Survey Data
Document28 pages
Linear Regression Analysis For Survey Data
Malav Shah
No ratings yet
4 Reinforcement Learning - Basic Algorithms: - S, A) ) and The Immediate Reward Function R (R (S, A, S
Document16 pages
4 Reinforcement Learning - Basic Algorithms: - S, A) ) and The Immediate Reward Function R (R (S, A, S
Anđela Todorović
No ratings yet
Dsur I Chapter 17 Efa
Document47 pages
Dsur I Chapter 17 Efa
Danny
No ratings yet
Sec 12
Document5 pages
Sec 12
Prateer Kr Roy
No ratings yet
POMDP Tutoria POMDP - Tutoriall
Document55 pages
POMDP Tutoria POMDP - Tutoriall
Ehsan Elahi Bashir
No ratings yet
Constraint Sat
Document57 pages
Constraint Sat
Jetlin C P
No ratings yet
Reinforcement Learning: Instructor: Max Welling
Document18 pages
Reinforcement Learning: Instructor: Max Welling
Zuzar
No ratings yet
Process Optimization
Document70 pages
Process Optimization
planket
No ratings yet
Advanced Statistics Manual PDF
Document258 pages
Advanced Statistics Manual PDF
hamartinez
100% (3)
Dynamic Portfolio Optimization Using Decomposition and Finite Element Methods
Document42 pages
Dynamic Portfolio Optimization Using Decomposition and Finite Element Methods
Salam Faith
No ratings yet
Model Evaluation
Document80 pages
Model Evaluation
Deva Hema D
No ratings yet
Data Mining Part2
Document91 pages
Data Mining Part2
John Domingo
No ratings yet
Unit 4
Document7 pages
Unit 4
csedept20
No ratings yet
5.4-Reinforcement Learning-Part2-Learning-Algorithms
Document15 pages
5.4-Reinforcement Learning-Part2-Learning-Algorithms
polinati.vinesh2023
No ratings yet
JML Arima
Document37 pages
JML Arima
pg ai
No ratings yet
Unit 7 - Forecasting and Time Series - Advanced Topics
Document54 pages
Unit 7 - Forecasting and Time Series - Advanced Topics
Rajdeep Singh
No ratings yet
Trí tuệ nhân tạo (Artificial Intelligence) : Constraint Satisfaction Problems
Document33 pages
Trí tuệ nhân tạo (Artificial Intelligence) : Constraint Satisfaction Problems
Văn Lâm Trần
No ratings yet
AI-Lecture 7 (Constraint Satisfaction Problems)
Document60 pages
AI-Lecture 7 (Constraint Satisfaction Problems)
Yna Foronda
No ratings yet
RL Complete Unit-5
Document30 pages
RL Complete Unit-5
Harpreet Singh Bagga
No ratings yet
Markov Decision Processes: Stochastic, Sequential Environments
Document20 pages
Markov Decision Processes: Stochastic, Sequential Environments
mikey61
No ratings yet
Cidu2011 Banerjee Intro To ML 01
Document120 pages
Cidu2011 Banerjee Intro To ML 01
yahamid
No ratings yet
Probability Models in Marketing
Document66 pages
Probability Models in Marketing
dualballers
No ratings yet
Reinforcement Learning
Document32 pages
Reinforcement Learning
vedang maheshwari
No ratings yet
Final Exam Review
Document46 pages
Final Exam Review
Balamurugan Karnan
No ratings yet
Files 1 2019 June NotesHubDocument 1559416363
Document6 pages
Files 1 2019 June NotesHubDocument 1559416363
mail.sushilk8403
No ratings yet
DQL: A New Updating Strategy For Reinforcement Learning Based On Q-Learning
Document12 pages
DQL: A New Updating Strategy For Reinforcement Learning Based On Q-Learning
Danelys
No ratings yet
Modeling & Simulation
Document42 pages
Modeling & Simulation
jishajiya
50% (2)
Reinforcement Learning: Yijue Hou
Document34 pages
Reinforcement Learning: Yijue Hou
Anum Khawaja
No ratings yet
NIPS 2004 Experts in A Markov Decision Process Paper Compressed
Document8 pages
NIPS 2004 Experts in A Markov Decision Process Paper Compressed
Tasya Syifa Altanzania
No ratings yet
Midterm Notes MGMT 2050
Document10 pages
Midterm Notes MGMT 2050
Sami Attiq
No ratings yet
Supply Chain Presentation
Document47 pages
Supply Chain Presentation
osama
No ratings yet
Constraint Satisfaction
Document27 pages
Constraint Satisfaction
Raghu Somu
No ratings yet
STATISTICS
Document6 pages
STATISTICS
Deleesha Bollu
No ratings yet
16 dm2 Dimred 2022 23
Document49 pages
16 dm2 Dimred 2022 23
nimra
No ratings yet
Operational Research
Document50 pages
Operational Research
pavithravelu
No ratings yet
Teaching With Stata: Peter A. Lachenbruch & Alan C. Acock Oregon State University
Document28 pages
Teaching With Stata: Peter A. Lachenbruch & Alan C. Acock Oregon State University
Ahmed SBM
No ratings yet
Lec 17 SARSA Expected SARSA Q Learning
Document4 pages
Lec 17 SARSA Expected SARSA Q Learning
sachin bhadang
No ratings yet
ANSYS For Harmonic Transient and PSD
Document23 pages
ANSYS For Harmonic Transient and PSD
Mohammad Ahmad Gharaibeh
No ratings yet
Backtracking Search For CSPS: Artificial Intelligence COSC-3112 Ms. Humaira Anwer
Document24 pages
Backtracking Search For CSPS: Artificial Intelligence COSC-3112 Ms. Humaira Anwer
MUHAMMAD ALI
No ratings yet
Constraint Satisfaction Problems: Unit 3
Document40 pages
Constraint Satisfaction Problems: Unit 3
srilakshmisiri
No ratings yet
Econometric Modeling
Document38 pages
Econometric Modeling
Олена Богданюк
No ratings yet
Unit 1 - Part 1
Document105 pages
Unit 1 - Part 1
YELLANKI SAI MEGHANA
No ratings yet
CHE 358 Numerical Methods For Engineers: Dr. Martinson Addo Nartey
Document33 pages
CHE 358 Numerical Methods For Engineers: Dr. Martinson Addo Nartey
Sarah Akutey
No ratings yet
PGMDP
Document11 pages
PGMDP
snehil
No ratings yet
OR Notes For MBA
Document7 pages
OR Notes For MBA
alaka
No ratings yet
EE 675 Lecture 27th March
Document4 pages
EE 675 Lecture 27th March
sachin bhadang
No ratings yet
MR#9
Document25 pages
MR#9
noniemoklas
No ratings yet
RL With LCS
Document29 pages
RL With LCS
arturoraymundo
No ratings yet
Practical Issues - Var-Cov Complexity Depends On Sample Sizes
Document6 pages
Practical Issues - Var-Cov Complexity Depends On Sample Sizes
MANUEL ARIZA
No ratings yet
Markov Decision Process: Fundamentals and Applications
From Everand
Markov Decision Process: Fundamentals and Applications
Fouad Sabry
No ratings yet