0% found this document useful (0 votes)

278 views21 pages

Markov Decision Process

1) Markov decision processes (MDPs) are a framework for modeling sequential decision making problems under uncertainty. An MDP consists of states, actions, rewards, and transition probabilities between states. 2) There are algorithms like value iteration and policy iteration that can find the optimal policy for an MDP when the transition and reward models are known. 3) Reinforcement learning techniques like Q-learning can be used to learn an optimal policy when the models are unknown, by learning the Q-function through trial-and-error interactions with the environment.

Uploaded by

Balqis Yafis

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

278 views21 pages

Markov Decision Process

Uploaded by

Balqis Yafis

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Markov Decision Process Tutorial

Intro to AI 096210

Erez Karpas
Faculty of Industrial Engineering & Managment
Technion

December 22, 2011

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process

A Markov Decision Process (MDP) is a stochastic planning

problem
Stationary Markovian Dynamics
The rewards and transitions only depend on current state

Fully observable
We might not know where were going, but we always know where
we are

Decision theoretic planning

We want to maximize expected reward

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Formal Definition

A MDP consists of hS , A, R , T i
S is a finite set of states
A is a finite set of actions
R : S 7 [0, rmax ] is the reward function
Rewards are bounded

T : S A S 7 [0, 1] is the transition function

Probability of going from s to s0 after applying a is T (s, a, s0 )

Where is the initial state?

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Example

Shamelessly stolen from Andrew Moore

You run a startup company. In every decision period, you must
choose between Saving money or Advertizing.
S = {Poor &Unknown, Poor &Famous, Rich&Unknown,
Rich&Famous}
A = {Save, Advertize}

(
R (s) =

if s = Poor & X

if s = Rich & X

T set next slide

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Graphic Example

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Solution

How do we solve an MDP?

What does a solution for an MDP look like?
A solution to an MDP is a policy : S 7 A
Given that Im in state s, I should apply action (s)
This is why we need full observability

What is an optimal policy?

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Policy

We can compute the expected value of following fixed policy at

state s
V (s) = R (s) +

T (s, (s), s0 )V (s0 )

is a discount factor
It makes sure the infinite sum converges
It can also be explained by interest rates, mortality, . . .

Value is immediate reward plus discounted expected future

reward

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Optimal Policy Value

An optimal policy maximizes V (s) for all states

Is the optimal policy unique? No
Is the value of an optimal policy unique? Yes
We denote the value of an optimal policy at state s by V (s)
V (s) is unique

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Using V

If we know V , we can simply choose the best action for each

state
The best action maximizes:
R (s) +

T (s, a, s0 )V (s0 )
s0

So we want to find V

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Value Iteration

How do we find V ? Value Iteration

V 0 (s) = R (s)
V t (s) = R (s) + max
a

T (s, a, s0 )V t 1 (s0 )
s0

Converges: V t V
Stop when
max |V t (s) V t 1 (s)| <
s

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Value Iteration Example

V 0 (s) =
V t (s) =

R (s)
R (s) + maxa s0 T (s, a, s0 )V t 1 (s0 )

= 0.9

t
0
1
2
3
4
5

V t (PU )
0
0
2.03
4.75
7.62
10.21

100

31.58

V t (PF )
0
4.5
8.55
12.2
15.07
17.46
...
38.6

V t (RU )
10
14.5
16.525
18.34
20.39
22.61

V t (RF )
10
19
25.08
28.72
31.18
33.2

44.02

54.2

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Policy from Values

(s) :=

s
PU
PF
RU
RF

argmaxa R (s) + s0 T (s, a, s0 )V (s0 )

V
31.58
38.6
44.02
54.2

A
S
S
S

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Policy Iteration

Another algorithm to find an optimal policy:

Initialize a policy arbitrarily

Evaluate V (s) for all states s S

3
4

0 (s) := argmaxa s0 T (s, a, s0 )V (s0 )

If 6= 0
:= 0
Goto 2

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Process Policy Iteration Example

t
0
1
2

t (PU )

t (PF )

t (RU )

t (RF )

A
A
A

A
S
S

Erez Karpas

V t (PU )
0
31.58

V t (PF )
V t (RU )
0
10
38.6
44.02
Done

Markov Decision Process Tutorial

V t (RF )
10
54.2

Value Iteration vs. Policy Iteration

Which is better? It depends

VI takes more iterations than PI, but PI requires more time on
each iteration
Lots of actions? PI
Already got a fair policy? PI
Few actions, acyclic? VI
Also possible to mix

Erez Karpas

Markov Decision Process Tutorial

Solving MDP without the Model

What if we do not have access to the model?

We dont know transition probabilities T
We dont know reward function R

Then we cant compute a policy offline

We must choose an action online

Erez Karpas

Markov Decision Process Tutorial

Reinforcement Learning

The model
At every time step, the agent sees the current state s and the
applicable actions at s
After choosing an action to execute, the agent receives a reward

There are many RL algorithms

We will focus on Q-Learning

Erez Karpas

Markov Decision Process Tutorial

Q-Learning

We define Q : S A 7 [0, rmax ]

Q (s, a) is the best value we can expect after taking action a in
state s
Q (s, a) = R (s) +

Q (s0 , a0 )
T (s, a, s0 ) max
a
s0

Q (s, a) is immediate reward plus discounted expected future

reward if we choose the best action in the next state

Erez Karpas

Markov Decision Process Tutorial

Learning Q

Suppose our agent performed action a in state s

It moved to some state s0 , and got some reward R (s)
We can update Q (s, a):
Q (s, a) := Q (s, a) + R (s) + max Q (s0 , a0 ) Q (s, a)

is the learning rate how much weight to give new vs. past
knowledge
Under some (realistic?) assumptions, Q-learning will converge to
optimal Q

Erez Karpas

Markov Decision Process Tutorial

Q-Learing: Exploration/Exploitation

Suppose were in the middle of Q-Learning

Were at state s
We have some estimate for Q (s, a), for any applicable action a
Which action to choose?
We can choose an action greedily the one which maximizes
Q (s , a )
But we might now know about the best action, and miss out
We want a policy that is greedy in the limit of infinite exploration
(GLIE)

Erez Karpas

Markov Decision Process Tutorial

GLIE Policies

Need to make exploitation more likely as more knowledge is

gained
One of the most popular GLIE policy is Boltzmann Exploration
Choose action a with probablity proportional to
eQ (s,a)/T
T is the temperature, which decreases with time

Erez Karpas

Markov Decision Process Tutorial

Markov Decision Processes Overview
No ratings yet
Markov Decision Processes Overview
34 pages
Lecture 3 - MDPs and Dynamic Programming
No ratings yet
Lecture 3 - MDPs and Dynamic Programming
66 pages
Lecture 3 - MDPs and Dynamic Programming
No ratings yet
Lecture 3 - MDPs and Dynamic Programming
62 pages
Markov Decision Processes Explained
No ratings yet
Markov Decision Processes Explained
38 pages
Markov Decision Processes & RL Techniques
No ratings yet
Markov Decision Processes & RL Techniques
40 pages
DSA5102 Lecture11
No ratings yet
DSA5102 Lecture11
44 pages
L12 Markov Decision Processes
No ratings yet
L12 Markov Decision Processes
64 pages
Markov Decision Processes Overview
No ratings yet
Markov Decision Processes Overview
56 pages
2024 MDPs Part 1
No ratings yet
2024 MDPs Part 1
59 pages
MDP and Bellman Equations in RL
No ratings yet
MDP and Bellman Equations in RL
36 pages
Reinforcement Learning Note
No ratings yet
Reinforcement Learning Note
16 pages
Markov Decision Processes Explained
No ratings yet
Markov Decision Processes Explained
28 pages
MDPs and Value Iteration Explained
No ratings yet
MDPs and Value Iteration Explained
51 pages
Markov Decision & RL Overview
No ratings yet
Markov Decision & RL Overview
39 pages
Logistics: CSE 473 Markov Decision Processes
No ratings yet
Logistics: CSE 473 Markov Decision Processes
10 pages
Markov Decision Processes and Dynamic Programming: A. Lazaric (Sequel Team @Inria-Lille)
No ratings yet
Markov Decision Processes and Dynamic Programming: A. Lazaric (Sequel Team @Inria-Lille)
79 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
51 pages
Markov Decision Processes Explained
No ratings yet
Markov Decision Processes Explained
27 pages
Bellman Equation in Markov Decision Processes
No ratings yet
Bellman Equation in Markov Decision Processes
5 pages
EEE 485: Reinforcement Learning Overview
No ratings yet
EEE 485: Reinforcement Learning Overview
15 pages
CSE 445 - Lecture 9 - Reinforcement Learning
No ratings yet
CSE 445 - Lecture 9 - Reinforcement Learning
45 pages
Machine Learning
No ratings yet
Machine Learning
5 pages
Understanding The Markov Decision Process (MDP) - Built in
No ratings yet
Understanding The Markov Decision Process (MDP) - Built in
18 pages
Understanding Markov Decision Processes
No ratings yet
Understanding Markov Decision Processes
57 pages
Understanding Markov Decision Processes
No ratings yet
Understanding Markov Decision Processes
89 pages
Introduction to Markov Decision Processes
No ratings yet
Introduction to Markov Decision Processes
29 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
101 pages
Understanding Markov Decision Processes
No ratings yet
Understanding Markov Decision Processes
35 pages
Markov Decision Processes in AI
No ratings yet
Markov Decision Processes in AI
50 pages
Stanford Markov Decision Processes
No ratings yet
Stanford Markov Decision Processes
20 pages
CS229
No ratings yet
CS229
17 pages
Probabilistic Planning and MDPs Explained
No ratings yet
Probabilistic Planning and MDPs Explained
3 pages
An Introduction To Reinforcement Learning From Theory To Algorithms (December 19, 2024) - Joon Kwon
No ratings yet
An Introduction To Reinforcement Learning From Theory To Algorithms (December 19, 2024) - Joon Kwon
66 pages
Reinforcement Learning Basics Explained
No ratings yet
Reinforcement Learning Basics Explained
15 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
7 pages
Understanding Markov Decision Processes
No ratings yet
Understanding Markov Decision Processes
9 pages
Markov Decision Processes in AI
No ratings yet
Markov Decision Processes in AI
59 pages
Ai (It) Unit-4
100% (1)
Ai (It) Unit-4
37 pages
Reinforcement Learning Overview and Methods
No ratings yet
Reinforcement Learning Overview and Methods
23 pages
Artificial Intelligence: Lecture 9 - Markov Decision Processes II Dr. Shivanjali Khare
No ratings yet
Artificial Intelligence: Lecture 9 - Markov Decision Processes II Dr. Shivanjali Khare
44 pages
Markov Decision Processes Ii: Ppts by Dan Klein and Pieter Abbeel For Cs188 Intro To Ai at Uc Berkeley
No ratings yet
Markov Decision Processes Ii: Ppts by Dan Klein and Pieter Abbeel For Cs188 Intro To Ai at Uc Berkeley
50 pages
MDPs and State Machines Overview
No ratings yet
MDPs and State Machines Overview
64 pages
Reinforcement Learning Cheat Sheet: Return
No ratings yet
Reinforcement Learning Cheat Sheet: Return
7 pages
CS415 - Lecture 21 - MDPs I
No ratings yet
CS415 - Lecture 21 - MDPs I
49 pages
AI Decision Making & RL Guide
No ratings yet
AI Decision Making & RL Guide
18 pages
08 MDPs
No ratings yet
08 MDPs
111 pages
Reinforcement Learning: Karan Kathpalia
No ratings yet
Reinforcement Learning: Karan Kathpalia
80 pages
Markov Decision Process
100% (1)
Markov Decision Process
3 pages
2025 - MDPs 1
No ratings yet
2025 - MDPs 1
62 pages
DLMAIRIL01 Q4-2024 Session2
No ratings yet
DLMAIRIL01 Q4-2024 Session2
68 pages
Understanding Reinforcement Learning Concepts
No ratings yet
Understanding Reinforcement Learning Concepts
26 pages
Reinforcement Learning Overview
No ratings yet
Reinforcement Learning Overview
17 pages
Class Notes 2
No ratings yet
Class Notes 2
6 pages
Understanding Reinforcement Learning Concepts
No ratings yet
Understanding Reinforcement Learning Concepts
30 pages
MOV Opcode and Addressing Modes Guide
No ratings yet
MOV Opcode and Addressing Modes Guide
4 pages
Accelerated Learning Pocketbook: by Brin Best
No ratings yet
Accelerated Learning Pocketbook: by Brin Best
24 pages
MATLAB Taylor & Fourier Series Guide
No ratings yet
MATLAB Taylor & Fourier Series Guide
9 pages
Energy Harvesting in Small Cell Networks
No ratings yet
Energy Harvesting in Small Cell Networks
15 pages
OpenGL ARB Vertex Program Guide
No ratings yet
OpenGL ARB Vertex Program Guide
58 pages
Understanding Channel Gain and Pathloss
No ratings yet
Understanding Channel Gain and Pathloss
1 page
Importance of Previewing Texts
No ratings yet
Importance of Previewing Texts
10 pages
Energy-Efficient Bandwidth Scheduling
No ratings yet
Energy-Efficient Bandwidth Scheduling
17 pages
Academic CV Sample for Job Applications
No ratings yet
Academic CV Sample for Job Applications
3 pages
Guide To YAMNet - Sound Event Classifier
No ratings yet
Guide To YAMNet - Sound Event Classifier
10 pages
The Digital Border Migration Technology and Inequality
No ratings yet
The Digital Border Migration Technology and Inequality
41 pages
Data Mining Practice with RapidMiner
No ratings yet
Data Mining Practice with RapidMiner
8 pages
Ieee 17
No ratings yet
Ieee 17
4 pages
PRP AA Pilot Training Material 2024 (ENG)
No ratings yet
PRP AA Pilot Training Material 2024 (ENG)
23 pages
The Use of Artificial Intelligence in Project Management
No ratings yet
The Use of Artificial Intelligence in Project Management
7 pages
Artificial Intelligence Supported Remote Health Information System Development
No ratings yet
Artificial Intelligence Supported Remote Health Information System Development
22 pages
AI-sample Paper
No ratings yet
AI-sample Paper
10 pages
Week 4 Lecture AI Ethics 2025
No ratings yet
Week 4 Lecture AI Ethics 2025
29 pages
Learning To Play Atari Games: David Hershey, Rush Moody, Blake Wulfe (Dshersh, Rmoody, Wulfebw) @stanford
No ratings yet
Learning To Play Atari Games: David Hershey, Rush Moody, Blake Wulfe (Dshersh, Rmoody, Wulfebw) @stanford
6 pages
B Villalon, Rachelle. 2008. Data Mining, Inference, and Predictive Analytics For The Built Environment With Images, Text, WiFi Data PDF
No ratings yet
B Villalon, Rachelle. 2008. Data Mining, Inference, and Predictive Analytics For The Built Environment With Images, Text, WiFi Data PDF
195 pages
S23BBUCBSIT013
No ratings yet
S23BBUCBSIT013
11 pages
Advanced Machine Learning Concepts
No ratings yet
Advanced Machine Learning Concepts
38 pages
Procurement Control Tower Proof of Concept Through Machine Learning and Natural Language
No ratings yet
Procurement Control Tower Proof of Concept Through Machine Learning and Natural Language
68 pages
1
No ratings yet
1
11 pages
Forecasting Promotions' Demand Impact
100% (1)
Forecasting Promotions' Demand Impact
4 pages
Arogya AI
No ratings yet
Arogya AI
4 pages
MITPE Brochure MachineLearningAICertificate 2023 Web - 0
No ratings yet
MITPE Brochure MachineLearningAICertificate 2023 Web - 0
12 pages
Experiment No 6
No ratings yet
Experiment No 6
3 pages
BERT Architecture
No ratings yet
BERT Architecture
8 pages
AI vs Radiology in Acute Brain Infarct Diagnosis
No ratings yet
AI vs Radiology in Acute Brain Infarct Diagnosis
28 pages
Unit 5 Notes
No ratings yet
Unit 5 Notes
19 pages
AI Unit 3
No ratings yet
AI Unit 3
18 pages
TimeChat - A Time-Sensitive Multimodal Large Language Model - SD
No ratings yet
TimeChat - A Time-Sensitive Multimodal Large Language Model - SD
18 pages
CUED Undergraduate Teaching Site - Engineering Tripos Part IIB, 4F10 - Deep Learning &amp Structured Data, 2021-22
No ratings yet
CUED Undergraduate Teaching Site - Engineering Tripos Part IIB, 4F10 - Deep Learning &amp Structured Data, 2021-22
4 pages
Smart Sensors in Industry 4.0 Overview
No ratings yet
Smart Sensors in Industry 4.0 Overview
16 pages
Technology and Innovation in Business
No ratings yet
Technology and Innovation in Business
45 pages
Deep Learning for Gun Detection
No ratings yet
Deep Learning for Gun Detection
11 pages
Image Forgery Detection and Authentication
No ratings yet
Image Forgery Detection and Authentication
3 pages
Introduction To DS and AI
No ratings yet
Introduction To DS and AI
11 pages

Markov Decision Process

Uploaded by

Markov Decision Process

Uploaded by

Markov Decision Process Tutorial

December 22, 2011

Markov Decision Process Tutorial

Markov Decision Process

A Markov Decision Process (MDP) is a stochastic planning

Decision theoretic planning

Markov Decision Process Tutorial

Markov Decision Process Formal Definition

T : S A S 7 [0, 1] is the transition function

Where is the initial state?

Markov Decision Process Tutorial

Markov Decision Process Example

Shamelessly stolen from Andrew Moore

T set next slide

Markov Decision Process Tutorial

Markov Decision Process Graphic Example

Markov Decision Process Tutorial

Markov Decision Process Solution

How do we solve an MDP?

What is an optimal policy?

Markov Decision Process Tutorial

Markov Decision Process Policy

We can compute the expected value of following fixed policy at

T (s, (s), s0 )V (s0 )

Value is immediate reward plus discounted expected future

Markov Decision Process Tutorial

Markov Decision Process Optimal Policy Value

An optimal policy maximizes V (s) for all states

Markov Decision Process Tutorial

Markov Decision Process Using V

If we know V , we can simply choose the best action for each

Markov Decision Process Tutorial

Markov Decision Process Value Iteration

How do we find V ? Value Iteration

Markov Decision Process Tutorial

Markov Decision Process Value Iteration Example

Markov Decision Process Tutorial

Markov Decision Process Policy from Values

argmaxa R (s) + s0 T (s, a, s0 )V (s0 )

Markov Decision Process Tutorial

Markov Decision Process Policy Iteration

Another algorithm to find an optimal policy:

Initialize a policy arbitrarily

Evaluate V (s) for all states s S

0 (s) := argmaxa s0 T (s, a, s0 )V (s0 )

Markov Decision Process Tutorial

Markov Decision Process Policy Iteration Example

Markov Decision Process Tutorial

Value Iteration vs. Policy Iteration

Which is better? It depends

Markov Decision Process Tutorial

Solving MDP without the Model

What if we do not have access to the model?

Then we cant compute a policy offline

Markov Decision Process Tutorial

There are many RL algorithms

Markov Decision Process Tutorial

We define Q : S A 7 [0, rmax ]

Q (s, a) is immediate reward plus discounted expected future

Markov Decision Process Tutorial

Suppose our agent performed action a in state s

Markov Decision Process Tutorial

Suppose were in the middle of Q-Learning

Markov Decision Process Tutorial

Need to make exploitation more likely as more knowledge is

Markov Decision Process Tutorial

You might also like