You are on page 1of 7

4.

Reinforcement Learning
4.1. Markov Decision Process Model
Firstly, we present the Markov Decision Process (MDP) to formulate our problem.
Based on this model, we then propose a deep Q-network algorithm to find a solution
for DR2O. In general, the MDP model is comprised of three concepts: a state, an action
corresponding to a state, and a reward for that action.
The system state S: We consider the system state at time instant t, including the
current volume of drugs, the user demand, and the costs of buying and storing medicine.
In addition, due to specific requirements at time t, some other information could be changed,
such as the purchasing budget, the storage capacity for drug i, and the minimum and maximum
amount of drugs to refill. For the set I of drugs i, we could make an order to make a
decision for the drugs that have higher priority and then consider the remaining budget for
the rest. Therefore, we make a loop with jIj iterations to make a decision for each drug i in
turn. We denote the state si(t) =< pi(t), ri(t), li(t), Bi(t), ei(t), Ci(t), C(t), ri
(t), ¯ri(t) > of
drug i at time t.
Action set A: The action set in our model reflects the refilling decision of each drug i.
In particular, the action a(t) = fai(t)g8i2I , where ai(t) is the decision of drug i at time t
that responds to the state si(t).
Reward W: As presented for the objective function, our model aims to minimize
the refilling cost including the purchasing and storing costs. Therefore, we first model
the reward function based on the purchasing cost as follows 1
Li(xi(t)) , where L(1)
i (xi(t)) =
ai pi(t)xi(t) + Ri(vi(t), ri(t)) + y(vi(t)), and k is the considered timeslot. This means that
the more money the system needs for its purchases, the less reward it has. The function
attempts to navigate the system, so it selects actions that obtain higher rewards, which is
equivalent to minimizing the purchasing cost.
The next term involves the penalty for the shortage situation, as we aim to avoid
this problem for all the drugs in storage. The penalty term is defined by y(vi(t)) as
formulated above.

We combine these terms in the penalty function by:

(ada rumus)

where q 2 (0, 1] is the weighted parameter that is designed to set the priority of each term.
Considering duration T, the state of each drug and its reward are stochastic and follow
the MDP, where the state si(t) changes to si(t + 1) with a transition probability, and the
reward depends on the state and the selection action.
To go from si(t) to si(t + 1) with reward wi(t), we consider the conditional transition
probability, p(si(t + 1),wi(t)jsi(t), ai(t)). It should be noted that the agent can only control
its own actions and has no prior knowledge about the transition probability matrix P =
p(si(t + 1),wi(t)jsi(t), ai(t)), which is determined by the environment. The intuition of the
MDP is presented in Figure 3. Therefore, the main objective of this reinforcement learning
is to find a policy to maximize the expected cumulative reward. We have:

(ada rumus)

4.2. Deep Q-Learning


As shown in Figure 3, the agent takes actions depending on the state, called the
policy p, which maps the state si(t) to the action ai(t). Mathematically, we express this as
pi : si(t) 2 S ! ai(t) 2 A. The Q-learning mechanism is used to maximize the long-term
expected accumulated discounted rewards [10]. Considering the Qi(si(t), ai(t)) value of pi
for a state si(t) and action ai(t) pair, this value is calculated by the expected accumulated
discounted rewards. Therefore, the policy pi is constructed by taking the action:
(ada rumus)

Based on the Q-function from the Bellman equation [10], the optimal policy pi with
value Qi can be obtained by:
(ada rumus)
so that the Q-value for the state, given a particular state, is the expected discounted
cumulative reward.
Therefore, in theMDP, we aimto determine an optimal policy expressed as p_ : Si ! Ai.
Following the stationary distribution in the MDP, the Q-values will converge to the optimal
value Q_ with the following equivalent calculation [10]:
(ada rumus)
where Qi(.) is the old value. To obtain the optimal Q-value, the algorithm is executed until
the mean changed values of the Q-values is less than a threshold, called the training phase.
The details of the training phase can be described as shown in Algorithm 1. At the
beginning, a random Q-matrix is generated (Line 3). A loop is executed (from Lines 5 to 9) to modify this matrix
until convergence (i.e., where the change is less than the
threshold e). A random state si(t) is selected to start the training (Line 4). Line 6 randomly
selects a possible state ai(t) to move to the next state s0
i(t). Line 7 updates the Q-value
of the state-action pair (si(t), ai(t)) using (16). The algorithm continues until it meets the
convergence condition.

(ada tabel)

According to the traditional Q-learning method, it is not difficult to obtain the convergence
result with a small state-action space. However, the classic Q-learning model
cannot be applied directly to our work because the state-action space is huge, given that
the state in DR2O is comprised of a tuple of parameters that generate a huge combination.
Furthermore, the level of drug refilling xi is set flexibly in a specific range, and so, it also
increases the size of the state-action space. In this case, there are two problems: (i) it is too
difficult to build the transition probability for the MDP, and (ii) some states that are not
visited and that are updated infrequently lead to a long convergence in the training phase
to obtain the Q_-value.
To deal with this problem, a Deep Neural Network (DNN) is used to approximate the
Q-function [9]. Given the input information of a state si(T), the DNN is trained to learn
an optimal mapping si(t) to ai(t). Therefore, we design the input of the DNN to present
all the features of a state si(t), and the output is the Q-values, Qi(si(t), ai(t)). We design
this DNN model for the set of drugs I; therefore, for a simpler formulation, we remove the
i index.
To obtain the correct Q-values, the DNN needs a training phase to update the weight
parameters in the network. Specifically, given an input-output pair < s(t), y > in the data
set D, the DNN aims to minimize the following loss function

(ada rumus)

4. Pembelajaran Penguatan

4.1. Model Proses Keputusan Markov

Pertama, kami menyajikan Proses Keputusan Markov (MDP) untuk merumuskan masalah kami.

Berdasarkan model ini, kami kemudian mengusulkan algoritma deep-Q-network untuk menemukan solusi
untuk DR2O. Secara umum, model MDP terdiri dari tiga konsep: state, action

sesuai dengan keadaan, dan hadiah untuk tindakan itu.

Status sistem S: Kami mempertimbangkan status sistem pada waktu instan t, termasuk

volume obat saat ini, permintaan pengguna, dan biaya pembelian dan penyimpanan obat.

Selain itu, karena persyaratan khusus pada waktu t, beberapa informasi lain dapat diubah,

seperti anggaran pembelian, kapasitas penyimpanan obat i, serta minimum dan maksimum

jumlah obat yang harus diisi ulang. Untuk set I obat i, kita bisa memesan untuk membuat a

keputusan untuk obat yang memiliki prioritas lebih tinggi dan kemudian mempertimbangkan sisa anggaran untuk

sisanya. Oleh karena itu, kami membuat loop dengan iterasi jIj untuk membuat keputusan untuk setiap obat i

berbelok. Kami menunjukkan status si(t) =< pi(t), ri(t), li(t), Bi(t), ei(t), Ci(t), C(t), ri

(t), ¯ri(t) > dari

obat i pada waktu t.

Kumpulan tindakan A: Kumpulan tindakan dalam model kami mencerminkan keputusan pengisian ulang setiap obat
i.

Secara khusus, aksi a(t) = fai(t)g8i2I , di mana ai(t) adalah keputusan obat i pada waktu t

yang merespon keadaan si(t).

Hadiah W: Seperti yang disajikan untuk fungsi tujuan, model kami bertujuan untuk meminimalkan

biaya pengisian ulang termasuk biaya pembelian dan penyimpanan. Oleh karena itu, kami pertama kali membuat
model

fungsi reward berdasarkan biaya pembelian sebagai berikut 1

Li(xi(t)) , di mana L(1)

i (xi(t)) =

ai pi(t)xi(t) + Ri(vi(t), ri(t)) + y(vi(t)), dan k adalah slot waktu yang dipertimbangkan. Ini berarti bahwa

semakin banyak uang yang dibutuhkan sistem untuk pembeliannya, semakin sedikit hadiah yang dimilikinya. Fungsi

upaya untuk menavigasi sistem, sehingga memilih tindakan yang memperoleh imbalan lebih tinggi, yaitu

setara dengan meminimalkan biaya pembelian.

Istilah berikutnya melibatkan hukuman untuk situasi kekurangan, seperti yang ingin kita hindari

masalah ini untuk semua obat dalam penyimpanan. Istilah penalti didefinisikan oleh y(vi(t)) sebagai

dirumuskan di atas.

Kami menggabungkan istilah-istilah ini dalam fungsi penalti dengan:

(rumus)

dimana q 2 (0, 1] adalah parameter berbobot yang dirancang untuk menetapkan prioritas setiap suku.
Mempertimbangkan durasi T, status masing-masing obat dan hadiahnya bersifat stokastik dan mengikuti

MDP, di mana keadaan si(t) berubah menjadi si(t + 1) dengan probabilitas transisi, dan

hadiah tergantung pada keadaan dan tindakan seleksi.

Untuk beralih dari si(t) ke si(t + 1) dengan imbalan wi(t), kita pertimbangkan transisi bersyarat

probabilitas, p(si(t + 1),wi(t)jsi(t), ai(t)). Perlu dicatat bahwa agen hanya dapat mengontrol

tindakannya sendiri dan tidak memiliki pengetahuan sebelumnya tentang matriks probabilitas transisi P
=

p(si(t + 1),wi(t)jsi(t), ai(t)), yang ditentukan oleh lingkungan. Intuisi dari

MDP disajikan pada Gambar 3. Oleh karena itu, tujuan utama dari pembelajaran penguatan ini

adalah menemukan kebijakan untuk memaksimalkan imbalan kumulatif yang diharapkan. Kita punya:

(rumus)

4.2. Q-Learning yang Mendalam

Seperti yang ditunjukkan pada Gambar 3, agen mengambil tindakan tergantung pada keadaan, yang
disebut

kebijakan p, yang memetakan keadaan si(t) ke aksi ai(t). Secara matematis, kami menyatakan ini sebagai

pi : si(t) 2 S ! ai(t) 2 A. Mekanisme Q-learning digunakan untuk memaksimalkan jangka panjang

akumulasi imbalan diskon yang diharapkan [10]. Mempertimbangkan nilai Qi(si(t), ai(t)) dari pi

untuk pasangan status si(t) dan aksi ai(t), nilai ini dihitung dengan akumulasi yang diharapkan

hadiah diskon. Oleh karena itu, kebijakan pi dibangun dengan mengambil tindakan:

(rumus)

Berdasarkan fungsi-Q dari persamaan Bellman [10], kebijakan optimal pi dengan

nilai Qi dapat diperoleh dengan:

(rumus)

sehingga nilai-Q untuk negara bagian, mengingat keadaan tertentu, diharapkan didiskontokan

imbalan kumulatif.

Oleh karena itu, dalam MDP, kami bertujuan untuk menentukan kebijakan optimal yang dinyatakan
sebagai p_ : Si ! Ai.

Mengikuti distribusi stasioner di MDP, nilai-Q akan menyatu ke optimal

nilai Q_ dengan perhitungan ekuivalen berikut [10]:

(rumus)
4.2. Q-Learning yang Mendalam

Seperti yang ditunjukkan pada Gambar 3, agen mengambil tindakan tergantung pada keadaan, yang
disebut

kebijakan p, yang situasinya si(t) ke aksi ai(t). Secara matematis, kami menyatakan ini sebagai

pi : si(t) 2 S ! ai(t) 2 A. Mekanisme Q-learning digunakan untuk memaksimalkan jangka panjang

akumulasi ketidakseimbangan diskon yang diharapkan [10]. Mempertimbangkan nilai Qi(si(t), ai(t)) dari
pi

untuk status pasangan si(t) dan aksi ai(t), nilai ini dihitung dengan akumulasi yang diharapkan

diskon hadiah. Oleh karena itu, kebijakan pi dibangun dengan mengambil tindakan:

(rumus)

4.2. Q-Learning yang Mendalam

Seperti yang ditunjukkan pada Gambar 3, agen mengambil tindakan tergantung pada keadaan, yang
disebut

kebijakan p, yang situasinya si(t) ke aksi ai(t). Secara matematis, kami menyatakan ini sebagai

pi : si(t) 2 S ! ai(t) 2 A. Mekanisme Q-learning digunakan untuk memaksimalkan jangka panjang

akumulasi ketidakseimbangan diskon yang diharapkan [10]. Mempertimbangkan nilai Qi(si(t), ai(t)) dari
pi

untuk status pasangan si(t) dan aksi ai(t), nilai ini dihitung dengan akumulasi yang diharapkan

diskon hadiah. Oleh karena itu, kebijakan pi dibangun dengan mengambil tindakan:

(rumus)

Berdasarkan fungsi-Q dari penjualan Bellman [10], kebijakan optimal pi dengan

nilai Qi dapat diperoleh dengan

(rumus)

sehingga nilai-Q untuk negara bagian, mengingat keadaan tertentu, diharapkan didiskontokan

imbalan kumulatif.

Oleh karena itu, dalam MDP, kami bertujuan untuk menentukan kebijakan optimal yang dinyatakan
sebagai p_ : Si ! Ai.

Mengikuti distribusi stasioner di MDP, nilai-Q akan menyatu ke optimal

nilai Q_ dengan perhitungan ekuivalen berikut [10]:

(ada rumus)
di mana Qi(.) adalah nilai lama. Untuk mendapatkan nilai Q optimal, algoritma dijalankan sampai

nilai perubahan rata-rata dari nilai-Q kurang dari ambang batas, yang disebut fase pelatihan.

Detail dari fase pelatihan dapat digambarkan seperti yang ditunjukkan pada Algoritma 1. Pada

dimulai, Q-matrix acak dihasilkan (Baris 3). Sebuah loop dijalankan (dari Baris 5 sampai 9) untuk
memodifikasi matriks ini sampai konvergensi (yaitu, di mana perubahannya kurang dari

ambang batas e). Status acak si(t) dipilih untuk memulai pelatihan (Baris 4). Baris 6 secara acak

memilih status yang mungkin ai(t) untuk berpindah ke status berikutnya s0

dia). Baris 7 memperbarui nilai-Q

dari pasangan state-action (si(t), ai(t)) menggunakan (16). Algoritma berlanjut sampai memenuhi

kondisi konvergensi.

(ada tabel)

Menurut metode Q-learning tradisional, tidak sulit untuk mendapatkan konvergensi

dihasilkan dengan ruang tindakan negara yang kecil. Namun, model Q-learning klasik

tidak dapat diterapkan langsung ke pekerjaan kita karena ruang tindakan negara sangat besar,
mengingat hal itu

keadaan di DR2O terdiri dari tupel parameter yang menghasilkan kombinasi yang sangat besar.

Selanjutnya, tingkat pengisian ulang obat xi diatur secara fleksibel dalam kisaran tertentu, demikian juga

meningkatkan ukuran ruang tindakan negara. Dalam hal ini, ada dua masalah: (i) terlalu

sulit untuk membangun probabilitas transisi untuk MDP, dan (ii) beberapa negara bagian yang tidak

dikunjungi dan yang diperbarui jarang menyebabkan konvergensi yang panjang dalam fase pelatihan

untuk mendapatkan nilai Q_.

Untuk mengatasi masalah ini, Deep Neural Network (DNN) digunakan untuk memperkirakan

Q-fungsi [9]. Mengingat informasi input dari status si(T), DNN dilatih untuk belajar

pemetaan optimal si(t) ke ai(t). Oleh karena itu, kami mendesain input DNN untuk disajikan

semua fitur keadaan si(t), dan keluarannya adalah nilai-Q, Qi(si(t), ai(t)). Kami mendesain

model DNN ini untuk set obat I; oleh karena itu, untuk formulasi yang lebih sederhana, kami menghapus

saya indeks.

Untuk mendapatkan nilai-Q yang benar, DNN membutuhkan fase pelatihan untuk memperbarui bobot

parameter dalam jaringan. Khususnya, diberikan pasangan masukan-keluaran < s(t), y > dalam data
set D, DNN bertujuan untuk meminimalkan fungsi kerugian berikut

(ada rumus)

You might also like