You are on page 1of 72

東海大學電機工程學系

碩士論文

合作策略機制整合強化學習於
群體機器人系統

Cooperative Policy Mechanism using Reinforcement

Learning for Multi-robot System

研究生:王宥登

指導教授:蔣惟丞博士

中華民國 112 年 07 月 17 日
致謝

在這畢業的季節裡,我能夠順利完成東海大學的碩士五年一貫學程,都

是仰賴一路上得到了許多人的幫助,在此致謝。

首先我想感謝我的父母,在求學的路上始終不會給我太多壓力,即使在

我高中階段成績跌落谷底時也沒有斥責我,謝謝你們相信我是個認真向上且

能為自己負責的人,讓我能夠在求學階段盡情地自由發展。接下來要特別感

謝蔣惟丞教授以及陳昱仁教授,研究過程中遇上瓶頸時為我解惑,並花時間

認真地與我討論許多事情。在實驗時指出我考慮不完善的部分,協助我釐清

思路。給予許多的指導與建議。

也要感謝擔任口試委員的徐元寶教授及朱明毅教授,謝謝你們花時間讀

過初稿並在口試時對我提問及給予建議,這讓我明白初稿中還有許多的不足

之處以及需要修正的地方。多饋有這些建議,我才能完成這份完稿。相信這

些教誨不只讓我能夠順利完成這份碩士論文,更是在往後人生中遇到難題時

能夠依靠的重要經歷。

最後本論文研究感謝科技部計畫 MOST-111-2221-E-029 -023-經費支持。

i
摘要

本論文中主要探討的是在群體機器合作人系統下,提升強化學習的效能

同時減少記憶體空間的使用。代理人在學習合作過程中能否順利達成共識,

對於學習速度與效果有很大的影響。當環境中存在多位代理人時,若各個代

理人只追求最大化自身利益,可能會產生環境停滯而無法達成任務的狀況。

本文所提出的方法是基於合作傾向值的演算法,其核心概念為建立新的

PTable 紀錄各代理人間的合作狀況,並以此為依據配合 QTable,通過計算

Payoff function 決定代理人在當前狀態下要如何行動,此方法能使代理人在

環境中的行動快速取得共識。然而需要紀錄的資訊變多,更進一步增加了記

憶體空間的用量,過大的 QTable 和 PTable 可能會導致學習的速度變慢,因

此如何減少記憶體的使用為本論文之重點。

關鍵詞:群體代理人、合作、強化學習、合作傾向值

ii
Abstract

This paper primarily explores enhancing the performance of reinforcement


learning while reducing memory space usage in a Multi-robot system. The ability
of agents to successfully achieve consensus during cooperative learning
significantly impacts the learning speed and effectiveness. In an environment with
multiple agents, if each agent solely pursues maximizing its own benefits, it may
lead to environmental stagnation and the inability to accomplish tasks. The
proposed approach in this paper is based on a cooperative tendency values
algorithm, where the core concept involves establishing a new PTable to record the
cooperative states between agents. Based on this, in conjunction with the QTable,
a Payoff function is computed to determine how agents should act in the current
state, enabling rapid consensus among agents in their actions within the
environment. However, the increased amount of information that needs to be
recorded further adds to the memory space usage. Large QTables and PTables can
potentially slow down the learning process. Therefore, reducing memory usage is
a focal point of this paper.

Keywords: Reinforcement Learning, Multi-robot System, Cooperative

iii
目錄
致謝 ........................................................................................................................ i

摘要 ....................................................................................................................... ii

Abstract ............................................................................................................... iii

目錄 ...................................................................................................................... iv

表目錄 ................................................................................................................. vii

圖目錄 .................................................................................................................. ix

第一章 緒論 ......................................................................................................... 1

1.1 研究動機 .................................................................................................. 1

1.2 文獻回顧 .................................................................................................. 2

1.3 論文架構 .................................................................................................. 3

第二章 文獻探討 ................................................................................................. 4

2.1 群體代理人合作系統 ............................................................................... 4

2.2 馬可夫決策過程 ...................................................................................... 7

2.2.1 強化學習 ............................................................................................ 7

2.2.2 Q-learning ........................................................................................ 9

2.3 WoLF-PHC 演算法 ............................................................................ 10

iv
2.4 Hysteretic Q-learning 演算法 ............................................................. 12

2.5 Cooperative Tendency Model 演算法 ................................................. 14

第三章 研究方法 ............................................................................................... 17

3.1 合作傾向值 𝑝(𝑠, 𝑎) ................................................................................ 17

3.2 動作策略 ................................................................................................ 21

3.3 記憶體空間比較 .................................................................................... 24

第四章 實驗環境與結果 ................................................................................... 25

4.1 合作搬運任務 ........................................................................................ 25

4.1.1 模擬環境 .......................................................................................... 25

4.1.2 參數設定 .......................................................................................... 27

4.1.3 結果與討論 ...................................................................................... 29

4.2 合作牽引球任務 .................................................................................... 32

4.2.1 模擬環境 .......................................................................................... 32

4.2.2 參數設定 .......................................................................................... 34

4.2.3 結果與討論 ...................................................................................... 36

4.3 獵物固定路徑的合作捕獵任務 ............................................................. 39

4.3.1 模擬環境 .......................................................................................... 39


v
4.3.2 參數設定 .......................................................................................... 41

4.3.3 結果與討論 ...................................................................................... 42

4.4 獵物隨機路線的合作捕獵任務 ............................................................. 45

4.4.1 模擬環境 .......................................................................................... 45

4.4.2 參數設定 .......................................................................................... 47

4.4.3 結果與討論 ...................................................................................... 48

4.5 不同環境中演算法的記憶體空間使用量.............................................. 51

4.5.1 合作搬運任務 .................................................................................. 51

4.5.2 合作牽引球任務............................................................................... 52

4.5.3 合作捕獵任務 .................................................................................. 53

第五章 結論與未來展望 ................................................................................... 54

5.1 結論 ..................................................................................................... 54

5.2 未來展望 ............................................................................................. 55

參考文獻 ............................................................................................................. 56

附錄 ..................................................................................................................... 58

vi
表目錄

表 3.1 合作傾向值與合作是否成功之關係...................................................... 20

表 3.2 動作策略中 Q 值與合作傾向值的關係 ................................................. 22

表 3.3 各演算法之記憶體空間使用量 ............................................................. 24

表 4.1 合作搬運任務獎勵函數設定 ................................................................. 27

表 4.2 合作搬運任務訓練次數、回合數及步數設定 ...................................... 28

表 4.3 CPM 演算法參數設定 ........................................................................... 28

表 4.4 合作傾向值之 𝐾 值設定 ........................................................................ 28

表 4.5 合作牽引球獎勵函數設定 ..................................................................... 34

表 4.6 合作牽引球訓練次數、回合數及步數設定 .......................................... 35

表 4.7 CPM 演算法參數設定 ........................................................................... 35

表 4.8 合作傾向值之 𝐾 值設定 ........................................................................ 35

表 4.9 獵物固定路線合作捕獵任務獎勵函數設定 .......................................... 40

表 4.10 獵物固定路線合作捕獵訓練次數、回合數及步數設定..................... 41

表 4.11 CPM 演算法參數設定 .......................................................................... 41

表 4.12 合作傾向值之 𝐾 值設定....................................................................... 42

表 4.13 獵物隨機路線合作捕獵參數設定........................................................ 46

表 4.14 獵物隨機路線合作捕獵訓練次數、回合數及步數設定..................... 47

vii
表 4.15 CPM 演算法參數設定.......................................................................... 47

表 4.16 合作傾向值之 𝐾 值設定 ...................................................................... 48

表 4.17 各演算法每位代理人在合作搬運任務中的記憶體使用量 ................. 51

表 4.18 各演算法每位代理人在合作牽引球環境中的記憶體使用量 ............. 52

表 4.19 合作捕獵任務記憶體空間計算公式 .................................................... 53

表 4.20 各演算法每位代理人在合作捕獵環境中的記憶體使用量 ................. 53

附錄表 1 合作搬運環境中 CTM 演算法參數設定 .......................................... 58

附錄表 2 合作搬運環境中 WoLF-PHC 演算法參數設定 ................................ 58

附錄表 3 合作搬運環境中 Hysteretic Q-learning 演算法參數設定 ................. 58

附錄表 4 合作牽引球環境 CTM 演算法參數設定 .......................................... 59

附錄表 5 合作牽引球環境 WoLF-PHC 演算法參數設定 ................................ 59

附錄表 6 合作牽引球環境 Hysteretic Q-learning 演算法參數設定 ................. 59

附錄表 7 獵物固定路線合作捕獵任務 CTM 演算法參數設定 ....................... 60

附錄表 8 獵物固定路線合作捕獵任務 WoLF-PHC 演算法參數設定............. 60

附錄表 9 獵物固定路線合作捕獵任務 Hysteretic Q-learning 演算法參數設定


........................................................................................................................... 60
附錄表 10 獵物隨機路線合作捕獵任務 CTM 演算法參數設定 ..................... 61

附錄表 11 獵物隨機路線合作捕獵任務 WoLF-PHC 演算法參數設定 ........... 61

附錄表 12 獵物隨機路線合作捕獵任務 Hysteretic Q-learning 演算法參數設定


........................................................................................................................... 61
viii
圖目錄

圖 2.1 群體代理人學習架構 ............................................................................... 5

圖 2.2 強化學習流程圖 ....................................................................................... 8

圖 2.3 Q-learning 演算法 .................................................................................... 9

圖 2.4 WoLF-PHC 演算法................................................................................. 11

圖 2.5 Hysteretic Q-learning 演算法 ................................................................. 13

圖 2.6 CTM 演算法動作選擇策略.................................................................... 15

圖 2.7 CTM 演算法 ........................................................................................... 16

圖 3.1 機器人合作搬運任務 ............................................................................. 18

圖 3.2 合作搬運中貨物掉落 ............................................................................. 18

圖 3.3 機器人與障礙物碰撞 ............................................................................. 18

圖 3.4 CPM 演算法合作傾向值更新方式 ........................................................ 19

圖 3.5 Payoff function 及動作策略 ................................................................... 21

圖 3.6 合作策略機制於群體機器人系統之完整演算法 .................................. 23

圖 4.1 合作搬運環境......................................................................................... 26

圖 4.2 合作搬運任務訓練 40 次平均步數........................................................ 30

圖 4.3 合作搬運任務最後 500 回合平均步數 .................................................. 30

圖 4.4 合作搬運任務 40 次訓練步數標準差.................................................... 31

ix
圖 4.5 合作牽引球環境 ..................................................................................... 33

圖 4.6 合作牽引球訓練 40 次平均步數 ........................................................... 37

圖 4.7 合作牽引球最後 100 回合平均步數...................................................... 37

圖 4.8 合作牽引球 40 次訓練步數標準差........................................................ 38

圖 4.9 收斂過程中球掉入陷阱與行動次數之比值 .......................................... 38

圖 4.10 機器人完成補獵任務 ........................................................................... 39

圖 4.11 機器人捕獵合作失敗 ........................................................................... 40

圖 4.12 獵物固定路線合作捕獵任務訓練 40 次平均步數 .............................. 43

圖 4.13 獵物固定路線合作捕獵任務最後 1000 回合平均步數 ...................... 43

圖 4.14 獵物固定路線合作捕獵任務 40 次訓練步數標準差 .......................... 44

圖 4.15 機器人完成捕獵任務 ........................................................................... 45

圖 4.16 機器人捕獵合作失敗 ........................................................................... 46

圖 4.17 獵物固定路線合作捕獵任務訓練 40 次平均步數 .............................. 49

圖 4.18 獵物隨機路線合作捕獵任務最後 1000 回合平均步數 ...................... 49

圖 4.19 獵物隨機路線合作捕獵任務 40 次訓練步數標準差 .......................... 50

x
第一章 緒論

1.1 研究動機

在人類社會中,我們透過「合作」這一行為解決無法獨自完成的問題,

亦或使問題能更有效率的達成。在隨著科技演進而逐漸複雜化的機器學習

中,如何有效應用群體代理人系統(Multi-agent System)[1]的架構進行訓

練,是近年來 AI 發展的一大重點。強化學習代理人通常被應用於工作環境

符合離散時間隨機控制的馬可夫決策過程(Markov Decision Process)[2],

利用代理人與環境互動進行探索、累積經驗進行學習。將強化學習延伸至群

體代理人系統架構下,代理人在學習過程中不僅受到環境,也同時受其他代

理人的行動所影響,代理人數量的增長及環境的複雜化都會使記憶體空間

的使用量增加,根據演算法的不同,代理人數增加時的記憶體空間可能是以

倍數甚至指數型增長,又因表格空間變大會導致使 QTable 收斂需要更多的

時間,既耗時又耗能。故比起單代理人強化學習,多代理人的複雜度及難度

更高。在此基礎上,如何使用更少的記憶體,並使代理人間順利達成合作,

即是本論文基於 Q-learning 演算法[3] 所提出的合作策略機制(Cooperative

Policy Mechanism, CPM)演算法之重點。

1
1.2 文獻回顧

Y. Shoham 與 K. Leyton-Brown 在介紹了群體代理人系統(Multi-agent

Systen)[4],該系統是由多個自主互動,且擁有相同或不相同目標和感官的

代理人組成。根據代理人間的連結方式可以區分為去中心式、中心式及混合

式。根據互動程度分成三種類型,無直接互動、簡單互動以及複雜互動。

M. Bowling 與 M. Veloso 提出的 WoLF-PHC 演算法[5],為了加速代理

人的學習並收斂至最佳策略,在獲得的回饋高於平均期望值時緩慢更新策

略,以確保對環境的探索。反之低於平均期望值時,則快速調整策略以加速

學習。以此讓代理人可以更快適應環境以及其它代理人的策略改變。

L. Matignon 提出的 Hysteretic Q-learning 演算法[6],此方法中,當代理

人選擇過去經驗中回饋值好的動作,卻得到不好的獎勵,會使用較小的學習

率 𝛽 以降低懲罰。若動作得到好的獎勵則使用較大的學習率 𝛼 加速學習。

通過區分不同情況下的學習率,使策略更容易收斂。

H. Shi 與 L. Zhai 等人[7]提出一種應用於群體代理人系統的強化學習模

型,該研究設計了合作傾向值的參數,代理人的動作策略中需要同時考慮

QTable 與合作傾向值 𝑀(𝑎⃗),並通過 Payoff function 整合以選出代理人之行

動。在此演算法中,各個代理人知道彼此的狀態資訊並記錄於 QTable 中,

而 𝑀(𝑎⃗) 紀錄了各代理人的動作資訊,使用了大量的記憶體空間,導致代理

人需要更多時間探索環境,才能有效地進行收斂。

2
H. H. Huang 提出的 Cooperative Tendency Model 是一種基於合作傾向

值的強化學習演算法[8]。此方法利用 Payoff function 進行動作決策,將合作

傾向值重新定義為 𝑝(𝑠⃗, 𝑎) ,記錄代理人之間的狀態及自身動作,並設計其

更新方式。利用合作傾向值使代理人間快速形成默契,增加合作成功的機會

藉此提升學習速度。但過大的 QTable 與 PTable 使收斂的速度變得緩慢。

1.3 論文架構

本文共分為五個章節,第二章會探討作為本文背景理論的文獻,包括馬

可夫決策過程、群體代理人系統,以及 WoLF-PHC、Hysteretic Q-learning 與

Cooperative Tendency Model 演算法;第三章將說明本文合作傾向值如何進

行更新與設定方法,以實現記憶體空間的減少及效能的提升。第四章會講述

本文基於群體代理人合作系統的模擬環境,包括合作搬運任務、合作牽引球

環境,以及獵物固定路線與隨機路線的合作捕獵任務,並比較各演算法的實

驗結果。最後,第五章會對本文進行總結,並說明未來研究方向。

3
第二章 文獻探討

此章節將介紹本文中的背景知識及相關文獻。第 2.1 節將介紹群體代理

人合作系統;第 2.2 節中將介紹馬可夫決策過程;第 2.2.1 節中將介紹強化

學習;第 2.2.2 節中將介紹 Q-learning;第 2.3 節中將介紹 WoLF-PHC 演算

法;第 2.4 節中將介紹 Hysteretic Q-learning 演算法;第 2.5 節中將介紹

Cooperative Tendency Model 演算法。

2.1 群體代理人合作系統

群體代理人系統是指共享同一環境的多個代理人,各個代理人間有著

自主性且互相影響[9],通過感測器及驅動器認知環境並與環境互動。代理

人在此系統中通過合作或競爭、共享或不共享資訊等方式,在環境中為了達

成目標進行各自的行動。此系統被應用於許多場合,例如:團隊型機器人、

智能電網、智慧交通及網路資源管理等應用[10]。其優點如下:

1. 由並行式運算使計算速度和執行效率提升

2. 因應使用場合,能靈活地增減代理人數量

3. 比起集體式架構,單個代理人的成本較低

4. 代理人的模板化,可重複利用於其它系統

4
在執行群體代理人系統時,由於代理人不單純只受環境中的不確定性

影響,其它代理人亦會以不可預測的方式影響環境,故此系統可以視為一個

動態環境[9]。意思是既使在同一狀態下執行同一動作,也可能因其它代理

人的影響而得到不同的回饋。這使每個代理人在學習過程中都必須預測其

它代理人的動作,培養彼此的默契以求導向目標結果的最佳動作。而上述的

預測動作及動態環境等因素都可能會導致學習的不穩定。圖 2.1 為群體代理

人的學習架構,圖中展示了群體代理人與環境互動的過程,各代理人透過自

身策略選擇的動作與環境進行互動,並得到該動作的回饋及環境資訊以更

新策略。

圖 2.1 群體代理人學習架構

群體代理人系統根據代理目標、資源及技能,從而使代理人之間有著不

同的互動模式。粗略來說互動可以分成積極與消極兩種類型,積極型互動又

可細分為集體互動、合作互動、協作互動與協調互動四種類型[11][12]。集

5
體互動是指在共享的環境下代理人有著共同目標,每個代理人的決策皆是

為了達成目標,但不知道彼此的存在。例如:編隊控制與捕獵等;合作互動

同樣是代理人為共同目標而努力,但代理人能夠感知到其他代理人的存在,

且相互影響。例如:搜尋救援、合作搬運等;在協作與協調互動中,代理人

則沒有共同的執行目標。兩者的不同之處在於,協作互動的代理人之間會互

相幫助以實現各自的目標,協調互動則是以盡可能減少彼此的干擾為條件,

各自實現自己的目標。這兩種類的差異比較接近於學生在考試前舉辦讀書

會來討論課業與在教室中讀書自習。

在本文的實驗環境中,是傾向合作互動的群體代理人系統。在合作互動

中根據代理人間資訊的共享情況,可以分成不溝通與完全溝通[13][14]。在

不溝通的情況下,代理人僅能掌握自身狀態、使用當前已掌握的策略進行控

制,通過環境的回饋更新策略並預測與其它代理人的合作狀況;完全溝通指

的是每位代理人將共享其狀態與行動,這被稱為聯合狀態(Joint State)與

聯合行動(Joint Action)。由於在完全溝通下代理人能掌握其它代理人的所

有資訊,這有效地使代理人能穩定達成團隊合作。然而缺點也很明顯,為了

儲存代理人間所共享的資訊而使用大量的記憶體空間,不只降低了學習的

速度,當要應對更加複雜的環境時,可能因此受到限制。

6
2.2 馬可夫決策過程

馬可夫決策過程(Markov Decision Process, MDP)被應用於經濟學、機

器人學、製造業之自動化等領域,是一種離散時間隨機控制的數學框架。在

機器學習中,環境通常被設定為 MDP 的形式。其中強化學習代理人的狀態

改變滿足下一個時間狀態 𝑠𝑡+1 僅取決於當前狀態 𝑠𝑡 及動作 𝑎𝑡 ,獨立於所有

先前狀態 𝑠𝑡−𝑛 及動作 𝑎𝑡−𝑛 。因此強化學習為具有馬可夫性質(Markov

Property)[15]的學習架構,可以稱作馬可夫決策程序。

馬可夫決策的組成包含了四個元素 𝑀 = { 𝑆, 𝐴, 𝑃𝑎 , 𝑅𝑎 }。其中 S 代表狀

態空間;A 代表動作空間;𝑃𝑎 (𝑠𝑡 , 𝑠𝑡+1 ) 代表從狀態 𝑠𝑡 執行動作 𝑎𝑡 進入下一

個狀態 𝑠𝑡+1 的機率;𝑅𝑎 (𝑠𝑡 , 𝑠𝑡+1 ) 代表從狀態 s𝑡 執行動作 𝑎𝑡 進入下一個狀

態 𝑠𝑡+1 的 及 時 獎 勵 。 馬 可 夫 決 策 的 目 的 是 透 過 使 隨 機 獎 勵 的 累 加

∑∞ 𝑡
𝑡=0 𝛾 𝑅𝑎𝑡 (𝑠𝑡 , 𝑠𝑡+1 ) 最大化,為決策者找尋一個好的策略 𝜋。其中 𝛾 為折扣

率,符合條件 0 ≤ 𝛾 ≤ 1。

2.2.1 強化學習

強化學習[16][17]是機器學習中的一個領域,強調如何基於環境而行動

以取得最大化的預期收益。此方法適合應用於解決沒有訓練樣本的問題。強

化學習需要根據訓練目的,定義出環境中好的獎勵與壞的獎勵,代理人藉由

與環境互動得到環境回饋的獎勵更新策略函數,不斷重複此過程,以動態規

7
劃的方式持續優化策略。一般強化學習具有五個基本要素:

1. 代理人(agent)
:執行策略之最小單位

2. 環境:代理人執行策略之互動場所

3. 狀態(𝑠):代理人於環境中的狀態

4. 動作(𝑎):代理人所執行的動作

5. 獎勵(𝑟):評價代理人策略好壞的獎勵值

當代理人處於當前狀態 𝑠𝑡 時,會根據經驗累積下的策略選擇出動作 𝑎𝑡 並執

行,接著從環境收到下一狀態 𝑠𝑡+1 並獲得獎勵值 𝑟𝑡 。最後強化學習演算法

利用獎勵值 𝑟𝑡 更新策略,代理人將狀態 𝑠𝑡+1 作為新的當前狀態 𝑠𝑡 並開始下

一輪的決策。圖 2.2 為強化學習流程圖,強化學習中狀態更新與動作決策流

程如圖所示。

圖 2.2 強化學習流程圖

8
2.2.2 Q-learning

由 Watkins[3]所提出的 Q-learning 是以強化學習為概念實作的一種演算

法。將代理人在狀態 𝑠𝑡 執行動作 𝑎𝑡 時所得到的獎勵值 𝑟𝑡 ,通過公式 2.1 轉

換為 Q 值並記錄在 QTable 中。當代理人每次要做決策時,都會依據之前所

累積的經驗,選擇能獲得最大 Q 值的動作。隨著學習次數的增加,QTable

中的 Q 值會越來越趨近理想 Q 值,使代理人可以通過尋找最大 Q 值來取得

最佳策略。

𝑄(𝑠, 𝑎) ← 𝑄(𝑠, 𝑎) + 𝛼 (𝑟 + 𝛾 max



𝑄(𝑠′, 𝑎′) − 𝑄(𝑠, 𝑎)) (2.1)
𝑎

通過公式 2.1 更新 Q 值已被證明會收斂。其中 𝛼(0 < 𝛼 ≤ 1) 為學習率以及

𝛾(0 ≤ 𝛾 ≤ 1) 為折扣率,而 𝑟 + 𝛾 max



𝑄(𝑠′, 𝑎′) 是 Q 值的學習目標。完整的
𝑎

Q-learning 演算法如圖 2.3 所示。

圖 2.3 Q-learning 演算法


9
2.3 WoLF-PHC 演算法

WoLF-PHC(Policy Hill-Climbing)是由 M. Bowling 與 M. Veloso[5]所

提出的演算法。通過將 WoLF(Win or Learn Fast)的原則,當代理人執行動

作的回饋值高於平均期望值時緩慢地調整參數,反之則快速調整。結合 PHC

演算法中,增加能夠累積最大期望值的動作被選取機率的概念。圖 2.4 為完

整 WoLF-PHC 演算法。

在此演算法中,記錄的資訊如圖 2.4 第 2 行所示,其中 𝜋(𝑠, 𝑎) 為狀態

𝑠 下代理人選擇動作 𝑎 的機率,且 𝐴𝑖 為代理人 𝑖 的動作空間; 𝜋̅(𝑠, 𝑎) 為狀

態 𝑠 下代理人執行動作 𝑎 時,可獲得獎勵的平均期望值;𝐶(𝑠) 為狀態 𝑠 被拜

訪的次數。訓練過程中,當代理人處於狀態 𝑠 時,使用動作機率 𝜋(𝑠, 𝑎) 來

進行動作決策。執行選擇出的動作 𝑎 後,得到環境給予的回饋值 𝑟 及下一個

狀態 𝑠 ′ 。通過公式 2.2 更新 Q 值。將狀態 𝑠 的拜訪次數 𝐶(𝑠) 累加 1 次,並

通過公式 2.3 更新平均期望值 𝜋̅(𝑠, 𝑎) 。通過比較 𝜋(𝑠, 𝑎) 及 𝜋̅(𝑠, 𝑎) 兩者分別

與 𝑄(𝑠, 𝑎) 的乘積累加值大小,決定更新 𝜋(𝑠, 𝑎) 的 𝛿 值為何,如圖 2.4 第 13

與第 14 行所示。最後將狀態 𝑠 更新。

𝑄(𝑠, 𝑎) ← (1 − 𝛼)𝑄(𝑠, 𝑎) + 𝛼 (𝑟 + 𝛾 max



𝑄(𝑠 ′ , 𝑎′ )) (2.2)
𝑎

1
∀𝑎′ ∈ 𝐴𝑖 𝜋̅(𝑠, 𝑎′ ) ← 𝜋̅(𝑠, 𝑎′ ) + (𝜋 (𝑠, 𝑎) − 𝜋̅(𝑠, 𝑎′ )) (2.3)
𝐶(𝑠)

10
若狀態 𝑠 的 𝜋(𝑠, 𝑎) 優於 𝜋̅(𝑠, 𝑎),使用較小的 𝛿𝑤 更新 𝜋(𝑠, 𝑎) 值。反之則使

用較大的 𝛿𝑙 進行更新。平均期望值 𝜋̅(𝑠, 𝑎) 更新時會乘上狀態拜訪次數𝐶(𝑠)

的倒數,當狀態被拜訪的次數越多,則 𝜋̅(𝑠, 𝑎) 變化量越小,這有利於訓練

後期的訓練穩定性。但應用於部分環境時可能導致演算法無法收斂。

圖 2.4 WoLF-PHC 演算法


11
2.4 Hysteretic Q-learning 演算法

由 L. Matignon 提出的 Hysteretic Q-learning 演算法[6],在群體代理人

系統中,代理人的獎勵值好壞取決於「團隊」與「目標」這兩點,若決策時

選擇了過去經驗中最佳的動作,卻受到不好的獎勵值懲罰,原因可能在於團

隊默契不佳,而不是因為該選擇有違於目標。

在此演算法中,若代理人選擇過去獎勵好的動作卻受到懲罰時,通過公

式 2.4 計算發現 𝛿 < 0,在公式 2.5 中使用較小的學習率 𝛽 更新 𝑄𝑖 (𝑠, 𝑎𝑖 ),

以降低懲罰。而代理人在狀態 𝑠 執行的動作有好獎勵時,使用較大的學習率

𝛼 更新 𝑄𝑖 (𝑠, 𝑎𝑖 ),使 Q 值加速學習。Hysteretic Q-learning 演算法可以針對

代理人的情況給予相應的學習率以促進收斂。此演算法只使用記錄了代理

人自身狀態與動作的 QTable,在代理人數量一致的情況下,記憶體的使用

量與傳統 Q-learning 相同。在增加代理人數量時,記憶體空間的增長相對較

少。圖 2.5 為 Hysteretic Q-learning 完整演算法。

𝛿 ← 𝑟 + 𝛾 max

𝑄𝑖 (𝑠 ′ , 𝑎′ ) − 𝑄𝑖 (𝑠, 𝑎𝑖 ) (2.4)
𝑎

𝑄 (𝑠, 𝑎𝑖 ) + 𝛼𝛿 if 𝛿 ≥ 0
𝑄𝑖 (𝑠, 𝑎𝑖 ) ← { 𝑖 (2.5)
𝑄𝑖 (𝑠, 𝑎𝑖 ) + 𝛽𝛿 else

12
圖 2.5 Hysteretic Q-learning 演算法

13
2.5 Cooperative Tendency Model 演算法

Cooperative Tendency Model(CTM)演算法[8],是 H. H. Huang 利用合

作傾向值 𝑀(𝑎⃗) 與 Payoff function 的概念[7]設計。合作傾向值是由 H. Shi 及

L. Zhai 等人[7]提出的概念,在該研究中 QTable 需要記錄環境中所有代理人

的狀態 𝑠⃗ ≡ (𝑠1 , 𝑠2 , … 𝑠𝑖 ) 及自身的動作 𝑎,同時 𝑀(𝑎⃗) 需要記錄所有代理人的

動作 𝑎⃗ ≡ (𝑎1 , 𝑎2 , … 𝑎𝑖 ),其中 𝑠𝑖 為代理人 𝑖 所在的狀態,𝑎𝑖 為代理人 𝑖 選擇

的動作。利用公式 2.6 計算 𝑃𝑎𝑦𝑜𝑓𝑓(𝑠⃗, 𝑎⃗, 𝑖) 時,各代理人間等同於共享狀態

及動作,屬於完全溝通式群體代理人合作系統。

𝑃𝑎𝑦𝑜𝑓𝑓(𝑠⃗, 𝑎⃗, 𝑖) = 𝑄𝑖 (𝑠⃗, 𝑎𝑖 )𝑀(𝑎⃗) (2.6)

在 CTM 演算法中,為使代理人在無法觀測其它代理人動作的環境下學

習,將合作傾向值重新定義為 𝑝𝑖 (𝑠⃗, 𝑎𝑖 ) ∈ (0, 1],使 PTable 與 QTable 同樣記

錄環境中各代理人的狀態 𝑠⃗ 與自身的動作 𝑎𝑖。在公式 2.7 中 𝑛𝑖 (𝑠⃗, 𝑎𝑖 ) 為記錄

了代理人 𝑖 在狀態 𝑠⃗ 執行動作 𝑎𝑖 次數的表格。合作傾向值的更新方法如公

式 2.8。其中 𝐾 值在合作失敗時設為 0,其餘情況設為 1。


1
𝜆= (2.7)
√𝑛(𝑠⃗,𝑎𝑖 )

𝑝𝑖 (𝑠⃗, 𝑎𝑖 ) ← 𝑝𝑖 (𝑠⃗, 𝑎𝑖 ) + 𝜆 ∗ (𝐾 − 𝑝𝑖 (𝑠⃗, 𝑎𝑖 )) (2.8)

在公式 2.8 中,𝜆 是更新合作傾向值的學習率,通過公式 2.7 可以了解,在

學習初期學習率 𝜆 值較高,當代理人在狀態 𝑠⃗ 執行動作 𝑎𝑖 的次數越多則 𝜆

值越小。當訓練次數足夠多時,𝜆 會趨近於 0,使合作傾向值收斂。


14
群體代理人合作系統中,為使策略能夠最大化各自的收益並提高與其

它代理人的合作能力,在 CTM 演算法中使用的 Payoff function 動作選擇策

略,如圖 2.6 所示。

圖 2.6 CTM 演算法動作選擇策略

其中 𝑄∗ (𝑠⃗, 𝑎𝑖 ) 為在狀態 𝑠⃗ 下的最大 Q 值,而 𝑄− (𝑠⃗, 𝑎𝑖 ) 是同一狀態下的最小

Q 值,𝑄𝑛 (𝑠⃗, 𝑎𝑖 ) 是將各 Q 值作正規化後,使其直落在 0 到 1 之間。圖 2.6 第

4 行中的 Payoff function 是通過將合作傾向值 𝑝𝑖 (𝑠⃗, 𝑎𝑖 ) 乘上經過正規化的

𝑄𝑛 (𝑠⃗, 𝑎𝑖 ),計算並得出可以獲得最大 𝑃𝑎𝑦𝑜𝑓𝑓(𝑠⃗, 𝑎𝑖 ) 的動作 𝑎𝑖 。

CTM 演算法中,通過動作選擇策略中的合作傾向值,使群體代理人之

間合作的機率提升,以此提升對環境的探索速度並加速學習。但演算法中的

各個表格必須同時紀錄自己與其它代理人的狀態,不只導致記憶體空間的

使用量變大,過大的 QTable 與 PTable 也會導致訓練需要更多的時間才能收

斂至最佳步數。圖 2.7 為完整的 CTM 演算法。


15
圖 2.7 CTM 演算法

16
第三章 研究方法

強化學習中機器人所記錄的資訊越多,除了會使記憶體用量增加外,過

大的狀態空間同時也有會導致收斂速度變慢,甚至難以達成收斂。本篇論文

提出的 CPM 演算法中致力於減少群體機器人系統中,使用合作傾向值進行

訓練時所需的記憶用量。在確保能維持其收斂能力的同時,套用到各種環境

中檢測此演算法的泛用性。第 3.1 節將分析合作傾向值 𝑝(𝑠⃗, 𝑎) 的意義,並

說明 𝑝(𝑠⃗, 𝑎) 的更新方式;第 3.2 節將說明應用合作傾向值的動作策略;第

3.3 節將比較本論文與其他演算法記憶體空間的使用。

3.1 合作傾向值 𝒑(𝒔, 𝒂)

在群體機器人合作系統中,機器人之間會有一個共同的目標,需要機器

人以合作的方式實現,在演算法中,若機器人之間不共享狀態及動作,由於

無法得知其它機器人的資訊,在學習合作的過程中容易出現無法合作成功

的狀況,進而拖慢學習速度。而合作傾向值就是為了使機器人的動作決策更

容易達成合作,而設計的一個參數。例如在合作搬運的環境中,為不使搬運

的貨物掉落,機器人之間必須保持適當的距離進行移動,圖 3.1 為機器人合

作搬運示意圖,其中虛線為狀態邊界,𝑠0,𝑡 為機器人 0 的當前狀態、𝑠1,𝑡 為

機器人 1 的當前狀態,箭頭表示機器人移動方向,且 𝑠0,𝑡+1 為機器人 0 的下

一狀態、𝑠1,𝑡+1 為機器人 1 的下一狀態。如圖 3.2 貨物掉落示意圖所示,若


17
機器人選擇的動作相反,會使搬運的物品掉落導致合作失敗;或是如圖 3.3

中機器人與環境中的障礙物發生碰撞。

圖 3.1 機器人合作搬運任務

圖 3.2 合作搬運中貨物掉落

圖 3.3 機器人與障礙物碰撞

18
在學習的過程中,要定義出什麼樣的合作是好的,可以有助於 Q 值收

斂,是一件很困難的事。因此在使用合作傾向值的演算法中,大多是採用標

記合作失敗情況的方法,區分出「合作失敗」與其他。在合作失敗的場合,

通過公式 3.1 將 𝑝𝑖 (𝑠, 𝑎) 調小,其中 𝑠 與 𝑎 為機器人 𝑖 自身的狀態及動作;

合作失敗以外的情況則將 𝑝𝑖 (𝑠, 𝑎) 調大。隨著訓練的次數增加,使不利於合

作的行動之 𝑝𝑖 (𝑠, 𝑎) 趨近於 0,減少在動作策略的階段選擇該動作的機率。

圖 3.4 為 CPM 演算法的合作傾向值𝑝𝑖 (𝑠, 𝑎) 更新方式,當機器人合作失敗時

𝐾 設為 0 且學習率 𝜆 設為 𝜆𝑙 ;其它情況下 𝐾 設為 1 且學習率 𝜆 設為 𝜆𝑤 。

𝑝𝑖 (𝑠, 𝑎) ← 𝑝𝑖 (𝑠, 𝑎) + 𝜆 ∗ (𝐾 − 𝑝𝑖 (𝑠, 𝑎)) (3.1)

圖 3.4 CPM 演算法合作傾向值更新方式

在此方法中,將 CTM 演算法用來記錄各狀態 𝑠⃗ 下動作 𝑎𝑖 選擇次數的

𝑛(𝑠⃗, 𝑎𝑖 ) 刪除,將學習率 𝜆 設為常數,以減少記憶體用量。在更新合作傾向

值時,會根據機器人下一狀態的合作失敗與否,決定所使用的學習率。在合

作失敗時給予較大的學習率𝜆𝑙 ,使 𝑝𝑖 (𝑠, 𝑎) 快速調整;反之則緩慢學習。

19
通過表 3.1 合作傾向值與合作是否成功之關係,可以歸納出此更新方式

中的 𝐾 − 𝑝𝑖 (𝑠, 𝑎) 有四種情況。情況(1)是機器人選擇高合作傾向的動作後,

合作不失敗,更新 𝑝𝑖 (𝑠, 𝑎) 時 𝐾 − 𝑝𝑖 (𝑠, 𝑎) 的值很小,𝑝𝑖 (𝑠, 𝑎) 的變化量同樣

很小,情況(4)機器人選擇低合作傾向的動作後,合作失敗時也是同理。在

情況(2)時,機器人選擇高合作傾向的動作後,因合作失敗 𝐾 等於 0,𝐾 −

𝑝𝑖 (𝑠, 𝑎) 的值很大,會使原本認為好的合作傾向值𝑝𝑖 (𝑠, 𝑎) 下調很多;反之在

情況(3)時,會使原本認為不好的𝑝𝑖 (𝑠, 𝑎) 大幅上調。這種大幅度的調整將不

利於學習的穩定性,因此在更新公式 3.1 中必須有學習率 𝜆 用來抑制合作傾

向值的增減幅度。

表 3.1 合作傾向值與合作是否成功之關係

20
3.2 動作策略

在使用合作傾向值的演算法中,動作策略是由 Payoff function 整合合作

傾向值 𝑝𝑖 (𝑠, 𝑎) 與 Q 值 𝑄𝑖 (𝑠, 𝑎) 並選擇動作,其中 QTable 中所記錄的 Q 值

目的是使機器人能感知環境、避開障礙並達到目標;合作傾向值 𝑝𝑖 (𝑠, 𝑎) 則

是用於使機器人間無法合作的次數減少,以提升學習的效率。CPM 演算法

中, 𝑃𝑎𝑦𝑜𝑓𝑓(𝑠⃗, 𝑎) 的更新是利用正規化後的 Q 值與合作傾向值 𝑝𝑖 (𝑠, 𝑎) 做

加權平均,圖 3.5 中展示了 CPM 演算法的 Payoff function 及動作策略。

圖 3.5 Payoff function 及動作策略

其中 𝑄max (𝑠, 𝑎) 為機器人在狀態 𝑠 下的最大 Q 值,而 𝑄min (𝑠, 𝑎) 是在同一狀

態下的最小 Q 值,𝑄𝑛 (𝑠, 𝑎) 是利用圖 3.5 中第 3 行將 Q 值作正規化後,使值

落在 0 到 1 之間。圖 3.5 中第 4 行的 𝑤 ∈ (0, 1) 為權重值,可以根據環境的

不同調整數值。若該環境注重每次行動下合作是否成功,調高權重值 𝑤;反

之則調低。要注意合作傾向值是通過減少合作失敗以加速學習,對於達成目

標沒有直接幫助,因此將權重值 𝑤 設的太高可能對學習造成不良影響。
21
根據加權平均 Q 值與合作傾向值計算得出的 Payoff 值選擇動作,在學

習初期尚未完整探索環境時,可能陷入容易達成合作的動作循環而不積極

探索地圖。因此機器人將依據 𝜀-greedy 策略選擇進行開發(exploitation)或

是探索(exploration)環境,若選擇探索,則機器人從動作空間 𝐴 中隨機選

取動作;若機器人選擇開發則根據 Payoff 值的大小選擇最適當的行動。當

機器人通過策略函數決定行動時,對應 Q 值與合作傾向值的 Payoff 值會有

四種狀況,如表 3.2 中權重值 𝑤 對於動作策略中 Q 值與合作傾向值的關係

所示,若權重值 𝑤 使策略更加重視 𝑄𝑖 (𝑠, 𝑎) ,使 Q 值較小的情況(2)與情況

(4)不容易被選為動作,使機器人遠離目標;而選擇情況(1)的行動可以讓機

器人在靠近目標的同時,更容易達成合作。這樣的動作策略在學習初期由於

較高的探索率,機器人在探索地圖的同時也通過 PTable 學習如何合作。到

了學習後期降低探索且 PTable 已經收斂的情況下,動作策略會根據 Q 值的

大小選擇出最佳路徑。本論文所提出之完整 CPM 演算法如圖 3.6 所示。

表 3.2 動作策略中 Q 值與合作傾向值的關係

22
圖 3.6 合作策略機制於群體機器人系統之完整演算法

23
3.3 記憶體空間比較

本研究所提出的 CPM 演算法,機器人之間不需要共享各自在環境中的

狀態與動作資訊,每個機器人只需要紀錄 2 張表格,分別是自身的 QTable

及儲存合作傾向值的 PTable。當環境中共有 |𝑆| 個狀態,有 𝑖 個機器人執行

合作任務,且每個機器人有 |𝐴| 個動作可以執行時,表 3.3 為在此環境中各

演算法的記憶體用量。從表中可以得知 CPM 只比 Hysteretic Q-learning 演算

法多紀錄了 PTable,相較於紀錄了 3 加 1 張表格的 WoLF-PHC 及 3 張表格

的 CTM 演算法,使用的記憶體更少。

表 3.3 各演算法之記憶體空間使用量

24
第四章 實驗環境與結果

本論文提出之 CPM 演算法目的是利用合作傾向值,在群體機器人合作

系統中能使用較少的記憶體空間並維持良好的學習效能。為驗證此演算法

的可行性,本章節中將與 CTM、WoLF-PHC 及 Hysteretic Q-learning 演算法

在四個不同環境中進行比較。第 4.1 節將在合作搬運任務的環境中比較;第

4.2 節將在合作牽引球任務的環境中比較;第 4.3 節將在獵物固定路徑的合

作捕獵任務的環境中比較;第 4.4 節將在獵物隨機路徑的合作捕獵任務的環

境中比較;第 4.5 節將展示在各個環境中每個演算法的實際記憶體用量。

4.1 合作搬運任務

4.1.1 模擬環境

合作搬運任務環境中,機器人需要合力將貨物搬運至目標位置,且機器

人在開始訓練時不知道搬運的目標位置,必須探索環境,通過環境給予的回

饋值學習障礙物、終點與可以行動的狀態分別為何。在搬運的過程中機器人

無法得知對方的狀態及動作,且搬運貨物需由兩個機器人合作,無法獨自搬

運。當兩機器人的距離太遠導致貨物掉落時,會得到一個合作失敗的回饋值

並回到上一個狀態繼續搬運貨物。當機器人在選擇動作後撞上障礙物需返

回上一個狀態,若此時的合作失敗,會得到合作失敗的回饋值;反之若合作

成功,則會得到撞到障礙物的回饋值。當機器人成功將貨物搬運至目標位置
25
時,會得到任務完成的回饋值並結束該回合的訓練。圖 4.1 為合作搬運任務

的環境。

圖 4.1 合作搬運環境

此環境中的狀態空間大小為 60 ∗ 60 ,圖 4.1 右上角的區塊為搬運的目標位

置,周圍的黑色細線為地圖邊界,中間的黑色粗線為障礙物。右下角為機器

人的起始位置及搬運的貨物。在訓練開始時機器人會從起始位置出發,通過

策略從動作空間中選出動作,執行該動作得到環境中的回饋值,通過該回饋

值更新策略並開始新一輪的行動。機器人抵達目標位置或行動次數到達上

限時結束該回合,機器人返回起始位置,通過累積下來的策略繼續學習。當

訓練回合數到達上限時,結束該次訓練。表 4.1 為此環境中獎勵函數設定。

26
表 4.1 合作搬運任務獎勵函數設定

本模擬中的狀態空間 𝑆 及動作空間 𝐴 如下:

4.1.2 參數設定

在合作搬運任務中,會將各個演算法各自的參數設定調整至符合該演

算法的最佳學習狀況,再比較其效能。表 4.2 為此環境的訓練次數、回合數

及步數上限的設定。表 4.3 為 CPM 算法的參數設定,包含更新 QTable 的學

習率 𝛼 與折扣率 𝛾、計算動作策略 Payoff 的權重值 𝑤 以及探索率 𝜀 和探索

折扣量。探索折扣量為每回合探索率 𝜀 的遞減率。表 4.4 為合作失敗與否時

𝐾 值的設定方式。其餘演算法的參數設定請參考附錄。

27
表 4.2 合作搬運任務訓練次數、回合數及步數設定

表 4.3 CPM 演算法參數設定

表 4.4 合作傾向值之 𝐾 值設定

28
4.1.3 結果與討論

圖 4.2 顯示了機器人經過 40 次訓練,在合作搬運任務中抵達目標位置

的平均步數,圖 4.3 為 40 次訓練中最後 500 回合的平均步數。圖中縱軸表

示各演算法的機器人在每個回合中的行動次數,橫軸表示回合數。從圖 4.2

可以得知,在學習至 800 回合以前,CPM 演算法利用較少的記憶體空間,

達到與 WoLF-PHC 演算法接近的收斂速度,且收斂速度明顯優於 CTM 及

Hysteretic Q-learning 演算法。而在 800 回合後,除了 CTM 演算法外,各演

算法完成合作搬運任務的步數都已收斂至穩定。通過圖 4.3 可以發現,CTM

演算法由於記錄的表格過大,收斂至穩定所需的回合數較多,完成任務經歷

的行動次數直到 3000 回合時仍具有下降的趨勢。Hysteretic Q-learning 演算

法收斂至穩定狀態後,相較於 CPM 及 WoLF-PHC 演算法,使用的步數明顯

較多且不穩定。CPM 演算法與 WoLF-PHC 演算法,最終皆能收斂至最佳步

數,但在記憶體空間使用量上,本文提出之 CPM 演算法明顯較有優勢。

29
圖 4.2 合作搬運任務訓練 40 次平均步數

圖 4.3 合作搬運任務最後 500 回合平均步數

30
通過步數的標準差值,我們可以得知各演算法 40 次的訓練中,在相同

回合完成任務所需步數的差距大小。當標準差越小,說明在每次訓練中同一

回合完成任務的行動次數接近,表示演算法的穩定性較好;反之標準差越大

時,說明行動次數的差距較大,演算法的穩定性較差。圖 4.4 顯示合作搬運

任務中 40 次訓練的步數標準差,其中縱軸為標準差值,橫軸為回合數。可

以發現在 800 到 1800 回合之間,雖然合作策略機制演算法完成任務的步數

已經趨於穩定,但標準差值還有些許的不平穩,這表示在 40 次訓練中,仍

有數次訓練在此回合區間內的行動次數略高。但此數據仍優於 CTM 及

Hysteretic Q-learning 演算法的標準差。且隨著回合數增加、探索率越趨近於

0 時,合作策略機制演算法的標準差也趨於平穩。

圖 4.4 合作搬運任務 40 次訓練步數標準差

31
4.2 合作牽引球任務

4.2.1 模擬環境

圖 4.5 為合作牽引球環境示意圖,兩個機器人的合作目標是通過收放各

自的引繩,將垂掛的球體牽引至地圖上方的目標區塊。在環境中有兩個圓形

區塊的陷阱,牽引的過程需要避免球掉入陷阱中。若訓練過程中機器人合作

失敗導致球掉入陷阱中,則球返回上一個狀態,機器人重新選擇動作,並將

此次失敗視為一次行動。在此環境訓練過程中機器人將共享球的狀態,但無

法得知另一個機器人的動作,每個機器人行動時可以選擇讓自己的繩子伸

長、縮短或使長度保持不變。此模擬環境地圖邊界的邊長為 𝐿,兩個機器人

持有的繩子長度分別為 𝑙0 和 𝑙1 。通過公式 4.1 利用餘弦定理計算出 𝐿 與 𝑙0

的夾角 𝜃,其中的 𝑎0 和 𝑎1 分別為兩個機器人所選擇的動作。再以公式 4.2

與公式 4.3 計算出球在環境中的 𝑥 與 𝑦 座標。

(𝑙0 +𝑎0 )2 +𝐿2 −(𝑙1 +𝑎1 )2


cos 𝜃 = (4.1)
2∙𝑙0 ∙𝐿

𝑥 = 𝑙0 ∗ cos 𝜃 (4.2)

𝑦 = 𝐿 − 𝑙0 ∗ √1 − cos 𝜃 (4.3)

32
圖 4.5 合作牽引球環境

在合作牽引球環境中,由圖 4.5 中正方形的空間切分成 50 ∗ 50 個狀態

空間。環境中的引繩最長為 50 單位、最短為 0 單位,機器人每次行動可以

選擇將自己的繩子伸長兩 2 單位、伸長 1 單位、縮短 2 單位、縮短 1 單位

或不改變長度,通過改變引繩長度使垂掛的球避開陷阱,抵達目標位置。在

訓練過程中當球體成功被牽引至目標位置或步數達到上限時結束該回合,

將引繩恢復初始長度,並開始新的回合。當回合數到達上限時,結束該次訓

練。表 4.5 為此環境中獎勵函數設定。

33
表 4.5 合作牽引球獎勵函數設定

本模擬中的狀態空間 𝑆 及動作空間 𝐴 如下:

4.2.2 參數設定

在合作牽引球環境中,會將各個演算法各自的參數設定調整至符合該

演算法的最佳學習狀況,再比較其效能。表 4.6 為此環境的訓練次數、回合

數及步數上限的設定。表 4.7 為 CPM 算法的參數設定,包含更新 QTable 的

學習率 𝛼 與折扣率 𝛾、計算動作策略 Payoff 的權重值 𝑤 以及探索率 𝜀 和探

索折扣量。探索折扣量為每回合探索率 𝜀 的遞減率。表 4.8 為合作失敗與否

時 𝐾 值的設定方式。其餘演算法的參數設定請參考附錄。

34
表 4.6 合作牽引球訓練次數、回合數及步數設定

表 4.7 CPM 演算法參數設定

表 4.8 合作傾向值之 𝐾 值設定

35
4.2.3 結果與討論

圖 4.6 顯示了機器人經過 40 次訓練,在此環境中將球牽引至目標位置

的平均步數,圖 4.7 為 40 次訓練中最後 100 回合的平均步數,圖中的縱軸

表示機器人在每個回合中的行動次數,橫軸表示回合數。圖 4.8 為 40 次訓

練的步數標準差,圖中縱軸為機器人在每個回合中的標準差值,橫軸是回合

數。從圖 4.6 可以得知,各演算法在 400 回合前抵達目標所需的步數都已收

斂。圖 4.7 顯示在最後 100 回合中,CPM 演算法達成目標所需的平均步數

是最少的,這可以說明在此環境中,CPM 演算法在學習效能及記憶體用量

上皆具有優勢。

圖 4.9 為機器人在每個回合中使球掉入陷阱的次數與機器人行動的次

數之比值,其中縱軸表示球掉入陷阱與行動次數之比值,橫軸為回合數。從

圖 4.6 的局部放大圖可以看到,Hysteretic Q-learning 演算法在收斂的過程

中相對其他演算法使用的步數較少,但觀察圖 4.8 的標準差值可以發現,該

演算法在 400 回合後,相對於其他演算法仍有許多不穩定性。且雖然

Hysteretic Q-learning 演算法使用的記憶體空間最少,但通過圖 4.9 可知該演

算法在訓練過程中,合作失敗使球掉入陷阱的比例是最高的,說明相較於單

純紀錄 QTable,合作策略機制演算法中使用的 PTable 有助於機器人之間快

速達成合作。

36
圖 4.6 合作牽引球訓練 40 次平均步數

圖 4.7 合作牽引球最後 100 回合平均步數

37
圖 4.8 合作牽引球 40 次訓練步數標準差

圖 4.9 收斂過程中球掉入陷阱與行動次數之比值

38
4.3 獵物固定路徑的合作捕獵任務

4.3.1 模擬環境

在此合作捕獵任務中,狀態空間為一個 10 ∗ 10 的空白地圖,做為目標

的獵物會在每次訓練開始時生成一條移動路徑,在該次訓練中的每個回合

獵物都將依照此路徑進行移動。訓練過程中兩個機器人彼此不共享狀態,僅

知道自己與獵物的所在位置。圖 4.10 為機器人完成捕獵示意圖,當兩個機

器人同時與獵物的狀態相鄰,且彼此狀態不重疊時,視為任務完成。圖 4.11

為機器人合作失敗示意圖,若兩個機器人在任意時間下狀態重疊,則視為合

作失敗,並繼續執行任務。在每一回合當中,當機器人完成補獵任務或行動

次數到達上限時,結束該回合。當回合數到達上限時,結束該次訓練。表 4.9

為此環境中獎勵函數設定。

圖 4.10 機器人完成補獵任務

39
圖 4.11 機器人捕獵合作失敗

表 4.9 獵物固定路線合作捕獵任務獎勵函數設定

本模擬中的狀態空間 𝑆 及動作空間 𝐴 如下:

40
4.3.2 參數設定

在此合作捕獵任務中,會將各個演算法各自的參數設定調整至符合該

演算法的最佳學習狀況,再比較其效能。表 4.10 為此環境的訓練次數、回

合數及步數上限的設定。表 4.11 為 CPM 算法的參數設定,包含更新 QTable

的學習率 𝛼 與折扣率 𝛾、計算動作策略 Payoff 的權重值 𝑤 以及探索率 𝜀 和

探索折扣量。探索折扣量為每回合探索率 𝜀 的遞減率。表 4.12 為合作失敗

與否時 𝐾 值的設定方式。其餘演算法的參數設定請參考附錄。

表 4.10 獵物固定路線合作捕獵訓練次數、回合數及步數設定

表 4.11 CPM 演算法參數設定

41
表 4.12 合作傾向值之 𝐾 值設定

4.3.3 結果與討論

圖 4.12 顯示了機器人經過 40 次訓練,在獵物固定路線的合作捕獵任務

中完成捕獵的平均步數,圖 4.13 為 40 次訓練最後 1000 回合的平均步數,

圖中縱軸表示機器人在每個回合中的平均行動次數,橫軸表示回合數。從圖

4.12 可以發現,WoLF-PHC 演算法在此環境中收斂的平均步數不佳,通過

觀察原始數據得知在 40 次訓練中有 5 次訓練的最終收斂步數超過了 1000

次。推測 WoLF-PHC 演算法在面對狀態會改變的學習目標時,隨著回合數

與步數的增加,使平均期望值 𝜋̅(𝑠, 𝑎) 的學習率降得太低,當機器人在學習

後期合作出現失誤時,難以再次通過探索找回目標,導致累積大量不好的經

驗,最終使步數難以收斂,因此較不適用於此環境。而 CPM 與 Hysteretic

Q-learning 演算法在訓練前期收斂的速度相當,約在 400 回合時收斂至最佳

步數,但圖 4.13 中顯示了在訓練後期 CPM 演算法明顯有更好的收斂步數

與穩定性。圖 4.12 與圖 4.13 的數據表明在獵物固定路線合作捕獵任務中,

CPM 演算法收斂的速度與最佳步數皆優於其他演算法。

42
圖 4.12 獵物固定路線合作捕獵任務訓練 40 次平均步數

圖 4.13 獵物固定路線合作捕獵任務最後 1000 回合平均步數

43
圖 4.14 獵物固定路線合作捕獵任務 40 次訓練步數標準差

圖 4.14 為 40 次訓練的步數標準差,圖中縱軸為機器人在每個回合中的

標準差值,橫軸是回合數。從圖中可以看出,CPM 演算法在步數收斂後仍

有良好的穩定性,但在約 4000 回合時標準差值有一次顯著的上升,隨後又

快速下降。這說明在訓練後期若出現合作失敗的情況,導致機器人完成任務

的步數上升時,CPM 演算法仍可以通過 Payoff function 的動作策略使機器

人再次找到目標,並繼續學習讓步數再次收斂。而紀錄大量資訊的 CTM 演

算法雖然收斂速度較慢,但在訓練過程中有著最佳的穩定性。

44
4.4 獵物隨機路線的合作捕獵任務

4.4.1 模擬環境

在此合作捕獵環境中,狀態空間為一個 10 ∗ 10 的空白地圖,做為目標

的獵物在回合中的每次行動都將隨機進行上移、下移、左移、右移及停留原

地。在訓練過程中兩位機器人彼此不共享狀態,僅知道自己與獵物的所在位

置。圖 4.15 為機器人完成捕獵示意圖,當兩個機器人同時與獵物的狀態相

鄰,且彼此狀態不重疊時,視為任務完成。圖 4.16 為機器人合作失敗示意

圖,若兩個機器人在任意時間下狀態重疊,則視為合作失敗,並繼續執行任

務。在每一回合當中,當機器人完成補獵任務或行動次數到達上限時,結束

該回合。當回合數到達上限時,結束該次訓練。表 4.13 為此環境中獎勵函

數設定。

圖 4.15 機器人完成捕獵任務

45
圖 4.16 機器人捕獵合作失敗

表 4.13 獵物隨機路線合作捕獵參數設定

本模擬中的狀態空間 𝑆 及動作空間 𝐴 如下:

46
4.4.2 參數設定

在此合作捕獵任務中,會將各個演算法各自的參數設定調整至符合該

演算法的最佳學習狀況,再比較其效能。表 4.14 為此環境的訓練次數、回

合數及步數上限的設定。表 4.15 為 CPM 算法的參數設定,包含更新 QTable

的學習率 𝛼 與折扣率 𝛾、計算動作策略 Payoff 的權重值 𝑤 以及探索率 𝜀 和

探索折扣量。探索折扣量為每回合探索率 𝜀 的遞減率。表 4.16 為合作失敗

與否時 𝐾 值的設定方式。其餘演算法的參數設定請參考附錄。

表 4.14 獵物隨機路線合作捕獵訓練次數、回合數及步數設定

表 4.15 CPM 演算法參數設定

47
表 4.16 合作傾向值之 𝐾 值設定

4.4.3 結果與討論

圖 4.17 顯示了機器人經過 40 次訓練,在獵物隨機路線的合作捕獵任務

中完成捕獵的平均步數,圖 4.18 為 40 次訓練最後 1000 回合的平均步數,

圖中的縱軸表示機器人在每個回合中的平均行動次數,橫軸為回合數。從圖

4.17 可以看出 CPM 演算法的收斂速度及平均步數明顯優於其他演算法。圖

4.18 則可以區分出在此合作環境中,使用合作傾向值的演算法通過機器人

間的快速合作,收斂步數明顯優於其他演算法。圖 4.19 為 40 次訓練的步數

標準差,圖中縱軸為各機器人每個回合中的標準差值,橫軸同樣是回合數。

通過圖 4.19 可以得知步數收斂後,CPM 演算法的標準差為四個演算法中最

低的,顯示在此環境中有著最好的穩定性。

48
圖 4.17 獵物固定路線合作捕獵任務訓練 40 次平均步數

圖 4.18 獵物隨機路線合作捕獵任務最後 1000 回合平均步數

49
圖 4.19 獵物隨機路線合作捕獵任務 40 次訓練步數標準差

50
4.5 不同環境中演算法的記憶體空間使用量

在 C 語言當中通過 sizeof 指令可以知道,宣告一個 int 會占用 4 bytes

的記憶體空間,宣告一個 double 會占用 8 bytes 的記憶體空間。在 WoLF-

PHC 演算法與 CTM 演算法中各有一個計數表格宣告為 int,其餘皆宣告為

double,由此可計算出不同環境下,各演算法中代理人記憶體的使用量。

4.5.1 合作搬運任務

在合作搬運任務環境中,狀態個數為 60 × 60 且動作個數為 4 個,通過

表 3.3 中記憶體空間的使用量,可以計算出各演算法在此環境中的記憶體實

際使用數。表 4.17 中顯示了各演算法中,每位代理人進行合作搬運任務的

記憶體使用量。其中 CPM 演算法只需使用 WoLF-PHC 演算法 64 % 的記憶

體空間即可提升學習效能;與 CTM 演算法相比更是只使用其 0.02 % 的記

憶體空間,大幅減少使用合作傾向值演算法所需要的記憶體數量,並提升學

習速度。

表 4.17 各演算法每位代理人在合作搬運任務中的記憶體使用量

51
4.5.2 合作牽引球任務

在合作牽引球的環境中,狀態個數為 50 × 50 且動作個數為 5 個,通過

表 3.3 中記憶體空間的使用量,可以計算出各演算法在此環境中的記憶體實

際使用數。表 4.18 中顯示了各演算法中,每位代理人合作牽引球的記憶體

使用量。其中 CPM 演算法只需使用 WoLF-PHC 演算法 64.5 % 的記憶體空

間即可提升學習效能;與 CTM 演算法相比更是只使用其 0.032 % 的記憶體

空間,大幅減少使用合作傾向值演算法所需要的記憶體數量,並提升學習速

度與效能。

表 4.18 各演算法每位代理人在合作牽引球環境中的記憶體使用量

52
4.5.3 合作捕獵任務

在兩個合作捕獵任務環境中,狀態個數為 10 × 10 且動作個數為 4 個,

且代理人需額外紀錄獵物的狀態。通過表 4.19 中記憶體空間的計算公式,

可以得知各演算法在此環境中的記憶體實際使用數。表 4.20 中顯示了各演

算法中,每位代理人於合作捕獵任務的記憶體使用量。其中 CPM 演算法只

需使用 WoLF-PHC 演算法 64 % 的記憶體空間即可提升學習效能;與 CTM

演算法相比更是只使用其 0.8 % 的記憶體空間,大幅減少使用合作傾向值演

算法所需要的記憶體數量,並提升學習速度與效能。

表 4.19 合作捕獵任務記憶體空間計算公式

表 4.20 各演算法每位代理人在合作捕獵環境中的記憶體使用量

53
第五章 結論與未來展望

5.1 結論

群體代理人系統中,代理人間若不共享彼此間的狀態與動作,在學習過

程中頻繁地出現合作失敗的情況,將會拖慢學習的速度。但共享彼此狀態時

所記錄的 QTable 表格過大,同樣需要花費許多時間學習,才能使代理人的

步數收斂。為了提升代理人間的合作效果與學習速度,本文通過利用 Q 值

與合作傾向值加權平均得到的 Payoff 值做為動作策略,並將 QTable 與

PTable 中所記錄的 Q 值與合作傾向值改成只需要紀錄代理人自身狀態。大

幅減少了使用合作傾向值的演算法所使用的記憶體空間,且通過表 4.17、表

4.18 與表 4.20 可以發現,在較大的環境中與 CTM 演算法相比,記憶體空

間會有更明顯的減少。在第四章中介紹的 4 個不同的群體代理人合作模擬

環境中證明,CPM 演算法能通過 Payoff function 使代理人的行動快速達成

默契,在使用較少記憶體空間的情況下維持收斂速度與穩定性,根據環境不

同甚至能得到更好的學習效果。

54
5.2 未來展望

本研究中提出的 CPM 演算法已經成功降低了記憶體空間的用量,並得

到良好的收斂成果。但在實作得過程中尚需定義及調整許多參數,例如代理

人的探索率 𝜀 、合作傾向值的學習率 𝜆 及權重值 𝑤 等,過多的參數可能會

使實驗時難以釐清其對於結果的影響,未來可以嘗試將可調變的參數減少

或使其連結到環境內的其他數值上。另外本研究目前實作的環境皆為 2 個

代理人的合作,由於記憶體空間的限制已經被大幅改善了,未來可以將本演

算法套用至更多代理人或是更加複雜的環境中學習。

55
參考文獻

[1] M. Wooldridge, An Introduction to Multiagent Systems. New York, NY, USA:


Wiley, 2009.
[2] S. N. Ethier and T. G. Kurtz, Markov Processes: Characterization and
Convergence. John Wiley and Sons, 1986.
[3] C. J. Watkins, and P. Dayan, “Technical note: Q-learning,” Mach. Learn., vol.
8, nos. 3–4, pp. 279–292, 1992.
[4] Y. Shoham and K. Leyton-Brown, Multiagent Systems, 1st ed. Cambridge,
U.K.: Cambridge Univ. Press, 2009.
[5] M. Bowling, and M. Veloso, “Rational and convergent learning in stochastic
games,” in Proc. Int. Joint Conf. Artif. ntell., Seattle, WA, USA, Aug. 2001,
pp. 1021–1026.
[6] L. Matignon, G. Laurent, and N. L. Fort-Piat, “Hysteretic Q-learning: An
algorithm for decentralized reinforcement learning in cooperative multi-
agent teams,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst., Oct. 2007,
pp. 64–69.
[7] H. Shi, L. Zhai, H. Wu, M. Hwang, K. -S. Hwang and H. -P. Hsu, “A Multitier
Reinforcement Learning Model for a Cooperative Multiagent System,” in
IEEE Transactions on Cognitive and Developmental Systems., Sept.
2020,vol. 12, no.3, pp. 636-644.
[8] H. H. Houng, “A Cooperative Tendency Model using Reinforcement
Learning for Cooperative Multiagent Systems,” in Tunghai University ., Jan.
2023.

56
[9] P. Stone, and M. Veloso, “Multiagent systems: A survey from a machine
learning perspective,” Auto. Robots., vol. 8, pp. 345–383, Jun. 2000.
[10] J. Xie and C.-C. Liu, ‘‘Multi-agent systems and their applications,’’ J. Int.
Council Elect. Eng., vol. 7, no. 1, pp. 188–197, 2017.
[11] E. Yang, and D. Gu, “Multiagent Reinforcement Learning for Multi-robot
Systems: A Survey,” Department of Computer Science, University of Essex,
Tech. Rep., 2004.
[12] M. L. Littman, “Markov Games as a Framework for Multi-agent
Reinforcement Learning,” in Proc. 11th International Conference on
Machine Learning., pp. 157-163, 1994.
[13] H. Cui, and Z. Zhang, “A Cooperative Multi-Agent Reinforcement Learning
Method Based on Coordination Degree,” IEEE Access, vol. 9, pp. 123805-
123814, 2021.
[14] C. Sun, W. Liu, and L. Dong, “Reinforcement Learning with Task
Decomposition for Cooperative Multiagent Systems,” IEEE Transactions on
Neural Networks and Learning Systems, vol. 32, no. 5, pp. 2054-2065, 2020
[15] A. V. Ivanov, and A. A. Petrovsky, “First-order Markov Property of The
Auditory Spiking Neuron Model Response,”Signal Processing Conference,
Florence, Italy, 4-8 Sept. 2006.
[16] K. I. Y. Inoto, H. Taguchi, and A. Gofuku, “A Study of Reinforcement
Learning with Knowledge Sharing,” in Proc. of IEEE Int. Conf. on Robotics
and Biomimetics, Okayama, Japan, pp. 175-179, Hong Kong, China, 22-26
Aug. 2004.
[17] Z. Jin, W. Y. Liu, and J. Jin, “State-Clusters Shared Cooperative Multi-Agent
Reinforcement Learning,” Asian Control Conference ASCC, pp. 129-135,
27-29 Aug. 2009.
57
附錄

附錄表 1 合作搬運環境中 CTM 演算法參數設定

附錄表 2 合作搬運環境中 WoLF-PHC 演算法參數設定

附錄表 3 合作搬運環境中 Hysteretic Q-learning 演算法參數設定

58
附錄表 4 合作牽引球環境 CTM 演算法參數設定

附錄表 5 合作牽引球環境 WoLF-PHC 演算法參數設定

附錄表 6 合作牽引球環境 Hysteretic Q-learning 演算法參數設定

59
附錄表 7 獵物固定路線合作捕獵任務 CTM 演算法參數設定

附錄表 8 獵物固定路線合作捕獵任務 WoLF-PHC 演算法參數設定

附錄表 9 獵物固定路線合作捕獵任務 Hysteretic Q-learning 演算法參數設定

60
附錄表 10 獵物隨機路線合作捕獵任務 CTM 演算法參數設定

附錄表 11 獵物隨機路線合作捕獵任務 WoLF-PHC 演算法參數設定

附錄表 12 獵物隨機路線合作捕獵任務 Hysteretic Q-learning 演算法參數設定

61

You might also like