Professional Documents
Culture Documents
碩士論文
合作策略機制整合強化學習於
群體機器人系統
研究生:王宥登
指導教授:蔣惟丞博士
中華民國 112 年 07 月 17 日
致謝
在這畢業的季節裡,我能夠順利完成東海大學的碩士五年一貫學程,都
是仰賴一路上得到了許多人的幫助,在此致謝。
首先我想感謝我的父母,在求學的路上始終不會給我太多壓力,即使在
我高中階段成績跌落谷底時也沒有斥責我,謝謝你們相信我是個認真向上且
能為自己負責的人,讓我能夠在求學階段盡情地自由發展。接下來要特別感
謝蔣惟丞教授以及陳昱仁教授,研究過程中遇上瓶頸時為我解惑,並花時間
認真地與我討論許多事情。在實驗時指出我考慮不完善的部分,協助我釐清
思路。給予許多的指導與建議。
也要感謝擔任口試委員的徐元寶教授及朱明毅教授,謝謝你們花時間讀
過初稿並在口試時對我提問及給予建議,這讓我明白初稿中還有許多的不足
之處以及需要修正的地方。多饋有這些建議,我才能完成這份完稿。相信這
些教誨不只讓我能夠順利完成這份碩士論文,更是在往後人生中遇到難題時
能夠依靠的重要經歷。
i
摘要
本論文中主要探討的是在群體機器合作人系統下,提升強化學習的效能
同時減少記憶體空間的使用。代理人在學習合作過程中能否順利達成共識,
對於學習速度與效果有很大的影響。當環境中存在多位代理人時,若各個代
理人只追求最大化自身利益,可能會產生環境停滯而無法達成任務的狀況。
本文所提出的方法是基於合作傾向值的演算法,其核心概念為建立新的
環境中的行動快速取得共識。然而需要紀錄的資訊變多,更進一步增加了記
此如何減少記憶體的使用為本論文之重點。
關鍵詞:群體代理人、合作、強化學習、合作傾向值
ii
Abstract
iii
目錄
致謝 ........................................................................................................................ i
摘要 ....................................................................................................................... ii
目錄 ...................................................................................................................... iv
圖目錄 .................................................................................................................. ix
第一章 緒論 ......................................................................................................... 1
iv
2.4 Hysteretic Q-learning 演算法 ............................................................. 12
4.5 不同環境中演算法的記憶體空間使用量.............................................. 51
4.5.2 合作牽引球任務............................................................................... 52
5.1 結論 ..................................................................................................... 54
參考文獻 ............................................................................................................. 56
附錄 ..................................................................................................................... 58
vi
表目錄
表 3.1 合作傾向值與合作是否成功之關係...................................................... 20
表 4.10 獵物固定路線合作捕獵訓練次數、回合數及步數設定..................... 41
表 4.13 獵物隨機路線合作捕獵參數設定........................................................ 46
表 4.14 獵物隨機路線合作捕獵訓練次數、回合數及步數設定..................... 47
vii
表 4.15 CPM 演算法參數設定.......................................................................... 47
圖 4.1 合作搬運環境......................................................................................... 26
ix
圖 4.5 合作牽引球環境 ..................................................................................... 33
x
第一章 緒論
1.1 研究動機
在人類社會中,我們透過「合作」這一行為解決無法獨自完成的問題,
亦或使問題能更有效率的達成。在隨著科技演進而逐漸複雜化的機器學習
中,如何有效應用群體代理人系統(Multi-agent System)[1]的架構進行訓
練,是近年來 AI 發展的一大重點。強化學習代理人通常被應用於工作環境
利用代理人與環境互動進行探索、累積經驗進行學習。將強化學習延伸至群
體代理人系統架構下,代理人在學習過程中不僅受到環境,也同時受其他代
理人的行動所影響,代理人數量的增長及環境的複雜化都會使記憶體空間
的使用量增加,根據演算法的不同,代理人數增加時的記憶體空間可能是以
時間,既耗時又耗能。故比起單代理人強化學習,多代理人的複雜度及難度
更高。在此基礎上,如何使用更少的記憶體,並使代理人間順利達成合作,
1
1.2 文獻回顧
Systen)[4],該系統是由多個自主互動,且擁有相同或不相同目標和感官的
代理人組成。根據代理人間的連結方式可以區分為去中心式、中心式及混合
式。根據互動程度分成三種類型,無直接互動、簡單互動以及複雜互動。
人的學習並收斂至最佳策略,在獲得的回饋高於平均期望值時緩慢更新策
略,以確保對環境的探索。反之低於平均期望值時,則快速調整策略以加速
學習。以此讓代理人可以更快適應環境以及其它代理人的策略改變。
人選擇過去經驗中回饋值好的動作,卻得到不好的獎勵,會使用較小的學習
率 𝛽 以降低懲罰。若動作得到好的獎勵則使用較大的學習率 𝛼 加速學習。
通過區分不同情況下的學習率,使策略更容易收斂。
型,該研究設計了合作傾向值的參數,代理人的動作策略中需要同時考慮
動。在此演算法中,各個代理人知道彼此的狀態資訊並記錄於 QTable 中,
而 𝑀(𝑎⃗) 紀錄了各代理人的動作資訊,使用了大量的記憶體空間,導致代理
人需要更多時間探索環境,才能有效地進行收斂。
2
H. H. Huang 提出的 Cooperative Tendency Model 是一種基於合作傾向
更新方式。利用合作傾向值使代理人間快速形成默契,增加合作成功的機會
1.3 論文架構
本文共分為五個章節,第二章會探討作為本文背景理論的文獻,包括馬
行更新與設定方法,以實現記憶體空間的減少及效能的提升。第四章會講述
本文基於群體代理人合作系統的模擬環境,包括合作搬運任務、合作牽引球
環境,以及獵物固定路線與隨機路線的合作捕獵任務,並比較各演算法的實
驗結果。最後,第五章會對本文進行總結,並說明未來研究方向。
3
第二章 文獻探討
2.1 群體代理人合作系統
群體代理人系統是指共享同一環境的多個代理人,各個代理人間有著
自主性且互相影響[9],通過感測器及驅動器認知環境並與環境互動。代理
人在此系統中通過合作或競爭、共享或不共享資訊等方式,在環境中為了達
成目標進行各自的行動。此系統被應用於許多場合,例如:團隊型機器人、
智能電網、智慧交通及網路資源管理等應用[10]。其優點如下:
1. 由並行式運算使計算速度和執行效率提升
2. 因應使用場合,能靈活地增減代理人數量
3. 比起集體式架構,單個代理人的成本較低
4. 代理人的模板化,可重複利用於其它系統
4
在執行群體代理人系統時,由於代理人不單純只受環境中的不確定性
影響,其它代理人亦會以不可預測的方式影響環境,故此系統可以視為一個
動態環境[9]。意思是既使在同一狀態下執行同一動作,也可能因其它代理
人的影響而得到不同的回饋。這使每個代理人在學習過程中都必須預測其
它代理人的動作,培養彼此的默契以求導向目標結果的最佳動作。而上述的
人的學習架構,圖中展示了群體代理人與環境互動的過程,各代理人透過自
身策略選擇的動作與環境進行互動,並得到該動作的回饋及環境資訊以更
新策略。
圖 2.1 群體代理人學習架構
群體代理人系統根據代理目標、資源及技能,從而使代理人之間有著不
同的互動模式。粗略來說互動可以分成積極與消極兩種類型,積極型互動又
可細分為集體互動、合作互動、協作互動與協調互動四種類型[11][12]。集
5
體互動是指在共享的環境下代理人有著共同目標,每個代理人的決策皆是
為了達成目標,但不知道彼此的存在。例如:編隊控制與捕獵等;合作互動
同樣是代理人為共同目標而努力,但代理人能夠感知到其他代理人的存在,
且相互影響。例如:搜尋救援、合作搬運等;在協作與協調互動中,代理人
則沒有共同的執行目標。兩者的不同之處在於,協作互動的代理人之間會互
相幫助以實現各自的目標,協調互動則是以盡可能減少彼此的干擾為條件,
各自實現自己的目標。這兩種類的差異比較接近於學生在考試前舉辦讀書
會來討論課業與在教室中讀書自習。
在本文的實驗環境中,是傾向合作互動的群體代理人系統。在合作互動
中根據代理人間資訊的共享情況,可以分成不溝通與完全溝通[13][14]。在
不溝通的情況下,代理人僅能掌握自身狀態、使用當前已掌握的策略進行控
制,通過環境的回饋更新策略並預測與其它代理人的合作狀況;完全溝通指
的是每位代理人將共享其狀態與行動,這被稱為聯合狀態(Joint State)與
聯合行動(Joint Action)。由於在完全溝通下代理人能掌握其它代理人的所
有資訊,這有效地使代理人能穩定達成團隊合作。然而缺點也很明顯,為了
儲存代理人間所共享的資訊而使用大量的記憶體空間,不只降低了學習的
速度,當要應對更加複雜的環境時,可能因此受到限制。
6
2.2 馬可夫決策過程
器人學、製造業之自動化等領域,是一種離散時間隨機控制的數學框架。在
Property)[15]的學習架構,可以稱作馬可夫決策程序。
態 𝑠𝑡+1 的 及 時 獎 勵 。 馬 可 夫 決 策 的 目 的 是 透 過 使 隨 機 獎 勵 的 累 加
∑∞ 𝑡
𝑡=0 𝛾 𝑅𝑎𝑡 (𝑠𝑡 , 𝑠𝑡+1 ) 最大化,為決策者找尋一個好的策略 𝜋。其中 𝛾 為折扣
率,符合條件 0 ≤ 𝛾 ≤ 1。
2.2.1 強化學習
強化學習[16][17]是機器學習中的一個領域,強調如何基於環境而行動
以取得最大化的預期收益。此方法適合應用於解決沒有訓練樣本的問題。強
化學習需要根據訓練目的,定義出環境中好的獎勵與壞的獎勵,代理人藉由
與環境互動得到環境回饋的獎勵更新策略函數,不斷重複此過程,以動態規
7
劃的方式持續優化策略。一般強化學習具有五個基本要素:
1. 代理人(agent)
:執行策略之最小單位
2. 環境:代理人執行策略之互動場所
3. 狀態(𝑠):代理人於環境中的狀態
4. 動作(𝑎):代理人所執行的動作
5. 獎勵(𝑟):評價代理人策略好壞的獎勵值
當代理人處於當前狀態 𝑠𝑡 時,會根據經驗累積下的策略選擇出動作 𝑎𝑡 並執
程如圖所示。
圖 2.2 強化學習流程圖
8
2.2.2 Q-learning
累積的經驗,選擇能獲得最大 Q 值的動作。隨著學習次數的增加,QTable
最佳策略。
作的回饋值高於平均期望值時緩慢地調整參數,反之則快速調整。結合 PHC
演算法中,增加能夠累積最大期望值的動作被選取機率的概念。圖 2.4 為完
整 WoLF-PHC 演算法。
與第 14 行所示。最後將狀態 𝑠 更新。
1
∀𝑎′ ∈ 𝐴𝑖 𝜋̅(𝑠, 𝑎′ ) ← 𝜋̅(𝑠, 𝑎′ ) + (𝜋 (𝑠, 𝑎) − 𝜋̅(𝑠, 𝑎′ )) (2.3)
𝐶(𝑠)
10
若狀態 𝑠 的 𝜋(𝑠, 𝑎) 優於 𝜋̅(𝑠, 𝑎),使用較小的 𝛿𝑤 更新 𝜋(𝑠, 𝑎) 值。反之則使
後期的訓練穩定性。但應用於部分環境時可能導致演算法無法收斂。
系統中,代理人的獎勵值好壞取決於「團隊」與「目標」這兩點,若決策時
選擇了過去經驗中最佳的動作,卻受到不好的獎勵值懲罰,原因可能在於團
隊默契不佳,而不是因為該選擇有違於目標。
在此演算法中,若代理人選擇過去獎勵好的動作卻受到懲罰時,通過公
以降低懲罰。而代理人在狀態 𝑠 執行的動作有好獎勵時,使用較大的學習率
代理人的情況給予相應的學習率以促進收斂。此演算法只使用記錄了代理
人自身狀態與動作的 QTable,在代理人數量一致的情況下,記憶體的使用
𝛿 ← 𝑟 + 𝛾 max
′
𝑄𝑖 (𝑠 ′ , 𝑎′ ) − 𝑄𝑖 (𝑠, 𝑎𝑖 ) (2.4)
𝑎
𝑄 (𝑠, 𝑎𝑖 ) + 𝛼𝛿 if 𝛿 ≥ 0
𝑄𝑖 (𝑠, 𝑎𝑖 ) ← { 𝑖 (2.5)
𝑄𝑖 (𝑠, 𝑎𝑖 ) + 𝛽𝛿 else
12
圖 2.5 Hysteretic Q-learning 演算法
13
2.5 Cooperative Tendency Model 演算法
及動作,屬於完全溝通式群體代理人合作系統。
在 CTM 演算法中,為使代理人在無法觀測其它代理人動作的環境下學
CTM 演算法中,通過動作選擇策略中的合作傾向值,使群體代理人之
間合作的機率提升,以此提升對環境的探索速度並加速學習。但演算法中的
各個表格必須同時紀錄自己與其它代理人的狀態,不只導致記憶體空間的
16
第三章 研究方法
強化學習中機器人所記錄的資訊越多,除了會使記憶體用量增加外,過
大的狀態空間同時也有會導致收斂速度變慢,甚至難以達成收斂。本篇論文
訓練時所需的記憶用量。在確保能維持其收斂能力的同時,套用到各種環境
3.3 節將比較本論文與其他演算法記憶體空間的使用。
在群體機器人合作系統中,機器人之間會有一個共同的目標,需要機器
人以合作的方式實現,在演算法中,若機器人之間不共享狀態及動作,由於
無法得知其它機器人的資訊,在學習合作的過程中容易出現無法合作成功
的狀況,進而拖慢學習速度。而合作傾向值就是為了使機器人的動作決策更
容易達成合作,而設計的一個參數。例如在合作搬運的環境中,為不使搬運
中機器人與環境中的障礙物發生碰撞。
圖 3.1 機器人合作搬運任務
圖 3.2 合作搬運中貨物掉落
圖 3.3 機器人與障礙物碰撞
18
在學習的過程中,要定義出什麼樣的合作是好的,可以有助於 Q 值收
斂,是一件很困難的事。因此在使用合作傾向值的演算法中,大多是採用標
記合作失敗情況的方法,區分出「合作失敗」與其他。在合作失敗的場合,
值時,會根據機器人下一狀態的合作失敗與否,決定所使用的學習率。在合
19
通過表 3.1 合作傾向值與合作是否成功之關係,可以歸納出此更新方式
中的 𝐾 − 𝑝𝑖 (𝑠, 𝑎) 有四種情況。情況(1)是機器人選擇高合作傾向的動作後,
很小,情況(4)機器人選擇低合作傾向的動作後,合作失敗時也是同理。在
情況(2)時,機器人選擇高合作傾向的動作後,因合作失敗 𝐾 等於 0,𝐾 −
向值的增減幅度。
表 3.1 合作傾向值與合作是否成功之關係
20
3.2 動作策略
目的是使機器人能感知環境、避開障礙並達到目標;合作傾向值 𝑝𝑖 (𝑠, 𝑎) 則
是用於使機器人間無法合作的次數減少,以提升學習的效率。CPM 演算法
不同調整數值。若該環境注重每次行動下合作是否成功,調高權重值 𝑤;反
之則調低。要注意合作傾向值是通過減少合作失敗以加速學習,對於達成目
標沒有直接幫助,因此將權重值 𝑤 設的太高可能對學習造成不良影響。
21
根據加權平均 Q 值與合作傾向值計算得出的 Payoff 值選擇動作,在學
習初期尚未完整探索環境時,可能陷入容易達成合作的動作循環而不積極
是探索(exploration)環境,若選擇探索,則機器人從動作空間 𝐴 中隨機選
(4)不容易被選為動作,使機器人遠離目標;而選擇情況(1)的行動可以讓機
器人在靠近目標的同時,更容易達成合作。這樣的動作策略在學習初期由於
22
圖 3.6 合作策略機制於群體機器人系統之完整演算法
23
3.3 記憶體空間比較
的 CTM 演算法,使用的記憶體更少。
表 3.3 各演算法之記憶體空間使用量
24
第四章 實驗環境與結果
系統中能使用較少的記憶體空間並維持良好的學習效能。為驗證此演算法
4.1 合作搬運任務
4.1.1 模擬環境
合作搬運任務環境中,機器人需要合力將貨物搬運至目標位置,且機器
人在開始訓練時不知道搬運的目標位置,必須探索環境,通過環境給予的回
饋值學習障礙物、終點與可以行動的狀態分別為何。在搬運的過程中機器人
無法得知對方的狀態及動作,且搬運貨物需由兩個機器人合作,無法獨自搬
運。當兩機器人的距離太遠導致貨物掉落時,會得到一個合作失敗的回饋值
並回到上一個狀態繼續搬運貨物。當機器人在選擇動作後撞上障礙物需返
回上一個狀態,若此時的合作失敗,會得到合作失敗的回饋值;反之若合作
成功,則會得到撞到障礙物的回饋值。當機器人成功將貨物搬運至目標位置
25
時,會得到任務完成的回饋值並結束該回合的訓練。圖 4.1 為合作搬運任務
的環境。
圖 4.1 合作搬運環境
置,周圍的黑色細線為地圖邊界,中間的黑色粗線為障礙物。右下角為機器
人的起始位置及搬運的貨物。在訓練開始時機器人會從起始位置出發,通過
策略從動作空間中選出動作,執行該動作得到環境中的回饋值,通過該回饋
值更新策略並開始新一輪的行動。機器人抵達目標位置或行動次數到達上
限時結束該回合,機器人返回起始位置,通過累積下來的策略繼續學習。當
26
表 4.1 合作搬運任務獎勵函數設定
4.1.2 參數設定
在合作搬運任務中,會將各個演算法各自的參數設定調整至符合該演
𝐾 值的設定方式。其餘演算法的參數設定請參考附錄。
27
表 4.2 合作搬運任務訓練次數、回合數及步數設定
28
4.1.3 結果與討論
示各演算法的機器人在每個回合中的行動次數,橫軸表示回合數。從圖 4.2
演算法由於記錄的表格過大,收斂至穩定所需的回合數較多,完成任務經歷
29
圖 4.2 合作搬運任務訓練 40 次平均步數
30
通過步數的標準差值,我們可以得知各演算法 40 次的訓練中,在相同
回合完成任務所需步數的差距大小。當標準差越小,說明在每次訓練中同一
回合完成任務的行動次數接近,表示演算法的穩定性較好;反之標準差越大
任務中 40 次訓練的步數標準差,其中縱軸為標準差值,橫軸為回合數。可
已經趨於穩定,但標準差值還有些許的不平穩,這表示在 40 次訓練中,仍
有數次訓練在此回合區間內的行動次數略高。但此數據仍優於 CTM 及
0 時,合作策略機制演算法的標準差也趨於平穩。
31
4.2 合作牽引球任務
4.2.1 模擬環境
圖 4.5 為合作牽引球環境示意圖,兩個機器人的合作目標是通過收放各
自的引繩,將垂掛的球體牽引至地圖上方的目標區塊。在環境中有兩個圓形
區塊的陷阱,牽引的過程需要避免球掉入陷阱中。若訓練過程中機器人合作
失敗導致球掉入陷阱中,則球返回上一個狀態,機器人重新選擇動作,並將
此次失敗視為一次行動。在此環境訓練過程中機器人將共享球的狀態,但無
法得知另一個機器人的動作,每個機器人行動時可以選擇讓自己的繩子伸
長、縮短或使長度保持不變。此模擬環境地圖邊界的邊長為 𝐿,兩個機器人
𝑥 = 𝑙0 ∗ cos 𝜃 (4.2)
𝑦 = 𝐿 − 𝑙0 ∗ √1 − cos 𝜃 (4.3)
32
圖 4.5 合作牽引球環境
或不改變長度,通過改變引繩長度使垂掛的球避開陷阱,抵達目標位置。在
訓練過程中當球體成功被牽引至目標位置或步數達到上限時結束該回合,
將引繩恢復初始長度,並開始新的回合。當回合數到達上限時,結束該次訓
33
表 4.5 合作牽引球獎勵函數設定
4.2.2 參數設定
在合作牽引球環境中,會將各個演算法各自的參數設定調整至符合該
時 𝐾 值的設定方式。其餘演算法的參數設定請參考附錄。
34
表 4.6 合作牽引球訓練次數、回合數及步數設定
35
4.2.3 結果與討論
表示機器人在每個回合中的行動次數,橫軸表示回合數。圖 4.8 為 40 次訓
練的步數標準差,圖中縱軸為機器人在每個回合中的標準差值,橫軸是回合
是最少的,這可以說明在此環境中,CPM 演算法在學習效能及記憶體用量
上皆具有優勢。
圖 4.9 為機器人在每個回合中使球掉入陷阱的次數與機器人行動的次
數之比值,其中縱軸表示球掉入陷阱與行動次數之比值,橫軸為回合數。從
算法在訓練過程中,合作失敗使球掉入陷阱的比例是最高的,說明相較於單
速達成合作。
36
圖 4.6 合作牽引球訓練 40 次平均步數
37
圖 4.8 合作牽引球 40 次訓練步數標準差
圖 4.9 收斂過程中球掉入陷阱與行動次數之比值
38
4.3 獵物固定路徑的合作捕獵任務
4.3.1 模擬環境
在此合作捕獵任務中,狀態空間為一個 10 ∗ 10 的空白地圖,做為目標
的獵物會在每次訓練開始時生成一條移動路徑,在該次訓練中的每個回合
獵物都將依照此路徑進行移動。訓練過程中兩個機器人彼此不共享狀態,僅
器人同時與獵物的狀態相鄰,且彼此狀態不重疊時,視為任務完成。圖 4.11
為機器人合作失敗示意圖,若兩個機器人在任意時間下狀態重疊,則視為合
作失敗,並繼續執行任務。在每一回合當中,當機器人完成補獵任務或行動
次數到達上限時,結束該回合。當回合數到達上限時,結束該次訓練。表 4.9
為此環境中獎勵函數設定。
圖 4.10 機器人完成補獵任務
39
圖 4.11 機器人捕獵合作失敗
表 4.9 獵物固定路線合作捕獵任務獎勵函數設定
40
4.3.2 參數設定
在此合作捕獵任務中,會將各個演算法各自的參數設定調整至符合該
與否時 𝐾 值的設定方式。其餘演算法的參數設定請參考附錄。
表 4.10 獵物固定路線合作捕獵訓練次數、回合數及步數設定
41
表 4.12 合作傾向值之 𝐾 值設定
4.3.3 結果與討論
圖中縱軸表示機器人在每個回合中的平均行動次數,橫軸表示回合數。從圖
後期合作出現失誤時,難以再次通過探索找回目標,導致累積大量不好的經
CPM 演算法收斂的速度與最佳步數皆優於其他演算法。
42
圖 4.12 獵物固定路線合作捕獵任務訓練 40 次平均步數
43
圖 4.14 獵物固定路線合作捕獵任務 40 次訓練步數標準差
圖 4.14 為 40 次訓練的步數標準差,圖中縱軸為機器人在每個回合中的
標準差值,橫軸是回合數。從圖中可以看出,CPM 演算法在步數收斂後仍
快速下降。這說明在訓練後期若出現合作失敗的情況,導致機器人完成任務
人再次找到目標,並繼續學習讓步數再次收斂。而紀錄大量資訊的 CTM 演
算法雖然收斂速度較慢,但在訓練過程中有著最佳的穩定性。
44
4.4 獵物隨機路線的合作捕獵任務
4.4.1 模擬環境
在此合作捕獵環境中,狀態空間為一個 10 ∗ 10 的空白地圖,做為目標
的獵物在回合中的每次行動都將隨機進行上移、下移、左移、右移及停留原
地。在訓練過程中兩位機器人彼此不共享狀態,僅知道自己與獵物的所在位
圖,若兩個機器人在任意時間下狀態重疊,則視為合作失敗,並繼續執行任
務。在每一回合當中,當機器人完成補獵任務或行動次數到達上限時,結束
數設定。
圖 4.15 機器人完成捕獵任務
45
圖 4.16 機器人捕獵合作失敗
表 4.13 獵物隨機路線合作捕獵參數設定
46
4.4.2 參數設定
在此合作捕獵任務中,會將各個演算法各自的參數設定調整至符合該
與否時 𝐾 值的設定方式。其餘演算法的參數設定請參考附錄。
表 4.14 獵物隨機路線合作捕獵訓練次數、回合數及步數設定
47
表 4.16 合作傾向值之 𝐾 值設定
4.4.3 結果與討論
圖中的縱軸表示機器人在每個回合中的平均行動次數,橫軸為回合數。從圖
4.18 則可以區分出在此合作環境中,使用合作傾向值的演算法通過機器人
標準差,圖中縱軸為各機器人每個回合中的標準差值,橫軸同樣是回合數。
低的,顯示在此環境中有著最好的穩定性。
48
圖 4.17 獵物固定路線合作捕獵任務訓練 40 次平均步數
49
圖 4.19 獵物隨機路線合作捕獵任務 40 次訓練步數標準差
50
4.5 不同環境中演算法的記憶體空間使用量
double,由此可計算出不同環境下,各演算法中代理人記憶體的使用量。
4.5.1 合作搬運任務
表 3.3 中記憶體空間的使用量,可以計算出各演算法在此環境中的記憶體實
憶體空間,大幅減少使用合作傾向值演算法所需要的記憶體數量,並提升學
習速度。
表 4.17 各演算法每位代理人在合作搬運任務中的記憶體使用量
51
4.5.2 合作牽引球任務
表 3.3 中記憶體空間的使用量,可以計算出各演算法在此環境中的記憶體實
空間,大幅減少使用合作傾向值演算法所需要的記憶體數量,並提升學習速
度與效能。
表 4.18 各演算法每位代理人在合作牽引球環境中的記憶體使用量
52
4.5.3 合作捕獵任務
在兩個合作捕獵任務環境中,狀態個數為 10 × 10 且動作個數為 4 個,
算法所需要的記憶體數量,並提升學習速度與效能。
表 4.19 合作捕獵任務記憶體空間計算公式
表 4.20 各演算法每位代理人在合作捕獵環境中的記憶體使用量
53
第五章 結論與未來展望
5.1 結論
群體代理人系統中,代理人間若不共享彼此間的狀態與動作,在學習過
程中頻繁地出現合作失敗的情況,將會拖慢學習的速度。但共享彼此狀態時
步數收斂。為了提升代理人間的合作效果與學習速度,本文通過利用 Q 值
幅減少了使用合作傾向值的演算法所使用的記憶體空間,且通過表 4.17、表
間會有更明顯的減少。在第四章中介紹的 4 個不同的群體代理人合作模擬
默契,在使用較少記憶體空間的情況下維持收斂速度與穩定性,根據環境不
同甚至能得到更好的學習效果。
54
5.2 未來展望
到良好的收斂成果。但在實作得過程中尚需定義及調整許多參數,例如代理
使實驗時難以釐清其對於結果的影響,未來可以嘗試將可調變的參數減少
或使其連結到環境內的其他數值上。另外本研究目前實作的環境皆為 2 個
代理人的合作,由於記憶體空間的限制已經被大幅改善了,未來可以將本演
算法套用至更多代理人或是更加複雜的環境中學習。
55
參考文獻
56
[9] P. Stone, and M. Veloso, “Multiagent systems: A survey from a machine
learning perspective,” Auto. Robots., vol. 8, pp. 345–383, Jun. 2000.
[10] J. Xie and C.-C. Liu, ‘‘Multi-agent systems and their applications,’’ J. Int.
Council Elect. Eng., vol. 7, no. 1, pp. 188–197, 2017.
[11] E. Yang, and D. Gu, “Multiagent Reinforcement Learning for Multi-robot
Systems: A Survey,” Department of Computer Science, University of Essex,
Tech. Rep., 2004.
[12] M. L. Littman, “Markov Games as a Framework for Multi-agent
Reinforcement Learning,” in Proc. 11th International Conference on
Machine Learning., pp. 157-163, 1994.
[13] H. Cui, and Z. Zhang, “A Cooperative Multi-Agent Reinforcement Learning
Method Based on Coordination Degree,” IEEE Access, vol. 9, pp. 123805-
123814, 2021.
[14] C. Sun, W. Liu, and L. Dong, “Reinforcement Learning with Task
Decomposition for Cooperative Multiagent Systems,” IEEE Transactions on
Neural Networks and Learning Systems, vol. 32, no. 5, pp. 2054-2065, 2020
[15] A. V. Ivanov, and A. A. Petrovsky, “First-order Markov Property of The
Auditory Spiking Neuron Model Response,”Signal Processing Conference,
Florence, Italy, 4-8 Sept. 2006.
[16] K. I. Y. Inoto, H. Taguchi, and A. Gofuku, “A Study of Reinforcement
Learning with Knowledge Sharing,” in Proc. of IEEE Int. Conf. on Robotics
and Biomimetics, Okayama, Japan, pp. 175-179, Hong Kong, China, 22-26
Aug. 2004.
[17] Z. Jin, W. Y. Liu, and J. Jin, “State-Clusters Shared Cooperative Multi-Agent
Reinforcement Learning,” Asian Control Conference ASCC, pp. 129-135,
27-29 Aug. 2009.
57
附錄
58
附錄表 4 合作牽引球環境 CTM 演算法參數設定
59
附錄表 7 獵物固定路線合作捕獵任務 CTM 演算法參數設定
60
附錄表 10 獵物隨機路線合作捕獵任務 CTM 演算法參數設定
61