基於深度學習與自然語言處理發展的情感對話機器人以短文本情感對話生成為例

國立臺北大學資訊管理研究所
碩士論文
指導教授：汪志堅博士
戴敏育博士
基於深度學習與自然語言處理發展的情感對話機器人
以短文本情感對話生成為例
Deep Learning and Natural Language Processing Based
Emotional Chatterbot Development:
In Short Text Emotional Conversation Generation Case
研究生：高偉晉撰
中華民國一 ○ 八年九月
ii
國立臺北大學 107 學年度第 2 學期碩士學位論文提要
論文題目：基於深度學習與自然語言處理發展的情感對話機器人
-以短文本情感對話生成為例
論文提要內容：
論文頁數：73 頁
所組別：資訊管理研究所（學號：710636303）
研究生：高偉晉指導教授：汪志堅、戴敏育博士
論文提要內容：
近年來，在網路上透過通訊軟體使用行動裝置傳遞訊息已經成為重要的
溝通方式。因此，聊天機器人為研究者所關注的其中一個最重要議題。
本研究使用社群媒體微博(Weibo)的貼文回覆組合，Chatterbot 語料庫，以
及線上中文對話資源作為訓練資料集。接著運用下列方法進行 Short Text
Conversation(STC)生成:使用 Apache Solr 建構檢索式系統，透過 Sequence to
sequence(Seq2seq)架構建構生成式系統。生成式系統也同時搭配 Emotional
General Purpose Response(EGPR)以及透過以下 5 種深度學習方法: Multilayer
Perceptron(MLP) 、 Gated Recurrent Unit (GRU) 、 Long Short Term Memory
(LSTM) Bidirectional Gated Recurrent Unit (Bi-GRU)以及 Bidirectional Long
Short Term Memory (Bi-LSTM)訓練的情感分類模型。本研究貢獻如以下幾
點:(1)本研究中，使用 Solr 建構的檢索式系統表現優於使用 Seq2seq 搭配情感
分類模型和 EGPR 建構的生成式系統。(2)情感分類模型所用來訓練的 5 種深
度學習方法中，以 Bi-GRU 表現最佳。(3)根據實驗結果，本研究所提出的 EGPR
方法能改善生成式系統的回覆準確性。
關鍵字：聊天機器人、深度學習、自然語言處理、從序列到序列、情感分析、
長短期記憶、門閘遞迴單元、雙向長短期記憶、雙向門閘遞迴單元
I
ABSTRACT
DEEP LEARNING AND NATURAL LANGUAGE PROCESSING BASED
EMOTIONAL CHATTERBOT DEVELOPMENT: IN SHORT TEXT EMOTIONAL
CONVERSATION GENERATION CASE
by
Gao, Wei-Jin
September 2019
ADVISOR(S): Dr. Chih-Chien Wang, Dr. Min-Yuh Day

DEPARTMENT: Graduate Institute of Information Management
MAJOR: Information Management
DEGREE: Master of Business Administration
Recently, Messenging via communication applications by mobile devices in the

internet has become an important way of communication. Thus, Chatbot is one of the
most important issue which researchers focus on.
In this study, we use social media: Weibo’s post-responses pairs, corpus from
Chatterbot, and online Chinese conversation resource as training dataset. And we use
following methods to implement Short Text Conversation(STC) generation:To build
retrieval-based system via Apache Solr ， and build generation-based system with
Sequence to sequence(Seq2seq)architecture.In Generative system, we also use Emotion
General Purpose Response(EGPR)and Emotion Classification model built with 5 Deep
Learning models: Multilayer Perceptron(MLP) 、Gated Recurrent Unit (GRU)、Long
Short Term Memory (LSTM) Bidirectional Gated Recurrent Unit (Bi-GRU) and
Bidirectional Long Short Term Memory (Bi-LSTM).In the STC generation research,
the performance of retrieval sytem built via Solr is better than generative system built
via Seq2seq, Emotion Classification, and EGPR. And BiGRU is the best method of
deep learning models implemented on emotion classification model. Finally, according
to experiment result, using EGPR we proposed could enhance the accuracy of
genetative system.
Keywords: Chatterbot、Deep Learning, Natural Language Processing, Sequence to

sequence, Sentiment Analysis, Long Short Term Memory, Gate Recurrent Units,
II
Bidirectional Long Short Term Memory, Bidirectional Gate Recurrent Units
III
目次
國立臺北大學 107 學年度第 2 學期碩士學位論文提要 ...................................................... I
ABSTRACT ........................................................................................................................ II
目次..................................................................................................................................... IV
圖目次 ............................................................................................................................... VIII
表目次 ................................................................................................................................. IX
壹、緒論(Introduction) ....................................................................................................... 1
一、研究背景(Background of Research) .......................................................................... 1
(一) 對話式商務(Conventional Commerce)興起 .......................................................... 1
(二) 人工智慧技術(Artifitial Intelligen)與聊天機器人(Chatterbot) ............................. 1
(三) 具有情感的聊天機器人(Chatterbot with Emotion) ............................................... 2
二、研究動機(Motivation of Research) ............................................................................ 2
(一)尚未確定檢索式系統或生成式系統較佳 .............................................................. 2
(二)結合情感分析(Sentiment Analysis)與深度學習(Deep Learning)............................ 2
(三)少見探討情緒分類模型所使用深度學習模型 ....................................................... 3
(四)情感式對話尚有許多發展空間.............................................................................. 3
三、研究目的(Purpose of Research) ................................................................................. 3
(一) 建構情感聊天機器人 ........................................................................................... 3
(二) 比較檢索式模型與生成式模型............................................................................ 4
(三) 比較不同深度學習模型 ....................................................................................... 4
(四) 加入情感常用回覆(Emotion Generated Purpose Response, EGPR) ...................... 4
四、研究問題(Question of Research) ............................................................................... 4
貳、文獻探討(Literature Review) ...................................................................................... 5
一、聊天機器人(Chaterbot) ............................................................................................. 6
(一) 聊天機器人定義................................................................................................... 6
(二) 聊天機器人類型................................................................................................... 6
(三) 聊天機器人類型................................................................................................... 8
IV
二、深度學習(Deep Learning, DL) .................................................................................. 9
(一) 遞迴神經網路(Recurrent Neural Network, RNN) ................................................. 9
(二) 長短期記憶(Long Short-Term Memory，LSTM) ............................................... 11
(三) 門閘遞迴單元(Gate Recurrent Units, GRU) ....................................................... 12
(四) 雙向長短期記憶(Bidirectional Long Short-Term Memory，Bi-LSTM) ............. 12
(五) 雙向門閘遞迴單元(Bidirectional Gate Recurrent Units,Bi-GRU) ....................... 13
(六) 序列對序列(Sequence to Sequence)方法 ............................................................ 13
(七) 注意力模型(Attention Model) ............................................................................ 14
三、自然語言處理(Natural Language Processing, NLP) ................................................ 15
(一) 文字探勘(Text Mining) ...................................................................................... 15
(二) 字詞向量(Word Vector) ..................................................................................... 15
(三) 餘弦相似性(Cosine similarity)............................................................................ 15
四、情感分析(Sentiment Analysis) ................................................................................ 16
(一) 聊天機器人中圖像應用多於文字應用聊天機器人中 ....................................... 16
(二) 聊天機器人中少討論情感分析使用的深度學習模型 ....................................... 16
(三)透過深度學習模型建立情感分類模型 ................................................................ 16
五、對話機器人競賽(Chatterbot Competitions) ............................................................. 16
(一) Amazon Alexa ..................................................................................................... 16
(二) NLPCC(CCF International Conference on Natural Language Processing and

Chinese Computing) .................................................................................................... 16
(三) LIC(Language and Intelligence Challenge) ........................................................... 17
(四) NTCIR(NII Testbeds and Community for Information access Research) ............... 17
(五)相關研究成果: 表 4 為 NTCIR 中研究者使用方法與資料以及得到評分。 ....... 18
參、研究方法(Methodology of Research) ........................................................................ 19
一、研究架構(Research Architecture) ............................................................................ 19
二、資料來源(Data Resource) ........................................................................................ 19
(二) 情感常用回覆訓練集 ......................................................................................... 20
(三) 測試集 ................................................................................................................ 21
三、資料前處理(Data Preprocessing) ............................................................................. 21

V
(一) 資料分割 ............................................................................................................ 21
(二) 資料分析 ............................................................................................................ 22
(三) 詞向量 ................................................................................................................ 22
四、基於檢索方式模型(Retrieval-Based Model) ........................................................... 22
(一) Solr 檢索系統 ...................................................................................................... 22
(二) 匯入資料 ............................................................................................................ 22
(三) RESTful API........................................................................................................ 22
(四) 檢索策略 ............................................................................................................ 23
五、基於生成方式模型(Generation-Based Model) ........................................................ 24
(一) 基於注意力機制的序列到序列模型(Attention-Based Seq2Seq) ........................ 24
(二) 前處理階段(Preprocessing Stage) ....................................................................... 24
(三) 模型訓練階段(Model Training Stage) ................................................................ 24
(四) 測試(Testing)階段 .............................................................................................. 26
六、情緒分類模型(Emotion Classifier Model) ............................................................... 27
(一) 情緒分類模型訓練集 ......................................................................................... 27
(二) 情緒分類模型使用深度學習模型 ...................................................................... 27
(三) 模型訓練參數設定 ............................................................................................. 27
七、情感常用回覆(Emotion General Purpose Response, EGPR) .................................... 28
(一) 資料來源 ............................................................................................................ 29
(二) 與測試集進行相似度分析 ................................................................................. 29
(三) 排序(Ranking) .................................................................................................... 29
(四) 過濾(Filtering) .................................................................................................... 29
(五)生成式系統與情感對話生成系統的生成回覆差異 ............................................. 30
八、實驗設計(Experiment Design) ................................................................................ 30
(一) 實驗設計 ............................................................................................................ 30
(二) 實驗流程 ............................................................................................................ 31
肆、實驗結果與討論(Results and Discussion) ................................................................. 33
一、效能評估(Evaluation) ............................................................................................. 33
VI
(一) 評估標準 ............................................................................................................ 33
(二) 評估方式 ............................................................................................................ 33
(三) 自主評估(Self Evaluation) .................................................................................. 34
二、情緒分類模型(Emotion Classification model) ......................................................... 34
(一) 準確度(Accuracy) ............................................................................................... 34
(二) 模型績效評估 .................................................................................................... 45
三、基於檢索方式模型(Retrieval-Based Model) ........................................................... 49
(一) 檢索系統評估結果(Retrieval System Evaluation Results) .................................. 49
四、基於生成方式模型(Generation-Based Model) ........................................................ 49
(一) 訓練模型評估(Evaluation of Training Model) .................................................... 49
(二) 生成模型評估結果(Generative Model Evaluation Results) ................................. 50
五、實驗討論(Discussion) ............................................................................................. 52
伍、結論(Conclusions) ...................................................................................................... 55
一、研究發現................................................................................................................. 55
二、研究貢獻(Contribution) .......................................................................................... 56
(一)比較情感分析採用深度學習模型 ........................................................................ 56
(二)本研究提出情感常用回覆方法............................................................................ 56
三、研究限制與未來研究建議 ...................................................................................... 56
(一) 研究限制 ............................................................................................................ 56
(二) 未來研究建議 .................................................................................................... 56
參考文獻(References) ........................................................................................................ 58
附錄(Appendix) ................................................................................................................. 64
附錄 1: 本研究測試資料集共 200 筆 ............................................................................ 64
附錄 2: 生成式系統提交結果成效較好者..................................................................... 71
簡歷.................................................................................................................................... 72
著作權聲明 ........................................................................................................................ 73
VII
圖目次
圖 1 AIML 建構聊天機器人.................................................................................... 7
圖 2 sequence to sequence 編譯器解譯器模型示意圖 ............................................ 7
圖 3 RNN LM 模型架構示意圖 ............................................................................ 10
圖 4 LSTM LM 模型架構示意圖 .......................................................................... 12
圖 5Bi-LSTM 與 Bi-GRU 系統架構示意圖 .......................................................... 13
圖 6 Sequence to sequence model 示意圖 .............................................................. 14
圖 7 檢索系統貼文回文組合匯入 Schema 定義 ................................................... 23
圖 8 檢索系統生成回文架構圖 ............................................................................. 23
圖 9 生成式系統架構 ............................................................................................ 26
圖 10 生成式系統搭配 EGPR 架構 ...................................................................... 30
圖 11 生成式系統對話生成和情緒分類和情感常用回覆流程架構 ..................... 32
圖 12 評估邏輯迴圈演算法示意圖 ....................................................................... 33
圖 13 評估分數計算公式 ...................................................................................... 34
圖 14 在不同超參數設置下使用 MLP 訓練的情緒分類模型準確度比較 ............. 37
圖 15 在不同超參數設置下使用 GRU 訓練的情緒分類模型準確度比較 ............. 39
圖 16 在不同超參數設置下使用 LSTM 訓練的情緒分類模型準確度比較 ........... 41
圖 17 在不同超參數設置下使用 Bi-GRU 訓練的情緒分類模型準確度比較........ 42
圖 18 在不同超參數設置下使用 Bi-LSTM 訓練的情緒分類模型準確度比較...... 44
圖 19 情緒分類模型搭配深度學習訓練結果準確度(Accuracy)的比較 ............ 45
圖 20 Emotion Prediction Accuracy(MLP)績效評估示意圖 .................................. 45
圖 21 Emotion Prediction Accuracy(GRU)績效評估示意圖 .................................. 46
圖 22 Emotion Prediction Accuracy(LSTM)績效評估示意圖 ................................ 46
圖 23 Emotion Prediction Accuracy(Bi-GRU)績效評估示意圖 ............................. 47
圖 24 Emotion Prediction Accuracy(Bi-LSTM)績效評估示意圖 ........................... 47
VIII
表目次
表 1 聊天機器人發展歷史表格 .............................................................................. 9
表 2 本研究使用 Deep Learning 架構方法。 ....................................................... 14
表 3 聊天機器人相關競賽整理 ............................................................................ 18
表 4 不同研究者在相關比賽中所使用的架構方法與評估結果 .......................... 18
表 5 微博貼文回覆組合 ....................................................................................... 20
表 6 情緒分類系統使用訓練集欄位表示 ............................................................ 20
表 7 情感常用回覆範例 ....................................................................................... 21
表 8 生成式系統參數設定 ................................................................................... 25
表 9 對話資料集貼文及回覆欄位合併 ................................................................ 27
表 10 情感常用回覆範例 ...................................................................................... 29
表 11 生成式系統與情緒分類模型以及情感常用回覆實驗組合 ........................ 31
表 12 人工判斷給分範例 ..................................................................................... 34
表 13 情緒分類器模型使用 MLP 訓練實驗結果之一 ........................................... 35
表 14 情緒分類器模型使用 MLP 訓練實驗結果之二 ........................................... 35
表 15 情緒分類器模型使用 MLP 訓練實驗結果之三 ........................................... 36
表 16 情緒分類器模型使用 MLP 訓練實驗結果之四 ............................................ 36
表 17 情緒分類器模型使用 MLP 訓練實驗結果之五 ............................................ 37
表 18 情緒分類器模型使用 GRU 訓練實驗結果 .................................................... 38
表 19 情緒分類器模型使用 LSTM 訓練實驗結果 .................................................. 40
表 20 情緒分類器模型使用 Bi-GRU 訓練實驗結果 .............................................. 42
表 21 情緒分類器模型 Bi-LSTM 訓練實驗結果(Bi-LSTM) .................................. 43
表 22 情緒分類模型搭配深度學習訓練最佳實驗結果參數配置 ........................ 44
表 23 5 種深度學習模型對於 5 種情緒預測準確性 ............................................ 48
表 24 實驗 1 評估結果 .......................................................................................... 49
表 25 生成式系統訓練組合及資料遺失值(Loss)結果 .......................................... 50
表 26 生成模型產生回覆自主評測結果 ............................................................... 51
表 27 測試集內容相同測試題項 ........................................................................... 52
表 28 本研究所有對話系統、情緒分類模型與情感常用回覆方法實驗組合 ...... 53
表 29 生成式系統採用 5 種深度學習模型在 5 種情緒下取得的分數分布 ........ 54
IX
壹、緒論(Introduction)
一、研究背景(Background of Research)
(一) 對話式商務(Conventional Commerce)興起

隨著行動裝置(Mobile Devices)的普及和通訊軟體(Messaging Apps) 如
LINE、WeChat、社群網路(Social Network)平台 Facebook 的出現，使得民眾資
訊取得及消費習慣改變，行動上網比例逐年上升。根據 StarCounter 指出
(GlobalStats, 2016)，在 2016 年 10 月，全球透過行動裝置上網比例已超越桌上
型主機。通訊軟體如 LINE、WeChat 和社群網路如 Facebook 相較之下，更能發
展維繫人際關係，根據調查顯示(Intelligence, 2016)，在 2014-2015 年間使用通
訊軟體用戶已超越社群網路，而在 2016 年，前 Uber 開發體驗者主管 Messina
也在自己部落格預示對話式商務(Conventional Commerce)的來臨(Messina, 2016),
自此對話式商務和聊天機器人開始被廣泛討論。目前在電子商務領域持續成長
中的基於聊天機器人對話式商務(Chatterbot-based conversational commerce)即是
使用者在線上透過聊天應用軟體與聊天機器人對話並且進行購買行為(Pricilla,
Lestari, & Dharma, 2018)。
(二) 人工智慧技術(Artifitial Intelligen)與聊天機器人(Chatterbot)
Facebook, Google, IBM, Microsoft 等著名科技公司正對於機器人及相關人工
智慧(artificial intelligence, AI)技術進行大量的研究(Nguyen, 2017)。
聊天機器人依照話題層面可切分為任務導向(Task-oriented)和非任務導向，
或是封閉領域和開放領域(Open domain)。前者如智慧型助理(intelligent agent):，
可連結不同應用程式並提供資訊服務以完成特定任務(Agrawal, Suri, & Menon,
2018)。後者如陪伴機器人 A.L.I.C.E，陪伴以及與家中長者互動(Kerlyl, Hall, &
Bull, 2006)。本研究探討方向鎖定於後者，即 Open domain、專注在簡短聊天和
生活對話的聊天機器人。
聊天機器人近來被定義為透過自然對話語言與人類使用者互動的機器對話
系統(Shawar & Atwell, 2007)。聊天機器人依照對話系統(Dialogue system)模型開
發方式大致可分為三種:
1.樣板型模型(Rule-based model):使用預先定義的資料庫並且設定輸入與輸
出內容的匹配規則。
2.檢索式系統(Retrieval-based model):使用預先定義的資料庫並且透過自然
語言處理方法如相似度分析得出候選答案並排序得出輸出匹配結果，輸出
範圍不超出資料庫內容。
I
3.生成式系統(Generative models): 使用資料庫訓練並可生成不同於資料庫
的輸出結果，但有可能回覆結果具有語義錯誤。
(三) 具有情感的聊天機器人(Chatterbot with Emotion)
近年來，深度學習模型(Deep learning models)已經在自然語言處理領域取得
顯著成果如語意分析(semantic analysis)、機器翻譯(machine translation)和文本摘
要(text summarization)等(Tang, Qin, & Liu, 2015)，也讓對話系統變得更加具有智
慧(Chung, Iorga, Voas, & Lee, 2017)。研究者致力於透過深度學習方法改善對話
系統生成的內容品質，目的是讓機器人能夠表現和對話得像人類一樣。
然而要讓機器生成接近人類的對話內容，需要先讓機器理解人類知覺行
為，因為情感是判斷人類行為最基礎的特徵(Chakraborty, Bhattacharyya, Bag, &
Hassanien, 2018)。因此社群機器人(social robots) 設計上就會考量到人機互動，
機器人能辨識人類情緒以及適當表達的可能性，但是到目前為止實現能力仍然
距離遙遠，其中一個原因是鮮少應用在機器人行為模型中嘗試考量使用者情緒
狀態(Cavallo et al., 2018)。因此人機對話要素是機器回覆內容不僅是達到內容層
面(相關性及符合文法)，還需要達到情感層面(Sun, Peng, & Ding, 2018)。
二、研究動機(Motivation of Research)
(一)尚未確定檢索式系統或生成式系統較佳
鑒於社群媒體興起和行動裝置普及現象，人們透過簡短文字訊息(short
text)進行對話已成為重要的溝通方式(Shang et al., 2016)。在不同商務領域
皆有企業推出聊天機器人提供服務例如 H&M, Cable News Network(CNN)，
或是提供給使用者自行建置的聊天機器人軟體套件像是 Chatfuel、Linebot
等。對話系統大部分以檢索式系統建構為主，但是由於該系統是以內含資
料庫為回覆依據，無法生成新的對話，因此近來生成式系統的研究愈發引
起關注並且已經取得豐碩成果。只不過生成式系統仍面臨許多挑戰像是生
成無意義或是缺乏多樣性的對話(Iulian Vlad Serban, Lowe, Charlin, &
Pineau, 2016)，所以目前尚且難以篤定生成式系統已經超越檢索式系統
(Kato & Liu, 2017)。
(二)結合情感分析(Sentiment Analysis)與深度學習(Deep Learning)

人機對話系統被視為電腦科學其中一個最難的課題，涵蓋領域技術橫
跨資訊檢索、自然語言處理和人工智慧之間(Yan, Song, & Wu, 2016)。近年
來陸續有研究者從不同領域角度如資訊檢索(Information Retrieval, IR)、自
然語言處理(Natural Language Processing, NLP)和機器學習(Machine
Learning)等來討論自然語言對話課題，探討重點聚焦在對話系統模型效能
2
的提升。例如使用深度學習模型 RNN、LSTM, Sequence to
sequence(Seq2seq)等作為建立模型架構，期望能讓對話系統產生「人性
化」回應。不過要使機器人展現出人類層次的對話表達能力，前提是需要
讓系統能理解人類知覺行為，而表達與理解情緒和因應行為是其中一個最
重要的人類行為(Huang, Ye, & Zhou, 2017)。先前研究曾在樣板式模型或小
規模資料基礎上結合對話系統與情感分析(Polzin & Waibel, 2000)，而生成
式系統結合大規模資料集的相關研究主要是集中在改善對話系統的模型，
因此尚未有大量研究是結合生成式系統和情感分析(Huang et al., 2017)。
(三)少見探討情緒分類模型所使用深度學習模型
隨著深度學習在許多其他應用領域的成功，近年來深度學習也廣泛應
用在情感分析領域(Zhang, Wang, & Liu, 2018)，不過並沒有大量關於深度學
習模型應用於情感分類上的研究。
(四)情感式對話尚有許多發展空間
在情感嵌入對話相關研究得知，生成式系統產生的情感對話尚有許多是不
符合語意或是同時不符合語意和情緒的情形，而目前取得最優異分數仍是以檢
索式系統建構為主(Huang et al., 2017)。
三、研究目的(Purpose of Research)
本研究討論重點在於提出能夠生成含有情感對話的聊天機器人，比較
不同建構系統的成效，比較情緒分類系統所使用的不同深度學習模型，以
及嘗試改善生成式系統產生的情感對話方法。
本研究取得社群網站 60 萬組貼文與回覆資料(post-response pairs)，以
此資料集為基礎建構檢索式系統及生成式系統。為了讓聊天機器人能夠判
別接收提供貼文(post)的貼文情感(post emotion)，並且依照貼文生成包含對
應情感(response emotion)的對話(response)，本研究在生成式系統中結合了
情感分析模型，並且將對應情緒細分為五大類:快樂(like)、難過(sadness)、
噁心(disgust)、生氣(anger)與快樂(happiness)，讓生成的對話情感更具多樣
性。此外，本研究提出情感常用回覆以嘗試改善生成式系統產生的情感對
話。本研究將基於生成式模型的聊天機器人與不同情感分類模型以及方法
交叉組合比較績效並求出最佳表現的組合。研究目的具體細分如下：
(一) 建構情感聊天機器人
包含建構檢索式系統與生成式系統，檢索式系統透過將資料集匯入線上開
源檢索系統以進行對話的匹配得出檢索結果。生成式系統透過加入 NLP 技術和
Deep learning 架構以建構模型訓練對話系統。並將結合 Sentiment analysis，也
就是對話系統所生成的 response 除了符合 post 語意之外，同時 response emotion
也符合 post emotion 所處的語境(Huang et al., 2017)。
3
(二) 比較檢索式模型與生成式模型
建構並比較檢索式模型與生成式模型聊天機器人的情感對話表現。
(三) 比較不同深度學習模型
建構並比較本研究結合情感分析所使用情緒分類模型中，所應用的不同模
型如「MLP」、「GRU」、「LSTM」、「Bi-GRU」、「Bi-LSTM」的績效評估。
(四) 加入情感常用回覆(Emotion Generated Purpose Response, EGPR)
比較聊天機器人在 EGPR 方法加入前後評估績效差異。
四、研究問題(Question of Research)
綜整上述研究背景、研究動機與研究目的，本研究將設定研究問題
(Research Question, RQ)如下:
(一)研究問題 1(RQ1)：
運用深度學習方法建構而成的生成式對話機器人是否可使生成回覆品
質語意一致性優於檢索式對話機器人?
(二)研究問題 2(RQ2)：
是否可利用情感常用回覆方法加入聊天機器人系統並使生成回覆語意
一致性提升?
(三)研究問題 3(RQ3)：
是否可利用深度學習方法如「MLP」、「GRU」、「LSTM」、「Bi-
GRU」、「Bi-LSTM」建構情感分析模型並使生成回覆符合情緒一致性?
4
貳、文獻探討(Literature Review)
人類不斷在思考機器是否能像人類一樣具有智慧，有思辨能力，Alan
Turing(1950)提出問題:「Can a machine think?」，並透過圖靈測驗(Turing Test)用
以判斷機器是否會像人類一樣思考。
由於近年來軟體、硬體、網路及各種資訊相關技術快速發展，加上不同領
域匯流令人工智慧(Artificial Intelligence，AI)領域有長足進展，藉由賦予機器人
性化的方式強化人機互動(Human-Computer)。例如 Machine Learning 結合統計
理論和神經網路(Neural Network)架構，其分支領域 Deep Learning 被廣受討論，
AI 研究趨勢蔚為興起(Huang et al., 2017)。
加上前述社群媒體發展和行動裝置普及，使用通訊軟體用戶不斷增加的情
況下，聊天機器人已在商業應用於協助行銷，例如 H&M Shopping bot(Berglund,
2017)，使用者可以透過用戶接受度較高且使用頻繁的對話介面獲取所需資訊與
體驗。
近來也提出了許多透過大規模社群資料(large-scale social data)所建構的對話
生成模型，但是一方面使系統產生適合的對話仍是一大挑戰(Sun, Peng, et al.,
2018)。另外一方面，要讓機器人理解人類的知覺行為，情緒的表達與理解是其
中一大要素，然而要針對 Post 生成帶有情緒的回覆(emotional response)仍是極
具挑戰，因此結合對話系統與情緒分析為帶有情感的聊天機器(Emotional
Chatting Machine, ECM)為近期研究重心(Sun, Peng, et al., 2018)。
因此，對話系統所處理的人類自然語言，要讓機器理解的話需要同時結合
Machine Learning 模型和 NLP 技術。作為 Machine Learning 分支的 Deep
Learning，是運用深度神經網路(Deep Neural Network)架構，讓機器能透過訓練
理解並表達像人類的關鍵方法之一。應用於 NLP 的主要 Deep Learning 模型有:
遞迴神經網路(RNN)、長短期記憶(LSTM)和門閘遞迴單元(GRU)等。NLP 技術
在對話系統中將文字轉換為機器能理解的向量表達方式，並在機器處理完畢後
轉換回人類能理解的自然語言表達方式。另外結合情緒分類系統以及 EGPR 方
法，讓對話系統增添內容及情感上的多樣性。因此本研究將著重探討上述主
題，藉此改善聊天機器人生成回覆，讓產生情感對話能更接近人類對談的真實
情境。
5
一、聊天機器人(Chaterbot)
(一) 聊天機器人定義
關於「聊天機器人」(Chatterbot)的定義，有如下敘述:
1.Mauldin(1994)以對話性程式(conversational software programs)來解釋聊天機
器人，為最早提出該名詞的研究者。
2.設計用以與一個或多個人類進行智慧對話的電腦程式。(Deryugina, 2010)
3.機器人模擬人類與使用者進行談話(Kasinathan, Mustapha, Siow, & Hopman,
2018)
4.可以透過自然語言與使用者互動及提供指引的工具(LN Paschoal, 2018)
綜合以上所述，本研究將聊天機器人定義為透過聲音或者是文字提供
資訊，與人類進行互動的對話介面。
(二) 聊天機器人類型
1. 從話題上可以大略分成目標導向型和非目標導向型兩種。
(1) 目標導向型像是應用在客戶服務(Customer Service)或是 IR 領域，例
如 Google 智慧助理，可連結應用程式(Apps)，網站(Website)以及像
是 Facebook Messenger 的即時訊息(Instant Message)平台。
(2) 非目標導向型如陪伴機器人 A.L.I.C.E，與家中長者互動和陪伴
(Kerlyl et al., 2006)。在問答系統部分，搭載簡單系統的運作方式多
為擷取輸入關鍵字，接著從資料庫中尋找適切的回應。運用 NLP 方
法的系統會透過文字探勘(Text Mining)、詞向量(Word Vector)轉換，
藉此讓機器能理解並處理人類語言。
2. 從對話系統模型發展方式可分為樣版式模型、檢索式模型和生成式模型
三種模型，近期研究主要討論的對話系統是檢索式和生成式模型兩類。
(1) 樣板式模型(Rule-based model)
經由設計「規則」來讓機器人知道當遭遇某輸入資料時應該輸出
甚麼內容，並且需要考量到規則間的優先順序(Wallace, 2003)，可以透
過人工智慧修飾語言(AIML)進行樣板式聊天機器人建構如圖 1 所示。
6
圖 1 AIML 建構聊天機器人
資料來源: Wallace (2003)
(2) 檢索式模型(Retrieval-based model)

檢索式模型是系統針對使用者提供訊息(或稱為 query)，在系統內
龐大的對話資料集中尋找與 query 搭配起來最適合的回覆(Song et al.,
2018)。透過既有語料庫(corpus)建置索引(index)，在進行對話檢索的
動作時候，依照先前建置索引經由相似度分析(similarity analysis)後排
序(rank)候選的回覆(candidates)，並且選擇排序最優先者作為最終回覆
(result)，例如 Apache 搜尋引擎 Lucene 和 Solr。
(3) 生成式模型(Generation-based model)
原理是在一組由編譯器(encoder)和解譯器(decoder)組成架構下，
當輸入的文字進入 encoder，會先一個字一個字地轉換成固定長度的向
量表達方式讓機器可以解讀，接著再將此固定長度向量餵入 decoder，
由 decoder 陸續輸出回覆文字(Shang et al., 2016)。例如在 sequence to
sequence 架構中，是由 2 個 RNN 或是 LSTM 等深度學習模型所組成
的 encoder 和 decoder 組合如圖 2 所示。當文字輸入 Encoder 時會先轉
換成向量(Vector)表示，然後餵入至 Decoder 後再轉換回文字輸出。
圖 2 sequence to sequence 編譯器解譯器模型示意圖

資料來源:Kato and Liu (2017)
7
(三) 聊天機器人類型
1. 圖靈曾討論機器是否能像人類一樣思考，並發表圖靈測驗(Turing test)來
測驗機器是否具備人類智慧(Turing, 1950)。
2. Joseph Weizenbaum(1966)嘗試透過字串比對進行人機對話，是聊天機器
人發展先驅。MIT(1999)發表 Kismet 機器人，造型類似人類頭部，具有
特徵提取、動機、語言等系統來識別嬰幼兒情感，並以類似嬰兒發出聲
音的初始語言表達當下機器人所處的情感狀態(Breazeal & Scassellati,
1999)。Siri 是蘋果公司發表的 iOS 系統內建人工智慧語音助理，使用者
可透過自然語言讓手機協助完成查詢資料、設定日曆等應用軟體(Inc,
Apple, 2012)。2011 年 IBM 的 DeepQA 計劃小組開發的 WATSON(華
生)，參加電視節目問答比賽並且打敗最高獎金得主。WATSON 是具有
強大運算能力的問答(Q&A)系統，可以在三秒內，搜尋系統內所包含大
量資訊如百科全書、字典等資料庫進行問題假設驗證與推翻，並回答比
賽題目(Ferrucci et al., 2010)。在 2012 年，聊天機器人 EUGENE 參與圖
靈測驗，通過率為 29.2%取得當時圖靈測試冠軍，並在 2014 年確定圖靈
測驗通過率 33%而被認定為人工智慧(Schofield, 2014)。2014 年微軟發布
人工智慧聊天機器人:小冰(XiaoIce)，個性設定為 18 歲的女性。除了對
話系統以外，也包含語音助理的資訊查找、整合應用軟體功能，目前已
經發展到第六代，曾經發表由利用深度學習來讀取圖片進而生成詩歌創
作，並已具有版權(Cheng et al., 2018)。
聊天機器人到目前為止已有許多不同面向的應用，像是語音助理協
助購物(Chung et al., 2017; Shulevitz, 2018)、社交機器人陪伴使用者
(Byford, 2014; Rane, Mhatre, & Kurup, 2014; Robotics, 2016)等。
以下表 1 為人工智慧聊天機器人發展歷史彙整。
近年來市面上有許多聊天機器人發表，應用 NLP 和語音技術，以
及情感分析，使機器人表現類似人類的行為。也由於聊天機器人研究在
商務應用部分正快速開展中，因此可以快速且持續地改善對話品質的能
力是一大關鍵(Shmueli-Scheuer, Sandbank, Konopnicki, & Nakash, 2018)。
8
表 1 聊天機器人發展歷史表格
年代研發單位名稱功能
TURING
1950 Alan Turing 測驗受測人類是否能判斷回答問題者為機器或是人
TEST
1964 Joseph Weizenbaum ELIZA 透過字串比對進行人機對話，聊天機器人發展先驅。
1998 MIT Kismet 表情識別、臉部情感表達。

2011 Apple SIRI 語音智慧助理，串聯應用程式。
2011 IBM WATSON 問答電腦，曾贏得 Jeopardy 競賽。
2014 Vladimir Veselov et al. EUGENE 聊天機器人，曾成功欺騙過圖靈測驗的 33%測試者。

2014 Amazon ALEXA 語音智慧助理，協助完成購物任務。
2014 MIT JIBO 語音、臉部辨識、語音互動與情感表達。

小冰
2014 Microsoft Research Asia 語音、臉部辨識、語音互動與情感表達。
(Xiaoice)
2015 Softbank PEPPER 語音、臉部辨識與情感表達。
2015 Blue Frog Robotics Buddy 語音、臉部辨識與情感表達。
2016 Microsoft TAY 聊天機器人，在社群媒體上具帳號可自動發表評論。

資料來源:本研究自行彙整
二、深度學習(Deep Learning, DL)
Deep Learning 是近年來發展出的 Machine Learning 類型，透過 deep neural

network 自動地辨識處理在資料集(data set)裡取得的特徵(Li & Lyons, 2016)；
Hinton 提出深度信念網路(Deep Belief Networks)概念，透過逐層初始化
(initialize)和微調(fine-tune)權重以降低資料維度，提升特徵學習能力。伴隨
Deep Learning 在許多其他應用領域的成功，Deep Learning 在近年來也在
Sentiment Analysis 被廣泛應用(Zhang et al., 2018)。
本研究主要將探討與 NLP 密切相關的模型如 RNN、LSTM、GRU、
Seq2seq，以及基於注意力機制的序列到序列 (Attention-Based Sequence to
Sequence)。
(一) 遞迴神經網路(Recurrent Neural Network, RNN)
考慮時間序列，試圖在序列中找出特定的架構或模式(Elman, 1990)。
每一筆丟進去的序列資料,會有對應的序列標籤，並將依照時間序列將處
理訊息交給下一個神經網路，依序循環下去。Ilya提出時間序列概念是在
9
某段時間內某現象的數量變化，可按照需求切割成如秒、分、時、日、月
等單位，並作為預測判斷的基礎(Ryzhov, 2015)。
Mikolov提出基於RNN架構的語言模型(Recurrent neural network based
language model)(Tomáš Mikolov, Karafiát, Burget, Černocký, & Khudanpur,
2010)，模型架構如圖3所示,模型說明如下:
1. 此網路具有1個輸入層(input layer)，1個隱藏層(hidden layer/
context layer)和1個輸出層(output layer)。
2. 當文字(時間t)進入Input layer後會轉換為Vecotr(時間t)，並且結合在上
一個時間狀態的context layer輸出(t-1)輸出至當下時間狀態context(t)。
3. 由於在context layer(t)保留context layer(t-1)輸出資訊，所以使得模型隨
著接續地輸出會具有更多保留的資訊，因而在context layer輸出到
output layer的時候，輸出內容前將會考量越多資訊，輸出的內容將更
符合語境。
也就是說，當Input(t)進入Context後，會合併Context(t-1)輸出到
Output(t)，同時也會將Context(t)交予Context(t+1),輸出至Output(t+1)。
然而當模型隨著時間不斷推移，就會造成梯度消失(Gradient vanish)或是梯
度爆炸(Gradient explode)的現象(Bengio, Boulanger-Lewandowski, & Pascanu,
2013)，因此後續發展的LSTM、GRU等模型對於hidden layer內保存的資訊透過
3個門閘(gate)進行管理。
圖 3 RNN LM 模型架構示意圖
資料來源:Tomáš Mikolov et al. (2010)
10
(二) 長短期記憶(Long Short-Term Memory，LSTM)
LSTM是RNN的變化形態，新增單元狀態(cell state)概念，以及3個gates
以保護和控制單元狀態，管理進出hidden layer的資訊流動(Hochreiter &
Schmidhuber, 1997)，Sundermeyer應用該模型於NLP(Sundermeyer, Schlüter,
& Ney, 2012)，概念如圖4所示。
1.門閘(gate)
(1) 遺忘閘(Forget gate): 決定需要從單元中拋棄的訊息。
(2) 輸入閘(Input gate): 決定在單元中保留下來的訊息。
(3) 輸出閘(Output gate): 決定最終輸出的訊息。
2.動作(action)
(1) ai表示為輸入動作(input action)
(1) bi表示為輸出動作(output action)
3.要素(factor)
(1) bl:對ai進行運算。
(2) bφ:對前1個隱藏層保留狀態進行運算。
(3) bω:對隱藏層輸出結果進行運算。
bl ,bφ,bω輸出範圍為係數0到1，表示接受通過程度，0表示全部
丟棄，1表示全部通過。
11
圖 4 LSTM LM 模型架構示意圖
資料來源:Sundermeyer et al. (2012)
(三) 門閘遞迴單元(Gate Recurrent Units, GRU)
GRU由Cho等人(2014)提出，與LSTM結構類似，都有gates控管資訊在隱藏
層的流動狀態，不過GRU架構上為2個gates:更新閘(Update gate)和重置閘(Reset
gate)。Update gate決定先前資訊的記憶狀態將留下多少數量傳輸至新的記憶狀
態。Reset gate則決定先前資訊記憶狀態影響新的記憶狀態的程度，也就是決定
如何將先前記憶狀態結合之後輸入資訊(Cho et al., 2014)。由於GRU的gate數量
以及架構上較LSTM簡單，因此在同樣任務上的運算量較低而具效率是其特
色。研究顯示，在情感分類任務上，GRU表現多比RNN模型出(Tang, 2015)。
(四) 雙向長短期記憶(Bidirectional Long Short-Term Memory，Bi-LSTM)
由 Graves, Jaitly, and Mohamed (2013)所提出，基本 LSTM 是前向運算
(forward propagation )，透過先前的資訊持續往後預測。雙向 LSTM 則是結合反
向運算(backward propagation )的 LSTM，也就是從文字序列的最後往前面反方
向預測。因此當預測一個詞語 X，將同時考量 X 之前與 X 之後的資訊，縮小候
選資訊的範圍，提高準確率。例如「今天身體不適，想要 X 一天」，如果僅使
用 X 前面文字判斷語意，則可能有「休息」、「請假」、「看診」等選項；但如果
將 X 後方的「一天」也納入考量，那麼 X 將會縮小範圍為「休息」、「請假」較
12
為符合語意。
(五) 雙向門閘遞迴單元(Bidirectional Gate Recurrent Units,Bi-GRU)
由Vukotić(2016)所提出，原理與Bi-LSTM相同，只是將LSTM模型更換為
GRU模型。Bi-LSTM與Bi-GRU系統架構概念如下圖5所示。文字輸入(Input)之
後，經由前處理(Preprocessing)轉換成向量，並同時將資訊透過前向LSTM/GRU
以及後向LSTM/GRU處理，接著將雙向運算取得的資訊串聯(Concatenate)並輸
出(Output)。
圖 5Bi-LSTM 與 Bi-GRU 系統架構示意圖

資料來源: 本研究自行彙整
(六) 序列對序列(Sequence to Sequence)方法

Seq2seq是來自於解決機器翻譯針對維度問題所提出的處理方法
(Sutskever, Vinyals, & Le, 2014), 基本模型是結合由兩個RNN所組成的
Encoder和Decoder。由於人與人之間對話並非每次都是完全從零開始，
往往需要考慮前後文的語境(Context)，因此需要考量到時間序列，如下
圖6所示，是以輸入一個文字序列(input = abc)，經由encoder向量化後成
為Vector 表示，再由decoder轉換成為文字輸出(output = xyz)。
研究者近期開始探討Deep learning開發對話系統，特別是Seq2seq模
型在處理非結構性任務(例如Open domain對話)上的結果展現出令人期待
的成果，該模型具有能從大量資料學習有意義的自然語言表達和生成策
略。(Iulian Vlad Serban et al., 2016)
13
圖 6 Sequence to sequence model 示意圖
資料來源:Sutskever et al. (2014)
(七) 注意力模型(Attention Model)
該模型聚焦於Encoder-Decoder架構內，從Encoder到Decoder之間
hidden layer的階段，當輸入文字(texts)透過Encoder轉換成Vectors時，
hidden layer內每個生成的向量將會同時計算對於後續Decoder生成文字影
響的機率分布，分配每個字的注意力大小。因此原本在hidden layer的
Vectors對於接下來Decoder生成的Texts影響力皆相同，在經過注意力機制
為每個Vectors分配注意力分布權重之後，每個在隱藏層階段的生成向量
將對生成的文字具有不同的影響力，減少過程資訊流失與生成無意義文
字的情形(Bahdanau, Cho, & Bengio, 2014)。所以注意力機制結合基於
RNN系列模型的Seq2seq架構已被應用在許多文本理解任務(Gao, Guo,
Zhang, Xu, & Shen, 2017; Kadlec, Schmid, Bajgar, & Kleindienst, 2016) 。
如下表 2，依照時間順序條列本研究進行NLP時會使用到的Deep
Learning架構方法。
表 2 本研究使用 Deep Learning 架構方法。
年代研究者深度學習架構方法
2006 Hinton et al. 深度信念網路(DBN)
2010 Mikolov et al. 遞迴神經網路語言模型(RNNLM)
2012 Sundermeyer et al. 長短期記憶語言模型(LSTMLM)
雙向長短期記憶(Bidirectional Long
2013 Graves et al.
Short-Term Memory, Bi-LSTM)
2014 Sutskever et al. 序列到序列(Seq2seq)
2014 D Bahdanau et al. 注意力機制(Attention mechanism)

雙向門閘遞迴單元(Bidirectional Gate
2016 Vukotić
Recurrent Units,Bi-GRU)
基於注意力長短期記憶(Attention-based
2017 Gao, L. et al.
LSTM)
14
三、自然語言處理(Natural Language Processing, NLP)
NLP 領域包含 AI 與語言學，近年關注領域有 Text Mining、Conversational

Bot 等(Huang et al., 2017)。
(一) 文字探勘(Text Mining)
Text Mining 是資料探勘(Data Mining)分支領域，是在非結構或半結構
資料中取出所需資訊，透過 Text Mining 方法可以發現知識(Fayyad,
Piatetsky-Shapiro, Smyth, & Uthurusamy, 1996)。從資料集內進行資料分析來
解釋新獲取的知識，在處理自然語言時會運用像中文分詞(Chinese Word
Segmentation)方式進行資料的預處理(Pre-Processing)動作，將原始檔案轉換
為適合使用模型的格式型態。
(二) 字詞向量(Word Vector)
字詞向量(Word Vector)是把自然語言化為向量(符號數學化)的技術
(Xiao, Ye, Yu, & Lai, 2017)，一般是在預處理的文字分詞階段之後進行文字
象徵轉換為詞嵌入(word embedding)的階段(Zhong et al., 2018)，轉換成向量
表示之後，便可以經由計算相似度(Similarity)進行相似度分析來評估詞語
關聯性高低與否(Kato & Liu, 2017)。目前主要的向量表示如下:
1. Word2vec(Tomas Mikolov, Sutskever, Chen, Corrado, & Dean, 2013)

2. Glove(Pennington, Socher, & Manning, 2014)
3. One-hot vector(Matsunaga, 2016)
(三) 餘弦相似性(Cosine similarity)
餘弦相似性(Cosine similarity):是透過歐氏距離計算向量空間中 2 個向
量表示的維度之夾角以得知彼此相似程度(Steinbach, Karypis, & Kumar,
2000)，相似度範圍為 0 到 1，夾角 0 度表示相似度為 1，夾角 90 度的話則
相似度為 0，2 個向量夾角越接近 0 度則相似度越高。兩個向量計算方式不
同可分為 Jaccard(Jaccard, 1901)、Dice(Dice, 1945)和 Cosine(Ochiai, 1957)等
相似度，因此可以透過將 2 個文字檔案轉換成向量表示後進行運算。
15
四、情感分析(Sentiment Analysis)
(一) 聊天機器人中圖像應用多於文字應用聊天機器人中
到目前為止，情感分析在機器人的相關研究中，主要是針對影像辨識
(Breazeal & Scassellati, 1999; Byford, 2014; Rane et al., 2014; Robotics,
2016)，而在 NLP 領域中，非常少數是有考量到面對使用者時，對話系統
在此溝通情境下產生回覆的情緒狀態。部份原因是其中存在著許多挑戰，
包含要如何在對話系統中分類適當的情緒分類以及如何在實作上讓機器有
能力分析人類情緒的同時提供適當的回應(Zhou, Huang, Zhang, Zhu, & Liu,
2018)，因此搭配情緒的對話生成為其中一個重要的課題。
(二) 聊天機器人中少討論情感分析使用的深度學習模型
搭配情感分析的對話生成研究當中，大多是探討對話系統模型(Ritter,
Cherry, & Dolan, 2011; Iulian Vlad Serban et al., 2017; Shang, Lu, & Li, 2015;
Vinyals & Le, 2015)，或是關於情感要素的分析如情緒圖示(Emotional
icons){Hill, 2015 #183}鮮少討論情緒分析的模型。
(三)透過深度學習模型建立情感分類模型
本研究將透過嵌入情緒分類機制來使生成對話具有情感(Sun, Peng, et
al., 2018)，並且利用深度學習模型如多層感知機(Multilayer Perceptron,
MLP)、GRU、Bi-GRU、LSTM、Bi-LSTM 模型建構情緒分類模型，在本
研究中的情緒分類包含 5 種:1.喜歡(like)、2.悲傷(sadness)、3.厭惡
(disgust)、4.憤怒(anger)、5.快樂(happiness)。
五、對話機器人競賽(Chatterbot Competitions)
(一) Amazon Alexa

Amazon Alexa 研發團隊舉辦國際大學競賽 Alexa Prize(Iulian V Serban
et al., 2018)，目標是建立社會機器人(socialbot)可與人類閒聊熱門話題例如
娛樂、流行、運動、科技等。
(二) NLPCC(CCF International Conference on Natural Language
Processing and Chinese Computing)

NLPCC(CCF International Conference on Natural Language Processing
and Chinese Computing)聚焦於自然語言處理(NLP)和中文運算(CC)，藉由研
討會型態聚集領域專家討論提出在研究和學術上的創新。
16
(三) LIC(Language and Intelligence Challenge)
LIC(Language and Intelligence Challenge)，由中國計算機學會（CCF）
和中國中文資訊學會（CIPS）合辦，涉及領域為自然語言和 AI 相關領域
發展趨勢和研究成果，比賽項目包含機器閱讀理解、知識驅動對話和資訊
擷取等。
(四) NTCIR(NII Testbeds and Community for Information access
Research)
NTCIR 是由日本情報學研究所(NII)舉辦關於短文本對話 (Short text
conversation, STC)生成任務，針對 NLP、IR 和 Machine Learning 等不同領
域的研討會議，比賽項目除了 STC 之外尚有 QA(問答系統)和其他多種
NLP 任務。結合跨領域研究者一同研究討論自然語言對話以及提出針對課
題的看法。
1. NTCIR-12 提出 STC 任務，STC 定義為較為簡化的自然語言對話，是為
單輪(one round)對話，由人類提供貼文，接著讓電腦進行對貼文的回覆，
並且評估生成回覆是否適用於貼文語境(context)(Shang, Lu, Li, & Sakai,
2015)。
2. NTCIR-13 STC-2 任務中使用的對話系統，將生成式系統也納入考量，並
評估生成回覆是否同時符合下列條件:
(1)與貼文語意邏輯上的關聯性以及與主題相關的內容。
(2)是適切且文法順暢的自然語言回覆(Kato & Liu, 2017)。
3.NTCIR-14 STC-3 的子任務: 中文情緒對話生成(Chinese Emotional
Conversation Generation ，CECG)任務在 STC-2 定義的基礎上加進情感分
析，並依下列標準評估生成的回覆表現:
(1)情緒一致性(Emotion Consistency):生成回覆是否與貼文(Post)情緒類別
(Emotion Class)一致。
(2)相關性(Coherence):生成回覆符合與貼文邏輯上的關聯性，而且內容與
貼文主題相關。
(3)流利性(Fluency):文法順暢並且是適切的自然語言回覆。
下表 3 為聊天機器人相關競賽整理。
17
表 3 聊天機器人相關競賽整理
首屆會議最近競賽官方
舉辦時間屆次名稱網站
https://developer.amazon.com/alexaprize/challenges/pas
2017/11/28 03 Alexa Prize
t-challenges/2017/
2012/10/30 08 NLPCC http://tcci.ccf.org.cn/conference/2019/
1999/08/30 14 NTCIR http://research.nii.ac.jp/ntcir/index-en.html
2019/08/24 01 LIC http://lic2019.ccf.org.cn/
(五)相關研究成果: 表 4 為 NTCIR 中研究者使用方法與資料以及得到評分。
表 4 不同研究者在相關比賽中所使用的架構方法與評估結果
研究者方法資料集資料量使用比賽評估方式評估分數
Ji et al Baseline TransLM Social media about NTCIR-12 MAP 0.654
(2014). DeepMatch TopicWord conversation 600000 STC P@1 0.637
dataset
Zhao et al. Seq2seq Weibo post- about NTCIR-13 Mean nG@1 0.5867
(2017). VAESeq2seq comment set 1.000,000 STC2 Mean P+ 0.6670
Sogo added Mean 0.7095
dataset nERR@10
Chieh et al. Seq2seq Weibo post- about NTCIR-14 Manual 0.726
(2019) default response library comment set 600000 STC3 Annotation
Day et al. 1.Retrieval Weibo post- about NTCIR-14 Manual Retrieval:
(2019) 2.Generation: comment set 600000 STC3 Annotation 0.592
Attention-based Seq2seq Generation:
Emotion classifer model 0.06
Li et al. 1.Rule-based Weibo post- about NTCIR-14 Manual Generation:
(2019) 2.Generation: comment set 600000 STC3 Annotation 0.953
Attention-based Seq2seq
18
參、研究方法(Methodology of Research)
針對第一章所提研究問題(RQ)如下，本研究將透過 NLP 方法進行資料集的

前處理(Pre-processing)，並將文字轉換成對話系統能夠理解的向量表示方式，
接著利用相似性方法比對貼文與回覆，取出得分最高者為候選回覆，將候選回
覆進行排序和後處理(Post-processing)以取得最終生成回覆，並且搭配情緒分析
模型使用 MLP、GRU、LSTM、Bi-GRU、Bi-LSTM，以及使用情感常用回覆，
最後交互比較評估績效。
RQ1:是否可運用目前深度學習方法建構基於生成式系統的聊天機器人並使生成
回覆品質語意一致性優於檢索式系統?
RQ2:是否可利用情感常用回覆方法加入聊天機器人，使生成回覆語意一致性獲
得提升?
RQ3:是否可利用深度學習方法如「MLP」、「GRU」、「LSTM」、「Bi-GRU」、
「Bi-LSTM」建構情感分析模型並使生成回覆符合情緒一致性?
一、研究架構(Research Architecture)
本研究使用 NTCIR-14(NII Testbeds and Community for Information access

Research)STC3(Short Text Conversation)的社群媒體(Weibo)語料庫作為訓練集來
源，並分別使用檢索式系統以及生成式系統建構對話生成模型，搭配 5 種導入
Deep Learning 架構的情緒分類模型進行分類，同時利用 EGPR 方法改善生成無
意義文字的情形。從實驗得到的結果將進行人工評測生成回覆是否能達到通情
達意且合乎語境情緒的程度。最後將比較在不同對話系統、情緒分類模型和
EGPR 方法使用與否的實驗組合所建立的實驗結果，並觀察是否改善原有模型
效能。
二、資料來源(Data Resource)
(一) 對話系統訓練集
由於 STC-3 CECG 競賽目標與本研究目標一致，因此本研究採用該語料庫
資料集作為訓練集(Training dataset)，該資料集共收集了社群媒體微博(Weibo)中
600,000 組貼文及回覆組合如下表 5。
1. 本研究所建構的對話系統: 檢索式和生成式 2 種系統皆以此 600,000 筆
回文貼文組合作為訓練集。每一筆資料由貼文回文組合組成欄位如下:
貼文(post) 、貼文情緒(post emotion)、回文(response)、回文情緒
(response emotion)，貼文情緒和回文情緒都各自包含 5 種情緒類別:
19
1.喜歡(like)、2.悲傷(sadness)、3.厭惡(disgust)、4.憤怒(anger)、5.快樂
(happiness)。
表 5 微博貼文回覆組合
Post Response
Post Emotion Response Emotion
爱狗还会做饭的男人，最帅了！ 1(喜歡) 会做饭的男人是很帅的啊。 1(喜歡)
本来想学一把沧桑，
结果令我更忧伤。 2(悲傷) 这是一个悲伤的故事 2(悲傷)
别人再好，关我什么事；
我再不好，关别人什么事。 3(厭惡) 唉，一言难尽啊！ 2(悲傷)
把车改成这样。
你们的眼里还有警察叔叔吗？ 4(憤怒) 我错了，我错了。 2(悲傷)
爸爸，明天是六一啦，
带我出去玩吧！ 5(快樂) 好，一定带 1(喜歡)
資料來源: NTCIR-14(2018)
2. 本研究建構的情緒分類系統則是進一步將回文和貼文組拆解為單獨的貼
文和回文，因此系統訓練集數量為獨立的貼文加上回文共有 1,200,000
筆資料。當訓練集拆解後，在欄位標示上回文皆視為貼文處理，回文情
緒皆視為貼文情緒處理，所以每一筆資料組成欄位如下: 貼文(post) 、
貼文情緒(post emotion) 如下表 6。
經過系統統計，合併後的資料集 5 種情緒貼文所佔比例如下: 喜歡
佔 18%、:悲傷佔 24%、3:厭惡佔 22%、4:憤怒佔 11%、5:快樂佔 25%。
表 6 情緒分類系統使用訓練集欄位表示
Post Post_Emotion
付出是真的会有回报的 1(喜歡)
为什么电影院不卖周边呢[眼泪] 2(悲傷)
一晚失眠,免疫力立即下降,感冒 ing[抓狂] 3(厭惡)
再不来电,大家就找不到我了[怒][愤怒] 4(憤怒)
今天大一生活结束,暑期开始,回家咯~ 5(快樂)
資料來源: 本研究
(二) 情感常用回覆訓練集
在對話系統所使用語料庫以外，本研究另外選用部分 chatterbot 所提供語料
庫(Gunthercox, 2017)及中文對話句型相關網路資源(Chinese-thai-
900.blogspot, 2012)為情感常用回覆訓練集主軸，並進一步擴充作為本研究情
20
感常用回覆訓練集，共有 1515 筆資料。此訓練集每一筆資料組成欄位如下:
情感常用回覆(EGPR) 、情感常用回覆情緒(EGPR_Emotion)，情感常用回覆情緒
包含 5 種情緒類別(1:喜歡、2:悲傷、3:厭惡、4:憤怒、5:快樂)如下表 7 所
示。
表 7 情感常用回覆範例
Post Post _Emotion
很想吃多力多滋芝士味儿那个 1(喜歡)
EGPR EGPR_Emotion
我也很想吃 1(喜歡)
我也好想吃 2(悲傷)
这味道我想吃都吃不到 3(厭惡)
我每次想吃都吃不到 4(憤怒)
我吃过真的很想再吃一次 5(快樂)
(三) 測試集
本研究採用 STC-3 CECG 競賽提供測試集作為實驗表現評估資料集如附錄
1，包含 200 筆貼文，每則貼文皆有如上述標 5 種情緒類別標籤，每種情緒各
40 筆。本研究透過對話生成系統將每則貼文皆生成 5 種情緒類別回覆。
本研究運用對話系統訓練集進行基於檢索方式模型(Retrieval-Based Model)
和基於生成模型(Generation-Based Model)模型訓練(60 萬筆貼文回文組合)，以
及情緒分類模型(Emotion Classifier Model)模型訓練(120 萬筆貼文)。並將測試集
用以評估訓練完成對話系統的效能。情感常用回覆訓練集(1515 筆)經過與測試
集進行相似度分析後的結果，將用以輔助生成式系統提升生成回覆合乎語意程
度，減少原本透過生成式系統生成回覆是無意義句子的情形。
三、資料前處理(Data Preprocessing)
(一) 資料分割
1. 本研究共有 3 組訓練集，對話系統 600,000 筆回文貼文組合訓練集，情
緒分類模型 1,200,000 筆貼文訓練集，以及情感常用回覆 1515 筆回文訓練
集。
2. 當模型進行訓練時，本研究將訓練集以八比二的比例分割成訓練模型用
途之訓練集(80%)和測試集(20%)，並將分割後的訓練集再次分割出 10%為
驗證集，所以最後訓練模型資料佔總數量比例為:訓練集(72%)、驗證集
(8%)、測試集(20%)。
21
(二) 資料分析
本研究將上述訓練集共 600,000 筆貼文回覆組合透過 python 程式語言進行
資料讀取作業，並進行貼文和回文內容的字詞頻次(frequency)計算，可以透過
詞頻比對取得對於貼文有意義的回覆。
(三) 詞向量
Seq2seq 模型在 encoder 階段時會將輸入文字轉換為向量，以便對話系統能
夠理解自然語言並且進行計算處理以及將處理結果透過 decoder 將向量轉換為
文字，本研究採用 2 個 LSTM 作為模型中的編譯器以及解譯器組成，進行文字
向量的轉換工作。
四、基於檢索方式模型(Retrieval-Based Model)
(一) Solr 檢索系統

本研究採用 solr 建構檢索系統，並匯入對話系統訓練集(60 萬筆貼文回文組
合)進行索引以及後續查詢執行。
1. Solr 是基於由 Apache 支援提供的開放資源(open source)
Lucene 所發展的全文檢索引擎。
2. 匯入資料(Import data)
solr 檢索系統內建分詞系統，因此在資料匯入後，可以針對資料進行
分詞，並建立索引(index)以便後續可以透過索引來搜尋所需資訊。由於本
研究採用之訓練集已經預先進行分詞，因此可略過分詞，直接依照檔案格
式(json)以及使用欄位(post, post emotion, response, response emotion)匯入即
可。
3.本研究依特定 schema 定義，將資料集以 json 格式檔案匯入 solr 檢索系
統。
(二) 匯入資料
資料匯入 schema 定義如圖 8，以本研究使用 60 萬筆貼文回文組合為例，
分別將貼文與貼文情緒標籤組成 1 個序列(array)，回覆與回覆情緒標籤組成 1
個序列，接著在貼文與回文組成的 2 個序列之外再加上序列將貼文序列和回文
序列包含在內為 1 個貼文回文組合，最後用 1 個序列包含所有資料。1 筆資料
包含 1 個貼文回文組合，因此訓練集共有 60 萬筆資料，所以最後將有分別 60
萬個貼文序列，以及 60 萬個回文序列，並有 60 萬個包含貼文回文序列，以及
1 個包含所有資料的序列在最外圍。
(三) RESTful API
將訓練集匯入 solr 檢索系統後，接著使用 RESTful API 進行檢索策略的程
式編寫。
22
(四) 檢索策略
本研究檢索策略是結合詞頻(term frequency)分布與相似度分析(similarity
analysis)為實驗 1 如圖 8:
圖 7 檢索系統貼文回文組合匯入 Schema 定義
資料來源: NTCIR 14(2018)
圖 8 檢索系統生成回文架構圖
資料來源:本研究
1. 貼文與資料分析詞頻倒數
從資料前處理階段完成之資料分析內容查詢取得訓練集(60 萬筆貼文回
文組合)詞頻(term frequency)分布，比對輸入之 200 筆測試集貼文詞頻(post
term frequency)和資料分析所得之詞頻，接著使用倒數計算分數，並對貼文
中每一個詞組進行分數標記。
2. 貼文與回文詞頻倒數
比對貼文與 solr 系統回文詞組，從詞組中篩選出有
對應詞組者，接著將貼文與篩選後之回文進行倒數分數標記，然後取出倒
數分數相加後總數最高的前 500 筆候選回文以及對應倒數分數。
23
3. 貼文與候選回覆相似度分析
將篩選後倒數分數相加總數最高的前 500 筆候選回文與 200 筆測試集
貼文進行相似度分析(cosine similarity)，得出 100,000 筆所有貼文和候選回
覆的組合與相似度分數。
4. 排序(Ranking)
先前取得貼文與候選回覆的倒數分數與相似度分數相乘得出總分，將
總分進行排序，由高到低，並從其中 5 種情緒各取出分數最高 1 筆為最終
回覆。測試集貼文共有 200 則貼文，每則貼文對應 5 筆不同情緒回覆，因
此最後將有 1000 筆貼文回覆的結果產生。
五、基於生成方式模型(Generation-Based Model)
(一) 基於注意力機制的序列到序列模型(Attention-Based Seq2Seq)

目前對話系統主要以 Seq2seq 方法建構，並且已取得相當成果(Iulian Vlad
Serban et al., 2016)，因此本研究以 Seq2seq 語言模型方法為基礎，採用 2 個
LSTM 作為 encoder-decoder，並使用加入注意力機制的 Attention-based seq2seq
方法建構 STC 生成系統。
(二) 前處理階段(Preprocessing Stage)
1. 檔案格式轉換
本研究將檔案格式從 json 轉換為 csv，以利後續資料處理。
2. 停用字處理
在文本中，本身並無攜帶重要資訊，僅是因為符合文法而使用的某些
文字被稱為停用字(Ricardo, 1999; Zipf, 1932)。在進行檢索作業時，，
會將這些停用字去除以提升檢索效率，提升運算速度，以及提高檢索
的準確率(Yang, 1995)。中文停用字例如「的」、「和」、「了」，大多是
常見但是意義不大的文字(Zou, Wang, Deng, Han, & Wang, 2006)。
本研究利用 python 程式語言套件去除對話訓練集的停用字，進行資料
清理(Data Cleaning)動作。
3. 將貼文中內容重覆超過 3 次以上文字剔除至剩下重複 3 次以內。
(三) 模型訓練階段(Model Training Stage)
1. 將前處理完成之訓練集(60 萬筆貼文回文組合)餵入生成系統進行
回覆生成模型訓練。
2. 系統參數設定:
(1) 批次訓練量(Batch_size): 即為訓練時在所有資料取用的每一批次
資料數量，本研究以 64，128 進行設定組合。
(2) 訓練次數(Epoch): 將所有資料訓練完一次為完成一個 Epoch，本
研究以 100，200 進行組合。
24
(3) 資訊丟棄比率(Dropout rate):即訓練資料在深度網路下，每次在當
下的隱藏層訓練完畢而要往下個隱藏層輸出時決定要丟棄多少當下的
資訊量，數值為 0 至 1 之間，例如 0.2 表示丟棄 20%的當下資料量。
本研究以 0.2，0.4 進行組合。
(4) 其他設定如嵌入字詞長度(embedding size)設為 100，每一隱藏層
包含神經元(hidden units)設為 256 個，優化器(optimizer)設為 adam，學
-3
習率(learning rate)設為 10 ，注意力機制類型(attention_type)設為
Bahdanau，設定參數彙整為表 8。
表 8 生成式系統參數設定
Batch size Dropout Epoch
64 0.2 100
64 0.2 200
64 0.2 220
64 0.2 250
64 0.2 500
64 0.4 100
64 0.4 200
64 0.4 220
64 0.4 250
128 0.2 100
128 0.2 150
128 0.2 200
128 0.2 220
128 0.2 250
128 0.4 100
128 0.4 150
128 0.4 200
128 0.4 220
128 0.4 250
-3
Note. Embedding size: 100; Hidden unites: 256;optimizer : adam; Learning rate: 10
25
(四) 測試(Testing)階段
1. 回文生成(Response generation)
將測試集共 200 筆放入已訓練好之生成式系統進行對話生成，設定從
每筆貼文各生成 1000 筆回覆，共生成 200,000 筆貼文與候選回文組合。
2. 情緒標籤(Emotion labeling)
上一步驟所生成結果共 200,000 筆組合，由於生成的候選回文此時並
無情緒標籤，因此透過情緒分類器進行情緒標籤(emotion labeling)，得出
200,000 筆貼文與候選回文都包含情緒標籤的組合。
3. 相似度分析(Similarity analysis)
比對 200,000 筆組合相似度，在此採用餘弦相似度(Cosine similarity)進
行貼文和候選回文的向量相似度比對，會得出 200,000 筆貼文和候選回文
組合相似度分數。
4. 排序(Ranking)
透過相似度分數進行排序，從每句貼文取出每種情緒(共 5 種)相似度
分析分數最高分者為最終回文。因此每筆貼文對應 5 種情緒的回覆，200
筆貼文對應 5 種情緒回覆，共有 1000 句。
5. 系統架構(System Architechture):生成式系統架構如圖 9 所示。
圖 9 生成式系統架構
資料來源:本研究
26
六、情緒分類模型(Emotion Classifier Model)
(一) 情緒分類模型訓練集
本研究建構的情緒分類系統是以 STC-3 CECG 提供社群媒體語料庫作為訓
練集，即將貼文回文組合拆解合併後共有 1,200,000 筆資料。每一筆資料組成欄
位如下: 貼文(post) 、貼文情緒(post emotion)，意即將回文併入貼文，回文情緒
併入貼文情緒欄位，貼文情緒包含 5 種情緒類別。如下表 9 所示，以表 6 為
例，原本 5 筆貼文、貼文情緒、回覆、回覆情緒組合將被合併成 10 筆由貼文、
貼文情緒組成的資料集。
表 9 對話資料集貼文及回覆欄位合併
Post
Post Emotion
愛狗還會做飯的男人，最帥了！ 1(喜歡)
本來想學一把滄桑，結果令我更憂傷。 2(悲傷)
別人再好，關我什麼事；我再不好，關別人什麼事。 3(厭惡)
把車改成這樣。你們的眼裡還有員警叔叔嗎？ 4(憤怒)
爸爸，明天是六一啦，
帶我出去玩吧！ 5(快樂)
會做飯的男人是很帥的啊。 1(喜歡)
這是一個悲傷的故事 2(悲傷)
唉，一言難盡啊！ 2(悲傷)
我錯了，我錯了。 2(悲傷)
好，一定帶 1(喜歡)
(二) 情緒分類模型使用深度學習模型
本研究發展之情緒分類器使用深度學習模型如 MLP、GRU、Bi-GRU、
LSTM、Bi-LSTM 進行模型訓練，並將比較不同 Deep Learning 模型的訓練績
效。
(三) 模型訓練參數設定
本研究發展之情緒分類器在使用不同 Deep Learning 模型之參數設定如下:
1. 批次訓練量(Batch_size):也就是每一次在進行訓練動作時，在所有訓練資
料中取用的資料量。本研究設定為 256。
2. 資訊的丟棄比率(Dropout rate): 指資訊在神經網路隱藏層之間的移動
中，所丟棄的資料量比率，數值範圍為 0 到 1，像是 0.1 表示將丟棄原
27
有資料量 10%，保留 90%原有資訊，本研究將此參數設定為 0.1、0.2、
0.3、0.4、0.5。
3. 迭代次數 (Epoch): 表示將所有資料量完整訓練完畢的訓練次數。本研
究針對所使用的深度學習模型，共有設定參數如下
(1) MLP:10、20、30、40、50、60、70、80、90、100。
(2) GRU: 10、20、30、40、50。
(3) LSTM: 10、20、30、40、50。
(4) Bi-GRU: 5、10、15、20。
(5) Bi-LSTM: 5、10、15、20。
七、情感常用回覆(Emotion General Purpose Response, EGPR)
EGPR 是從線上資料來源選擇適合作為設定環境的常用對話回覆作為候選
回覆，並且將這些回覆餵入本研究情緒分類模型，使其具有情緒標籤，最後篩
選出共 1515 筆資料作為情感常用回覆。EGPR 範例呈現如下表 10，共有兩個欄
位:常用回覆以及對應的情緒標籤。資料敘述統計分析:字數平均數為 7.74，四分
位差(Q1)為 6，四分位差(Q3)為 9，最小值為 2，最大值為 23。
EGPR 在生成對話的改善應用方面，首先是對於給定貼文(post)會進行相似
度分析，接著排序出相似度分數最高的 EGPR 作為候選回覆，以便後續進行比
對工作；同時 post 在生成式系統內會生成貼文的候選回覆以及相似度分數。此
時將兩種候選回覆進行比對，當生成式系統的候選回覆自身相似度分數過低，
便以常用情感候選回覆取代，作為最終回覆，減少在生成系統階段發生的無意
義對話生成現象。
28
表 10 情感常用回覆範例
常用回覆情緒標籤
我喜歡春天 1(喜歡)
我也感到快樂 1(喜歡)
這個決定好 1(喜歡)
日子難過還是得過啊 2(悲傷)
失眠是難受的 2(悲傷)
現實殘酷阿 2(悲傷)
就是這樣沒得妥協 3(厭惡)
我討厭這種感覺 3(厭惡)
所以我說結果呢 3(厭惡)
吵架怎麼不讓人失控 4(憤怒)
半夜怎麼還發生這種事? 4(憤怒)
很久沒有好好睡覺心情糟透了 4(憤怒)
真的好開心 5(快樂)
真是令人嚮往的 5(快樂)
實在是太讓人感動了 5(快樂)
(一) 資料來源
本研究發展之情感常用回覆是在 chatterbot(2017)所公開之聊天語料庫以及
中文對話句型相關的網路資源內選用適當的回覆句，並在此基礎之上進行擴充
以更加試用於本研究之對話系統。目前資料量共有 1515 筆資料，欄位是由常用
回文，常用回文情緒所組成。
(二) 與測試集進行相似度分析
將情感常用回覆資料集 1515 筆回文與測試集 200 筆貼文資料進行餘弦相似
度分析，得出共 303,000 筆測試集貼文與情感常用回覆組合以及相似度分數
(三) 排序(Ranking)
將上一步驟得到的相似度分數進行排序，依照每一筆測試集貼文，在情感
常用回覆中的每一種情緒(共 5 種)中取最高者為最終測試集貼文與情感常用回
覆組合。每一筆貼文對應 5 種情緒回文，因此測試集 200 筆共對應 1000 筆回
文。
(四) 過濾(Filtering)
將排序所得到的 1000 筆回文與生成式系統所生成最終貼文回文組合 1000
筆資料進行篩選，篩選規則依照生成式系統生成貼文與回文的相似度分數進行
過濾，本研究設定如果生成式系統之最終回文與貼文相似度分數低於 0.28 則將
29
生成回文替換為情感常用回覆，因為經過觀察，此分數設定下的無意義與有意
義生成回覆比例較高。搭配生成式系統架構如下圖 10。
圖 10 生成式系統搭配 EGPR 架構
(五)生成式系統與情感對話生成系統的生成回覆差異
如圖 10 所示，生成式系統與 EGPR 對話生成流程皆是從給定的相同輸
入開始，生成式系統會經由 Deep Learning 模型產生回覆，生成內容無法事前
得知。EGPR 則是透過相似度分析對輸入以及 EGPR 資料集進行匹配，生成內容
範圍在資料集以內。
八、實驗設計(Experiment Design)
(一) 實驗設計
本研究共提出 2 種對話生成系統模型，5 種情緒分類模型使用到的 Deep
Learning 模型以及 1 個情感常用回覆資料集，共有 3 個主要實驗組合進行比
較，實驗結果如表 11:
30
表 11 生成式系統與情緒分類模型以及情感常用回覆實驗組合
情感常用回覆情緒分類使用
實驗編號對話系統架構
使用與否深度學習模型
1 檢索式 - -
2a 生成式否 MLP
2b 生成式否 GRU
2c 生成式否 LSTM
2d 生成式否 Bi-GRU
2e 生成式否 Bi-LSTM
3a 生成式是 MLP
3b 生成式是 GRU
3c 生成式是 LSTM
3d 生成式是 Bi-GRU
3e 生成式是 Bi-LSTM
(二) 實驗流程
1. 本研究生成系統架構結合情緒分類器與情感常用回覆
依照情感常用回覆使用與否分為 2 種實驗:實驗 2 為有使用，實驗 3 則
否)。並依情緒分類模型使用深度學習模型分為 5 個次要實驗(實驗 a.b.c.d.e)
如下圖 11:
31
圖 11 生成式系統對話生成和情緒分類和情感常用回覆流程架構
32
肆、實驗結果與討論(Results and Discussion)
一、效能評估(Evaluation)
(一) 評估標準
1.本研究評估標準依照順序為語意符合優先，如相關性、流利性，接著確
認情緒是否符合語境來判斷並以標籤 0，1，2 給定分數，評估邏輯如圖 12
所示，評估給分範例如表 12 所示。
(1) 回覆同時符合語意以及語境情緒者表示為:2
(2) 回覆符合語意但不符合語境情緒者表示為:1
(3) 回覆不符合語意但符合語境情緒者表示為:0
(4) 回覆不符合語意也不符合語境情緒者表示為:0
(二) 評估方式
1.人工評估(manual evaluation)。
資料來源: Yaoqin Zhang and Minlie Huang(2019)
2.每一組貼文回覆都會被 3 位評議員(Annotator)評注。
3.計分方式如圖 13 所示，共有總分(Total Score)與平均分數(Average Score)
兩種分數:
(1)總分是將評註標籤為 i 的筆數 numi 乘 i，在本研究就是將標籤為 0 的
筆數乘上 0，將標籤為 1 的筆數乘上 1，以及將標籤為 2 的筆數乘 2，並且
加總上述計算結果
(2)平均分數是將總分除以總筆數 Nt 所得計算結果。
圖 12 評估邏輯迴圈演算法示意圖
資料來源: Y. Zhang and Huang (2019)
33
表 12 人工判斷給分範例
貼文冰天雪地的哈尔滨！你要冻死我咋地？！？！情緒類別語意合適通順情緒正確分數
回覆 1 注意保暖，小心感冒啊！快樂完全符合完全符合 2
回覆 2 我也想念哈尔滨了。悲傷完全符合錯誤表達 1
回覆 3 那你还不给我打电话！憤怒不合適完全符合 0
資料來源:NTCIR-14(2018)
(三) 自主評估(Self Evaluation)
本研究嘗試自行評估，以相同測試集 200 筆資料對照不同實驗結果效能。
1.評估標準和 STC-3 CECG 規定相同:
2.評估結果計分方式和 STC-3 CECG 規定相同。
3.肯德爾和諧係數(Kendall's coefficient of concordance, Kendall's W): 可檢驗
不同評測者之間的一致性，數值介於 0 到 1 之間(Legendre, 2005)。本研究
以此係數檢定檢驗實驗評註員間的一致性。
OverallScore = ∑2𝑖=0 ∗ 𝑛𝑢𝑚𝑖

1
AverageScore = ∑2𝑖=0 ∗ 𝑛𝑢𝑚𝑖
𝑁𝑡
圖 13 評估分數計算公式
資料來源: Yaoqin Zhang and Minlie Huang(2019)
二、情緒分類模型(Emotion Classification model)
(一) 準確度(Accuracy)
準確度(Accuracy)即計算在所有樣本中，準確預測的數值。本研究發展
之情緒分類器依照使用深度學習方法和模型訓練時不同的超參數設定來進
行實驗，實驗結果得到不同深度學習模型的準確度(Accuracy)和遺失值
(Loss)如下詳述。
1. MLP 超參數設定及績效敘述如下
(1)批次訓練量(Batch Size)設定為 256
(2)迭代次數(Epoch)設定範圍自 10 次開始，以 10 次為間隔，最高次數
達到 100 次。
34
(3)資訊丟棄比率(Dropout rate)設置範圍為: 0.1(如表 13)、0.2(如表 14)、
0.3(如表 15)、0.4(如表 16)、0.5(如表 17)。
(4)最好績效: 準確度(Accuracy)為 0.8426，Epoch 為 30 次，Dropout rate
為 0.4 如表 16 所示。
(5)將 MLP 不同超參數設定所得準確度彙整比較如圖 14。
表 13 情緒分類器模型使用 MLP 訓練實驗結果之一
Epoch Accuracy Loss
10 0.837 0.459
20 0.836 0.508
30 0.834 0.554
40 0.833 0.581
50 0.834 0.603
60 0.831 0.626
70 0.832 0.641
80 0.832 0.655
90 0.832 0.667
100 0.833 0.667
Note. Deep Learning Model: MLP; Batch size: 256;Dropout rate: 0.1
表 14 情緒分類器模型使用 MLP 訓練實驗結果之二
Epoch Accuracy Loss
10 0.838 0.448
20 0.837 0.476
30 0.838 0.498
40 0.838 0.514
50 0.838 0.528
60 0.837 0.541
70 0.839 0.553
80 0.839 0.562
90 0.839 0.569
100 0.838 0.574
35
表 15 情緒分類器模型使用 MLP 訓練實驗結果之三
Epoch Accuracy Loss

10 0.839 0.441
20 0.840 0.453
30 0.840 0.467
40 0.840 0.477
50 0.840 0.488
60 0.840 0.495
70 0.841 0.503
80 0.840 0.510
90 0.841 0.515
100 0.841 0.519
表 16 情緒分類器模型使用 MLP 訓練實驗結果之四
Epoch Accuracy Loss

10 0.838 0.439
20 0.841 0.444
30 0.843 0.451
40 0.842 0.457
50 0.843 0.465
60 0.843 0.470
70 0.842 0.476
80 0.843 0.480
90 0.843 0.485
100 0.842 0.482
36
表 17 情緒分類器模型使用 MLP 訓練實驗結果之五
Epoch Accuracy Loss

10 0.838 0.438
20 0.840 0.438
30 0.841 0.443
40 0.841 0.446
50 0.842 0.450
60 0.842 0.452
70 0.842 0.457
80 0.843 0.460
90 0.843 0.463
100 0.842 0.462
圖 14 在不同超參數設置下使用 MLP 訓練的情緒分類模型準確度比較
2. GRU 超參數設定及績效敘述如下
37
達到 100 次。
(3)資訊丟棄比率(Dropout rate)設置範圍為: 0.1、0.2、0.3、0.4、0.5。
為 0.4 如表 18 所示。
(5)將 GRU 不同超參數設定所得準確度彙整比較如圖 15 所示。
表 18 情緒分類器模型使用 GRU 訓練實驗結果
Dropout Epoch Accuracy Loss

0.1 10 0.873 0.353
0.1 20 0.874 0.353
0.1 30 0.874 0.353
0.1 40 0.873 0.355
0.1 50 0.874 0.352
0.2 10 0.871 0.357
0.2 20 0.873 0.355
0.2 30 0.873 0.354
0.2 40 0.873 0.355
0.2 50 0.874 0.354
0.3 10 0.871 0.356
0.3 20 0.871 0.359
0.3 30 0.870 0.361
0.3 40 0.871 0.359
0.3 50 0.873 0.353
0.4 10 0.870 0.360
0.4 20 0.872 0.356
0.4 30 0.872 0.356
0.4 40 0.871 0.359
0.4 50 0.873 0.357
0.5 10 0.871 0.358
0.5 20 0.873 0.356
0.5 30 0.873 0.358
0.5 40 0.873 0.357
0.5 50 0.872 0.356
Note. Deep Learning Model: GRU; Batch size: 256
38
圖 15 在不同超參數設置下使用 GRU 訓練的情緒分類模型準確度比較

3. LSTM 超參數設定及績效敘述如下
達到 50 次。
為 0.1，如表 19 所示。
(5)將 GRU 不同超參數設定所得準確度彙整比較如圖 16 所示。
39
表 19 情緒分類器模型使用 LSTM 訓練實驗結果
0.1 22 0.877 0.345
0.1 20 0.879 0.335
0.1 30 0.878 0.339
0.1 40 0.878 0.342
0.1 50 0.878 0.345
0.2 10 0.874 0.346
0.2 20 0.876 0.344
0.2 30 0.877 0.345
0.2 40 0.877 0.347
0.2 50 0.877 0.345
0.3 10 0.876 0.339
0.3 20 0.877 0.340
0.3 30 0.877 0.341
0.3 40 0.878 0.340
0.3 50 0.877 0.344
0.4 10 0.873 0.347
0.4 20 0.875 0.346
0.4 30 0.876 0.347
0.4 40 0.876 0.346
0.4 50 0.876 0.347
0.5 10 0.872 0.348
0.5 20 0.874 0.346
0.5 30 0.874 0.346
0.5 40 0.874 0.347
0.5 50 0.876 0.348
Note. Deep Learning Model: LSTM; Batch size: 256
40
圖 16 在不同超參數設置下使用 LSTM 訓練的情緒分類模型準確度比較
4. Bi-GRU 超參數設定及績效敘述如下
(2)迭代次數(Epoch)設定範圍自 5 次開始，以 5 次為間隔，最高次數達
到 20 次。
為 0.5 如表 20 所示。
41
表 20 情緒分類器模型使用 Bi-GRU 訓練實驗結果
0.1 5 0.872 0.350
0.1 10 0.871 0.364
0.1 15 0.872 0.425
0.1 20 0.869 0.488
0.2 5 0.873 0.342
0.2 10 0.876 0.347
0.2 15 0.876 0.368
0.2 20 0.874 0.394
0.3 5 0.873 0.342
0.3 10 0.876 0.347
0.3 15 0.876 0.369
0.3 20 0.875 0.393
0.4 5 0.871 0.356
0.4 10 0.872 0.355
0.4 15 0.874 0.352
0.4 20 0.874 0.352
0.5 5 0.874 0..339
0.5 10 0.878 0.331
0.5 15 0.880 0.333
0.5 20 0.879 0.349
Note. Deep Learning Model: Bi-GRU; Batch size: 256
圖 17 在不同超參數設置下使用 Bi-GRU 訓練的情緒分類模型準確度比較

42
5. Bi-LSTM 超參數設定及績效敘述如下
(2)迭代次數(Epoch)設定範圍自 5 次開始，以 5 次為間隔，最高次數達
到 20 次。
為 0.4 如表 21 所示。
表 21 情緒分類器模型 Bi-LSTM 訓練實驗結果(Bi-LSTM)

0.1 5 0.873 0.344
0.1 10 0.874 0.363
0.1 15 0.872 0.443
0.1 20 0.871 0.511
0.2 5 0.876 0.336
0.2 10 0.879 0.353
0.2 15 0.876 0.403
0.2 20 0.874 0.445
0.3 5 0.876 0.336
0.3 10 0.879 0.341
0.3 15 0.878 0.367
0.3 20 0.878 0.369
0.4 5 0.877 0.331
0.4 10 0.879 0.335
0.4 15 0.879 0.349
0.4 20 0.880 0.365
0.5 5 0.873 0.337
0.5 10 0.875 0.341
0.5 15 0.878 0.343
0.5 20 0.879 0.350
Note. Deep Learning Model: Bi-LSTM; Batch size: 256
43
圖 18 在不同超參數設置下使用 Bi-LSTM 訓練的情緒分類模型準確度比較
6. 將上述模型最佳實驗結果與參數配置彙整如表 22，Accuracy 比較如圖

19 所示。
表 22 情緒分類模型搭配深度學習訓練最佳實驗結果參數配置
DL model Batchsize Dropout Epoch Accuracy Loss
Bi-GRU 256 0.5 15 0.880 0.333
Bi-LSTM 256 0.4 10 0.879 0.335
LSTM 256 0.1 20 0.879 0.335
GRU 256 0.4 20 0.872 0.356
MLP 256 0.4 30 0.843 0.451
44
圖 19 情緒分類模型搭配深度學習訓練結果準確度(Accuracy)的比較
(二) 模型績效評估
情緒分類器 Emotion Prediction 使用不同 Deep Learning 方法的績效評估圖

如下各圖所示。評估方式是計算在正確的情緒分類結果中，預測正確情緒的機
率，例如系統在 100 筆正確情緒貼文中預測正確情緒計有 82 筆，則評估結果為
0.82，數值範圍在 0 到 1 之間。因此系統預測每種情緒所得到正確分類的評估
結果以矩陣圖形呈現，以下詳述不同深度學習模型在不同情緒的表現。
1. MLP: 如圖 20 所示，1(喜歡): 0.82;2(悲傷): 0.86; 3.(厭惡): 0.84; 4(憤
怒):0.70;5(快樂):0.88。。
圖 20 Emotion Prediction Accuracy(MLP)績效評估示意圖

45
2. GRU:如圖 21 所示，1(喜歡): 0.89; 2(悲傷): 0.91; 3(厭惡): 0.87; 4(憤
怒):0.76; 5(快樂):0.89。
圖 21 Emotion Prediction Accuracy(GRU)績效評估示意圖

3. LSTM:如圖 22 所示，1(喜歡): 0.89; 2(悲傷): 0.90; 3(厭惡): 0.88; 4(憤

怒):0.78; 5(快樂):0.89。
圖 22 Emotion Prediction Accuracy(LSTM)績效評估示意圖

46
4. Bi-GRU 如圖 23 所示，1(喜歡): 0.88; 2(悲傷): 0.90; 3(厭惡): 0.86; 4(憤
怒):0.80; 5(快樂):0.91。
圖 23 Emotion Prediction Accuracy(Bi-GRU)績效評估示意圖

5. Bi-LSTM 如圖 23 所示，1(喜歡): 0.89; 2(悲傷): 0.92; 3(厭惡): 0.88; 4(憤

怒):0.77; 5(快樂):0.89。
圖 24 Emotion Prediction Accuracy(Bi-LSTM)績效評估示意圖

47
6. 將上述 5 種 Deep Learning 模型對於 5 種情緒的預測準確性結果彙整如
表 23，欄位說明如下:
(1)Deep Learning Model:共採用 5 種 Deep Learning 模型進行訓練，分別
是 MLP、GRU、LSTM、Bi-GRU、Bi-LSTM。
(2)Emotion Catogories:本研究將情緒分類為喜歡(Like)、悲傷(Sadness)、
厭惡(Disgust)、憤怒(Anger)，以及快樂(Happiness)等 5 種情緒。
表 23 5 種深度學習模型對於 5 種情緒預測準確性
Deep Emotion Catogories
Learning Like Sadness Disgust Anger Happiness
Model
MLP 0.82 0.86 0.84 0.70 0.88
GRU 0.89 0.91 0.87 0.76 0.89
LSTM 0.89 0.90 0.88 0.78 0.89
Bi-GRU 0.88 0.90 0.86 0.80 0.91
Bi-LSTM 0.89 0.92 0.88 0.77 0.89
48
三、基於檢索方式模型(Retrieval-Based Model)
(一) 檢索系統評估結果(Retrieval System Evaluation Results)

1. 實驗 1 評估結果如表 24 所示，欄位依序說明如下:
(1)評估結果(Result):共 2 筆， Evaluation result 為第一批次評註員評註結
果，Self-Evaluation 表示為後續本研究第二批次評註員自主評估結果。
(2)實驗編號 ExID:表示實驗組合編號。
(3)聊天機器人系統(Chatterbot System): 指系統建構所採用的方法，實驗 1
採取檢索式(Retrieval)系統進行實驗。
(4)評註標籤(Label 0/Label 1/ Label 2):指實驗中分別取得評註標籤為 0、1、
2 的筆數。
(5)提交結果總筆數(Total):即測試集 200 筆資料在實驗 1 的檢索式系統中檢
索所得的筆數，每筆測試集資料對應 5 筆回覆，總共取得 1000 筆回覆。
(6)總分數(Overall score ): 即依照評估方式取得的分數，總分為 2000 分。
(7)平均分數(Average score): 將總分數除以總筆數，即可得到平均分數。
(8)肯德爾和諧係數(Kendall’s W test):本研究以此係數評估自主評估的評測
員間一致性，數值範圍是 0 到 1。
表 24 實驗 1 評估結果
Chatterbot Label Label Label Overall Average Kendall’s
Result ExID System 0 1 2 Total score score W test
Evaluation
1 Retrieval 716 200 84 1000 368 0.368 n/a
result
Self-
1 Retrieval 560 208 195 1000 598 0.598 0.896
Evaluation
四、基於生成方式模型(Generation-Based Model)
(一) 訓練模型評估(Evaluation of Training Model)

所有生成式系統訓練組合及資料遺失值(Loss)結果如下表 25。結果顯
示當對話系統設定組合如下的情形可達到最低的資訊遺失值(Loss=2.781)，
因此採用此一設定:Batch size = 64，Epoch = 220，Dropout rate = 0.4。
49
表 25 生成式系統訓練組合及資料遺失值(Loss)結果
Batchsize Epoch Dropout Loss
64 100 0.2 3.250
64 150 0.2 2.915
64 200 0.2 2.903
64 220 0.2 2.893
64 250 0.2 2.895
64 100 0.2 2.887
64 150 0.4 2.800
64 200 0.4 2.781
64 220 0.4 2.781
64 250 0.4 3.110
128 100 0.2 3.130
128 150 0.2 2.994
128 200 0.2 2.863
128 220 0.2 2.838
128 250 0.2 2.858
128 100 0.4 3.115
128 150 0.4 2.994
128 200 0.4 2.841
128 220 0.4 2.838
128 250 0.4 2.858
-3
Note. Embedding size: 100; Hidden unites: 256;optimizer : adam; Learning rate: 10
(二) 生成模型評估結果(Generative Model Evaluation Results)

1. 生成式系統評估結果如表 26 所示，欄位依序說明如下:
(1)實驗編號 ExID:表示實驗組合編號。本研究生成式系統共分為 2 個主要
實驗: 實驗 2、實驗 3，以及 5 個次要實驗:實驗 a、b、c、d、e。
a. 主要實驗: 指生成式系統中無使用 EGPR 的實驗，無採取者為
實驗 2，採取者為實驗 3。
b. 次要實驗: 指生成式系統中搭配的情緒模型所採取的深度學習
模型。依序為 a:MLP，b:GRU，c:LSTM，d: Bi-GRU，以及
e:Bi-LSTM。
(2)情感常用回覆(EGPR): 表示是否採用 EGPR，共有是(Yes)與否(No)。
50
(3) DL model:在生成式模型中，情感模型所採用的 Deep Learning model，
共有 MLP，GRU，LSTM，Bi-GRU，Bi-LSTM 5 種。
(4)評註標籤(Label 0/Label 1/ Label 2):指實驗中分別取得評註標籤為 0、1、
2 的筆數。
(5)提交結果總筆數(Total):即測試集 200 筆資料在生成式系統中所得的筆
數，每筆測試集資料最終生成 5 筆回覆，總共取得 1000 筆回覆。
(6)總分數(Overall score ): 即依照評估方式取得的分數，總分為 2000 分。
(7)平均分數(Average score): 將總分數除以總筆數，即可得到平均分數。
(8)肯德爾和諧係數(Kendall’s W test):本研究以此係數評估自主評估的評測
員間一致性，數值範圍是 0 到 1。
表 26 生成模型產生回覆自主評測結果
Label Label Label Overall Average Kendall’s
ExID EGPR DLmodel 0 1 2 Total Score Score W test
2a No MLP 873 85 42 200 169 0.169 0.731
2b No GRU 855 69 76 1000 221 0.221 0.839
2c No LSTM 864 77 65 1000 207 0.207 0.757
2d No Bi-GRU 860 72 68 1000 208 0.208 0.863
2e No Bi-LSTM 857 84 59 1000 202 0.202 0.817
3a Yes MLP 808 124 68 1000 260 0.260 0.781
3b Yes GRU 756 77 167 1000 411 0.411 0.86
3c Yes LSTM 749 89 162 1000 413 0.413 0.898
3d Yes Bi-GRU 727 111 162 1000 435 0.435 0.876
3e Yes Bi-LSTM 753 75 172 1000 419 0.419 0.876

Note. Result: Self-Evaluation; Chatterbot System: Generation-based
51
五、實驗討論(Discussion)
(一)測試集發現重複題項
本研究發現測試集有題型重複的情形，當對話系統生成回覆時，由於接下
來的題目相同，因此按照原先程式所設定會將 2 個相同題目僅挑出 1 個並
生成回覆，於是造成其中幾個題項沒有生成回覆的情形如下表 27。
表 27 測試集內容相同測試題項
Number Post Emotion
81 這兩個星期,心情很壓抑…[悲傷][悲傷] 2
82 這兩個星期,心情很壓抑…[悲傷][悲傷] 2
131 好,去西門狠狠的吃一頓,嘿嘿嘿 1
132 好,去西門狠狠的吃一頓,嘿嘿嘿 1
176 今天值班下班之後要去做紅娘嘻嘻~~~~希望可以成功哈 5
177 今天值班下班之後要去做紅娘嘻嘻~~~~希望可以成功哈 5
(二)實驗結果比較
本研究透過對話系統建構方式進行實驗設計，實驗 1 為 Retrieval-Based
system 實驗 2 為 Generation-Based system。並在此基礎上將搭配 Generation-
based system 的情緒分類模型使用 5 種 Deep Learning 模型分為共 5 個次要實驗
(a、b、c、d、e)，分別為 MLP、GRU、LSTM、Bi-GRU。同樣在搭配
Generation-based system 使用的 EGPR 使用與否對照為實驗 3。所有實驗結果比
較如下表 28。
1.結果顯示實驗 1 的評估分數總分以及分別計分為 1(符合語意)及 2(同時符
合語意及情緒)情況下皆為所有實驗中最高，
2.在生成式系統中，實驗 3 各項結果表現皆比對應的實驗 2 結果要好，例
如實驗 3a 結果優於實驗 2a，即使用 EGPR 者得到的評估表現較好。
3. 在生成式系統中，情緒分類模型使用的 5 種深度學習模型在實驗中表現
以實驗 3d 的表現最好，即採用 Bi-GRU 作為深度學習模型效果較佳。其次
依序為 Bi-LSTM，LSTM，GRU，MLP。
52
表 28 本研究所有對話系統、情緒分類模型與情感常用回覆方法實驗組合
Chatterbot Label Label Label Overall Average

Result Experiment System EGPR DLmodel 0 1 2 Total Score Score
Evaluation
1 Retrieval N/A N/A 716 200 84 1000 368 0.368
Result
Self-
1 Retrieval N/A N/A 560 208 195 1000 598 0.598
Evaluation
Self-Evaluation 2a Generation No MLP 873 85 42 200 169 0.169
Self-Evaluation 2b Generation No GRU 855 69 76 1000 221 0.221
Self-Evaluation 2c Generation No LSTM 864 77 65 1000 207 0.207
Self-Evaluation 2d Generation No Bi-GRU 860 72 68 1000 208 0.208
Bi-
2e Generation No 857 84 59 1000 202 0.202
Self-Evaluation LSTM
Self-Evaluation 3a Generation Yes MLP 808 124 68 1000 260 0.26
Self-Evaluation 3b Generation Yes GRU 756 77 167 1000 411 0.411
Self-Evaluation 3c Generation Yes LSTM 749 89 162 1000 413 0.413
Self-
3d Generation Yes Bi-GRU 727 111 162 1000 435 0.435
Evaluation
Bi-
3e Generation Yes 753 75 172 1000 419 0.419
Self-Evaluation LSTM
4.在生成式系統中，從情緒分類模型採用的 5 種 Deep Learning 模型在 5

種情緒下取得的分數分布如下表 29，可以從中得知在所有生成式實驗中，
憤怒(Anger)情緒取得分數多為最低(10 筆中有 9 筆)，而喜歡(Like)與快
樂(Happiness)取得分數多為最高(10 筆中喜歡情緒佔 6 筆，快樂情緒佔 3
筆)。
53
表 29 生成式系統採用 5 種深度學習模型在 5 種情緒下取得的分數分布
ExID EGPR DLmodel Like Sadness Disgust Anger Happiness Total
2a No MLP 35 42 31 29 32 169
2b No GRU 64 44 30 24 59 221
2c No LSTM 55 31 33 43 46 208
2d No Bi-GRU 52 49 39 28 39 207
2e No Bi-LSTM 50 42 40 31 39 202
3a Yes MLP 61 57 44 35 63 260
3b Yes GRU 87 91 78 63 92 411
3c Yes LSTM 86 82 76 85 84 413
3d Yes Bi-GRU 94 92 88 66 95 435
3e Yes Bi-LSTM 103 66 85 73 92 419
54
伍、結論(Conclusions)
一、研究發現
本研究透過 Attention-Based Seq2seq 方法生成回覆，並搭配分別用 5 種

Deep Learnign 方法訓練的情緒分類模型標籤情緒，來嘗試使生成回覆具有多樣
性，不過仍會有不少生成結果是得到相同的回覆，或是不符合語境回覆的情
況。因此在原先的訓練集以外，使用 EGPR，在生成模型產出之回覆與貼文之
相似度值低時進行替換，來減少上述問題情形。實驗評測結果顯示搭配 EGPR
之 Generation-based system 生成回覆結果的確得到改善。以下就第一章研究問題
問題(Research Question, RQ)，進行實驗後結果觀察敘述:
(一)研究問題
1.RQ1:是否可運用不同深度學習方法建構基於生成式系統的聊天機器人並
使生成回覆品質語意一致性優於檢索式系統?
2.RQ2:是否可利用情感常用回覆方法加入聊天機器人系統並使生成回覆語
意一致性提升?
3.RQ3:是否可利用深度學習方法如「MLP」、「GRU」、「LSTM」、「Bi-
GRU」、「Bi-LSTM」建構情感分析模型並使生成回覆符合情緒一致性?
(二)實驗結果
1.RQ1 實驗結果:在目前採用相同的資料集的情況下，本研究所採用檢索式
系統 Solr 績效呈現較優於使用 Attntion-based Seq2seq 搭配情緒分類模型以
及 EGPR 的生成式系統。不過研究結果顯示運用深度學習方法建構情緒分
類模型有不同程度的績效改善，以 BiGRU 表現最佳。同時搭配情緒分類系
統以及情感常用回覆的話將能讓評估分數更為接近本研究所採用 Solr 生成
結果。
2.RQ2 實驗結果:由本研究實驗結果比較實驗 2 與實驗 3，也就是有搭配使
用 EGPR 方法(實驗 3)者是否有改善原先沒搭配者的生成結果(實驗 2)，研
究結果顯示，利用 EGPR 方法的實驗 3 的 5 個次要實驗分別比沒有使用
EGPR 方法的實驗 2 次要實驗分數高(例如實驗 3a 優於 2a)。因此本研究推
論可利用 EGPR 方法加入聊天機器人系統並使生成回覆語意一致性提升。
3.RQ3 實驗結果:由本研究實驗結果顯示，可利用深度學習方法如
「MLP」、「GRU」、「LSTM」、「Bi-GRU」、「Bi-LSTM」建構情感分析模型
並使生成回覆符合情緒一致性，並以 Bi-GRU 深度學習模型評估績效最
高，取得 Label2(同時符合語意及情緒一致性)達至 162 筆(共有 1000 筆)，
依分數順序接下來為 Bi-LSTM、LSTM、GRU、MLP 等模型。
55
二、研究貢獻(Contribution)
本研究提出 Retrieval-Based 和 Generation-Based 兩種系統對於社群媒體語

料庫進行對話生成。主要貢獻如下:
(一)比較情感分析採用深度學習模型
本研究使用情緒分類模型(EmotionClassifier model)應用以下 Deep Learning
方法: 「MLP」、「GRU」、「LSTM」、「Bi-GRU」、「Bi-LSTM」進行模型建
構與績效比較，結果顯示情緒分類模型使用的 5 種深度學習模型，在實驗
中表現以採用 Bi-GRU 作為深度學習模型效果最佳。其次依序為:
Bi-LSTM，LSTM，GRU，MLP。
(二)本研究提出情感常用回覆方法
本研究在對話系統的生成後續處理，提出 EGPR 資料集，在生成式系統針
對貼文產生回覆的同時，EGPR 也對於貼文產生配對的情感常用回覆，並且
條件性替換原有生成回覆，提高原有生成模型回覆準確性，在生成回覆的
豐富性與應答準確性之間尋找平衡點。
三、研究限制與未來研究建議
(一) 研究限制
關於研究限制，本研究歸納出以下幾項:
1. 本研究採用的 STC-3 對話資料集，每句對話的情感標註情形是混雜的
(noisy)，並非完全正確，而且不同情緒之間的佔比並不平衡。因此採用
該資料集進行情感標籤的訓練，將可能影響到訓練完成模型標註情感的
預測正確程度，以及不同情緒之間的準確性。
2. 研究實驗主要聚焦於情緒分類模型，透過採用不同深度學習架構來改善
生成對話合乎語境的語意和情緒。但是在生成模型的改善尚有其他嘗試
的可能性。
(二) 未來研究建議
在未來改善方向的建議如下所述:
1. 對話模型部分或許可以採用 seqGAN(Sun, Chen, Pei, & Ren, 2018)或是嘗
試在神經網路中遷入主題層提高語意主題擷取能力(Wu, Wu, Li, & Zhou,
2016)。實驗操作方面或許可以嘗試在訓練對話系統時，將原先每句給
定貼文產生 1000 句回覆的數量提高至 5000 至 7000 來提高回覆與貼文
的相似度分數(Day et al, 2019)
56
2. 情感常用回覆可以依照更多常用情境擴增資料觀察看看是否能夠提高準
確率，或是嘗試其他預設回應語料庫( Chieh et al, 2019)。
3. 情緒分類模型的建立或許可以嘗試 Google 所提出的 Bidirectional
Encoder Representations from Transformers(BERT)來建構，或是在訓練階
段將原先進行訓練的資料集先將情緒標籤去除再進行訓練( Chieh et al,
2019)，抑或是透過特徵擷取從給定貼文取出設定的情感詞彙(Li et al,
2019)，來減少資料本身雜訊(noise)，並進一步比較效能是否能改善。
57
參考文獻(References)
Agrawal, P., Suri, A., & Menon, T. (2018). A Trustworthy, Responsible and
Interpretable System to Handle Chit-Chat in Conversational Bots. arXiv
preprint arXiv:1811.07600.
Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly
learning to align and translate. arXiv preprint arXiv:1409.0473.
Bengio, Y., Boulanger-Lewandowski, N., & Pascanu, R. (2013). Advances in
optimizing recurrent networks. Paper presented at the 2013 IEEE International
Conference on Acoustics, Speech and Signal Processing.
Berglund, F. (2017). Chatbots as Interaction Modality: An Explorative Design Study
on Elderly Classical Music Concert Subscribers.
Breazeal, C., & Scassellati, B. (1999). A context-dependent attention system for a
social robot. rn, 255, 3.
Byford, S. (2014). SoftBank announces emotional robots to staff its stores and watch
your baby.
Cavallo, F., Semeraro, F., Fiorini, L., Magyar, G., Sinčák, P., & Dario, P. (2018).
Emotion modelling for social robotics applications: a review. Journal of
Bionic Engineering, 15(2), 185-203.
Chakraborty, K., Bhattacharyya, S., Bag, R., & Hassanien, A. A. (2018). Sentiment
Analysis on a Set of Movie Reviews Using Deep Learning Techniques. Social
Network Analytics: Computational Research Methods and Techniques, 127.
Cheng, W.-F., Wu, C.-C., Song, R., Fu, J., Xie, X., & Nie, J.-Y. (2018). Image inspired
poetry generation in xiaoice. arXiv preprint arXiv:1808.03090.
Chinese-thai-900.blogspot.(2012).http://chinese-thai-900.blogspot.com/
Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk,
H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-
decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.
Chung, H., Iorga, M., Voas, J., & Lee, S. (2017). Alexa, can I trust you? Computer,
50(9), 100-104.
Deryugina, O. (2010). Chatterbots. Scientific and Technical Information Processing,
37(2), 143-147.
Dice, L. R. (1945). Measures of the amount of ecologic association between species.
Ecology, 26(3), 297-302.
Elman, J. L. (1990). Finding structure in time. Cognitive science, 14(2), 179-211.
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances
58
in knowledge discovery and data mining.
Ferrucci, D.,Brown, E., Chu-CarrollJ. J. Fan, J., Gondek, D., Kalyanpur, A., Lally, A.,
Murdock, J. W., Nyberg, E., Prager, J., et al. (2010). Building Watson: An
overview of the DeepQA project. AI magazine, 31(3), 59-79.
Gao, L., Guo, Z., Zhang, H., Xu, X., & Shen, H. T. (2017). Video captioning with
attention-based LSTM and semantic consistency. IEEE Transactions on
Multimedia, 19(9), 2045-2055.
GlobalStats, S. (2016). Mobile and tablet internet usage exceeds desktop for first time
worldwide. ht_tp://gs. statcounter. com/press/mobile-and-tablet-internet-
usageexceeds-desktop-for-first-time-worldwide.
Graves, A., Jaitly, N., & Mohamed, A.-r. (2013). Hybrid speech recognition with deep
bidirectional LSTM. Paper presented at the 2013 IEEE workshop on automatic
speech recognition and understanding.
Gunthercox.(2017). chatterbot-corpus: https://github.com/gunthercox/chatterbot-
corpus.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural
computation, 9(8), 1735-1780.
Huang, M., Ye, Z., & Zhou, H. (2017). Overview of the NLPCC 2017 Shared Task:
Emotion Generation Challenge. Paper presented at the National CCF
Conference on Natural Language Processing and Chinese Computing.
Intelligence, B. I. (2016). Messaging apps are now bigger than social networks.
Business Insider, 20.
Jaccard, P. (1901). Étude comparative de la distribution florale dans une portion des
Alpes et des Jura. Bull Soc Vaudoise Sci Nat, 37, 547-579.
Kadlec, R., Schmid, M., Bajgar, O., & Kleindienst, J. (2016). Text understanding with
the attention sum reader network. arXiv preprint arXiv:1603.01547.
Kasinathan, V., Mustapha, A., Siow, S., & Hopman, M. (2018). TicTad: A Chatterbot
for Learning Visual C# Programming based on Expert System. Indonesian
Journal of Electrical Engineering and Computer Science, 11(2), 740-746.
Kato, M. P., & Liu, Y. (2017). Overview of NTCIR-13. Paper presented at the
Proceedings of the NTCIR-13 Conference.
Kerlyl, A., Hall, P., & Bull, S. (2006). Bringing chatbots into education: Towards
natural language negotiation of open learner models. Paper presented at the
International Conference on Innovative Techniques and Applications of
Artificial Intelligence.
Legendre, P. (2005). Species associations: the Kendall coefficient of concordance
revisited. Journal of agricultural, biological, and environmental statistics,
10(2), 226.
59
Li, Y., & Lyons, K. (2016). Word representation using a deep neural network. Paper
presented at the Proceedings of the 26th Annual International Conference on
Computer Science and Software Engineering.
Matsunaga, Y. (2016). Accelerating sat-based boolean matching for heterogeneous

fpgas using one-hot encoding and cegar technique. IEICE Transactions on
Fundamentals of Electronics, Communications and Computer Sciences, 99(7),
1374-1380.
Messina, C. (2016). 2016 will be the year of conversational commerce. Medium [Web
log post].
Mikolov, T., Karafiát, M., Burget, L., Černocký, J., & Khudanpur, S. (2010).
Recurrent neural network based language model. Paper presented at the
Eleventh annual conference of the international speech communication
association.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed
representations of words and phrases and their compositionality. Paper
presented at the Advances in neural information processing systems.
Nguyen, M. (2017). Why the world's largest tech companies are building machine
learning AI bots capable of humanlike communication. Business Insider.
Ochiai, A. (1957). Zoogeographic studies on the soleoid fishes found in Japan and its
neighbouring regions. Bulletin of Japanese Society of Scientific Fisheries, 22,
526-530.
Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global vectors for word
representation. Paper presented at the Proceedings of the 2014 conference on
empirical methods in natural language processing (EMNLP).
Polzin, T. S., & Waibel, A. (2000). Emotion-sensitive human-computer interfaces.
Paper presented at the ISCA tutorial and research workshop (ITRW) on speech
and emotion.
Pricilla, C., Lestari, D. P., & Dharma, D. (2018). Designing Interaction for Chatbot-
Based Conversational Commerce with User-Centered Design. Paper presented
at the 2018 5th International Conference on Advanced Informatics: Concept
Theory and Applications (ICAICTA).
Rane, P., Mhatre, V., & Kurup, L. (2014). Study of a home robot: Jibo. International
journal of engineering research and technology, 3(10), 490-493.
Ricardo, B.-Y. (1999). Modern information retrieval: Pearson Education India.
Ritter, A., Cherry, C., & Dolan, W. B. (2011). Data-driven response generation in
social media. Paper presented at the Proceedings of the conference on
empirical methods in natural language processing.
60
Robotics, B. F. (2016). Buddy the first companion robot. Retrieved, 8, 2016.Ryzhov,
I. O. (2015). Expected improvement is equivalent to OCBA. Paper presented
at the 2015 Winter Simulation Conference (WSC).
Schofield, J. (2014). Computer chatbot’Eugene Goostman’passes the Turing test.
Zdnet (June 2014). URL: https://www. zdnet. com/article/computer-chatbot-
eugene-goostmanpasses-the-turing-test.
Serban, I. V., Lowe, R., Charlin, L., & Pineau, J. (2016). Generative deep neural
networks for dialogue: A short review. arXiv preprint arXiv:1611.06216.
Serban, I. V., Sankar, C., Germain, M., Zhang, S., Lin, Z., Subramanian, S., Kim, T.,
Pieper, M.,Chandar, S., Ke, N. R., Mudumba, S., de Brebisson, A., Sotelo, J.
M. R., Suhubdy, D., Michalski,V., Nguyen, A., Pineau, J., and Bengio, Y.
(2017). A Deep Reinforcement Learning Chatbot.ArXiv e-prints.
Serban, I. V., Sordoni, A., Lowe, R., Charlin, L., Pineau, J., Courville, A., & Bengio,
Y. (2017). A hierarchical latent variable encoder-decoder model for generating
dialogues. Paper presented at the Thirty-First AAAI Conference on Artificial
Intelligence.
Shang, L., Lu, Z., & Li, H. (2015). Neural responding machine for short-text
conversation. arXiv preprint arXiv:1503.02364.
Shang, L., Lu, Z., Li, H., & Sakai, T. (2015). Ntcir-12 pilot task: Short text
conversation (stc). Call for Participation to the NTCIR-12 Kick-Off Event.
Shang, L., Sakai, T., Lu, Z., Li, H., Higashinaka, R., & Miyao, Y. (2016). Overview of
the NTCIR-12 Short Text Conversation Task. Paper presented at the NTCIR.
Shawar, B. A., & Atwell, E. (2007). Chatbots: are they really useful? Paper presented
at the Ldv forum.
Shmueli-Scheuer, M., Sandbank, T., Konopnicki, D., & Nakash, O. P. (2018).
Exploring the universe of egregious conversations in Chatbots. Paper
presented at the Proceedings of the 23rd International Conference on
Intelligent User Interfaces Companion.
Shulevitz, J. (2018). Alexa, should we trust you. The Atlantic.
Song, Y., Yan, R., Li, C.-T., Nie, J.-Y., Zhang, M., & Zhao, D. (2018). An Ensemble of
Retrieval-Based and Generation-Based Human-Computer Conversation
Systems.
Steinbach, M., Karypis, G., & Kumar, V. (2000). A comparison of document
clustering techniques, KDD workshop on text mining: Boston.
Sun, X., Chen, X., Pei, Z., & Ren, F. (2018). Emotional Human Machine
Conversation Generation Based on SeqGAN. Paper presented at the 2018 First
Asian Conference on Affective Computing and Intelligent Interaction (ACII
Asia).
61
Sun, X., Peng, X., & Ding, S. (2018). Emotional human-machine conversation
generation based on long short-term memory. Cognitive Computation, 10(3),
389-397.
Sundermeyer, M., Schlüter, R., & Ney, H. (2012). LSTM neural networks for
language modeling. Paper presented at the Thirteenth annual conference of the
international speech communication association.
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with
neural networks. Paper presented at the Advances in neural information
processing systems.
Tang, D., Qin, B., & Liu, T. (2015). Document modeling with gated recurrent neural
network for sentiment classification. Paper presented at the Proceedings of the
2015 conference on empirical methods in natural language processing.
Turing, A. M. (1950). Can a machine think. Mind, 59(236), 433-460.
Vinyals, O., & Le, Q. (2015). A neural conversational model. arXiv preprint
arXiv:1506.05869.
Vukotić, V., Raymond, C., & Gravier, G. (2016, September). A step beyond local
observations with a dialog aware bidirectional GRU network for Spoken
Language Understanding.
Wallace, R. (2003). The elements of AIML style. Alice AI Foundation.
Wu, Y., Wu, W., Li, Z., & Zhou, M. (2016). Topic augmented neural network for short
text conversation. CoRR abs/1605.00090.
Xiao, X., Ye, S., Yu, L.-C., & Lai, K. R. (2017). 應用詞向量於語言樣式探勘之研究
(Mining Language Patterns Using Word Embeddings)[In Chinese]. Paper
presented at the Proceedings of the 29th Conference on Computational
Linguistics and Speech Processing (ROCLING 2017).
XiaoIce, M. Cortana’s Little Sister: https://blogs. bing. com/search/2014/09/05/meet-
xiaoice-cortanas-little-sister/; and https://en. wikipedia. org/wiki: Xiaoice.
Yan, R., Song, Y., & Wu, H. (2016). Learning to respond with deep neural networks
for retrieval-based human-computer conversation system. Paper presented at
the Proceedings of the 39th International ACM SIGIR conference on Research
and Development in Information Retrieval.
Yang, Y. (1995). Noise reduction in a statistical approach to text categorization. Paper
presented at the SIGIR.
Zhang, L., Wang, S., & Liu, B. (2018). Deep learning for sentiment analysis: A
survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge
Discovery, 8(4), e1253.
Zhang, Y., & Huang, M. (2019). Overview of the NTCIR-14 Short Text Generation
Subtask: Emotion Generation Challenge. Paper presented at the Proceedings
62
of the 14th NTCIR Conference.
Zhong, H., Xiao, C., Guo, Z., Tu, C., Liu, Z., Sun, M.,. Feng, Y., Han, H., Hu, Z.,
Wang, H. Wang, H., et al. (2018). Overview of CAIL2018: Legal Judgment
Prediction Competition. arXiv preprint arXiv:1810.05851.
Zhou, H., Huang, M., Zhang, T., Zhu, X., & Liu, B. (2018). Emotional chatting
machine: Emotional conversation generation with internal and external
memory. Paper presented at the Thirty-Second AAAI Conference on Artificial
Intelligence.
Zipf, G. K. (1932). Selected studies of the principle of relative frequency in language.
Zou, F., Wang, F. L., Deng, X., Han, S., & Wang, L. S. (2006). Automatic construction
of Chinese stop word list. Paper presented at the Proceedings of the 5th
WSEAS international conference on Applied computer science.
63
附錄(Appendix)
附錄 1: 本研究測試資料集共 200 筆
說明: 情緒標籤 1:喜歡;2:悲傷;3:厭惡 4:憤怒 5:快樂

貼文情緒標籤
为什么为什么为什么你们都不陪我看电影 ! ! [ 怒 4(憤怒)
骂 ]
无语我的 qq 被盗 , 求拯救 ! 讨厌 [ 怒 ] 4(憤怒)
中信银行 , 别给老子再扯什么空头支票 ! ! ! ! ! 4(憤怒)
大清早的烦躁死了 ! 没一点好心情 ! 4(憤怒)
大早晨的就去交论文 , 我容易么 ! ! 4(憤怒)
海南游是破灭了 [ 怒 ] [ 怒 ] [ 怒 ] 4(憤怒)
怪梦一个接一个 , 睡眠质量差劲 ! [ 怒 ] [ 怒 ] 4(憤怒)
[ 怒 ] [ 怒 ] [ 怒 ]
楼下的小孩好吵好烦 , 是都打了鸡血吗 [ 怒 ] 4(憤怒)
[ 怒 ] [ 怒 ] 我忍着 !
计算机再次 si 了 ! ! ! 这是什么节奏 ? 4(憤怒)
不是说罢工吗 ? 邮件也不见少 ! 烦透了 [ 抓狂 ] 4(憤怒)
为神马合肥木有暖气 ! 冻死我也 … 4(憤怒)
洗个茶具全打碎了 , 气死我了 4(憤怒)
医生不给我输液 ! 4(憤怒)
是谁泄露了我的手机号 , [ 怒 ] [ 怒 ] 4(憤怒)
我都快吃素了 ! 怎么还狂长痘痘 ! 这是怎样的狗 4(憤怒)
血人生
海南免税店就是坑爹的 ! ! ! ! [ 哼 ] [ 太阳 ] 4(憤怒)
为什么不是我错的 , 却每次最后搞得都是我的 4(憤怒)
错 ! ! !
[ 抓狂 ] 吵死了 ! ! ! 哥不睡了总成了吧 ! [ 泪 ] 4(憤怒)
你们这帮 00 后 !
唉 ! 饭呢 ? 冷饭也有人偷 ! ! ! ! ! ! 4(憤怒)
什么时候我才能不晕车 # % & ^ & % ! ! ! ! 4(憤怒)
怎么能这么烦 , 这么烦 , 这么烦 ! ! ! 4(憤怒)
居然这时候刮台风 ! ! ! ! 我恨你 ! ! ! ! 4(憤怒)
我想把你砸了打卡机 4(憤怒)
64
就是睡不着 [ 抓狂 ] , 昨晚还没睡的 , 你们醒了 4(憤怒)
吗 ?
姐睡个觉容易么 ? 又装修 ! ? 用不用啊 ? ! 4(憤怒)
吵架吵到神经痛 [ 怒 ] [ 抓狂 ] [ 顶 ] [ 怒骂 ] [ 鄙 4(憤怒)
视 ]
再不来电 , 大家就找不到我了 [ 怒 ] [ 愤怒 ] 4(憤怒)
讨厌下雨天 ! ! ! ! ! 家里停水 ! 网还不好 4(憤怒)
大清早起来就气不顺 ! 今天不爽 ! 4(憤怒)
抢台红米来玩玩就那么难吗 ? ! ! [ 怒 ] 4(憤怒)
可恶的垃圾短信 [ 怒 ] 4(憤怒)
最近各种不顺 , 各种背 ! [ 怒 ] 4(憤怒)
公家电话不用自己花钱就可以不停地打吗 ? ! [ 鄙 4(憤怒)
视 ]
果断又失控了 ! ! 肿么办 ! ! 4(憤怒)
打个麻将都找不到人 [ 怒骂 ] 4(憤怒)
发色啊发色 ! ! ! ! 为什么总纠结这种事 ! ! ! 4(憤怒)
[ 怒 ] 倚老卖老是不是也得有个底线 ! ! ! 4(憤怒)
一大早居然玩停电 , 太没人性了 ! 4(憤怒)
我快强迫症了 ! ! ! 总怀疑自己发错文檔 ! ! ! 要 4(憤怒)
死
终于上车了 ! ! ! 冷死了 ! ! ! 4(憤怒)
[ 生病 ] 王家湾又习惯性堵车了 3(厭惡)
寒假在家居然没有赶上一场象样的雪 3(厭惡)
依旧对江苏卫视包场感到别扭。 3(厭惡)
高速路上车出问题了 , 一直在救援路道慢慢跑 [ 生 3(厭惡)
病 ] [ 生病 ]
哎 , 微波炉加工后的馒头竟然跟石头是的 ! 我的 3(厭惡)
天。
超级讨厌春天 . . . ! ! ! 3(厭惡)
不是发烧也不像感冒 , 但头疼得很厉害。。 3(厭惡)
狗很有灵性 , 但我很惧怕 [ 吐 ] [ 鄙视 ] 3(厭惡)
晚睡强迫症越来越严重了 , 不能放弃治疗啊。。 3(厭惡)
喉咙又疼了 , 不会复发吧 [ 生病 ] 3(厭惡)
这还下雹子了。。。。。。受不受死了 3(厭惡)
又长肉了 ! ! ! 不能吃了 ! 3(厭惡)
十一个小时没吃东西了 , 快饿趴下了。 3(厭惡)
一晚失眠 , 免疫力立即下降 , 感冒 ing [ 抓狂 ] 3(厭惡)
65
团购的待遇往往很差。 [ 汗 ] 3(厭惡)
打了半下午球 , 脚断了一样 ! 3(厭惡)
老骨头一把 . . . 实在打不动球了 . . . 3(厭惡)
郑州的出租车 , 太没道德性了 . 3(厭惡)
拼命赶啊赶 , 结果人家放假 , 你是要闹哪样 ? 3(厭惡)
手机被偷了。 [ 呵呵 ] 3(厭惡)
好想吃很多垃圾食品 [ 抓狂 ] [ 抓狂 ] 3(厭惡)
你永远不知道你的世界里存在着多少个骗子。 3(厭惡)
[ 微笑 ]
昨晚热死人 … 咋这么热 ! 3(厭惡)
某些事某些人注定只是擦肩而过 . . . . . . 3(厭惡)
困在动车中了 , 这趟车到底取不取消 ? 要不要这 3(厭惡)
么郁闷 [ 怒 ]
好吧 , 姐为了减肥。。不要命了。。。 3(厭惡)
很怕被人搭讪 , 太恐怖了。。。 3(厭惡)
劳动强度一大就眼冒金星 , 这是病 ? 还是老 ? [ 傻 3(厭惡)
眼 ]
摔了个大跟头。震得头好晕 [ 晕 ] 3(厭惡)
差十秒就赶到班车 … 今早算白坐了 3(厭惡)
睡得不想起 , 眼都不想睁肿么办 [ 打哈欠 ] 3(厭惡)
死了 , 还有好多没背 , 背了就忘。。。怎么搞的 3(厭惡)
心情坏得衣服都不想换脸也不要了就这样睡 3(厭惡)
吧 [ 哈欠 ]
真是奇怪 , 这种时候我居然还吃的下去。。。 3(厭惡)
讨厌被质问的感觉 … 3(厭惡)
实在是烦躁的睡不着。怎么才能冷静下来啊。 3(厭惡)
笔电电池坏了 , 网速奇慢 , 让我死吧。。。 3(厭惡)
这个老鳖汤的劲儿真大 , 现在舌头还疼呢 3(厭惡)
foxmail 和微信今天都出问题 , 讨厌 [ 抓狂 ] 3(厭惡)
三星 note 难用程度简直了 3(厭惡)
这两个星期 , 心情很压抑 … [ 悲伤 ] [ 悲伤 ] 2(悲傷)
这两个星期 , 心情很压抑 … [ 悲伤 ] [ 悲伤 ] 2(悲傷)
生病好痛苦 ` 不想待宿舍 ` 期待有人约 ` 晚餐想人 2(悲傷)
陪 ! ! ! !
突然间想来杯拿铁了 … [ 泪 ] 2(悲傷)
居然有人说我声音低哑到像男人 [ 泪 ] , 我无颜以对 2(悲傷)
[ 汗 ]
66
第一次在医院里失眠了 2(悲傷)
哀莫大于心死 2(悲傷)
每晚都在跟蚊子搏斗中度过啊啊啊。。。。 2(悲傷)
竟然悲催到失眠 ~ ~ ~ 2(悲傷)
我去 … … 我成萝卜腿了怎么办啊怎么办啊怎么 2(悲傷)
办啊
今天心情很不好 , 喝了一点酒 [ 炸弹 ] 2(悲傷)
我想说 : 我开始对你失望了 · · · · · · 2(悲傷)
看了 0830 的天天向上 , 一吻的 bgm 一响起 , 我愣了 2(悲傷)
好几秒
现在唱歌只能用破锣来形容对就是破锣 [ 悲 2(悲傷)
伤 ] [ 悲伤 ] [ 悲伤 ]
美美滴睡一个午觉 , 然后下午起来 — — — — — — 2(悲傷)
看雅思 …
今天奶油太多了 , 失败啊 ! 2(悲傷)
[ 泪 ] 最郁闷的事就是出来逛街忘记带钱包 ! 我郁 2(悲傷)
闷哇呜 !
该死的冰淇淋害我感冒了 . . . . . . [ 衰 ] 2(悲傷)
还是从前那个丢三落四的我 ! 2(悲傷)
我也想对全世界说昨晚对不起 . 2(悲傷)
每次夜班上到这里都特别想睡觉 , 特别的累。 2(悲傷)
快要情人节了 , 2 、 14 . 现如今让我好尴尬的节 2(悲傷)
日。。。
战了两天就感冒了 . . 我还行不行啊 orz 2(悲傷)
心烦的事总是成双 , 计划总是赶不上变化。两 2(悲傷)
难。
脚好麻 … … 感觉脚趾已断 … … 2(悲傷)
妈蛋 , 星期一心情就开始不美丽了 , 这可咋过啊 2(悲傷)
[ 喵喵 ] [ doge ]
还有两天就考研了 , 感觉比高考还累。身体不好 , 2(悲傷)
心里压抑
已经冷无可冷了 ! ! ! 求温暖 ~ 2(悲傷)
这作业做个通宵都做不完。谁来陪我聊聊免得 2(悲傷)
我睡着了 [ 泪 ]
真倒霉 , 上午被领导骂 , 下午喝水把嘴唇磕破了。 2(悲傷)
昨天胃不好 , 今天又泻肚子 , 唉 ! 身体不行了啊 ! 2(悲傷)
今天迟到了 ! [ 汗 ] [ 汗 ] [ 汗 ] 一觉睡到 8:40 才 2(悲傷)
67
醒 ! [ 泪 ] [ 泪 ]
看完了《那些年》 , 最后十分钟直飙泪 [ 不活 2(悲傷)
了 ]
熊猫 2 看得我泪流满面 2(悲傷)
外面放烟花的声音听起来是那么的刺耳 … 2(悲傷)
为什么电影院不卖周边呢 [ 眼泪 ] 2(悲傷)
又天亮了 [ 可怜 ] , 依然迷茫呀 ! 2(悲傷)
无聊透顶了 , 这日子该怎么过呀 [ 泪 ] [ 泪 ] [ 泪 ] 2(悲傷)
顿感职业选择不小心走了 hard 模式 [ 心碎 ] 2(悲傷)
求求上帝赐给我一个人跟我玩一会 [ 泪 ] 2(悲傷)
刚吃了早午餐 , 开始劳作啦 [ 兔子 ] 1(喜歡)
生日快乐 ~ 我对自己说 ~ 1(喜歡)
五号去厦门 ~ ! 有谁有兴趣呢 ? 一起去啊。。快 1(喜歡)
快报名 ~ !
去做双皮奶 [ 酷 ] 1(喜歡)
做一个好人的感觉 , 特别好。 1(喜歡)
走过山路的那个弯 , 一切都会很好。坚信 ! 1(喜歡)
听说下个月公司有旅游 , 两天一夜 w 1(喜歡)
喜欢中心湖 , 喜欢草地 [ 鼓掌 ] 1(喜歡)
越来越喜欢顺丰了呢 [ 花心 ] [ 花心 ] @ 顺丰速运官 1(喜歡)
微
最近大爱 adele 的歌 ~ ~ ~ 1(喜歡)
好 , 去西门狠狠的吃一顿 , 嘿嘿嘿 1(喜歡)
好 , 去西门狠狠的吃一顿 , 嘿嘿嘿 1(喜歡)
又是樱花灿漫时 ~ ~ ~ 1(喜歡)
成都美食。。。哥来了 ! ! 1(喜歡)
我想去看雪求陪同 ~ 1(喜歡)
芒果台「我是歌手」太好看啦 ! 1(喜歡)
他家的饭做的还是很不错。 [ 馋嘴 ] 1(喜歡)
只愿得一人心白首不分离 1(喜歡)
哥哥呀 ~ 我好想听你唱《天堂》哦 ~ ~ [ 熊猫 ] 1(喜歡)
[ 熊猫 ] [ 熊猫 ]
每天都有旺仔喝 ~ 爽 ! ! 1(喜歡)
终于有酒喝了 ! 希望不会喝趴下 1(喜歡)
每天早上起来都能吃到老公煮的营养早餐真 1(喜歡)
棒 ! ! !
保佑保佑 , 一次过 [ 给力 ] [ 给力 ] [ 给力 ] 1(喜歡)
68
班里七个男生出去包宿上网 , 八点多才回来 , 年轻 1(喜歡)
真好。。
唱英文歌需要性感的声音 , 性感的打扮 , 这样才有 1(喜歡)
那韵味
绵绵细雨 … 这等天气很适合 … 睡觉 … 1(喜歡)
坐九号线好闷啊 ~ 好想出去玩儿 ~ 1(喜歡)
其实做 hr 真的不错 , 可以挑各种小 u 熊来面试 1(喜歡)
[ doge ]
今年的实习生 , 嗯 , 还挺帅的。。。 1(喜歡)
美好的一天从早饭开始 ! ! ! 千层饼加鲜博士 ! ! ! 1(喜歡)
美了 !
两周年快乐 , 一直爱你、、、、 [ 心 ] [ 心 ] [ 蛋 1(喜歡)
糕 ] [ 亲亲 ]
很想吃多力多滋芝士味儿那个 1(喜歡)
大半夜 , 能喝上一口冰糖白梨是很快乐的事情。 1(喜歡)
倾城之泪 , 期待。。。。 1(喜歡)
很享受现在生活 ~ 真的不想改变什么呀 ~ 让桃花劫 1(喜歡)
远一点 ~
第一次一起去了雁栖湖 , 希望这是我们的开始 , 1(喜歡)
而不是终点
[ 鼓掌 ] 本周难得的 12 点前下班 1(喜歡)
推荐电影《心慌方》系列 [ 赞 ] [ 赞 ] 1(喜歡)
付出是真的会有回报的 ! 1(喜歡)
理学院的人在老校等校车的地方免费兑换零钱 1(喜歡)
哎 ! 好贴心 ~
吃饱喝足的感觉真好阿 , 和大家道晚安 , 还有没睡 5(快樂)
得么 ?
明儿要下雪啦 [ 雪人 ] [ 雪 ] [ 雪人 ] [ 雪 ] 5(快樂)
哇 , 兜兜今天已经出生第 801 天啦。。。八字头 5(快樂)
了 ! ! !
休假一周结束 , 痛苦的上班生活明天又要开始 ! 5(快樂)
一个人唱了 4 小时 , 我表示我瘦了 [ 偷笑 ] 5(快樂)
直播 + 电视那是相当给力 ! [ 哈哈 ] [ 哈哈 ] 5(快樂)
[ 哈哈 ]
这么晚了我还想吃东西。 [ 馋嘴 ] [ 馋嘴 ] [ 馋嘴 ] 5(快樂)
[ 馋嘴 ]
天气热得来 ~ ~ ~ 5(快樂)
69
睡得好舒服 [ 酷 ] 连续两天睡一个下午 5(快樂)
明天最后一科 ~ 坚持 ~ ! 5(快樂)
晚上吃了一棵西兰花 , 原来蔬菜也能饱肚子 5(快樂)
九月的第一天 , 秋天快到了 , 大家一起织围脖 5(快樂)
过冬啦 !
我要订婚了同志们 ! 哈哈哈 5(快樂)
今天好晒呀 ! 热 s 我了 ! 脱掉 ! 脱掉 ! 衣服脱掉 ! 脱 5(快樂)
掉 !
一觉醒来 , 精神了 , 开始看书 [ 浮云 ] 5(快樂)
今天值班下班之后要去做红娘嘻嘻 ~ ~ ~ ~ 希望可以 5(快樂)
成功哈
今天值班下班之后要去做红娘嘻嘻 ~ ~ ~ ~ 希望可以 5(快樂)
成功哈
好凉快啊 ~ 秋天终于来了 ~ 开心 ~ 5(快樂)
天真的太冷啦 ( ^ _ ^ ) [ 抓狂 ] 5(快樂)
周五拿驾照去 [ 哈哈 ] [ 哈哈 ] [ 哈哈 ] 5(快樂)
开心呢明天某个童鞋带我去买手机咯 5(快樂)
今天大一生活结束 , 暑期开始 , 回家咯 ~ 5(快樂)
拌面的菜好多肉 [ 哈哈 ] 5(快樂)
帝都春天好多雨 [ 鼓掌 ] 5(快樂)
今天睡眠终于充足了。。九个半小时 [ 兔子 ] 5(快樂)
明天可以睡懒觉了哈哈哈哈 5(快樂)
昨晚心动了 , 哈哈。 5(快樂)
一月二十九 , 同样的梦 , 不过穿插了好多支线剧 5(快樂)
情。
回家的感觉真好 [ 奥特曼 ] 5(快樂)
各位 , 我已经安全到家了。。。 [ 给力 ] 。嘿嘿 5(快樂)
每次上体育课都很累 , 但是都很嗨 , 非常开心 ~ ~ 5(快樂)
[ 嘻嘻 ] 真的开始上班了耶 , 看到新同事很热情 , 心 5(快樂)
里很高兴 !
不冷不热的春天 [ 脸红 ] 满地花开的春天 [ 花痴 ] 5(快樂)
今天和女友一块吃饭很舒服很开心 ! 5(快樂)
朋友们 , 元宵节快乐 ! [ 嘻嘻 ] 5(快樂)
新家捣腾了一下 , 感觉还不错。。。开心 5(快樂)
我骑车到拉萨也才用了 5000 元 , 可以做个长途预 5(快樂)
算了。呵呵 ~ ~
十一点到家吃了两碗豆焖饭 … … 我好嗨森 ~ 5(快樂)
70
终于出门了 , 吉隆坡很热 5(快樂)
今晚感谢小伙伴们的饯行 5(快樂)
附錄 2: 生成式系統提交結果成效較好者
貼文貼文回文回文
情緒情緒
刚吃了早午餐,开始劳作啦 1(喜歡) 开始羡慕了哈 1(喜歡)
做一个好人的感觉,特别好。 1(喜歡) 别了 3(厭惡)
今天值班下班之后要去做红娘嘻嘻 5(快樂) 快乐 5(快樂)
~~~~希望可以成功哈
其实做 hr 真的不错,可以挑各种小 1(喜歡) 不错真是不错 5(快樂)
u 熊来面试
付出是真的会有回报的! 1(喜歡) 付出不应该求回报的 3(厭惡)
主機板 Z10PE-D16 WS
CPU Intel(R) Xeon(R) E5-2620 v4 @ 2.10GHz
硬體
顯示卡微星 GTX 1080 TI (11GB GDDR5X)
記憶體 64GB DDR4-2400
OS Ubuntu 16.4
Python 3.6.8
TensorFlow 1.12.0
軟體
Cuda 10.0
NVIDIA-SMI 410.73
Keras 2.2.4
71
著作權聲明
論文題目：基於深度學習與自然語言處理發展的情感對話機器人
-以短文本情感對話生成為例
論文頁數：73 頁
系所組別：資訊管理研究所（學號：710636303）
研究生：高偉晉
指導教授：汪志堅、戴敏育
畢業年月：中華民國 108 年 9 月
本論文著作權為高偉晉、汪志堅與戴敏育所有，並受中華民國著作權法保護。
73

基於深度學習與自然語言處理發展的情感對話機器人 以短文本情感對話生成為例

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基於深度學習與自然語言處理發展的情感對話機器人 以短文本情感對話生成為例

Uploaded by

Copyright:

Available Formats

國立臺北大學資訊管理研究所

Deep Learning and Natural Language Processing Based

Emotional Chatterbot Development:

In Short Text Emotional Conversation Generation Case

DEEP LEARNING AND NATURAL LANGUAGE PROCESSING BASED

EMOTIONAL CHATTERBOT DEVELOPMENT: IN SHORT TEXT EMOTIONAL

CONVERSATION GENERATION CASE

ADVISOR(S): Dr. Chih-Chien Wang, Dr. Min-Yuh Day

Recently, Messenging via communication applications by mobile devices in the

Keywords: Chatterbot、Deep Learning, Natural Language Processing, Sequence to

國立臺北大學 107 學年度第 2 學期碩士學位論文提要 ...................................................... I

圖目次 ............................................................................................................................... VIII

一、研究背景(Background of Research) .......................................................................... 1

(一) 對話式商務(Conventional Commerce)興起 .......................................................... 1

(二) 人工智慧技術(Artifitial Intelligen)與聊天機器人(Chatterbot) ............................. 1

(三) 具有情感的聊天機器人(Chatterbot with Emotion) ............................................... 2

二、研究動機(Motivation of Research) ............................................................................ 2

(二)結合情感分析(Sentiment Analysis)與深度學習(Deep Learning)............................ 2

三、研究目的(Purpose of Research) ................................................................................. 3

(一) 建構情感聊天機器人 ........................................................................................... 3

(三) 比較不同深度學習模型 ....................................................................................... 4

(四) 加入情感常用回覆(Emotion Generated Purpose Response, EGPR) ...................... 4

四、研究問題(Question of Research) ............................................................................... 4

貳、文獻探討(Literature Review) ...................................................................................... 5

(一) 遞迴神經網路(Recurrent Neural Network, RNN) ................................................. 9

(二) 長短期記憶(Long Short-Term Memory，LSTM) ............................................... 11

(三) 門閘遞迴單元(Gate Recurrent Units, GRU) ....................................................... 12

(四) 雙向長短期記憶(Bidirectional Long Short-Term Memory，Bi-LSTM) ............. 12

(五) 雙向門閘遞迴單元(Bidirectional Gate Recurrent Units,Bi-GRU) ....................... 13

(六) 序列對序列(Sequence to Sequence)方法 ............................................................ 13

(七) 注意力模型(Attention Model) ............................................................................ 14

三、自然語言處理(Natural Language Processing, NLP) ................................................ 15

(一) 文字探勘(Text Mining) ...................................................................................... 15

(二) 字詞向量(Word Vector) ..................................................................................... 15

(三) 餘弦相似性(Cosine similarity)............................................................................ 15

四、情感分析(Sentiment Analysis) ................................................................................ 16

(一) 聊天機器人中圖像應用多於文字應用聊天機器人中 ....................................... 16

(二) 聊天機器人中少討論情感分析使用的深度學習模型 ....................................... 16

五、對話機器人競賽(Chatterbot Competitions) ............................................................. 16

(一) Amazon Alexa ..................................................................................................... 16

(二) NLPCC(CCF International Conference on Natural Language Processing and

(三) LIC(Language and Intelligence Challenge) ........................................................... 17

(五)相關研究成果: 表 4 為 NTCIR 中研究者使用方法與資料以及得到評分。 ....... 18

參、研究方法(Methodology of Research) ........................................................................ 19

一、研究架構(Research Architecture) ............................................................................ 19

二、資料來源(Data Resource) ........................................................................................ 19

(二) 情感常用回覆訓練集 ......................................................................................... 20

(三) 測試集 ................................................................................................................ 21

三、資料前處理(Data Preprocessing) ............................................................................. 21

(二) 資料分析 ............................................................................................................ 22

(三) 詞向量 ................................................................................................................ 22

四、基於檢索方式模型(Retrieval-Based Model) ........................................................... 22

(一) Solr 檢索系統 ...................................................................................................... 22

(二) 匯入資料 ............................................................................................................ 22

(三) RESTful API........................................................................................................ 22

(四) 檢索策略 ............................................................................................................ 23

五、基於生成方式模型(Generation-Based Model) ........................................................ 24

(一) 基於注意力機制的序列到序列模型(Attention-Based Seq2Seq) ........................ 24

(二) 前處理階段(Preprocessing Stage) ....................................................................... 24

(三) 模型訓練階段(Model Training Stage) ................................................................ 24

(四) 測試(Testing)階段 .............................................................................................. 26

六、情緒分類模型(Emotion Classifier Model) ............................................................... 27

(一) 情緒分類模型訓練集 ......................................................................................... 27

基於深度學習與自然語言處理發展的情感對話機器人以短文本情感對話生成為例

基於深度學習與自然語言處理發展的情感對話機器人以短文本情感對話生成為例