You are on page 1of 83

國立臺北大學資訊管理研究所

碩士論文

指導教授:汪志堅 博士

戴敏育 博士

基於深度學習與自然語言處理發展的情感對話機器人

以短文本情感對話生成為例

Deep Learning and Natural Language Processing Based

Emotional Chatterbot Development:

In Short Text Emotional Conversation Generation Case

研究生:高偉晉 撰

中 華 民 國 一 ○ 八 年 九 月
ii
國立臺北大學 107 學年度第 2 學期碩士學位論文提要

論文題目:基於深度學習與自然語言處理發展的情感對話機器人

-以短文本情感對話生成為例

論文提要內容:
論文頁數:73 頁
所組別:資訊管理研究所 (學號:710636303)
研究生:高偉晉 指導教授:汪志堅、戴敏育 博士
論文提要內容:
近年來,在網路上透過通訊軟體使用行動裝置傳遞訊息已經成為重要的
溝通方式。因此,聊天機器人為研究者所關注的其中一個最重要議題。
本研究使用社群媒體微博(Weibo)的貼文回覆組合,Chatterbot 語料庫,以
及線上中文對話資源作為訓練資料集。接著運用下列方法進行 Short Text
Conversation(STC)生成:使用 Apache Solr 建構檢索式系統,透過 Sequence to
sequence(Seq2seq)架構建構生成式系統。生成式系統也同時搭配 Emotional
General Purpose Response(EGPR)以及透過以下 5 種深度學習方法: Multilayer
Perceptron(MLP) 、 Gated Recurrent Unit (GRU) 、 Long Short Term Memory
(LSTM) Bidirectional Gated Recurrent Unit (Bi-GRU)以及 Bidirectional Long
Short Term Memory (Bi-LSTM)訓練的情感分類模型。本研究貢獻如以下幾
點:(1)本研究中,使用 Solr 建構的檢索式系統表現優於使用 Seq2seq 搭配情感
分類模型和 EGPR 建構的生成式系統。(2)情感分類模型所用來訓練的 5 種深
度學習方法中,以 Bi-GRU 表現最佳。(3)根據實驗結果,本研究所提出的 EGPR
方法能改善生成式系統的回覆準確性。

關鍵字:聊天機器人、深度學習、自然語言處理、從序列到序列、情感分析、
長短期記憶、門閘遞迴單元、雙向長短期記憶、雙向門閘遞迴單元

I
ABSTRACT

DEEP LEARNING AND NATURAL LANGUAGE PROCESSING BASED

EMOTIONAL CHATTERBOT DEVELOPMENT: IN SHORT TEXT EMOTIONAL

CONVERSATION GENERATION CASE

by

Gao, Wei-Jin

September 2019

ADVISOR(S): Dr. Chih-Chien Wang, Dr. Min-Yuh Day


DEPARTMENT: Graduate Institute of Information Management
MAJOR: Information Management
DEGREE: Master of Business Administration

Recently, Messenging via communication applications by mobile devices in the


internet has become an important way of communication. Thus, Chatbot is one of the
most important issue which researchers focus on.
In this study, we use social media: Weibo’s post-responses pairs, corpus from
Chatterbot, and online Chinese conversation resource as training dataset. And we use
following methods to implement Short Text Conversation(STC) generation:To build
retrieval-based system via Apache Solr , and build generation-based system with
Sequence to sequence(Seq2seq)architecture.In Generative system, we also use Emotion
General Purpose Response(EGPR)and Emotion Classification model built with 5 Deep
Learning models: Multilayer Perceptron(MLP) 、Gated Recurrent Unit (GRU)、Long
Short Term Memory (LSTM) Bidirectional Gated Recurrent Unit (Bi-GRU) and
Bidirectional Long Short Term Memory (Bi-LSTM).In the STC generation research,
the performance of retrieval sytem built via Solr is better than generative system built
via Seq2seq, Emotion Classification, and EGPR. And BiGRU is the best method of
deep learning models implemented on emotion classification model. Finally, according
to experiment result, using EGPR we proposed could enhance the accuracy of
genetative system.

Keywords: Chatterbot、Deep Learning, Natural Language Processing, Sequence to


sequence, Sentiment Analysis, Long Short Term Memory, Gate Recurrent Units,
II
Bidirectional Long Short Term Memory, Bidirectional Gate Recurrent Units

III
目次

國立臺北大學 107 學年度第 2 學期碩士學位論文提要 ...................................................... I

ABSTRACT ........................................................................................................................ II

目次..................................................................................................................................... IV

圖目次 ............................................................................................................................... VIII

表目次 ................................................................................................................................. IX

壹、緒論(Introduction) ....................................................................................................... 1

一、研究背景(Background of Research) .......................................................................... 1

(一) 對話式商務(Conventional Commerce)興起 .......................................................... 1

(二) 人工智慧技術(Artifitial Intelligen)與聊天機器人(Chatterbot) ............................. 1

(三) 具有情感的聊天機器人(Chatterbot with Emotion) ............................................... 2

二、研究動機(Motivation of Research) ............................................................................ 2

(一)尚未確定檢索式系統或生成式系統較佳 .............................................................. 2

(二)結合情感分析(Sentiment Analysis)與深度學習(Deep Learning)............................ 2

(三)少見探討情緒分類模型所使用深度學習模型 ....................................................... 3

(四)情感式對話尚有許多發展空間.............................................................................. 3

三、研究目的(Purpose of Research) ................................................................................. 3

(一) 建構情感聊天機器人 ........................................................................................... 3

(二) 比較檢索式模型與生成式模型............................................................................ 4

(三) 比較不同深度學習模型 ....................................................................................... 4

(四) 加入情感常用回覆(Emotion Generated Purpose Response, EGPR) ...................... 4

四、研究問題(Question of Research) ............................................................................... 4

貳、文獻探討(Literature Review) ...................................................................................... 5

一、聊天機器人(Chaterbot) ............................................................................................. 6

(一) 聊天機器人定義................................................................................................... 6

(二) 聊天機器人類型................................................................................................... 6

(三) 聊天機器人類型................................................................................................... 8
IV
二、深度學習(Deep Learning, DL) .................................................................................. 9

(一) 遞迴神經網路(Recurrent Neural Network, RNN) ................................................. 9

(二) 長短期記憶(Long Short-Term Memory,LSTM) ............................................... 11

(三) 門閘遞迴單元(Gate Recurrent Units, GRU) ....................................................... 12

(四) 雙向長短期記憶(Bidirectional Long Short-Term Memory,Bi-LSTM) ............. 12

(五) 雙向門閘遞迴單元(Bidirectional Gate Recurrent Units,Bi-GRU) ....................... 13

(六) 序列對序列(Sequence to Sequence)方法 ............................................................ 13

(七) 注意力模型(Attention Model) ............................................................................ 14

三、自然語言處理(Natural Language Processing, NLP) ................................................ 15

(一) 文字探勘(Text Mining) ...................................................................................... 15

(二) 字詞向量(Word Vector) ..................................................................................... 15

(三) 餘弦相似性(Cosine similarity)............................................................................ 15

四、情感分析(Sentiment Analysis) ................................................................................ 16

(一) 聊天機器人中圖像應用多於文字應用聊天機器人中 ....................................... 16

(二) 聊天機器人中少討論情感分析使用的深度學習模型 ....................................... 16

(三)透過深度學習模型建立情感分類模型 ................................................................ 16

五、對話機器人競賽(Chatterbot Competitions) ............................................................. 16

(一) Amazon Alexa ..................................................................................................... 16

(二) NLPCC(CCF International Conference on Natural Language Processing and


Chinese Computing) .................................................................................................... 16

(三) LIC(Language and Intelligence Challenge) ........................................................... 17

(四) NTCIR(NII Testbeds and Community for Information access Research) ............... 17

(五)相關研究成果: 表 4 為 NTCIR 中研究者使用方法與資料以及得到評分。 ....... 18

參、研究方法(Methodology of Research) ........................................................................ 19

一、研究架構(Research Architecture) ............................................................................ 19

二、資料來源(Data Resource) ........................................................................................ 19

(二) 情感常用回覆訓練集 ......................................................................................... 20

(三) 測試集 ................................................................................................................ 21

三、資料前處理(Data Preprocessing) ............................................................................. 21


V
(一) 資料分割 ............................................................................................................ 21

(二) 資料分析 ............................................................................................................ 22

(三) 詞向量 ................................................................................................................ 22

四、基於檢索方式模型(Retrieval-Based Model) ........................................................... 22

(一) Solr 檢索系統 ...................................................................................................... 22

(二) 匯入資料 ............................................................................................................ 22

(三) RESTful API........................................................................................................ 22

(四) 檢索策略 ............................................................................................................ 23

五、基於生成方式模型(Generation-Based Model) ........................................................ 24

(一) 基於注意力機制的序列到序列模型(Attention-Based Seq2Seq) ........................ 24

(二) 前處理階段(Preprocessing Stage) ....................................................................... 24

(三) 模型訓練階段(Model Training Stage) ................................................................ 24

(四) 測試(Testing)階段 .............................................................................................. 26

六、情緒分類模型(Emotion Classifier Model) ............................................................... 27

(一) 情緒分類模型訓練集 ......................................................................................... 27

(二) 情緒分類模型使用深度學習模型 ...................................................................... 27

(三) 模型訓練參數設定 ............................................................................................. 27

七、情感常用回覆(Emotion General Purpose Response, EGPR) .................................... 28

(一) 資料來源 ............................................................................................................ 29

(二) 與測試集進行相似度分析 ................................................................................. 29

(三) 排序(Ranking) .................................................................................................... 29

(四) 過濾(Filtering) .................................................................................................... 29

(五)生成式系統與情感對話生成系統的生成回覆差異 ............................................. 30

八、實驗設計(Experiment Design) ................................................................................ 30

(一) 實驗設計 ............................................................................................................ 30

(二) 實驗流程 ............................................................................................................ 31

肆、實驗結果與討論(Results and Discussion) ................................................................. 33

一、效能評估(Evaluation) ............................................................................................. 33

VI
(一) 評估標準 ............................................................................................................ 33

(二) 評估方式 ............................................................................................................ 33

(三) 自主評估(Self Evaluation) .................................................................................. 34

二、情緒分類模型(Emotion Classification model) ......................................................... 34

(一) 準確度(Accuracy) ............................................................................................... 34

(二) 模型績效評估 .................................................................................................... 45

三、基於檢索方式模型(Retrieval-Based Model) ........................................................... 49

(一) 檢索系統評估結果(Retrieval System Evaluation Results) .................................. 49

四、基於生成方式模型(Generation-Based Model) ........................................................ 49

(一) 訓練模型評估(Evaluation of Training Model) .................................................... 49

(二) 生成模型評估結果(Generative Model Evaluation Results) ................................. 50

五、實驗討論(Discussion) ............................................................................................. 52

伍、結論(Conclusions) ...................................................................................................... 55

一、研究發現................................................................................................................. 55

二、研究貢獻(Contribution) .......................................................................................... 56

(一)比較情感分析採用深度學習模型 ........................................................................ 56

(二)本研究提出情感常用回覆方法............................................................................ 56

三、研究限制與未來研究建議 ...................................................................................... 56

(一) 研究限制 ............................................................................................................ 56

(二) 未來研究建議 .................................................................................................... 56

參考文獻(References) ........................................................................................................ 58

附錄(Appendix) ................................................................................................................. 64

附錄 1: 本研究測試資料集共 200 筆 ............................................................................ 64

附錄 2: 生成式系統提交結果成效較好者..................................................................... 71

簡歷.................................................................................................................................... 72

著作權聲明 ........................................................................................................................ 73

VII
圖目次

圖 1 AIML 建構聊天機器人.................................................................................... 7
圖 2 sequence to sequence 編譯器解譯器模型示意圖 ............................................ 7
圖 3 RNN LM 模型架構示意圖 ............................................................................ 10
圖 4 LSTM LM 模型架構示意圖 .......................................................................... 12
圖 5Bi-LSTM 與 Bi-GRU 系統架構示意圖 .......................................................... 13
圖 6 Sequence to sequence model 示意圖 .............................................................. 14
圖 7 檢索系統貼文回文組合匯入 Schema 定義 ................................................... 23
圖 8 檢索系統生成回文架構圖 ............................................................................. 23
圖 9 生成式系統架構 ............................................................................................ 26
圖 10 生成式系統搭配 EGPR 架構 ...................................................................... 30
圖 11 生成式系統對話生成和情緒分類和情感常用回覆流程架構 ..................... 32
圖 12 評估邏輯迴圈演算法示意圖 ....................................................................... 33
圖 13 評估分數計算公式 ...................................................................................... 34
圖 14 在不同超參數設置下使用 MLP 訓練的情緒分類模型準確度比較 ............. 37
圖 15 在不同超參數設置下使用 GRU 訓練的情緒分類模型準確度比較 ............. 39
圖 16 在不同超參數設置下使用 LSTM 訓練的情緒分類模型準確度比較 ........... 41
圖 17 在不同超參數設置下使用 Bi-GRU 訓練的情緒分類模型準確度比較........ 42
圖 18 在不同超參數設置下使用 Bi-LSTM 訓練的情緒分類模型準確度比較...... 44
圖 19 情緒分類模型搭配深度學習訓練結果準確度(Accuracy)的比較 ............ 45
圖 20 Emotion Prediction Accuracy(MLP)績效評估示意圖 .................................. 45
圖 21 Emotion Prediction Accuracy(GRU)績效評估示意圖 .................................. 46
圖 22 Emotion Prediction Accuracy(LSTM)績效評估示意圖 ................................ 46
圖 23 Emotion Prediction Accuracy(Bi-GRU)績效評估示意圖 ............................. 47
圖 24 Emotion Prediction Accuracy(Bi-LSTM)績效評估示意圖 ........................... 47

VIII
表目次

表 1 聊天機器人發展歷史表格 .............................................................................. 9
表 2 本研究使用 Deep Learning 架構方法。 ....................................................... 14
表 3 聊天機器人相關競賽整理 ............................................................................ 18
表 4 不同研究者在相關比賽中所使用的架構方法與評估結果 .......................... 18
表 5 微博貼文回覆組合 ....................................................................................... 20
表 6 情緒分類系統使用訓練集欄位表示 ............................................................ 20
表 7 情感常用回覆範例 ....................................................................................... 21
表 8 生成式系統參數設定 ................................................................................... 25
表 9 對話資料集貼文及回覆欄位合併 ................................................................ 27
表 10 情感常用回覆範例 ...................................................................................... 29
表 11 生成式系統與情緒分類模型以及情感常用回覆實驗組合 ........................ 31
表 12 人工判斷給分範例 ..................................................................................... 34
表 13 情緒分類器模型使用 MLP 訓練實驗結果之一 ........................................... 35
表 14 情緒分類器模型使用 MLP 訓練實驗結果之二 ........................................... 35
表 15 情緒分類器模型使用 MLP 訓練實驗結果之三 ........................................... 36
表 16 情緒分類器模型使用 MLP 訓練實驗結果之四 ............................................ 36
表 17 情緒分類器模型使用 MLP 訓練實驗結果之五 ............................................ 37
表 18 情緒分類器模型使用 GRU 訓練實驗結果 .................................................... 38
表 19 情緒分類器模型使用 LSTM 訓練實驗結果 .................................................. 40
表 20 情緒分類器模型使用 Bi-GRU 訓練實驗結果 .............................................. 42
表 21 情緒分類器模型 Bi-LSTM 訓練實驗結果(Bi-LSTM) .................................. 43
表 22 情緒分類模型搭配深度學習訓練最佳實驗結果參數配置 ........................ 44
表 23 5 種深度學習模型對於 5 種情緒預測準確性 ............................................ 48
表 24 實驗 1 評估結果 .......................................................................................... 49
表 25 生成式系統訓練組合及資料遺失值(Loss)結果 .......................................... 50
表 26 生成模型產生回覆自主評測結果 ............................................................... 51
表 27 測試集內容相同測試題項 ........................................................................... 52
表 28 本研究所有對話系統、情緒分類模型與情感常用回覆方法實驗組合 ...... 53
表 29 生成式系統採用 5 種深度學習模型在 5 種情緒下取得的分數分布 ........ 54

IX
壹、緒論(Introduction)

一、研究背景(Background of Research)

(一) 對話式商務(Conventional Commerce)興起


隨著行動裝置(Mobile Devices)的普及和通訊軟體(Messaging Apps) 如
LINE、WeChat、社群網路(Social Network)平台 Facebook 的出現,使得民眾資
訊取得及消費習慣改變,行動上網比例逐年上升。根據 StarCounter 指出
(GlobalStats, 2016),在 2016 年 10 月,全球透過行動裝置上網比例已超越桌上
型主機。通訊軟體如 LINE、WeChat 和社群網路如 Facebook 相較之下,更能發
展維繫人際關係,根據調查顯示(Intelligence, 2016),在 2014-2015 年間使用通
訊軟體用戶已超越社群網路,而在 2016 年,前 Uber 開發體驗者主管 Messina
也在自己部落格預示對話式商務(Conventional Commerce)的來臨(Messina, 2016),
自此對話式商務和聊天機器人開始被廣泛討論。目前在電子商務領域持續成長
中的基於聊天機器人對話式商務(Chatterbot-based conversational commerce)即是
使用者在線上透過聊天應用軟體與聊天機器人對話並且進行購買行為(Pricilla,
Lestari, & Dharma, 2018)。
(二) 人工智慧技術(Artifitial Intelligen)與聊天機器人(Chatterbot)
Facebook, Google, IBM, Microsoft 等著名科技公司正對於機器人及相關人工
智慧(artificial intelligence, AI)技術進行大量的研究(Nguyen, 2017)。
聊天機器人依照話題層面可切分為任務導向(Task-oriented)和非任務導向,
或是封閉領域和開放領域(Open domain)。前者如智慧型助理(intelligent agent):,
可連結不同應用程式並提供資訊服務以完成特定任務(Agrawal, Suri, & Menon,
2018)。後者如陪伴機器人 A.L.I.C.E,陪伴以及與家中長者互動(Kerlyl, Hall, &
Bull, 2006)。本研究探討方向鎖定於後者,即 Open domain、專注在簡短聊天和
生活對話的聊天機器人。
聊天機器人近來被定義為透過自然對話語言與人類使用者互動的機器對話
系統(Shawar & Atwell, 2007)。聊天機器人依照對話系統(Dialogue system)模型開
發方式大致可分為三種:
1.樣板型模型(Rule-based model):使用預先定義的資料庫並且設定輸入與輸
出內容的匹配規則。
2.檢索式系統(Retrieval-based model):使用預先定義的資料庫並且透過自然
語言處理方法如相似度分析得出候選答案並排序得出輸出匹配結果,輸出
範圍不超出資料庫內容。

I
3.生成式系統(Generative models): 使用資料庫訓練並可生成不同於資料庫
的輸出結果,但有可能回覆結果具有語義錯誤。
(三) 具有情感的聊天機器人(Chatterbot with Emotion)
近年來,深度學習模型(Deep learning models)已經在自然語言處理領域取得
顯著成果如語意分析(semantic analysis)、機器翻譯(machine translation)和文本摘
要(text summarization)等(Tang, Qin, & Liu, 2015),也讓對話系統變得更加具有智
慧(Chung, Iorga, Voas, & Lee, 2017)。研究者致力於透過深度學習方法改善對話
系統生成的內容品質,目的是讓機器人能夠表現和對話得像人類一樣。
然而要讓機器生成接近人類的對話內容,需要先讓機器理解人類知覺行
為,因為情感是判斷人類行為最基礎的特徵(Chakraborty, Bhattacharyya, Bag, &
Hassanien, 2018)。因此社群機器人(social robots) 設計上就會考量到人機互動,
機器人能辨識人類情緒以及適當表達的可能性,但是到目前為止實現能力仍然
距離遙遠,其中一個原因是鮮少應用在機器人行為模型中嘗試考量使用者情緒
狀態(Cavallo et al., 2018)。因此人機對話要素是機器回覆內容不僅是達到內容層
面(相關性及符合文法),還需要達到情感層面(Sun, Peng, & Ding, 2018)。

二、研究動機(Motivation of Research)

(一)尚未確定檢索式系統或生成式系統較佳
鑒於社群媒體興起和行動裝置普及現象,人們透過簡短文字訊息(short
text)進行對話已成為重要的溝通方式(Shang et al., 2016)。在不同商務領域
皆有企業推出聊天機器人提供服務例如 H&M, Cable News Network(CNN),
或是提供給使用者自行建置的聊天機器人軟體套件像是 Chatfuel、Linebot
等。對話系統大部分以檢索式系統建構為主,但是由於該系統是以內含資
料庫為回覆依據,無法生成新的對話,因此近來生成式系統的研究愈發引
起關注並且已經取得豐碩成果。只不過生成式系統仍面臨許多挑戰像是生
成無意義或是缺乏多樣性的對話(Iulian Vlad Serban, Lowe, Charlin, &
Pineau, 2016),所以目前尚且難以篤定生成式系統已經超越檢索式系統
(Kato & Liu, 2017)。

(二)結合情感分析(Sentiment Analysis)與深度學習(Deep Learning)


人機對話系統被視為電腦科學其中一個最難的課題,涵蓋領域技術橫
跨資訊檢索、自然語言處理和人工智慧之間(Yan, Song, & Wu, 2016)。近年
來陸續有研究者從不同領域角度如資訊檢索(Information Retrieval, IR)、自
然語言處理(Natural Language Processing, NLP)和機器學習(Machine
Learning)等來討論自然語言對話課題,探討重點聚焦在對話系統模型效能
2
的提升。例如使用深度學習模型 RNN、LSTM, Sequence to
sequence(Seq2seq)等作為建立模型架構,期望能讓對話系統產生「人性
化」回應。不過要使機器人展現出人類層次的對話表達能力,前提是需要
讓系統能理解人類知覺行為,而表達與理解情緒和因應行為是其中一個最
重要的人類行為(Huang, Ye, & Zhou, 2017)。先前研究曾在樣板式模型或小
規模資料基礎上結合對話系統與情感分析(Polzin & Waibel, 2000),而生成
式系統結合大規模資料集的相關研究主要是集中在改善對話系統的模型,
因此尚未有大量研究是結合生成式系統和情感分析(Huang et al., 2017)。
(三)少見探討情緒分類模型所使用深度學習模型
隨著深度學習在許多其他應用領域的成功,近年來深度學習也廣泛應
用在情感分析領域(Zhang, Wang, & Liu, 2018),不過並沒有大量關於深度學
習模型應用於情感分類上的研究。
(四)情感式對話尚有許多發展空間
在情感嵌入對話相關研究得知,生成式系統產生的情感對話尚有許多是不
符合語意或是同時不符合語意和情緒的情形,而目前取得最優異分數仍是以檢
索式系統建構為主(Huang et al., 2017)。

三、研究目的(Purpose of Research)

本研究討論重點在於提出能夠生成含有情感對話的聊天機器人,比較
不同建構系統的成效,比較情緒分類系統所使用的不同深度學習模型,以
及嘗試改善生成式系統產生的情感對話方法。
本研究取得社群網站 60 萬組貼文與回覆資料(post-response pairs),以
此資料集為基礎建構檢索式系統及生成式系統。為了讓聊天機器人能夠判
別接收提供貼文(post)的貼文情感(post emotion),並且依照貼文生成包含對
應情感(response emotion)的對話(response),本研究在生成式系統中結合了
情感分析模型,並且將對應情緒細分為五大類:快樂(like)、難過(sadness)、
噁心(disgust)、生氣(anger)與快樂(happiness),讓生成的對話情感更具多樣
性。此外,本研究提出情感常用回覆以嘗試改善生成式系統產生的情感對
話。本研究將基於生成式模型的聊天機器人與不同情感分類模型以及方法
交叉組合比較績效並求出最佳表現的組合。研究目的具體細分如下:
(一) 建構情感聊天機器人
包含建構檢索式系統與生成式系統,檢索式系統透過將資料集匯入線上開
源檢索系統以進行對話的匹配得出檢索結果。生成式系統透過加入 NLP 技術和
Deep learning 架構以建構模型訓練對話系統。並將結合 Sentiment analysis,也
就是對話系統所生成的 response 除了符合 post 語意之外,同時 response emotion
也符合 post emotion 所處的語境(Huang et al., 2017)。
3
(二) 比較檢索式模型與生成式模型
建構並比較檢索式模型與生成式模型聊天機器人的情感對話表現。
(三) 比較不同深度學習模型
建構並比較本研究結合情感分析所使用情緒分類模型中,所應用的不同模
型如「MLP」、「GRU」、「LSTM」、「Bi-GRU」、「Bi-LSTM」的績效評估。
(四) 加入情感常用回覆(Emotion Generated Purpose Response, EGPR)
比較聊天機器人在 EGPR 方法加入前後評估績效差異。

四、研究問題(Question of Research)

綜整上述研究背景、研究動機與研究目的,本研究將設定研究問題
(Research Question, RQ)如下:
(一)研究問題 1(RQ1):
運用深度學習方法建構而成的生成式對話機器人是否可使生成回覆品
質語意一致性優於檢索式對話機器人?
(二)研究問題 2(RQ2):
是否可利用情感常用回覆方法加入聊天機器人系統並使生成回覆語意
一致性提升?
(三)研究問題 3(RQ3):
是否可利用深度學習方法如「MLP」、「GRU」、「LSTM」、「Bi-
GRU」、「Bi-LSTM」建構情感分析模型並使生成回覆符合情緒一致性?

4
貳、文獻探討(Literature Review)

人類不斷在思考機器是否能像人類一樣具有智慧,有思辨能力,Alan
Turing(1950)提出問題:「Can a machine think?」,並透過圖靈測驗(Turing Test)用
以判斷機器是否會像人類一樣思考。
由於近年來軟體、硬體、網路及各種資訊相關技術快速發展,加上不同領
域匯流令人工智慧(Artificial Intelligence,AI)領域有長足進展,藉由賦予機器人
性化的方式強化人機互動(Human-Computer)。例如 Machine Learning 結合統計
理論和神經網路(Neural Network)架構,其分支領域 Deep Learning 被廣受討論,
AI 研究趨勢蔚為興起(Huang et al., 2017)。
加上前述社群媒體發展和行動裝置普及,使用通訊軟體用戶不斷增加的情
況下,聊天機器人已在商業應用於協助行銷,例如 H&M Shopping bot(Berglund,
2017),使用者可以透過用戶接受度較高且使用頻繁的對話介面獲取所需資訊與
體驗。
近來也提出了許多透過大規模社群資料(large-scale social data)所建構的對話
生成模型,但是一方面使系統產生適合的對話仍是一大挑戰(Sun, Peng, et al.,
2018)。另外一方面,要讓機器人理解人類的知覺行為,情緒的表達與理解是其
中一大要素,然而要針對 Post 生成帶有情緒的回覆(emotional response)仍是極
具挑戰,因此結合對話系統與情緒分析為帶有情感的聊天機器(Emotional
Chatting Machine, ECM)為近期研究重心(Sun, Peng, et al., 2018)。
因此,對話系統所處理的人類自然語言,要讓機器理解的話需要同時結合
Machine Learning 模型和 NLP 技術。作為 Machine Learning 分支的 Deep
Learning,是運用深度神經網路(Deep Neural Network)架構,讓機器能透過訓練
理解並表達像人類的關鍵方法之一。應用於 NLP 的主要 Deep Learning 模型有:
遞迴神經網路(RNN)、長短期記憶(LSTM)和門閘遞迴單元(GRU)等。NLP 技術
在對話系統中將文字轉換為機器能理解的向量表達方式,並在機器處理完畢後
轉換回人類能理解的自然語言表達方式。另外結合情緒分類系統以及 EGPR 方
法,讓對話系統增添內容及情感上的多樣性。因此本研究將著重探討上述主
題,藉此改善聊天機器人生成回覆,讓產生情感對話能更接近人類對談的真實
情境。

5
一、聊天機器人(Chaterbot)

(一) 聊天機器人定義
關於「聊天機器人」(Chatterbot)的定義,有如下敘述:
1.Mauldin(1994)以對話性程式(conversational software programs)來解釋聊天機
器人,為最早提出該名詞的研究者。
2.設計用以與一個或多個人類進行智慧對話的電腦程式。(Deryugina, 2010)
3.機器人模擬人類與使用者進行談話(Kasinathan, Mustapha, Siow, & Hopman,
2018)
4.可以透過自然語言與使用者互動及提供指引的工具(LN Paschoal, 2018)
綜合以上所述,本研究將聊天機器人定義為透過聲音或者是文字提供
資訊,與人類進行互動的對話介面。
(二) 聊天機器人類型
1. 從話題上可以大略分成目標導向型和非目標導向型兩種。
(1) 目標導向型像是應用在客戶服務(Customer Service)或是 IR 領域,例
如 Google 智慧助理,可連結應用程式(Apps),網站(Website)以及像
是 Facebook Messenger 的即時訊息(Instant Message)平台。
(2) 非目標導向型如陪伴機器人 A.L.I.C.E,與家中長者互動和陪伴
(Kerlyl et al., 2006)。在問答系統部分,搭載簡單系統的運作方式多
為擷取輸入關鍵字,接著從資料庫中尋找適切的回應。運用 NLP 方
法的系統會透過文字探勘(Text Mining)、詞向量(Word Vector)轉換,
藉此讓機器能理解並處理人類語言。
2. 從對話系統模型發展方式可分為樣版式模型、檢索式模型和生成式模型
三種模型,近期研究主要討論的對話系統是檢索式和生成式模型兩類。
(1) 樣板式模型(Rule-based model)
經由設計「規則」來讓機器人知道當遭遇某輸入資料時應該輸出
甚麼內容,並且需要考量到規則間的優先順序(Wallace, 2003),可以透
過人工智慧修飾語言(AIML)進行樣板式聊天機器人建構如圖 1 所示。

6
圖 1 AIML 建構聊天機器人
資料來源: Wallace (2003)

(2) 檢索式模型(Retrieval-based model)


檢索式模型是系統針對使用者提供訊息(或稱為 query),在系統內
龐大的對話資料集中尋找與 query 搭配起來最適合的回覆(Song et al.,
2018)。透過既有語料庫(corpus)建置索引(index),在進行對話檢索的
動作時候,依照先前建置索引經由相似度分析(similarity analysis)後排
序(rank)候選的回覆(candidates),並且選擇排序最優先者作為最終回覆
(result),例如 Apache 搜尋引擎 Lucene 和 Solr。
(3) 生成式模型(Generation-based model)
原理是在一組由編譯器(encoder)和解譯器(decoder)組成架構下,
當輸入的文字進入 encoder,會先一個字一個字地轉換成固定長度的向
量表達方式讓機器可以解讀,接著再將此固定長度向量餵入 decoder,
由 decoder 陸續輸出回覆文字(Shang et al., 2016)。例如在 sequence to
sequence 架構中,是由 2 個 RNN 或是 LSTM 等深度學習模型所組成
的 encoder 和 decoder 組合如圖 2 所示。當文字輸入 Encoder 時會先轉
換成向量(Vector)表示,然後餵入至 Decoder 後再轉換回文字輸出。

圖 2 sequence to sequence 編譯器解譯器模型示意圖


資料來源:Kato and Liu (2017)
7
(三) 聊天機器人類型
1. 圖靈曾討論機器是否能像人類一樣思考,並發表圖靈測驗(Turing test)來
測驗機器是否具備人類智慧(Turing, 1950)。
2. Joseph Weizenbaum(1966)嘗試透過字串比對進行人機對話,是聊天機器
人發展先驅。MIT(1999)發表 Kismet 機器人,造型類似人類頭部,具有
特徵提取、動機、語言等系統來識別嬰幼兒情感,並以類似嬰兒發出聲
音的初始語言表達當下機器人所處的情感狀態(Breazeal & Scassellati,
1999)。Siri 是蘋果公司發表的 iOS 系統內建人工智慧語音助理,使用者
可透過自然語言讓手機協助完成查詢資料、設定日曆等應用軟體(Inc,
Apple, 2012)。2011 年 IBM 的 DeepQA 計劃小組開發的 WATSON(華
生),參加電視節目問答比賽並且打敗最高獎金得主。WATSON 是具有
強大運算能力的問答(Q&A)系統,可以在三秒內,搜尋系統內所包含大
量資訊如百科全書、字典等資料庫進行問題假設驗證與推翻,並回答比
賽題目(Ferrucci et al., 2010)。在 2012 年,聊天機器人 EUGENE 參與圖
靈測驗,通過率為 29.2%取得當時圖靈測試冠軍,並在 2014 年確定圖靈
測驗通過率 33%而被認定為人工智慧(Schofield, 2014)。2014 年微軟發布
人工智慧聊天機器人:小冰(XiaoIce),個性設定為 18 歲的女性。除了對
話系統以外,也包含語音助理的資訊查找、整合應用軟體功能,目前已
經發展到第六代,曾經發表由利用深度學習來讀取圖片進而生成詩歌創
作,並已具有版權(Cheng et al., 2018)。
聊天機器人到目前為止已有許多不同面向的應用,像是語音助理協
助購物(Chung et al., 2017; Shulevitz, 2018)、社交機器人陪伴使用者
(Byford, 2014; Rane, Mhatre, & Kurup, 2014; Robotics, 2016)等。
以下表 1 為人工智慧聊天機器人發展歷史彙整。
近年來市面上有許多聊天機器人發表,應用 NLP 和語音技術,以
及情感分析,使機器人表現類似人類的行為。也由於聊天機器人研究在
商務應用部分正快速開展中,因此可以快速且持續地改善對話品質的能
力是一大關鍵(Shmueli-Scheuer, Sandbank, Konopnicki, & Nakash, 2018)。

8
表 1 聊天機器人發展歷史表格

年代 研發單位 名稱 功能

TURING
1950 Alan Turing 測驗受測人類是否能判斷回答問題者為機器或是人
TEST
1964 Joseph Weizenbaum ELIZA 透過字串比對進行人機對話,聊天機器人發展先驅。

1998 MIT Kismet 表情識別、臉部情感表達。


2011 Apple SIRI 語音智慧助理,串聯應用程式。

2011 IBM WATSON 問答電腦,曾贏得 Jeopardy 競賽。

2014 Vladimir Veselov et al. EUGENE 聊天機器人,曾成功欺騙過圖靈測驗的 33%測試者。


2014 Amazon ALEXA 語音智慧助理,協助完成購物任務。

2014 MIT JIBO 語音、臉部辨識、語音互動與情感表達。


小冰
2014 Microsoft Research Asia 語音、臉部辨識、語音互動與情感表達。
(Xiaoice)
2015 Softbank PEPPER 語音、臉部辨識與情感表達。
2015 Blue Frog Robotics Buddy 語音、臉部辨識與情感表達。

2016 Microsoft TAY 聊天機器人,在社群媒體上具帳號可自動發表評論。


資料來源:本研究自行彙整

二、深度學習(Deep Learning, DL)

Deep Learning 是近年來發展出的 Machine Learning 類型,透過 deep neural


network 自動地辨識處理在資料集(data set)裡取得的特徵(Li & Lyons, 2016);
Hinton 提出深度信念網路(Deep Belief Networks)概念,透過逐層初始化
(initialize)和微調(fine-tune)權重以降低資料維度,提升特徵學習能力。伴隨
Deep Learning 在許多其他應用領域的成功,Deep Learning 在近年來也在
Sentiment Analysis 被廣泛應用(Zhang et al., 2018)。
本研究主要將探討與 NLP 密切相關的模型如 RNN、LSTM、GRU、
Seq2seq,以及基於注意力機制的序列到序列 (Attention-Based Sequence to
Sequence)。
(一) 遞迴神經網路(Recurrent Neural Network, RNN)

考慮時間序列,試圖在序列中找出特定的架構或模式(Elman, 1990)。
每一筆丟進去的序列資料,會有對應的序列標籤,並將依照時間序列將處
理訊息交給下一個神經網路,依序循環下去。Ilya提出時間序列概念是在

9
某段時間內某現象的數量變化,可按照需求切割成如秒、分、時、日、月
等單位,並作為預測判斷的基礎(Ryzhov, 2015)。
Mikolov提出基於RNN架構的語言模型(Recurrent neural network based
language model)(Tomáš Mikolov, Karafiát, Burget, Černocký, & Khudanpur,
2010),模型架構如圖3所示,模型說明如下:
1. 此網路具有1個輸入層(input layer),1個隱藏層(hidden layer/
context layer)和1個輸出層(output layer)。
2. 當文字(時間t)進入Input layer後會轉換為Vecotr(時間t),並且結合在上
一個時間狀態的context layer輸出(t-1)輸出至當下時間狀態context(t)。
3. 由於在context layer(t)保留context layer(t-1)輸出資訊,所以使得模型隨
著接續地輸出會具有更多保留的資訊,因而在context layer輸出到
output layer的時候,輸出內容前將會考量越多資訊,輸出的內容將更
符合語境。
也就是說,當Input(t)進入Context後,會合併Context(t-1)輸出到
Output(t),同時也會將Context(t)交予Context(t+1),輸出至Output(t+1)。
然而當模型隨著時間不斷推移,就會造成梯度消失(Gradient vanish)或是梯
度爆炸(Gradient explode)的現象(Bengio, Boulanger-Lewandowski, & Pascanu,
2013),因此後續發展的LSTM、GRU等模型對於hidden layer內保存的資訊透過
3個門閘(gate)進行管理。

圖 3 RNN LM 模型架構示意圖
資料來源:Tomáš Mikolov et al. (2010)

10
(二) 長短期記憶(Long Short-Term Memory,LSTM)
LSTM是RNN的變化形態,新增單元狀態(cell state)概念,以及3個gates
以保護和控制單元狀態,管理進出hidden layer的資訊流動(Hochreiter &
Schmidhuber, 1997),Sundermeyer應用該模型於NLP(Sundermeyer, Schlüter,
& Ney, 2012),概念如圖4所示。
1.門閘(gate)
(1) 遺忘閘(Forget gate): 決定需要從單元中拋棄的訊息。
(2) 輸入閘(Input gate): 決定在單元中保留下來的訊息。
(3) 輸出閘(Output gate): 決定最終輸出的訊息。
2.動作(action)
(1) ai表示為輸入動作(input action)
(1) bi表示為輸出動作(output action)
3.要素(factor)
(1) bl:對ai進行運算。
(2) bφ:對前1個隱藏層保留狀態進行運算。
(3) bω:對隱藏層輸出結果進行運算。
bl ,bφ,bω輸出範圍為係數0到1,表示接受通過程度,0表示全部
丟棄,1表示全部通過。

11
圖 4 LSTM LM 模型架構示意圖
資料來源:Sundermeyer et al. (2012)
(三) 門閘遞迴單元(Gate Recurrent Units, GRU)
GRU由Cho等人(2014)提出,與LSTM結構類似,都有gates控管資訊在隱藏
層的流動狀態,不過GRU架構上為2個gates:更新閘(Update gate)和重置閘(Reset
gate)。Update gate決定先前資訊的記憶狀態將留下多少數量傳輸至新的記憶狀
態。Reset gate則決定先前資訊記憶狀態影響新的記憶狀態的程度,也就是決定
如何將先前記憶狀態結合之後輸入資訊(Cho et al., 2014)。由於GRU的gate數量
以及架構上較LSTM簡單,因此在同樣任務上的運算量較低而具效率是其特
色。研究顯示,在情感分類任務上,GRU表現多比RNN模型出(Tang, 2015)。
(四) 雙向長短期記憶(Bidirectional Long Short-Term Memory,Bi-LSTM)
由 Graves, Jaitly, and Mohamed (2013)所提出,基本 LSTM 是前向運算
(forward propagation ),透過先前的資訊持續往後預測。雙向 LSTM 則是結合反
向運算(backward propagation )的 LSTM,也就是從文字序列的最後往前面反方
向預測。因此當預測一個詞語 X,將同時考量 X 之前與 X 之後的資訊,縮小候
選資訊的範圍,提高準確率。例如「今天身體不適,想要 X 一天」,如果僅使
用 X 前面文字判斷語意,則可能有「休息」、「請假」、「看診」等選項;但如果
將 X 後方的「一天」也納入考量,那麼 X 將會縮小範圍為「休息」、「請假」較
12
為符合語意。
(五) 雙向門閘遞迴單元(Bidirectional Gate Recurrent Units,Bi-GRU)
由Vukotić(2016)所提出,原理與Bi-LSTM相同,只是將LSTM模型更換為
GRU模型。Bi-LSTM與Bi-GRU系統架構概念如下圖5所示。文字輸入(Input)之
後,經由前處理(Preprocessing)轉換成向量,並同時將資訊透過前向LSTM/GRU
以及後向LSTM/GRU處理,接著將雙向運算取得的資訊串聯(Concatenate)並輸
出(Output)。

圖 5Bi-LSTM 與 Bi-GRU 系統架構示意圖


資料來源: 本研究自行彙整

(六) 序列對序列(Sequence to Sequence)方法


Seq2seq是來自於解決機器翻譯針對維度問題所提出的處理方法
(Sutskever, Vinyals, & Le, 2014), 基本模型是結合由兩個RNN所組成的
Encoder和Decoder。由於人與人之間對話並非每次都是完全從零開始,
往往需要考慮前後文的語境(Context),因此需要考量到時間序列,如下
圖6所示,是以輸入一個文字序列(input = abc),經由encoder向量化後成
為Vector 表示,再由decoder轉換成為文字輸出(output = xyz)。
研究者近期開始探討Deep learning開發對話系統,特別是Seq2seq模
型在處理非結構性任務(例如Open domain對話)上的結果展現出令人期待
的成果,該模型具有能從大量資料學習有意義的自然語言表達和生成策
略。(Iulian Vlad Serban et al., 2016)

13
圖 6 Sequence to sequence model 示意圖
資料來源:Sutskever et al. (2014)
(七) 注意力模型(Attention Model)
該模型聚焦於Encoder-Decoder架構內,從Encoder到Decoder之間
hidden layer的階段,當輸入文字(texts)透過Encoder轉換成Vectors時,
hidden layer內每個生成的向量將會同時計算對於後續Decoder生成文字影
響的機率分布,分配每個字的注意力大小。因此原本在hidden layer的
Vectors對於接下來Decoder生成的Texts影響力皆相同,在經過注意力機制
為每個Vectors分配注意力分布權重之後,每個在隱藏層階段的生成向量
將對生成的文字具有不同的影響力,減少過程資訊流失與生成無意義文
字的情形(Bahdanau, Cho, & Bengio, 2014)。所以注意力機制結合基於
RNN系列模型的Seq2seq架構已被應用在許多文本理解任務(Gao, Guo,
Zhang, Xu, & Shen, 2017; Kadlec, Schmid, Bajgar, & Kleindienst, 2016) 。
如下表 2,依照時間順序條列本研究進行NLP時會使用到的Deep
Learning架構方法。
表 2 本研究使用 Deep Learning 架構方法。
年代 研究者 深度學習架構方法
2006 Hinton et al. 深度信念網路(DBN)
2010 Mikolov et al. 遞迴神經網路語言模型(RNNLM)
2012 Sundermeyer et al. 長短期記憶語言模型(LSTMLM)
雙向長短期記憶(Bidirectional Long
2013 Graves et al.
Short-Term Memory, Bi-LSTM)

2014 Sutskever et al. 序列到序列(Seq2seq)

2014 D Bahdanau et al. 注意力機制(Attention mechanism)


雙向門閘遞迴單元(Bidirectional Gate
2016 Vukotić
Recurrent Units,Bi-GRU)
基於注意力長短期記憶(Attention-based
2017 Gao, L. et al.
LSTM)

資料來源: 本研究自行彙整
14
三、自然語言處理(Natural Language Processing, NLP)

NLP 領域包含 AI 與語言學,近年關注領域有 Text Mining、Conversational


Bot 等(Huang et al., 2017)。
(一) 文字探勘(Text Mining)
Text Mining 是資料探勘(Data Mining)分支領域,是在非結構或半結構
資料中取出所需資訊,透過 Text Mining 方法可以發現知識(Fayyad,
Piatetsky-Shapiro, Smyth, & Uthurusamy, 1996)。從資料集內進行資料分析來
解釋新獲取的知識,在處理自然語言時會運用像中文分詞(Chinese Word
Segmentation)方式進行資料的預處理(Pre-Processing)動作,將原始檔案轉換
為適合使用模型的格式型態。
(二) 字詞向量(Word Vector)
字詞向量(Word Vector)是把自然語言化為向量(符號數學化)的技術
(Xiao, Ye, Yu, & Lai, 2017),一般是在預處理的文字分詞階段之後進行文字
象徵轉換為詞嵌入(word embedding)的階段(Zhong et al., 2018),轉換成向量
表示之後,便可以經由計算相似度(Similarity)進行相似度分析來評估詞語
關聯性高低與否(Kato & Liu, 2017)。目前主要的向量表示如下:

1. Word2vec(Tomas Mikolov, Sutskever, Chen, Corrado, & Dean, 2013)


2. Glove(Pennington, Socher, & Manning, 2014)
3. One-hot vector(Matsunaga, 2016)
(三) 餘弦相似性(Cosine similarity)
餘弦相似性(Cosine similarity):是透過歐氏距離計算向量空間中 2 個向
量表示的維度之夾角以得知彼此相似程度(Steinbach, Karypis, & Kumar,
2000),相似度範圍為 0 到 1,夾角 0 度表示相似度為 1,夾角 90 度的話則
相似度為 0,2 個向量夾角越接近 0 度則相似度越高。兩個向量計算方式不
同可分為 Jaccard(Jaccard, 1901)、Dice(Dice, 1945)和 Cosine(Ochiai, 1957)等
相似度,因此可以透過將 2 個文字檔案轉換成向量表示後進行運算。

15
四、情感分析(Sentiment Analysis)

(一) 聊天機器人中圖像應用多於文字應用聊天機器人中
到目前為止,情感分析在機器人的相關研究中,主要是針對影像辨識
(Breazeal & Scassellati, 1999; Byford, 2014; Rane et al., 2014; Robotics,
2016),而在 NLP 領域中,非常少數是有考量到面對使用者時,對話系統
在此溝通情境下產生回覆的情緒狀態。部份原因是其中存在著許多挑戰,
包含要如何在對話系統中分類適當的情緒分類以及如何在實作上讓機器有
能力分析人類情緒的同時提供適當的回應(Zhou, Huang, Zhang, Zhu, & Liu,
2018),因此搭配情緒的對話生成為其中一個重要的課題。
(二) 聊天機器人中少討論情感分析使用的深度學習模型
搭配情感分析的對話生成研究當中,大多是探討對話系統模型(Ritter,
Cherry, & Dolan, 2011; Iulian Vlad Serban et al., 2017; Shang, Lu, & Li, 2015;
Vinyals & Le, 2015),或是關於情感要素的分析如情緒圖示(Emotional
icons){Hill, 2015 #183}鮮少討論情緒分析的模型。
(三)透過深度學習模型建立情感分類模型
本研究將透過嵌入情緒分類機制來使生成對話具有情感(Sun, Peng, et
al., 2018),並且利用深度學習模型如多層感知機(Multilayer Perceptron,
MLP)、GRU、Bi-GRU、LSTM、Bi-LSTM 模型建構情緒分類模型,在本
研究中的情緒分類包含 5 種:1.喜歡(like)、2.悲傷(sadness)、3.厭惡
(disgust)、4.憤怒(anger)、5.快樂(happiness)。

五、對話機器人競賽(Chatterbot Competitions)

(一) Amazon Alexa


Amazon Alexa 研發團隊舉辦國際大學競賽 Alexa Prize(Iulian V Serban
et al., 2018),目標是建立社會機器人(socialbot)可與人類閒聊熱門話題例如
娛樂、流行、運動、科技等。
(二) NLPCC(CCF International Conference on Natural Language

Processing and Chinese Computing)


NLPCC(CCF International Conference on Natural Language Processing
and Chinese Computing)聚焦於自然語言處理(NLP)和中文運算(CC),藉由研
討會型態聚集領域專家討論提出在研究和學術上的創新。

16
(三) LIC(Language and Intelligence Challenge)
LIC(Language and Intelligence Challenge),由中國計算機學會(CCF)
和中國中文資訊學會(CIPS)合辦,涉及領域為自然語言和 AI 相關領域
發展趨勢和研究成果,比賽項目包含機器閱讀理解、知識驅動對話和資訊
擷取等。
(四) NTCIR(NII Testbeds and Community for Information access

Research)
NTCIR 是由日本情報學研究所(NII)舉辦關於短文本對話 (Short text
conversation, STC)生成任務,針對 NLP、IR 和 Machine Learning 等不同領
域的研討會議,比賽項目除了 STC 之外尚有 QA(問答系統)和其他多種
NLP 任務。結合跨領域研究者一同研究討論自然語言對話以及提出針對課
題的看法。
1. NTCIR-12 提出 STC 任務,STC 定義為較為簡化的自然語言對話,是為
單輪(one round)對話,由人類提供貼文,接著讓電腦進行對貼文的回覆,
並且評估生成回覆是否適用於貼文語境(context)(Shang, Lu, Li, & Sakai,
2015)。
2. NTCIR-13 STC-2 任務中使用的對話系統,將生成式系統也納入考量,並
評估生成回覆是否同時符合下列條件:
(1)與貼文語意邏輯上的關聯性以及與主題相關的內容。
(2)是適切且文法順暢的自然語言回覆(Kato & Liu, 2017)。
3.NTCIR-14 STC-3 的子任務: 中文情緒對話生成(Chinese Emotional
Conversation Generation ,CECG)任務在 STC-2 定義的基礎上加進情感分
析,並依下列標準評估生成的回覆表現:
(1)情緒一致性(Emotion Consistency):生成回覆是否與貼文(Post)情緒類別
(Emotion Class)一致。
(2)相關性(Coherence):生成回覆符合與貼文邏輯上的關聯性,而且內容與
貼文主題相關。
(3)流利性(Fluency):文法順暢並且是適切的自然語言回覆。
下表 3 為聊天機器人相關競賽整理。

17
表 3 聊天機器人相關競賽整理

首屆會議 最近 競賽 官方
舉辦時間 屆次 名稱 網站

https://developer.amazon.com/alexaprize/challenges/pas
2017/11/28 03 Alexa Prize
t-challenges/2017/

2012/10/30 08 NLPCC http://tcci.ccf.org.cn/conference/2019/

1999/08/30 14 NTCIR http://research.nii.ac.jp/ntcir/index-en.html

2019/08/24 01 LIC http://lic2019.ccf.org.cn/

資料來源: 本研究自行彙整
(五)相關研究成果: 表 4 為 NTCIR 中研究者使用方法與資料以及得到評分。
表 4 不同研究者在相關比賽中所使用的架構方法與評估結果
研究者 方法 資料集 資料量 使用比賽 評估方式 評估分數
Ji et al Baseline TransLM Social media about NTCIR-12 MAP 0.654
(2014). DeepMatch TopicWord conversation 600000 STC P@1 0.637
dataset
Zhao et al. Seq2seq Weibo post- about NTCIR-13 Mean nG@1 0.5867
(2017). VAESeq2seq comment set 1.000,000 STC2 Mean P+ 0.6670
Sogo added Mean 0.7095
dataset nERR@10
Chieh et al. Seq2seq Weibo post- about NTCIR-14 Manual 0.726
(2019) default response library comment set 600000 STC3 Annotation
Day et al. 1.Retrieval Weibo post- about NTCIR-14 Manual Retrieval:
(2019) 2.Generation: comment set 600000 STC3 Annotation 0.592
Attention-based Seq2seq Generation:
Emotion classifer model 0.06
Li et al. 1.Rule-based Weibo post- about NTCIR-14 Manual Generation:
(2019) 2.Generation: comment set 600000 STC3 Annotation 0.953
Attention-based Seq2seq
資料來源: 本研究自行彙整

18
參、研究方法(Methodology of Research)

針對第一章所提研究問題(RQ)如下,本研究將透過 NLP 方法進行資料集的


前處理(Pre-processing),並將文字轉換成對話系統能夠理解的向量表示方式,
接著利用相似性方法比對貼文與回覆,取出得分最高者為候選回覆,將候選回
覆進行排序和後處理(Post-processing)以取得最終生成回覆,並且搭配情緒分析
模型使用 MLP、GRU、LSTM、Bi-GRU、Bi-LSTM,以及使用情感常用回覆,
最後交互比較評估績效。
RQ1:是否可運用目前深度學習方法建構基於生成式系統的聊天機器人並使生成
回覆品質語意一致性優於檢索式系統?
RQ2:是否可利用情感常用回覆方法加入聊天機器人,使生成回覆語意一致性獲
得提升?
RQ3:是否可利用深度學習方法如「MLP」、「GRU」、「LSTM」、「Bi-GRU」、
「Bi-LSTM」建構情感分析模型並使生成回覆符合情緒一致性?

一、研究架構(Research Architecture)

本研究使用 NTCIR-14(NII Testbeds and Community for Information access


Research)STC3(Short Text Conversation)的社群媒體(Weibo)語料庫作為訓練集來
源,並分別使用檢索式系統以及生成式系統建構對話生成模型,搭配 5 種導入
Deep Learning 架構的情緒分類模型進行分類,同時利用 EGPR 方法改善生成無
意義文字的情形。從實驗得到的結果將進行人工評測生成回覆是否能達到通情
達意且合乎語境情緒的程度。最後將比較在不同對話系統、情緒分類模型和
EGPR 方法使用與否的實驗組合所建立的實驗結果,並觀察是否改善原有模型
效能。

二、資料來源(Data Resource)

(一) 對話系統訓練集
由於 STC-3 CECG 競賽目標與本研究目標一致,因此本研究採用該語料庫
資料集作為訓練集(Training dataset),該資料集共收集了社群媒體微博(Weibo)中
600,000 組貼文及回覆組合如下表 5。
1. 本研究所建構的對話系統: 檢索式和生成式 2 種系統皆以此 600,000 筆
回文貼文組合作為訓練集。每一筆資料由貼文回文組合組成欄位如下:
貼文(post) 、貼文情緒(post emotion)、回文(response)、回文情緒
(response emotion),貼文情緒和回文情緒都各自包含 5 種情緒類別:

19
1.喜歡(like)、2.悲傷(sadness)、3.厭惡(disgust)、4.憤怒(anger)、5.快樂
(happiness)。

表 5 微博貼文回覆組合
Post Response
Post Emotion Response Emotion
爱狗还会做饭的男人,最帅了! 1(喜歡) 会做饭的男人是很帅的啊。 1(喜歡)
本来想学一把沧桑,
结果令我更忧伤。 2(悲傷) 这是一个悲伤的故事 2(悲傷)
别人再好,关我什么事;
我再不好,关别人什么事。 3(厭惡) 唉,一言难尽啊! 2(悲傷)
把车改成这样。
你们的眼里还有警察叔叔吗? 4(憤怒) 我错了,我错了。 2(悲傷)
爸爸,明天是六一啦,
带我出去玩吧! 5(快樂) 好,一定带 1(喜歡)
資料來源: NTCIR-14(2018)

2. 本研究建構的情緒分類系統則是進一步將回文和貼文組拆解為單獨的貼
文和回文,因此系統訓練集數量為獨立的貼文加上回文共有 1,200,000
筆資料。當訓練集拆解後,在欄位標示上回文皆視為貼文處理,回文情
緒皆視為貼文情緒處理,所以每一筆資料組成欄位如下: 貼文(post) 、
貼文情緒(post emotion) 如下表 6。
經過系統統計,合併後的資料集 5 種情緒貼文所佔比例如下: 喜歡
佔 18%、:悲傷佔 24%、3:厭惡佔 22%、4:憤怒佔 11%、5:快樂佔 25%。
表 6 情緒分類系統使用訓練集欄位表示
Post Post_Emotion
付出是真的会有回报的 1(喜歡)
为什么电影院不卖周边呢[眼泪] 2(悲傷)
一晚失眠,免疫力立即下降,感冒 ing[抓狂] 3(厭惡)
再不来电,大家就找不到我了[怒][愤怒] 4(憤怒)
今天大一生活结束,暑期开始,回家咯~ 5(快樂)
資料來源: 本研究

(二) 情感常用回覆訓練集
在對話系統所使用語料庫以外,本研究另外選用部分 chatterbot 所提供語料
庫(Gunthercox, 2017)及中文對話句型相關網路資源(Chinese-thai-
900.blogspot, 2012)為情感常用回覆訓練集主軸,並進一步擴充作為本研究情

20
感常用回覆訓練集,共有 1515 筆資料。此訓練集每一筆資料組成欄位如下:
情感常用回覆(EGPR) 、情感常用回覆情緒(EGPR_Emotion),情感常用回覆情緒
包含 5 種情緒類別(1:喜歡、2:悲傷、3:厭惡、4:憤怒、5:快樂)如下表 7 所
示。
表 7 情感常用回覆範例
Post Post _Emotion
很想吃多力多滋芝士味儿那个 1(喜歡)
EGPR EGPR_Emotion
我也很想吃 1(喜歡)
我也好想吃 2(悲傷)
这味道我想吃都吃不到 3(厭惡)
我每次想吃都吃不到 4(憤怒)
我吃过真的很想再吃一次 5(快樂)
資料來源: 本研究
(三) 測試集
本研究採用 STC-3 CECG 競賽提供測試集作為實驗表現評估資料集如附錄
1,包含 200 筆貼文,每則貼文皆有如上述標 5 種情緒類別標籤,每種情緒各
40 筆。本研究透過對話生成系統將每則貼文皆生成 5 種情緒類別回覆。
本研究運用對話系統訓練集進行基於檢索方式模型(Retrieval-Based Model)
和基於生成模型(Generation-Based Model)模型訓練(60 萬筆貼文回文組合),以
及情緒分類模型(Emotion Classifier Model)模型訓練(120 萬筆貼文)。並將測試集
用以評估訓練完成對話系統的效能。情感常用回覆訓練集(1515 筆)經過與測試
集進行相似度分析後的結果,將用以輔助生成式系統提升生成回覆合乎語意程
度,減少原本透過生成式系統生成回覆是無意義句子的情形。

三、資料前處理(Data Preprocessing)

(一) 資料分割
1. 本研究共有 3 組訓練集,對話系統 600,000 筆回文貼文組合訓練集,情
緒分類模型 1,200,000 筆貼文訓練集,以及情感常用回覆 1515 筆回文訓練
集。
2. 當模型進行訓練時,本研究將訓練集以八比二的比例分割成訓練模型用
途之訓練集(80%)和測試集(20%),並將分割後的訓練集再次分割出 10%為
驗證集,所以最後訓練模型資料佔總數量比例為:訓練集(72%)、 驗證集
(8%)、測試集(20%)。

21
(二) 資料分析
本研究將上述訓練集共 600,000 筆貼文回覆組合透過 python 程式語言進行
資料讀取作業,並進行貼文和回文內容的字詞頻次(frequency)計算,可以透過
詞頻比對取得對於貼文有意義的回覆。
(三) 詞向量
Seq2seq 模型在 encoder 階段時會將輸入文字轉換為向量,以便對話系統能
夠理解自然語言並且進行計算處理以及將處理結果透過 decoder 將向量轉換為
文字,本研究採用 2 個 LSTM 作為模型中的編譯器以及解譯器組成,進行文字
向量的轉換工作。

四、基於檢索方式模型(Retrieval-Based Model)

(一) Solr 檢索系統


本研究採用 solr 建構檢索系統,並匯入對話系統訓練集(60 萬筆貼文回文組
合)進行索引以及後續查詢執行。
1. Solr 是基於由 Apache 支援提供的開放資源(open source)
Lucene 所發展的全文檢索引擎。
2. 匯入資料(Import data)
solr 檢索系統內建分詞系統,因此在資料匯入後,可以針對資料進行
分詞,並建立索引(index)以便後續可以透過索引來搜尋所需資訊。由於本
研究採用之訓練集已經預先進行分詞,因此可略過分詞,直接依照檔案格
式(json)以及使用欄位(post, post emotion, response, response emotion)匯入即
可。
3.本研究依特定 schema 定義,將資料集以 json 格式檔案匯入 solr 檢索系
統。
(二) 匯入資料
資料匯入 schema 定義如圖 8,以本研究使用 60 萬筆貼文回文組合為例,
分別將貼文與貼文情緒標籤組成 1 個序列(array),回覆與回覆情緒標籤組成 1
個序列,接著在貼文與回文組成的 2 個序列之外再加上序列將貼文序列和回文
序列包含在內為 1 個貼文回文組合,最後用 1 個序列包含所有資料。1 筆資料
包含 1 個貼文回文組合,因此訓練集共有 60 萬筆資料,所以最後將有分別 60
萬個貼文序列,以及 60 萬個回文序列,並有 60 萬個包含貼文回文序列,以及
1 個包含所有資料的序列在最外圍。
(三) RESTful API
將訓練集匯入 solr 檢索系統後,接著使用 RESTful API 進行檢索策略的程
式編寫。
22
(四) 檢索策略
本研究檢索策略是結合詞頻(term frequency)分布與相似度分析(similarity
analysis)為實驗 1 如圖 8:

圖 7 檢索系統貼文回文組合匯入 Schema 定義
資料來源: NTCIR 14(2018)

圖 8 檢索系統生成回文架構圖
資料來源:本研究
1. 貼文與資料分析詞頻倒數
從資料前處理階段完成之資料分析內容查詢取得訓練集(60 萬筆貼文回
文組合)詞頻(term frequency)分布,比對輸入之 200 筆測試集貼文詞頻(post
term frequency)和資料分析所得之詞頻,接著使用倒數計算分數,並對貼文
中每一個詞組進行分數標記。
2. 貼文與回文詞頻倒數
比對貼文與 solr 系統回文詞組,從詞組中篩選出有
對應詞組者,接著將貼文與篩選後之回文進行倒數分數標記,然後取出倒
數分數相加後總數最高的前 500 筆候選回文以及對應倒數分數。

23
3. 貼文與候選回覆相似度分析
將篩選後倒數分數相加總數最高的前 500 筆候選回文與 200 筆測試集
貼文進行相似度分析(cosine similarity),得出 100,000 筆所有貼文和候選回
覆的組合與相似度分數。
4. 排序(Ranking)
先前取得貼文與候選回覆的倒數分數與相似度分數相乘得出總分,將
總分進行排序,由高到低,並從其中 5 種情緒各取出分數最高 1 筆為最終
回覆。測試集貼文共有 200 則貼文,每則貼文對應 5 筆不同情緒回覆,因
此最後將有 1000 筆貼文回覆的結果產生。

五、基於生成方式模型(Generation-Based Model)

(一) 基於注意力機制的序列到序列模型(Attention-Based Seq2Seq)


目前對話系統主要以 Seq2seq 方法建構,並且已取得相當成果(Iulian Vlad
Serban et al., 2016),因此本研究以 Seq2seq 語言模型方法為基礎,採用 2 個
LSTM 作為 encoder-decoder,並使用加入注意力機制的 Attention-based seq2seq
方法建構 STC 生成系統。
(二) 前處理階段(Preprocessing Stage)
1. 檔案格式轉換
本研究將檔案格式從 json 轉換為 csv,以利後續資料處理。
2. 停用字處理
在文本中,本身並無攜帶重要資訊,僅是因為符合文法而使用的某些
文字被稱為停用字(Ricardo, 1999; Zipf, 1932)。在進行檢索作業時,,
會將這些停用字去除以提升檢索效率,提升運算速度,以及提高檢索
的準確率(Yang, 1995)。中文停用字例如「的」 、「和」、「了」,大多是
常見但是意義不大的文字(Zou, Wang, Deng, Han, & Wang, 2006)。
本研究利用 python 程式語言套件去除對話訓練集的停用字,進行資料
清理(Data Cleaning)動作。
3. 將貼文中內容重覆超過 3 次以上文字剔除至剩下重複 3 次以內。
(三) 模型訓練階段(Model Training Stage)
1. 將前處理完成之訓練集(60 萬筆貼文回文組合)餵入生成系統進行
回覆生成模型訓練。
2. 系統參數設定:
(1) 批次訓練量(Batch_size): 即為訓練時在所有資料取用的每一批次
資料數量,本研究以 64,128 進行設定組合。
(2) 訓練次數(Epoch): 將所有資料訓練完一次為完成一個 Epoch,本
研究以 100,200 進行組合。
24
(3) 資訊丟棄比率(Dropout rate):即訓練資料在深度網路下,每次在當
下的隱藏層訓練完畢而要往下個隱藏層輸出時決定要丟棄多少當下的
資訊量,數值為 0 至 1 之間,例如 0.2 表示丟棄 20%的當下資料量。
本研究以 0.2,0.4 進行組合。
(4) 其他設定如嵌入字詞長度(embedding size)設為 100,每一隱藏層
包含神經元(hidden units)設為 256 個,優化器(optimizer)設為 adam,學
-3
習率(learning rate)設為 10 ,注意力機制類型(attention_type)設為
Bahdanau,設定參數彙整為表 8。

表 8 生成式系統參數設定

Batch size Dropout Epoch

64 0.2 100
64 0.2 200
64 0.2 220
64 0.2 250
64 0.2 500
64 0.4 100
64 0.4 200
64 0.4 220
64 0.4 250
128 0.2 100
128 0.2 150
128 0.2 200
128 0.2 220
128 0.2 250
128 0.4 100
128 0.4 150
128 0.4 200
128 0.4 220
128 0.4 250
-3
Note. Embedding size: 100; Hidden unites: 256;optimizer : adam; Learning rate: 10
資料來源: 本研究

25
(四) 測試(Testing)階段
1. 回文生成(Response generation)
將測試集共 200 筆放入已訓練好之生成式系統進行對話生成,設定從
每筆貼文各生成 1000 筆回覆,共生成 200,000 筆貼文與候選回文組合。
2. 情緒標籤(Emotion labeling)
上一步驟所生成結果共 200,000 筆組合,由於生成的候選回文此時並
無情緒標籤,因此透過情緒分類器進行情緒標籤(emotion labeling),得出
200,000 筆貼文與候選回文都包含情緒標籤的組合。
3. 相似度分析(Similarity analysis)
比對 200,000 筆組合相似度,在此採用餘弦相似度(Cosine similarity)進
行貼文和候選回文的向量相似度比對,會得出 200,000 筆貼文和候選回文
組合相似度分數。

4. 排序(Ranking)
透過相似度分數進行排序,從每句貼文取出每種情緒(共 5 種)相似度
分析分數最高分者為最終回文。因此每筆貼文對應 5 種情緒的回覆,200
筆貼文對應 5 種情緒回覆,共有 1000 句。
5. 系統架構(System Architechture):生成式系統架構如圖 9 所示。

圖 9 生成式系統架構
資料來源:本研究
26
六、情緒分類模型(Emotion Classifier Model)

(一) 情緒分類模型訓練集
本研究建構的情緒分類系統是以 STC-3 CECG 提供社群媒體語料庫作為訓
練集,即將貼文回文組合拆解合併後共有 1,200,000 筆資料。每一筆資料組成欄
位如下: 貼文(post) 、貼文情緒(post emotion),意即將回文併入貼文,回文情緒
併入貼文情緒欄位,貼文情緒包含 5 種情緒類別。如下表 9 所示,以表 6 為
例,原本 5 筆貼文、貼文情緒、回覆、回覆情緒組合將被合併成 10 筆由貼文、
貼文情緒組成的資料集。
表 9 對話資料集貼文及回覆欄位合併
Post
Post Emotion
愛狗還會做飯的男人,最帥了! 1(喜歡)
本來想學一把滄桑,結果令我更憂傷。 2(悲傷)
別人再好,關我什麼事;我再不好,關別人什麼事。 3(厭惡)
把車改成這樣。你們的眼裡還有員警叔叔嗎? 4(憤怒)
爸爸,明天是六一啦,
帶我出去玩吧! 5(快樂)
會做飯的男人是很帥的啊。 1(喜歡)
這是一個悲傷的故事 2(悲傷)
唉,一言難盡啊! 2(悲傷)
我錯了,我錯了。 2(悲傷)
好,一定帶 1(喜歡)
資料來源: 本研究自行彙整
(二) 情緒分類模型使用深度學習模型
本研究發展之情緒分類器使用深度學習模型如 MLP、GRU、Bi-GRU、
LSTM、Bi-LSTM 進行模型訓練,並將比較不同 Deep Learning 模型的訓練績
效。
(三) 模型訓練參數設定
本研究發展之情緒分類器在使用不同 Deep Learning 模型之參數設定如下:
1. 批次訓練量(Batch_size):也就是每一次在進行訓練動作時,在所有訓練資
料中取用的資料量。本研究設定為 256。
2. 資訊的丟棄比率(Dropout rate): 指資訊在神經網路隱藏層之間的移動
中,所丟棄的資料量比率,數值範圍為 0 到 1,像是 0.1 表示將丟棄原

27
有資料量 10%,保留 90%原有資訊,本研究將此參數設定為 0.1、0.2、
0.3、0.4、0.5。
3. 迭代次數 (Epoch): 表示將所有資料量完整訓練完畢的訓練次數。本研
究針對所使用的深度學習模型,共有設定參數如下
(1) MLP:10、20、30、40、50、60、70、80、90、100。
(2) GRU: 10、20、30、40、50。
(3) LSTM: 10、20、30、40、50。
(4) Bi-GRU: 5、10、15、20。
(5) Bi-LSTM: 5、10、15、20。

七、情感常用回覆(Emotion General Purpose Response, EGPR)

EGPR 是從線上資料來源選擇適合作為設定環境的常用對話回覆作為候選
回覆,並且將這些回覆餵入本研究情緒分類模型,使其具有情緒標籤,最後篩
選出共 1515 筆資料作為情感常用回覆。EGPR 範例呈現如下表 10,共有兩個欄
位:常用回覆以及對應的情緒標籤。資料敘述統計分析:字數平均數為 7.74,四分
位差(Q1)為 6,四分位差(Q3)為 9,最小值為 2,最大值為 23。
EGPR 在生成對話的改善應用方面,首先是對於給定貼文(post)會進行相似
度分析,接著排序出相似度分數最高的 EGPR 作為候選回覆,以便後續進行比
對工作;同時 post 在生成式系統內會生成貼文的候選回覆以及相似度分數。此
時將兩種候選回覆進行比對,當生成式系統的候選回覆自身相似度分數過低,
便以常用情感候選回覆取代,作為最終回覆,減少在生成系統階段發生的無意
義對話生成現象。

28
表 10 情感常用回覆範例
常用回覆 情緒標籤
我喜歡春天 1(喜歡)
我也感到快樂 1(喜歡)
這個決定好 1(喜歡)
日子難過還是得過啊 2(悲傷)
失眠是難受的 2(悲傷)
現實殘酷阿 2(悲傷)
就是這樣沒得妥協 3(厭惡)
我討厭這種感覺 3(厭惡)
所以我說結果呢 3(厭惡)
吵架怎麼不讓人失控 4(憤怒)
半夜怎麼還發生這種事? 4(憤怒)
很久沒有好好睡覺心情糟透了 4(憤怒)
真的好開心 5(快樂)
真是令人嚮往的 5(快樂)
實在是太讓人感動了 5(快樂)
資料來源: 本研究自行彙整

(一) 資料來源
本研究發展之情感常用回覆是在 chatterbot(2017)所公開之聊天語料庫以及
中文對話句型相關的網路資源內選用適當的回覆句,並在此基礎之上進行擴充
以更加試用於本研究之對話系統。目前資料量共有 1515 筆資料,欄位是由常用
回文,常用回文情緒所組成。
(二) 與測試集進行相似度分析
將情感常用回覆資料集 1515 筆回文與測試集 200 筆貼文資料進行餘弦相似
度分析,得出共 303,000 筆測試集貼文與情感常用回覆組合以及相似度分數
(三) 排序(Ranking)
將上一步驟得到的相似度分數進行排序,依照每一筆測試集貼文,在情感
常用回覆中的每一種情緒(共 5 種)中取最高者為最終測試集貼文與情感常用回
覆組合。每一筆貼文對應 5 種情緒回文,因此測試集 200 筆共對應 1000 筆回
文。
(四) 過濾(Filtering)
將排序所得到的 1000 筆回文與生成式系統所生成最終貼文回文組合 1000
筆資料進行篩選,篩選規則依照生成式系統生成貼文與回文的相似度分數進行
過濾,本研究設定如果生成式系統之最終回文與貼文相似度分數低於 0.28 則將
29
生成回文替換為情感常用回覆,因為經過觀察,此分數設定下的無意義與有意
義生成回覆比例較高。搭配生成式系統架構如下圖 10。

圖 10 生成式系統搭配 EGPR 架構
資料來源:本研究自行彙整
(五)生成式系統與情感對話生成系統的生成回覆差異
如圖 10 所示,生成式系統與 EGPR 對話生成流程皆是從給定的相同輸
入開始,生成式系統會經由 Deep Learning 模型產生回覆,生成內容無法事前
得知。EGPR 則是透過相似度分析對輸入以及 EGPR 資料集進行匹配,生成內容
範圍在資料集以內。

八、實驗設計(Experiment Design)

(一) 實驗設計
本研究共提出 2 種對話生成系統模型,5 種情緒分類模型使用到的 Deep
Learning 模型以及 1 個情感常用回覆資料集,共有 3 個主要實驗組合進行比
較,實驗結果如表 11:

30
表 11 生成式系統與情緒分類模型以及情感常用回覆實驗組合

情感常用回覆 情緒分類使用
實驗編號 對話系統架構
使用與否 深度學習模型
1 檢索式 - -
2a 生成式 否 MLP
2b 生成式 否 GRU
2c 生成式 否 LSTM
2d 生成式 否 Bi-GRU
2e 生成式 否 Bi-LSTM
3a 生成式 是 MLP
3b 生成式 是 GRU
3c 生成式 是 LSTM
3d 生成式 是 Bi-GRU
3e 生成式 是 Bi-LSTM

資料來源: 本研究
(二) 實驗流程
1. 本研究生成系統架構結合情緒分類器與情感常用回覆
依照情感常用回覆使用與否分為 2 種實驗:實驗 2 為有使用,實驗 3 則
否)。並依情緒分類模型使用深度學習模型分為 5 個次要實驗(實驗 a.b.c.d.e)
如下圖 11:

31
圖 11 生成式系統對話生成和情緒分類和情感常用回覆流程架構
資料來源: 本研究

32
肆、實驗結果與討論(Results and Discussion)

一、效能評估(Evaluation)

(一) 評估標準
1.本研究評估標準依照順序為語意符合優先,如相關性、流利性,接著確
認情緒是否符合語境來判斷並以標籤 0,1,2 給定分數,評估邏輯如圖 12
所示,評估給分範例如表 12 所示。
(1) 回覆同時符合語意以及語境情緒者表示為:2
(2) 回覆符合語意但不符合語境情緒者表示為:1
(3) 回覆不符合語意但符合語境情緒者表示為:0
(4) 回覆不符合語意也不符合語境情緒者表示為:0
(二) 評估方式
1.人工評估(manual evaluation)。

資料來源: Yaoqin Zhang and Minlie Huang(2019)

2.每一組貼文回覆都會被 3 位評議員(Annotator)評注。
3.計分方式如圖 13 所示,共有總分(Total Score)與平均分數(Average Score)
兩種分數:
(1)總分是將評註標籤為 i 的筆數 numi 乘 i,在本研究就是將標籤為 0 的
筆數乘上 0,將標籤為 1 的筆數乘上 1,以及將標籤為 2 的筆數乘 2,並且
加總上述計算結果
(2)平均分數是將總分除以總筆數 Nt 所得計算結果。

圖 12 評估邏輯迴圈演算法示意圖
資料來源: Y. Zhang and Huang (2019)

33
表 12 人工判斷給分範例
貼文 冰天雪地的哈尔滨!你要冻死我咋地?!?! 情緒類別 語意合適通順 情緒正確 分數
回覆 1 注意保暖,小心感冒啊! 快樂 完全符合 完全符合 2
回覆 2 我也想念哈尔滨了。 悲傷 完全符合 錯誤表達 1
回覆 3 那你还不给我打电话! 憤怒 不合適 完全符合 0
資料來源:NTCIR-14(2018)
(三) 自主評估(Self Evaluation)
本研究嘗試自行評估,以相同測試集 200 筆資料對照不同實驗結果效能。
1.評估標準和 STC-3 CECG 規定相同:
2.評估結果計分方式和 STC-3 CECG 規定相同。
3.肯德爾和諧係數(Kendall's coefficient of concordance, Kendall's W): 可檢驗
不同評測者之間的一致性,數值介於 0 到 1 之間(Legendre, 2005)。本研究
以此係數檢定檢驗實驗評註員間的一致性。

OverallScore = ∑2𝑖=0 ∗ 𝑛𝑢𝑚𝑖


1
AverageScore = ∑2𝑖=0 ∗ 𝑛𝑢𝑚𝑖
𝑁𝑡
圖 13 評估分數計算公式
資料來源: Yaoqin Zhang and Minlie Huang(2019)

二、情緒分類模型(Emotion Classification model)

(一) 準確度(Accuracy)
準確度(Accuracy)即計算在所有樣本中,準確預測的數值。本研究發展
之情緒分類器依照使用深度學習方法和模型訓練時不同的超參數設定來進
行實驗,實驗結果得到不同深度學習模型的準確度(Accuracy)和遺失值
(Loss)如下詳述。
1. MLP 超參數設定及績效敘述如下
(1)批次訓練量(Batch Size)設定為 256
(2)迭代次數(Epoch)設定範圍自 10 次開始,以 10 次為間隔,最高次數
達到 100 次。

34
(3)資訊丟棄比率(Dropout rate)設置範圍為: 0.1(如表 13)、0.2(如表 14)、
0.3(如表 15)、0.4(如表 16)、0.5(如表 17)。
(4)最好績效: 準確度(Accuracy)為 0.8426,Epoch 為 30 次,Dropout rate
為 0.4 如表 16 所示。
(5)將 MLP 不同超參數設定所得準確度彙整比較如圖 14。

表 13 情緒分類器模型使用 MLP 訓練實驗結果之一

Epoch Accuracy Loss

10 0.837 0.459
20 0.836 0.508
30 0.834 0.554
40 0.833 0.581
50 0.834 0.603
60 0.831 0.626
70 0.832 0.641
80 0.832 0.655
90 0.832 0.667
100 0.833 0.667
Note. Deep Learning Model: MLP; Batch size: 256;Dropout rate: 0.1
資料來源:本研究自行彙整

表 14 情緒分類器模型使用 MLP 訓練實驗結果之二

Epoch Accuracy Loss

10 0.838 0.448
20 0.837 0.476
30 0.838 0.498
40 0.838 0.514
50 0.838 0.528
60 0.837 0.541
70 0.839 0.553
80 0.839 0.562
90 0.839 0.569
100 0.838 0.574
Note. Deep Learning Model: MLP; Batch size: 256;Dropout rate: 0.2
資料來源:本研究自行彙整
35
表 15 情緒分類器模型使用 MLP 訓練實驗結果之三

Epoch Accuracy Loss


10 0.839 0.441
20 0.840 0.453
30 0.840 0.467
40 0.840 0.477
50 0.840 0.488
60 0.840 0.495
70 0.841 0.503
80 0.840 0.510
90 0.841 0.515
100 0.841 0.519

Note. Deep Learning Model: MLP; Batch size: 256;Dropout rate: 0.3
資料來源:本研究自行彙整

表 16 情緒分類器模型使用 MLP 訓練實驗結果之四

Epoch Accuracy Loss


10 0.838 0.439
20 0.841 0.444
30 0.843 0.451
40 0.842 0.457
50 0.843 0.465
60 0.843 0.470
70 0.842 0.476
80 0.843 0.480
90 0.843 0.485
100 0.842 0.482

Note. Deep Learning Model: MLP; Batch size: 256;Dropout rate: 0.4
資料來源:本研究自行彙整

36
表 17 情緒分類器模型使用 MLP 訓練實驗結果之五

Epoch Accuracy Loss


10 0.838 0.438
20 0.840 0.438
30 0.841 0.443
40 0.841 0.446
50 0.842 0.450
60 0.842 0.452
70 0.842 0.457
80 0.843 0.460
90 0.843 0.463
100 0.842 0.462
Note. Deep Learning Model: MLP; Batch size: 256;Dropout rate: 0.5
資料來源:本研究自行彙整

圖 14 在不同超參數設置下使用 MLP 訓練的情緒分類模型準確度比較

資料來源:本研究自行彙整

2. GRU 超參數設定及績效敘述如下
(1)批次訓練量(Batch Size)設定為 256

37
(2)迭代次數(Epoch)設定範圍自 10 次開始,以 10 次為間隔,最高次數
達到 100 次。
(3)資訊丟棄比率(Dropout rate)設置範圍為: 0.1、0.2、0.3、0.4、0.5。
(4)最好績效: 準確度(Accuracy)為 0.872,Epoch 為 20 次,Dropout rate
為 0.4 如表 18 所示。
(5)將 GRU 不同超參數設定所得準確度彙整比較如圖 15 所示。

表 18 情緒分類器模型使用 GRU 訓練實驗結果

Dropout Epoch Accuracy Loss


0.1 10 0.873 0.353
0.1 20 0.874 0.353
0.1 30 0.874 0.353
0.1 40 0.873 0.355
0.1 50 0.874 0.352
0.2 10 0.871 0.357
0.2 20 0.873 0.355
0.2 30 0.873 0.354
0.2 40 0.873 0.355
0.2 50 0.874 0.354
0.3 10 0.871 0.356
0.3 20 0.871 0.359
0.3 30 0.870 0.361
0.3 40 0.871 0.359
0.3 50 0.873 0.353
0.4 10 0.870 0.360
0.4 20 0.872 0.356
0.4 30 0.872 0.356
0.4 40 0.871 0.359
0.4 50 0.873 0.357
0.5 10 0.871 0.358
0.5 20 0.873 0.356
0.5 30 0.873 0.358
0.5 40 0.873 0.357
0.5 50 0.872 0.356
Note. Deep Learning Model: GRU; Batch size: 256

38
資料來源:本研究自行彙整

圖 15 在不同超參數設置下使用 GRU 訓練的情緒分類模型準確度比較


資料來源:本研究自行彙整

3. LSTM 超參數設定及績效敘述如下
(1)批次訓練量(Batch Size)設定為 256
(2)迭代次數(Epoch)設定範圍自 10 次開始,以 10 次為間隔,最高次數
達到 50 次。
(3)資訊丟棄比率(Dropout rate)設置範圍為: 0.1、0.2、0.3、0.4、0.5。
(4)最好績效: 準確度(Accuracy)為 0.879,Epoch 為 20 次,Dropout rate
為 0.1,如表 19 所示。
(5)將 GRU 不同超參數設定所得準確度彙整比較如圖 16 所示。

39
表 19 情緒分類器模型使用 LSTM 訓練實驗結果
Dropout Epoch Accuracy Loss
0.1 22 0.877 0.345
0.1 20 0.879 0.335
0.1 30 0.878 0.339
0.1 40 0.878 0.342
0.1 50 0.878 0.345
0.2 10 0.874 0.346
0.2 20 0.876 0.344
0.2 30 0.877 0.345
0.2 40 0.877 0.347
0.2 50 0.877 0.345
0.3 10 0.876 0.339
0.3 20 0.877 0.340
0.3 30 0.877 0.341
0.3 40 0.878 0.340
0.3 50 0.877 0.344
0.4 10 0.873 0.347
0.4 20 0.875 0.346
0.4 30 0.876 0.347
0.4 40 0.876 0.346
0.4 50 0.876 0.347
0.5 10 0.872 0.348
0.5 20 0.874 0.346
0.5 30 0.874 0.346
0.5 40 0.874 0.347
0.5 50 0.876 0.348
Note. Deep Learning Model: LSTM; Batch size: 256
資料來源:本研究自行彙整

40
圖 16 在不同超參數設置下使用 LSTM 訓練的情緒分類模型準確度比較
資料來源:本研究自行彙整

4. Bi-GRU 超參數設定及績效敘述如下
(1)批次訓練量(Batch Size)設定為 256
(2)迭代次數(Epoch)設定範圍自 5 次開始,以 5 次為間隔,最高次數達
到 20 次。
(3)資訊丟棄比率(Dropout rate)設置範圍為: 0.1、0.2、0.3、0.4、0.5。
(4)最好績效: 準確度(Accuracy)為 0.880,Epoch 為 15 次,Dropout rate
為 0.5 如表 20 所示。
(5)將 MLP 不同超參數設定所得準確度彙整比較如圖 17。

41
表 20 情緒分類器模型使用 Bi-GRU 訓練實驗結果
Dropout Epoch Accuracy Loss
0.1 5 0.872 0.350
0.1 10 0.871 0.364
0.1 15 0.872 0.425
0.1 20 0.869 0.488
0.2 5 0.873 0.342
0.2 10 0.876 0.347
0.2 15 0.876 0.368
0.2 20 0.874 0.394
0.3 5 0.873 0.342
0.3 10 0.876 0.347
0.3 15 0.876 0.369
0.3 20 0.875 0.393
0.4 5 0.871 0.356
0.4 10 0.872 0.355
0.4 15 0.874 0.352
0.4 20 0.874 0.352
0.5 5 0.874 0..339
0.5 10 0.878 0.331
0.5 15 0.880 0.333
0.5 20 0.879 0.349
Note. Deep Learning Model: Bi-GRU; Batch size: 256
資料來源:本研究自行彙整

圖 17 在不同超參數設置下使用 Bi-GRU 訓練的情緒分類模型準確度比較


資料來源:本研究自行彙整

42
5. Bi-LSTM 超參數設定及績效敘述如下
(1)批次訓練量(Batch Size)設定為 256
(2)迭代次數(Epoch)設定範圍自 5 次開始,以 5 次為間隔,最高次數達
到 20 次。
(3)資訊丟棄比率(Dropout rate)設置範圍為: 0.1、0.2、0.3、0.4、0.5。
(4)最好績效: 準確度(Accuracy)為 0.879,Epoch 為 10 次,Dropout rate
為 0.4 如表 21 所示。
(5)將 MLP 不同超參數設定所得準確度彙整比較如圖 18。
表 21 情緒分類器模型 Bi-LSTM 訓練實驗結果(Bi-LSTM)

Dropout Epoch Accuracy Loss


0.1 5 0.873 0.344
0.1 10 0.874 0.363
0.1 15 0.872 0.443
0.1 20 0.871 0.511
0.2 5 0.876 0.336
0.2 10 0.879 0.353
0.2 15 0.876 0.403
0.2 20 0.874 0.445
0.3 5 0.876 0.336
0.3 10 0.879 0.341
0.3 15 0.878 0.367
0.3 20 0.878 0.369
0.4 5 0.877 0.331
0.4 10 0.879 0.335
0.4 15 0.879 0.349
0.4 20 0.880 0.365
0.5 5 0.873 0.337
0.5 10 0.875 0.341
0.5 15 0.878 0.343
0.5 20 0.879 0.350
Note. Deep Learning Model: Bi-LSTM; Batch size: 256
資料來源:本研究自行彙整

43
圖 18 在不同超參數設置下使用 Bi-LSTM 訓練的情緒分類模型準確度比較
資料來源:本研究自行彙整

6. 將上述模型最佳實驗結果與參數配置彙整如表 22,Accuracy 比較如圖


19 所示。

表 22 情緒分類模型搭配深度學習訓練最佳實驗結果參數配置
DL model Batchsize Dropout Epoch Accuracy Loss
Bi-GRU 256 0.5 15 0.880 0.333
Bi-LSTM 256 0.4 10 0.879 0.335
LSTM 256 0.1 20 0.879 0.335
GRU 256 0.4 20 0.872 0.356
MLP 256 0.4 30 0.843 0.451
資料來源:本研究自行彙整

44
圖 19 情緒分類模型搭配深度學習訓練結果準確度(Accuracy)的比較
資料來源:本研究自行彙整

(二) 模型績效評估

情緒分類器 Emotion Prediction 使用不同 Deep Learning 方法的績效評估圖


如下各圖所示。評估方式是計算在正確的情緒分類結果中,預測正確情緒的機
率,例如系統在 100 筆正確情緒貼文中預測正確情緒計有 82 筆,則評估結果為
0.82,數值範圍在 0 到 1 之間。因此系統預測每種情緒所得到正確分類的評估
結果以矩陣圖形呈現,以下詳述不同深度學習模型在不同情緒的表現。
1. MLP: 如圖 20 所示,1(喜歡): 0.82;2(悲傷): 0.86; 3.(厭惡): 0.84; 4(憤
怒):0.70;5(快樂):0.88。。

圖 20 Emotion Prediction Accuracy(MLP)績效評估示意圖


資料來源:本研究自行彙整
45
2. GRU:如圖 21 所示,1(喜歡): 0.89; 2(悲傷): 0.91; 3(厭惡): 0.87; 4(憤
怒):0.76; 5(快樂):0.89。

圖 21 Emotion Prediction Accuracy(GRU)績效評估示意圖


資料來源:本研究自行彙整

3. LSTM:如圖 22 所示,1(喜歡): 0.89; 2(悲傷): 0.90; 3(厭惡): 0.88; 4(憤


怒):0.78; 5(快樂):0.89。

圖 22 Emotion Prediction Accuracy(LSTM)績效評估示意圖


資料來源:本研究自行彙整

46
4. Bi-GRU 如圖 23 所示,1(喜歡): 0.88; 2(悲傷): 0.90; 3(厭惡): 0.86; 4(憤
怒):0.80; 5(快樂):0.91。

圖 23 Emotion Prediction Accuracy(Bi-GRU)績效評估示意圖


資料來源:本研究自行彙整

5. Bi-LSTM 如圖 23 所示,1(喜歡): 0.89; 2(悲傷): 0.92; 3(厭惡): 0.88; 4(憤


怒):0.77; 5(快樂):0.89。

圖 24 Emotion Prediction Accuracy(Bi-LSTM)績效評估示意圖


資料來源:本研究自行彙整

47
6. 將上述 5 種 Deep Learning 模型對於 5 種情緒的預測準確性結果彙整如
表 23,欄位說明如下:
(1)Deep Learning Model:共採用 5 種 Deep Learning 模型進行訓練,分別
是 MLP、GRU、LSTM、Bi-GRU、Bi-LSTM。
(2)Emotion Catogories:本研究將情緒分類為喜歡(Like)、悲傷(Sadness)、
厭惡(Disgust)、憤怒(Anger),以及快樂(Happiness)等 5 種情緒。
表 23 5 種深度學習模型對於 5 種情緒預測準確性
Deep Emotion Catogories
Learning Like Sadness Disgust Anger Happiness
Model
MLP 0.82 0.86 0.84 0.70 0.88

GRU 0.89 0.91 0.87 0.76 0.89

LSTM 0.89 0.90 0.88 0.78 0.89

Bi-GRU 0.88 0.90 0.86 0.80 0.91

Bi-LSTM 0.89 0.92 0.88 0.77 0.89

資料來源:本研究自行彙整

48
三、基於檢索方式模型(Retrieval-Based Model)

(一) 檢索系統評估結果(Retrieval System Evaluation Results)


1. 實驗 1 評估結果如表 24 所示,欄位依序說明如下:
(1)評估結果(Result):共 2 筆, Evaluation result 為第一批次評註員評註結
果,Self-Evaluation 表示為後續本研究第二批次評註員自主評估結果。
(2)實驗編號 ExID:表示實驗組合編號。
(3)聊天機器人系統(Chatterbot System): 指系統建構所採用的方法,實驗 1
採取檢索式(Retrieval)系統進行實驗。
(4)評註標籤(Label 0/Label 1/ Label 2):指實驗中分別取得評註標籤為 0、1、
2 的筆數。
(5)提交結果總筆數(Total):即測試集 200 筆資料在實驗 1 的檢索式系統中檢
索所得的筆數,每筆測試集資料對應 5 筆回覆,總共取得 1000 筆回覆。
(6)總分數(Overall score ): 即依照評估方式取得的分數,總分為 2000 分。
(7)平均分數(Average score): 將總分數除以總筆數,即可得到平均分數。
(8)肯德爾和諧係數(Kendall’s W test):本研究以此係數評估自主評估的評測
員間一致性,數值範圍是 0 到 1。
表 24 實驗 1 評估結果
Chatterbot Label Label Label Overall Average Kendall’s
Result ExID System 0 1 2 Total score score W test
Evaluation
1 Retrieval 716 200 84 1000 368 0.368 n/a
result
Self-
1 Retrieval 560 208 195 1000 598 0.598 0.896
Evaluation
資料來源:本研究自行彙整

四、基於生成方式模型(Generation-Based Model)

(一) 訓練模型評估(Evaluation of Training Model)


所有生成式系統訓練組合及資料遺失值(Loss)結果如下表 25。結果顯
示當對話系統設定組合如下的情形可達到最低的資訊遺失值(Loss=2.781),
因此採用此一設定:Batch size = 64,Epoch = 220,Dropout rate = 0.4。

49
表 25 生成式系統訓練組合及資料遺失值(Loss)結果
Batchsize Epoch Dropout Loss
64 100 0.2 3.250
64 150 0.2 2.915
64 200 0.2 2.903
64 220 0.2 2.893
64 250 0.2 2.895
64 100 0.2 2.887
64 150 0.4 2.800
64 200 0.4 2.781
64 220 0.4 2.781
64 250 0.4 3.110
128 100 0.2 3.130
128 150 0.2 2.994
128 200 0.2 2.863
128 220 0.2 2.838
128 250 0.2 2.858
128 100 0.4 3.115
128 150 0.4 2.994
128 200 0.4 2.841
128 220 0.4 2.838
128 250 0.4 2.858
-3
Note. Embedding size: 100; Hidden unites: 256;optimizer : adam; Learning rate: 10
資料來源:本研究自行彙整

(二) 生成模型評估結果(Generative Model Evaluation Results)


1. 生成式系統評估結果如表 26 所示,欄位依序說明如下:
(1)實驗編號 ExID:表示實驗組合編號。本研究生成式系統共分為 2 個主要
實驗: 實驗 2、實驗 3,以及 5 個次要實驗:實驗 a、b、c、d、e。
a. 主要實驗: 指生成式系統中無使用 EGPR 的實驗,無採取者為
實驗 2,採取者為實驗 3。
b. 次要實驗: 指生成式系統中搭配的情緒模型所採取的深度學習
模型。依序為 a:MLP,b:GRU,c:LSTM,d: Bi-GRU,以及
e:Bi-LSTM。
(2)情感常用回覆(EGPR): 表示是否採用 EGPR,共有是(Yes)與否(No)。

50
(3) DL model:在生成式模型中,情感模型所採用的 Deep Learning model,
共有 MLP,GRU,LSTM,Bi-GRU,Bi-LSTM 5 種。
(4)評註標籤(Label 0/Label 1/ Label 2):指實驗中分別取得評註標籤為 0、1、
2 的筆數。
(5)提交結果總筆數(Total):即測試集 200 筆資料在生成式系統中所得的筆
數,每筆測試集資料最終生成 5 筆回覆,總共取得 1000 筆回覆。
(6)總分數(Overall score ): 即依照評估方式取得的分數,總分為 2000 分。
(7)平均分數(Average score): 將總分數除以總筆數,即可得到平均分數。
(8)肯德爾和諧係數(Kendall’s W test):本研究以此係數評估自主評估的評測
員間一致性,數值範圍是 0 到 1。

表 26 生成模型產生回覆自主評測結果
Label Label Label Overall Average Kendall’s
ExID EGPR DLmodel 0 1 2 Total Score Score W test
2a No MLP 873 85 42 200 169 0.169 0.731

2b No GRU 855 69 76 1000 221 0.221 0.839

2c No LSTM 864 77 65 1000 207 0.207 0.757

2d No Bi-GRU 860 72 68 1000 208 0.208 0.863

2e No Bi-LSTM 857 84 59 1000 202 0.202 0.817

3a Yes MLP 808 124 68 1000 260 0.260 0.781

3b Yes GRU 756 77 167 1000 411 0.411 0.86

3c Yes LSTM 749 89 162 1000 413 0.413 0.898

3d Yes Bi-GRU 727 111 162 1000 435 0.435 0.876

3e Yes Bi-LSTM 753 75 172 1000 419 0.419 0.876


Note. Result: Self-Evaluation; Chatterbot System: Generation-based
資料來源:本研究自行彙整

51
五、實驗討論(Discussion)

(一)測試集發現重複題項
本研究發現測試集有題型重複的情形,當對話系統生成回覆時,由於接下
來的題目相同,因此按照原先程式所設定會將 2 個相同題目僅挑出 1 個並
生成回覆,於是造成其中幾個題項沒有生成回覆的情形如下表 27。

表 27 測試集內容相同測試題項
Number Post Emotion
81 這兩個星期,心情很壓抑…[悲傷][悲傷] 2
82 這兩個星期,心情很壓抑…[悲傷][悲傷] 2
131 好,去西門狠狠的吃一頓,嘿嘿嘿 1
132 好,去西門狠狠的吃一頓,嘿嘿嘿 1
176 今天值班下班之後要去做紅娘嘻嘻~~~~希望可以成功哈 5
177 今天值班下班之後要去做紅娘嘻嘻~~~~希望可以成功哈 5
資料來源:本研究自行彙整

(二)實驗結果比較
本研究透過對話系統建構方式進行實驗設計,實驗 1 為 Retrieval-Based
system 實驗 2 為 Generation-Based system。並在此基礎上將搭配 Generation-
based system 的情緒分類模型使用 5 種 Deep Learning 模型分為共 5 個次要實驗
(a、b、c、d、e),分別為 MLP、GRU、LSTM、Bi-GRU。同樣在搭配
Generation-based system 使用的 EGPR 使用與否對照為實驗 3。所有實驗結果比
較如下表 28。
1.結果顯示實驗 1 的評估分數總分以及分別計分為 1(符合語意)及 2(同時符
合語意及情緒)情況下皆為所有實驗中最高,
2.在生成式系統中,實驗 3 各項結果表現皆比對應的實驗 2 結果要好,例
如實驗 3a 結果優於實驗 2a,即使用 EGPR 者得到的評估表現較好。
3. 在生成式系統中,情緒分類模型使用的 5 種深度學習模型在實驗中表現
以實驗 3d 的表現最好,即採用 Bi-GRU 作為深度學習模型效果較佳。其次
依序為 Bi-LSTM,LSTM,GRU,MLP。

52
表 28 本研究所有對話系統、情緒分類模型與情感常用回覆方法實驗組合

Chatterbot Label Label Label Overall Average


Result Experiment System EGPR DLmodel 0 1 2 Total Score Score
Evaluation
1 Retrieval N/A N/A 716 200 84 1000 368 0.368
Result
Self-
1 Retrieval N/A N/A 560 208 195 1000 598 0.598
Evaluation

Self-Evaluation 2a Generation No MLP 873 85 42 200 169 0.169

Self-Evaluation 2b Generation No GRU 855 69 76 1000 221 0.221

Self-Evaluation 2c Generation No LSTM 864 77 65 1000 207 0.207

Self-Evaluation 2d Generation No Bi-GRU 860 72 68 1000 208 0.208

Bi-
2e Generation No 857 84 59 1000 202 0.202
Self-Evaluation LSTM

Self-Evaluation 3a Generation Yes MLP 808 124 68 1000 260 0.26

Self-Evaluation 3b Generation Yes GRU 756 77 167 1000 411 0.411

Self-Evaluation 3c Generation Yes LSTM 749 89 162 1000 413 0.413

Self-
3d Generation Yes Bi-GRU 727 111 162 1000 435 0.435
Evaluation
Bi-
3e Generation Yes 753 75 172 1000 419 0.419
Self-Evaluation LSTM

資料來源:本研究自行彙整

4.在生成式系統中,從情緒分類模型採用的 5 種 Deep Learning 模型在 5


種情緒下取得的分數分布如下表 29,可以從中得知在所有生成式實驗中,
憤怒(Anger)情緒取得分數多為最低(10 筆中有 9 筆),而喜歡(Like)與快
樂(Happiness)取得分數多為最高(10 筆中喜歡情緒佔 6 筆,快樂情緒佔 3
筆)。

53
表 29 生成式系統採用 5 種深度學習模型在 5 種情緒下取得的分數分布
ExID EGPR DLmodel Like Sadness Disgust Anger Happiness Total

2a No MLP 35 42 31 29 32 169
2b No GRU 64 44 30 24 59 221
2c No LSTM 55 31 33 43 46 208
2d No Bi-GRU 52 49 39 28 39 207
2e No Bi-LSTM 50 42 40 31 39 202
3a Yes MLP 61 57 44 35 63 260
3b Yes GRU 87 91 78 63 92 411
3c Yes LSTM 86 82 76 85 84 413
3d Yes Bi-GRU 94 92 88 66 95 435
3e Yes Bi-LSTM 103 66 85 73 92 419

資料來源:本研究自行彙整

54
伍、結論(Conclusions)

一、研究發現

本研究透過 Attention-Based Seq2seq 方法生成回覆,並搭配分別用 5 種


Deep Learnign 方法訓練的情緒分類模型標籤情緒,來嘗試使生成回覆具有多樣
性,不過仍會有不少生成結果是得到相同的回覆,或是不符合語境回覆的情
況。因此在原先的訓練集以外,使用 EGPR,在生成模型產出之回覆與貼文之
相似度值低時進行替換,來減少上述問題情形。實驗評測結果顯示搭配 EGPR
之 Generation-based system 生成回覆結果的確得到改善。以下就第一章研究問題
問題(Research Question, RQ),進行實驗後結果觀察敘述:
(一)研究問題
1.RQ1:是否可運用不同深度學習方法建構基於生成式系統的聊天機器人並
使生成回覆品質語意一致性優於檢索式系統?
2.RQ2:是否可利用情感常用回覆方法加入聊天機器人系統並使生成回覆語
意一致性提升?
3.RQ3:是否可利用深度學習方法如「MLP」、「GRU」、「LSTM」、「Bi-
GRU」、「Bi-LSTM」建構情感分析模型並使生成回覆符合情緒一致性?
(二)實驗結果
1.RQ1 實驗結果:在目前採用相同的資料集的情況下,本研究所採用檢索式
系統 Solr 績效呈現較優於使用 Attntion-based Seq2seq 搭配情緒分類模型以
及 EGPR 的生成式系統。不過研究結果顯示運用深度學習方法建構情緒分
類模型有不同程度的績效改善,以 BiGRU 表現最佳。同時搭配情緒分類系
統以及情感常用回覆的話將能讓評估分數更為接近本研究所採用 Solr 生成
結果。
2.RQ2 實驗結果:由本研究實驗結果比較實驗 2 與實驗 3,也就是有搭配使
用 EGPR 方法(實驗 3)者是否有改善原先沒搭配者的生成結果(實驗 2),研
究結果顯示,利用 EGPR 方法的實驗 3 的 5 個次要實驗分別比沒有使用
EGPR 方法的實驗 2 次要實驗分數高(例如實驗 3a 優於 2a)。因此本研究推
論可利用 EGPR 方法加入聊天機器人系統並使生成回覆語意一致性提升。
3.RQ3 實驗結果:由本研究實驗結果顯示,可利用深度學習方法如
「MLP」、「GRU」、「LSTM」、「Bi-GRU」、「Bi-LSTM」建構情感分析模型
並使生成回覆符合情緒一致性,並以 Bi-GRU 深度學習模型評估績效最
高,取得 Label2(同時符合語意及情緒一致性)達至 162 筆(共有 1000 筆),
依分數順序接下來為 Bi-LSTM、LSTM、GRU、MLP 等模型。

55
二、研究貢獻(Contribution)

本研究提出 Retrieval-Based 和 Generation-Based 兩種系統對於社群媒體語


料庫進行對話生成。主要貢獻如下:
(一)比較情感分析採用深度學習模型
本研究使用情緒分類模型(EmotionClassifier model)應用以下 Deep Learning
方法: 「MLP」、「GRU」、「LSTM」、「Bi-GRU」、「Bi-LSTM」進行模型建
構與績效比較,結果顯示情緒分類模型使用的 5 種深度學習模型,在實驗
中表現以採用 Bi-GRU 作為深度學習模型效果最佳。其次依序為:
Bi-LSTM,LSTM,GRU,MLP。
(二)本研究提出情感常用回覆方法
本研究在對話系統的生成後續處理,提出 EGPR 資料集,在生成式系統針
對貼文產生回覆的同時,EGPR 也對於貼文產生配對的情感常用回覆,並且
條件性替換原有生成回覆,提高原有生成模型回覆準確性,在生成回覆的
豐富性與應答準確性之間尋找平衡點。

三、研究限制與未來研究建議

(一) 研究限制
關於研究限制,本研究歸納出以下幾項:
1. 本研究採用的 STC-3 對話資料集,每句對話的情感標註情形是混雜的
(noisy),並非完全正確,而且不同情緒之間的佔比並不平衡。因此採用
該資料集進行情感標籤的訓練,將可能影響到訓練完成模型標註情感的
預測正確程度,以及不同情緒之間的準確性。
2. 研究實驗主要聚焦於情緒分類模型,透過採用不同深度學習架構來改善
生成對話合乎語境的語意和情緒。但是在生成模型的改善尚有其他嘗試
的可能性。
(二) 未來研究建議
在未來改善方向的建議如下所述:
1. 對話模型部分或許可以採用 seqGAN(Sun, Chen, Pei, & Ren, 2018)或是嘗
試在神經網路中遷入主題層提高語意主題擷取能力(Wu, Wu, Li, & Zhou,
2016)。實驗操作方面或許可以嘗試在訓練對話系統時,將原先每句給
定貼文產生 1000 句回覆的數量提高至 5000 至 7000 來提高回覆與貼文
的相似度分數(Day et al, 2019)

56
2. 情感常用回覆可以依照更多常用情境擴增資料觀察看看是否能夠提高準
確率,或是嘗試其他預設回應語料庫( Chieh et al, 2019)。
3. 情緒分類模型的建立或許可以嘗試 Google 所提出的 Bidirectional
Encoder Representations from Transformers(BERT)來建構,或是在訓練階
段將原先進行訓練的資料集先將情緒標籤去除再進行訓練( Chieh et al,
2019),抑或是透過特徵擷取從給定貼文取出設定的情感詞彙(Li et al,
2019),來減少資料本身雜訊(noise),並進一步比較效能是否能改善。

57
參考文獻(References)

Agrawal, P., Suri, A., & Menon, T. (2018). A Trustworthy, Responsible and
Interpretable System to Handle Chit-Chat in Conversational Bots. arXiv
preprint arXiv:1811.07600.
Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly
learning to align and translate. arXiv preprint arXiv:1409.0473.
Bengio, Y., Boulanger-Lewandowski, N., & Pascanu, R. (2013). Advances in
optimizing recurrent networks. Paper presented at the 2013 IEEE International
Conference on Acoustics, Speech and Signal Processing.
Berglund, F. (2017). Chatbots as Interaction Modality: An Explorative Design Study
on Elderly Classical Music Concert Subscribers.
Breazeal, C., & Scassellati, B. (1999). A context-dependent attention system for a
social robot. rn, 255, 3.
Byford, S. (2014). SoftBank announces emotional robots to staff its stores and watch
your baby.
Cavallo, F., Semeraro, F., Fiorini, L., Magyar, G., Sinčák, P., & Dario, P. (2018).
Emotion modelling for social robotics applications: a review. Journal of
Bionic Engineering, 15(2), 185-203.
Chakraborty, K., Bhattacharyya, S., Bag, R., & Hassanien, A. A. (2018). Sentiment
Analysis on a Set of Movie Reviews Using Deep Learning Techniques. Social
Network Analytics: Computational Research Methods and Techniques, 127.
Cheng, W.-F., Wu, C.-C., Song, R., Fu, J., Xie, X., & Nie, J.-Y. (2018). Image inspired
poetry generation in xiaoice. arXiv preprint arXiv:1808.03090.
Chinese-thai-900.blogspot.(2012).http://chinese-thai-900.blogspot.com/

Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk,
H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-
decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.
Chung, H., Iorga, M., Voas, J., & Lee, S. (2017). Alexa, can I trust you? Computer,
50(9), 100-104.
Deryugina, O. (2010). Chatterbots. Scientific and Technical Information Processing,
37(2), 143-147.
Dice, L. R. (1945). Measures of the amount of ecologic association between species.
Ecology, 26(3), 297-302.
Elman, J. L. (1990). Finding structure in time. Cognitive science, 14(2), 179-211.
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances
58
in knowledge discovery and data mining.
Ferrucci, D.,Brown, E., Chu-CarrollJ. J. Fan, J., Gondek, D., Kalyanpur, A., Lally, A.,
Murdock, J. W., Nyberg, E., Prager, J., et al. (2010). Building Watson: An
overview of the DeepQA project. AI magazine, 31(3), 59-79.
Gao, L., Guo, Z., Zhang, H., Xu, X., & Shen, H. T. (2017). Video captioning with
attention-based LSTM and semantic consistency. IEEE Transactions on
Multimedia, 19(9), 2045-2055.
GlobalStats, S. (2016). Mobile and tablet internet usage exceeds desktop for first time
worldwide. ht_tp://gs. statcounter. com/press/mobile-and-tablet-internet-
usageexceeds-desktop-for-first-time-worldwide.
Graves, A., Jaitly, N., & Mohamed, A.-r. (2013). Hybrid speech recognition with deep
bidirectional LSTM. Paper presented at the 2013 IEEE workshop on automatic
speech recognition and understanding.
Gunthercox.(2017). chatterbot-corpus: https://github.com/gunthercox/chatterbot-
corpus.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural
computation, 9(8), 1735-1780.
Huang, M., Ye, Z., & Zhou, H. (2017). Overview of the NLPCC 2017 Shared Task:
Emotion Generation Challenge. Paper presented at the National CCF
Conference on Natural Language Processing and Chinese Computing.
Intelligence, B. I. (2016). Messaging apps are now bigger than social networks.
Business Insider, 20.
Jaccard, P. (1901). Étude comparative de la distribution florale dans une portion des
Alpes et des Jura. Bull Soc Vaudoise Sci Nat, 37, 547-579.
Kadlec, R., Schmid, M., Bajgar, O., & Kleindienst, J. (2016). Text understanding with
the attention sum reader network. arXiv preprint arXiv:1603.01547.
Kasinathan, V., Mustapha, A., Siow, S., & Hopman, M. (2018). TicTad: A Chatterbot
for Learning Visual C# Programming based on Expert System. Indonesian
Journal of Electrical Engineering and Computer Science, 11(2), 740-746.
Kato, M. P., & Liu, Y. (2017). Overview of NTCIR-13. Paper presented at the
Proceedings of the NTCIR-13 Conference.
Kerlyl, A., Hall, P., & Bull, S. (2006). Bringing chatbots into education: Towards
natural language negotiation of open learner models. Paper presented at the
International Conference on Innovative Techniques and Applications of
Artificial Intelligence.
Legendre, P. (2005). Species associations: the Kendall coefficient of concordance
revisited. Journal of agricultural, biological, and environmental statistics,
10(2), 226.

59
Li, Y., & Lyons, K. (2016). Word representation using a deep neural network. Paper
presented at the Proceedings of the 26th Annual International Conference on
Computer Science and Software Engineering.

Matsunaga, Y. (2016). Accelerating sat-based boolean matching for heterogeneous


fpgas using one-hot encoding and cegar technique. IEICE Transactions on
Fundamentals of Electronics, Communications and Computer Sciences, 99(7),
1374-1380.
Messina, C. (2016). 2016 will be the year of conversational commerce. Medium [Web
log post].
Mikolov, T., Karafiát, M., Burget, L., Černocký, J., & Khudanpur, S. (2010).
Recurrent neural network based language model. Paper presented at the
Eleventh annual conference of the international speech communication
association.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed
representations of words and phrases and their compositionality. Paper
presented at the Advances in neural information processing systems.
Nguyen, M. (2017). Why the world's largest tech companies are building machine
learning AI bots capable of humanlike communication. Business Insider.
Ochiai, A. (1957). Zoogeographic studies on the soleoid fishes found in Japan and its
neighbouring regions. Bulletin of Japanese Society of Scientific Fisheries, 22,
526-530.
Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global vectors for word
representation. Paper presented at the Proceedings of the 2014 conference on
empirical methods in natural language processing (EMNLP).
Polzin, T. S., & Waibel, A. (2000). Emotion-sensitive human-computer interfaces.
Paper presented at the ISCA tutorial and research workshop (ITRW) on speech
and emotion.
Pricilla, C., Lestari, D. P., & Dharma, D. (2018). Designing Interaction for Chatbot-
Based Conversational Commerce with User-Centered Design. Paper presented
at the 2018 5th International Conference on Advanced Informatics: Concept
Theory and Applications (ICAICTA).
Rane, P., Mhatre, V., & Kurup, L. (2014). Study of a home robot: Jibo. International
journal of engineering research and technology, 3(10), 490-493.
Ricardo, B.-Y. (1999). Modern information retrieval: Pearson Education India.
Ritter, A., Cherry, C., & Dolan, W. B. (2011). Data-driven response generation in
social media. Paper presented at the Proceedings of the conference on
empirical methods in natural language processing.

60
Robotics, B. F. (2016). Buddy the first companion robot. Retrieved, 8, 2016.Ryzhov,
I. O. (2015). Expected improvement is equivalent to OCBA. Paper presented
at the 2015 Winter Simulation Conference (WSC).
Schofield, J. (2014). Computer chatbot’Eugene Goostman’passes the Turing test.
Zdnet (June 2014). URL: https://www. zdnet. com/article/computer-chatbot-
eugene-goostmanpasses-the-turing-test.
Serban, I. V., Lowe, R., Charlin, L., & Pineau, J. (2016). Generative deep neural
networks for dialogue: A short review. arXiv preprint arXiv:1611.06216.
Serban, I. V., Sankar, C., Germain, M., Zhang, S., Lin, Z., Subramanian, S., Kim, T.,
Pieper, M.,Chandar, S., Ke, N. R., Mudumba, S., de Brebisson, A., Sotelo, J.
M. R., Suhubdy, D., Michalski,V., Nguyen, A., Pineau, J., and Bengio, Y.
(2017). A Deep Reinforcement Learning Chatbot.ArXiv e-prints.
Serban, I. V., Sordoni, A., Lowe, R., Charlin, L., Pineau, J., Courville, A., & Bengio,
Y. (2017). A hierarchical latent variable encoder-decoder model for generating
dialogues. Paper presented at the Thirty-First AAAI Conference on Artificial
Intelligence.
Shang, L., Lu, Z., & Li, H. (2015). Neural responding machine for short-text
conversation. arXiv preprint arXiv:1503.02364.
Shang, L., Lu, Z., Li, H., & Sakai, T. (2015). Ntcir-12 pilot task: Short text
conversation (stc). Call for Participation to the NTCIR-12 Kick-Off Event.
Shang, L., Sakai, T., Lu, Z., Li, H., Higashinaka, R., & Miyao, Y. (2016). Overview of
the NTCIR-12 Short Text Conversation Task. Paper presented at the NTCIR.
Shawar, B. A., & Atwell, E. (2007). Chatbots: are they really useful? Paper presented
at the Ldv forum.
Shmueli-Scheuer, M., Sandbank, T., Konopnicki, D., & Nakash, O. P. (2018).
Exploring the universe of egregious conversations in Chatbots. Paper
presented at the Proceedings of the 23rd International Conference on
Intelligent User Interfaces Companion.
Shulevitz, J. (2018). Alexa, should we trust you. The Atlantic.
Song, Y., Yan, R., Li, C.-T., Nie, J.-Y., Zhang, M., & Zhao, D. (2018). An Ensemble of
Retrieval-Based and Generation-Based Human-Computer Conversation
Systems.
Steinbach, M., Karypis, G., & Kumar, V. (2000). A comparison of document
clustering techniques, KDD workshop on text mining: Boston.
Sun, X., Chen, X., Pei, Z., & Ren, F. (2018). Emotional Human Machine
Conversation Generation Based on SeqGAN. Paper presented at the 2018 First
Asian Conference on Affective Computing and Intelligent Interaction (ACII
Asia).

61
Sun, X., Peng, X., & Ding, S. (2018). Emotional human-machine conversation
generation based on long short-term memory. Cognitive Computation, 10(3),
389-397.
Sundermeyer, M., Schlüter, R., & Ney, H. (2012). LSTM neural networks for
language modeling. Paper presented at the Thirteenth annual conference of the
international speech communication association.
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with
neural networks. Paper presented at the Advances in neural information
processing systems.
Tang, D., Qin, B., & Liu, T. (2015). Document modeling with gated recurrent neural
network for sentiment classification. Paper presented at the Proceedings of the
2015 conference on empirical methods in natural language processing.
Turing, A. M. (1950). Can a machine think. Mind, 59(236), 433-460.
Vinyals, O., & Le, Q. (2015). A neural conversational model. arXiv preprint
arXiv:1506.05869.
Vukotić, V., Raymond, C., & Gravier, G. (2016, September). A step beyond local
observations with a dialog aware bidirectional GRU network for Spoken
Language Understanding.
Wallace, R. (2003). The elements of AIML style. Alice AI Foundation.
Wu, Y., Wu, W., Li, Z., & Zhou, M. (2016). Topic augmented neural network for short
text conversation. CoRR abs/1605.00090.
Xiao, X., Ye, S., Yu, L.-C., & Lai, K. R. (2017). 應用詞向量於語言樣式探勘之研究
(Mining Language Patterns Using Word Embeddings)[In Chinese]. Paper
presented at the Proceedings of the 29th Conference on Computational
Linguistics and Speech Processing (ROCLING 2017).
XiaoIce, M. Cortana’s Little Sister: https://blogs. bing. com/search/2014/09/05/meet-
xiaoice-cortanas-little-sister/; and https://en. wikipedia. org/wiki: Xiaoice.
Yan, R., Song, Y., & Wu, H. (2016). Learning to respond with deep neural networks
for retrieval-based human-computer conversation system. Paper presented at
the Proceedings of the 39th International ACM SIGIR conference on Research
and Development in Information Retrieval.
Yang, Y. (1995). Noise reduction in a statistical approach to text categorization. Paper
presented at the SIGIR.
Zhang, L., Wang, S., & Liu, B. (2018). Deep learning for sentiment analysis: A
survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge
Discovery, 8(4), e1253.
Zhang, Y., & Huang, M. (2019). Overview of the NTCIR-14 Short Text Generation
Subtask: Emotion Generation Challenge. Paper presented at the Proceedings

62
of the 14th NTCIR Conference.
Zhong, H., Xiao, C., Guo, Z., Tu, C., Liu, Z., Sun, M.,. Feng, Y., Han, H., Hu, Z.,
Wang, H. Wang, H., et al. (2018). Overview of CAIL2018: Legal Judgment
Prediction Competition. arXiv preprint arXiv:1810.05851.
Zhou, H., Huang, M., Zhang, T., Zhu, X., & Liu, B. (2018). Emotional chatting
machine: Emotional conversation generation with internal and external
memory. Paper presented at the Thirty-Second AAAI Conference on Artificial
Intelligence.
Zipf, G. K. (1932). Selected studies of the principle of relative frequency in language.
Zou, F., Wang, F. L., Deng, X., Han, S., & Wang, L. S. (2006). Automatic construction
of Chinese stop word list. Paper presented at the Proceedings of the 5th
WSEAS international conference on Applied computer science.

63
附錄(Appendix)

附錄 1: 本研究測試資料集共 200 筆

說明: 情緒標籤 1:喜歡;2:悲傷;3:厭惡 4:憤怒 5:快樂


貼文 情緒標籤
为什么 为什么 为什么 你们 都 不 陪 我 看 电影 ! ! [ 怒 4(憤怒)
骂 ]
无 语 我 的 qq 被盗 , 求 拯救 ! 讨厌 [ 怒 ] 4(憤怒)
中信 银行 , 别 给 老子 再 扯 什么 空头支票 ! ! ! ! ! 4(憤怒)
大 清早 的 烦躁 死 了 ! 没 一点 好 心情 ! 4(憤怒)
大 早晨 的 就 去 交 论文 , 我 容易 么 ! ! 4(憤怒)
海南 游 是 破灭 了 [ 怒 ] [ 怒 ] [ 怒 ] 4(憤怒)
怪 梦 一个 接 一个 , 睡眠 质量 差劲 ! [ 怒 ] [ 怒 ] 4(憤怒)
[ 怒 ] [ 怒 ] [ 怒 ]
楼下 的 小孩 好 吵 好 烦 , 是 都 打 了 鸡血 吗 [ 怒 ] 4(憤怒)
[ 怒 ] [ 怒 ] 我 忍 着 !
计算机 再次 si 了 ! ! ! 这 是 什么 节奏 ? 4(憤怒)
不是 说 罢工 吗 ? 邮件 也 不见 少 ! 烦透 了 [ 抓狂 ] 4(憤怒)
为 神马 合肥 木 有 暖气 ! 冻死 我 也 … 4(憤怒)
洗 个 茶具 全 打碎 了 , 气死 我 了 4(憤怒)
医生 不 给 我 输液 ! 4(憤怒)
是 谁 泄露 了 我 的 手机 号 , [ 怒 ] [ 怒 ] 4(憤怒)
我 都 快 吃素 了 ! 怎么 还 狂 长 痘痘 ! 这 是 怎样 的 狗 4(憤怒)
血 人生
海南 免税 店 就是 坑 爹 的 ! ! ! ! [ 哼 ] [ 太阳 ] 4(憤怒)
为什么 不是 我 错 的 , 却 每次 最后 搞 得 都 是 我 的 4(憤怒)
错 ! ! !
[ 抓狂 ] 吵 死 了 ! ! ! 哥 不 睡 了 总成 了 吧 ! [ 泪 ] 4(憤怒)
你们 这 帮 00 后 !
唉 ! 饭 呢 ? 冷 饭 也 有人 偷 ! ! ! ! ! ! 4(憤怒)
什么 时候 我 才 能 不 晕车 # % & ^ & % ! ! ! ! 4(憤怒)
怎么 能 这么 烦 , 这么 烦 , 这么 烦 ! ! ! 4(憤怒)
居然 这 时候 刮 台风 ! ! ! ! 我 恨 你 ! ! ! ! 4(憤怒)
我 想 把 你 砸 了 打卡 机 4(憤怒)
64
就是 睡 不 着 [ 抓狂 ] , 昨晚 还 没 睡 的 , 你们 醒 了 4(憤怒)
吗 ?
姐 睡 个 觉 容易 么 ? 又 装修 ! ? 用 不用 啊 ? ! 4(憤怒)
吵架 吵 到 神经 痛 [ 怒 ] [ 抓狂 ] [ 顶 ] [ 怒骂 ] [ 鄙 4(憤怒)
视 ]
再 不 来电 , 大家 就 找 不到 我 了 [ 怒 ] [ 愤怒 ] 4(憤怒)
讨厌 下雨 天 ! ! ! ! ! 家里 停水 ! 网 还 不好 4(憤怒)
大 清早 起来 就 气 不顺 ! 今天 不 爽 ! 4(憤怒)
抢 台 红米 来 玩玩 就 那么 难 吗 ? ! ! [ 怒 ] 4(憤怒)
可恶 的 垃圾 短信 [ 怒 ] 4(憤怒)
最近 各种 不顺 , 各种 背 ! [ 怒 ] 4(憤怒)
公家 电话 不用 自己 花钱 就 可以 不停 地 打 吗 ? ! [ 鄙 4(憤怒)
视 ]
果断 又 失控 了 ! ! 肿 么 办 ! ! 4(憤怒)
打 个 麻将 都 找 不到 人 [ 怒骂 ] 4(憤怒)
发色 啊 发色 ! ! ! ! 为什么 总 纠结 这种 事 ! ! ! 4(憤怒)
[ 怒 ] 倚老卖老 是 不是 也 得 有 个 底线 ! ! ! 4(憤怒)
一 大早 居然 玩 停电 , 太 没 人性 了 ! 4(憤怒)
我 快 强迫 症 了 ! ! ! 总 怀疑 自己 发 错 文檔 ! ! ! 要 4(憤怒)

终于 上车 了 ! ! ! 冷 死 了 ! ! ! 4(憤怒)
[ 生病 ] 王家湾 又 习惯 性 堵车 了 3(厭惡)
寒假 在家 居然 没有 赶上 一 场 象样 的 雪 3(厭惡)
依旧 对 江苏 卫视 包场 感到 别扭 。 3(厭惡)
高速 路 上 车 出 问题 了 , 一直 在 救援 路道 慢慢 跑 [ 生 3(厭惡)
病 ] [ 生病 ]
哎 , 微波 炉 加工 后 的 馒头 竟然 跟 石头 是 的 ! 我 的 3(厭惡)
天 。
超级 讨厌 春天 . . . ! ! ! 3(厭惡)
不是 发烧 也 不 像 感冒 , 但 头疼 得 很 厉害 。 。 3(厭惡)
狗 很 有 灵性 , 但 我 很 惧怕 [ 吐 ] [ 鄙视 ] 3(厭惡)
晚 睡 强迫 症 越来越 严重 了 , 不能 放弃 治疗 啊 。 。 3(厭惡)
喉咙 又 疼 了 , 不会 复发 吧 [ 生病 ] 3(厭惡)
这 还 下 雹子 了 。 。 。 。 。 。 受 不 受 死 了 3(厭惡)
又 长 肉 了 ! ! ! 不能 吃 了 ! 3(厭惡)
十一 个 小时 没 吃 东西 了 , 快 饿 趴下 了 。 3(厭惡)
一 晚 失眠 , 免疫 力 立即 下降 , 感冒 ing [ 抓狂 ] 3(厭惡)

65
团购 的 待遇 往往 很 差 。 [ 汗 ] 3(厭惡)
打 了 半 下午 球 , 脚 断 了 一样 ! 3(厭惡)
老 骨头 一把 . . . 实在 打 不 动 球 了 . . . 3(厭惡)
郑州 的 出租 车 , 太 没 道德 性 了 . 3(厭惡)
拼命 赶 啊 赶 , 结果 人家 放假 , 你 是 要 闹 哪样 ? 3(厭惡)
手机 被 偷 了 。 [ 呵呵 ] 3(厭惡)
好 想 吃 很多 垃圾 食品 [ 抓狂 ] [ 抓狂 ] 3(厭惡)
你 永远 不 知道 你 的 世界 里 存在 着 多少 个 骗子 。 3(厭惡)
[ 微笑 ]
昨晚 热 死 人 … 咋 这么 热 ! 3(厭惡)
某些 事 某些 人 注定 只是 擦肩而过 . . . . . . 3(厭惡)
困 在 动车 中 了 , 这 趟 车 到底 取 不 取消 ? 要 不要 这 3(厭惡)
么 郁闷 [ 怒 ]
好 吧 , 姐 为了 减肥 。 。 不要 命 了 。 。 。 3(厭惡)
很 怕 被 人 搭讪 , 太 恐怖 了 。 。 。 3(厭惡)
劳动 强度 一 大 就 眼 冒 金星 , 这 是 病 ? 还是 老 ? [ 傻 3(厭惡)
眼 ]
摔 了 个 大 跟头 。 震 得 头 好 晕 [ 晕 ] 3(厭惡)
差 十 秒 就 赶到 班车 … 今早 算 白 坐 了 3(厭惡)
睡 得 不 想起 , 眼 都 不 想 睁 肿 么 办 [ 打 哈欠 ] 3(厭惡)
死 了 , 还有 好多 没 背 , 背 了 就 忘 。 。 。 怎么 搞 的 3(厭惡)
心情 坏 得 衣服 都 不 想 换 脸 也 不要 了 就 这样 睡 3(厭惡)
吧 [ 哈欠 ]
真是 奇怪 , 这种 时候 我 居然 还 吃 的 下去 。 。 。 3(厭惡)
讨厌 被 质问 的 感觉 … 3(厭惡)
实在 是 烦躁 的 睡 不 着 。 怎么 才 能 冷静 下来 啊 。 3(厭惡)
笔 电 电池 坏 了 , 网速 奇 慢 , 让 我 死 吧 。 。 。 3(厭惡)
这个 老 鳖 汤 的 劲儿 真 大 , 现在 舌头 还 疼 呢 3(厭惡)
foxmail 和 微 信 今天 都 出 问题 , 讨厌 [ 抓狂 ] 3(厭惡)
三星 note 难 用 程度 简直 了 3(厭惡)
这 两 个 星期 , 心情 很 压抑 … [ 悲伤 ] [ 悲伤 ] 2(悲傷)
这 两 个 星期 , 心情 很 压抑 … [ 悲伤 ] [ 悲伤 ] 2(悲傷)
生病 好 痛苦 ` 不 想 待 宿舍 ` 期待 有人 约 ` 晚餐 想 人 2(悲傷)
陪 ! ! ! !
突然 间 想来 杯 拿铁 了 … [ 泪 ] 2(悲傷)
居然 有人 说 我 声音 低哑 到 像 男人 [ 泪 ] , 我 无颜以对 2(悲傷)
[ 汗 ]

66
第 一 次 在 医院 里 失眠 了 2(悲傷)
哀 莫 大于 心 死 2(悲傷)
每晚 都 在 跟 蚊子 搏斗 中 度过 啊 啊 啊 。 。 。 。 2(悲傷)
竟然 悲 催 到 失眠 ~ ~ ~ 2(悲傷)
我 去 … … 我 成 萝卜 腿 了 怎么 办 啊 怎么 办 啊 怎么 2(悲傷)
办 啊
今天 心情 很 不好 , 喝 了 一点 酒 [ 炸弹 ] 2(悲傷)
我 想 说 : 我 开始 对 你 失望 了 · · · · · · 2(悲傷)
看 了 0830 的 天天向上 , 一 吻 的 bgm 一 响起 , 我 愣 了 2(悲傷)
好几 秒
现在 唱歌 只能 用 破 锣 来 形容 对 就是 破 锣 [ 悲 2(悲傷)
伤 ] [ 悲伤 ] [ 悲伤 ]
美美 滴 睡 一个 午觉 , 然后 下午 起来 — — — — — — 2(悲傷)
看 雅思 …
今天 奶油 太多 了 , 失败 啊 ! 2(悲傷)
[ 泪 ] 最 郁闷 的 事 就是 出来 逛街 忘记 带 钱包 ! 我 郁 2(悲傷)
闷 哇 呜 !
该死 的 冰淇淋 害 我 感冒 了 . . . . . . [ 衰 ] 2(悲傷)
还是 从 前 那个 丢三落四 的 我 ! 2(悲傷)
我 也 想 对 全 世界 说 昨晚 对不起 . 2(悲傷)
每次 夜班 上 到 这里 都 特别 想 睡觉 , 特别 的 累 。 2(悲傷)
快要 情人 节 了 , 2 、 14 . 现 如今 让 我 好 尴尬 的 节 2(悲傷)
日 。 。 。
战 了 两 天 就 感冒 了 . . 我 还 行 不行 啊 orz 2(悲傷)
心烦 的 事 总是 成 双 , 计划 总是 赶 不 上 变化 。 两 2(悲傷)
难 。
脚 好 麻 … … 感觉 脚趾 已 断 … … 2(悲傷)
妈 蛋 , 星期 一 心情 就 开始 不 美丽 了 , 这 可 咋 过 啊 2(悲傷)
[ 喵 喵 ] [ doge ]
还有 两 天 就 考研 了 , 感觉 比 高考 还 累 。 身体 不好 , 2(悲傷)
心里 压抑
已经 冷 无可 冷 了 ! ! ! 求 温暖 ~ 2(悲傷)
这 作业 做 个 通宵 都 做 不 完 。 谁 来 陪 我 聊聊 免得 2(悲傷)
我 睡着 了 [ 泪 ]
真 倒霉 , 上午 被 领导 骂 , 下午 喝水 把 嘴唇 磕 破 了 。 2(悲傷)
昨天 胃 不好 , 今天 又 泻 肚子 , 唉 ! 身体 不行 了 啊 ! 2(悲傷)
今天 迟到 了 ! [ 汗 ] [ 汗 ] [ 汗 ] 一 觉 睡 到 8:40 才 2(悲傷)

67
醒 ! [ 泪 ] [ 泪 ]
看 完了 《 那些 年 》 , 最后 十 分钟 直 飙 泪 [ 不 活 2(悲傷)
了 ]
熊猫 2 看 得 我 泪流满面 2(悲傷)
外面 放 烟花 的 声音 听 起来 是 那么 的 刺耳 … 2(悲傷)
为什么 电影 院 不 卖 周边 呢 [ 眼泪 ] 2(悲傷)
又 天亮 了 [ 可怜 ] , 依然 迷茫 呀 ! 2(悲傷)
无聊 透顶 了 , 这 日子 该 怎么 过 呀 [ 泪 ] [ 泪 ] [ 泪 ] 2(悲傷)
顿感 职业 选择 不 小心 走 了 hard 模式 [ 心碎 ] 2(悲傷)
求求 上帝 赐 给 我 一个 人 跟 我 玩 一会 [ 泪 ] 2(悲傷)
刚 吃 了 早 午餐 , 开始 劳作 啦 [ 兔子 ] 1(喜歡)
生日 快乐 ~ 我 对 自己 说 ~ 1(喜歡)
五 号 去 厦门 ~ ! 有 谁 有 兴趣 呢 ? 一起 去 啊 。 。 快 1(喜歡)
快 报名 ~ !
去 做 双皮奶 [ 酷 ] 1(喜歡)
做 一个 好 人 的 感觉 , 特别 好 。 1(喜歡)
走过 山路 的 那个 弯 , 一切 都 会 很 好 。 坚信 ! 1(喜歡)
听说 下 个 月 公司 有 旅游 , 两 天 一 夜 w 1(喜歡)
喜欢 中心 湖 , 喜欢 草地 [ 鼓掌 ] 1(喜歡)
越来越 喜欢 顺丰 了 呢 [ 花心 ] [ 花心 ] @ 顺丰 速 运 官 1(喜歡)

最近 大爱 adele 的 歌 ~ ~ ~ 1(喜歡)
好 , 去 西门 狠狠 的 吃 一 顿 , 嘿嘿嘿 1(喜歡)
好 , 去 西门 狠狠 的 吃 一 顿 , 嘿嘿嘿 1(喜歡)
又 是 樱花 灿 漫 时 ~ ~ ~ 1(喜歡)
成都 美食 。 。 。 哥 来 了 ! ! 1(喜歡)
我 想 去 看 雪 求 陪同 ~ 1(喜歡)
芒果 台 「 我 是 歌手 」 太 好看 啦 ! 1(喜歡)
他家 的 饭 做 的 还是 很 不错 。 [ 馋嘴 ] 1(喜歡)
只 愿 得 一 人 心 白 首 不 分离 1(喜歡)
哥哥 呀 ~ 我 好 想 听 你 唱 《 天堂 》 哦 ~ ~ [ 熊猫 ] 1(喜歡)
[ 熊猫 ] [ 熊猫 ]
每天 都 有 旺仔 喝 ~ 爽 ! ! 1(喜歡)
终于 有 酒 喝 了 ! 希望 不会 喝 趴下 1(喜歡)
每天 早上 起来 都 能 吃 到 老公 煮 的 营养 早餐 真 1(喜歡)
棒 ! ! !
保佑 保佑 , 一 次 过 [ 给 力 ] [ 给 力 ] [ 给 力 ] 1(喜歡)

68
班里 七 个 男生 出去 包 宿 上网 , 八点 多 才 回来 , 年轻 1(喜歡)
真 好 。 。
唱 英文 歌 需要 性感 的 声音 , 性感 的 打扮 , 这样 才 有 1(喜歡)
那 韵味
绵绵 细雨 … 这 等 天气 很 适合 … 睡觉 … 1(喜歡)
坐 九 号 线 好 闷 啊 ~ 好 想 出去 玩儿 ~ 1(喜歡)
其实 做 hr 真的 不错 , 可以 挑 各种 小 u 熊 来 面试 1(喜歡)
[ doge ]
今年 的 实习 生 , 嗯 , 还 挺 帅 的 。 。 。 1(喜歡)
美好 的 一 天 从 早饭 开始 ! ! ! 千层饼 加 鲜 博士 ! ! ! 1(喜歡)
美 了 !
两 周年 快乐 , 一直 爱 你 、 、 、 、 [ 心 ] [ 心 ] [ 蛋 1(喜歡)
糕 ] [ 亲亲 ]
很 想 吃 多力 多 滋 芝士 味儿 那个 1(喜歡)
大半 夜 , 能 喝 上 一 口 冰糖 白梨 是 很 快乐 的 事情 。 1(喜歡)
倾城 之 泪 , 期待 。 。 。 。 1(喜歡)
很 享受 现在 生活 ~ 真的 不 想 改变 什么 呀 ~ 让 桃花 劫 1(喜歡)
远 一点 ~
第 一 次 一起 去 了 雁栖 湖 , 希望 这 是 我们 的 开始 , 1(喜歡)
而 不是 终点
[ 鼓掌 ] 本周 难得 的 12 点 前 下班 1(喜歡)
推荐 电影 《 心慌方 》 系列 [ 赞 ] [ 赞 ] 1(喜歡)
付出 是 真的 会 有 回报 的 ! 1(喜歡)
理学 院 的 人 在 老 校 等 校车 的 地方 免费 兑换 零钱 1(喜歡)
哎 ! 好 贴心 ~
吃饱喝足 的 感觉 真 好 阿 , 和 大家 道 晚安 , 还有 没 睡 5(快樂)
得 么 ?
明儿 要 下雪 啦 [ 雪人 ] [ 雪 ] [ 雪人 ] [ 雪 ] 5(快樂)
哇 , 兜兜 今天 已经 出生 第 801 天 啦 。 。 。 八字 头 5(快樂)
了 ! ! !
休假 一 周 结束 , 痛苦 的 上班 生活 明天 又 要 开始 ! 5(快樂)
一个 人 唱 了 4 小时 , 我 表示 我 瘦 了 [ 偷 笑 ] 5(快樂)
直播 + 电视 那 是 相当 给 力 ! [ 哈哈 ] [ 哈哈 ] 5(快樂)
[ 哈哈 ]
这么 晚 了 我 还 想 吃 东西 。 [ 馋嘴 ] [ 馋嘴 ] [ 馋嘴 ] 5(快樂)
[ 馋嘴 ]
天气 热 得 来 ~ ~ ~ 5(快樂)

69
睡 得 好 舒服 [ 酷 ] 连续 两 天 睡 一个 下午 5(快樂)
明天 最后 一 科 ~ 坚持 ~ ! 5(快樂)
晚上 吃 了 一 棵 西兰 花 , 原来 蔬菜 也 能 饱 肚子 5(快樂)
九 月 的 第 一 天 , 秋天 快 到 了 , 大家 一起 织 围脖 5(快樂)
过冬 啦 !
我 要 订婚 了 同志 们 ! 哈 哈哈 5(快樂)
今天 好 晒 呀 ! 热 s 我 了 ! 脱掉 ! 脱掉 ! 衣服 脱掉 ! 脱 5(快樂)
掉 !
一 觉 醒来 , 精神 了 , 开始 看书 [ 浮云 ] 5(快樂)
今天 值班 下班 之后 要 去 做 红娘 嘻嘻 ~ ~ ~ ~ 希望 可以 5(快樂)
成功 哈
今天 值班 下班 之后 要 去 做 红娘 嘻嘻 ~ ~ ~ ~ 希望 可以 5(快樂)
成功 哈
好 凉快 啊 ~ 秋天 终于 来 了 ~ 开心 ~ 5(快樂)
天真 的 太 冷 啦 ( ^ _ ^ ) [ 抓狂 ] 5(快樂)
周五 拿 驾照 去 [ 哈哈 ] [ 哈哈 ] [ 哈哈 ] 5(快樂)
开心 呢 明天 某个 童鞋 带 我 去 买 手机 咯 5(快樂)
今天 大一 生活 结束 , 暑期 开始 , 回家 咯 ~ 5(快樂)
拌面 的 菜 好 多 肉 [ 哈哈 ] 5(快樂)
帝都 春天 好多 雨 [ 鼓掌 ] 5(快樂)
今天 睡眠 终于 充足 了 。 。 九 个 半 小时 [ 兔子 ] 5(快樂)
明天 可以 睡 懒觉 了 哈哈 哈哈 5(快樂)
昨晚 心动 了 , 哈哈 。 5(快樂)
一 月 二十九 , 同样 的 梦 , 不过 穿插 了 好多 支线 剧 5(快樂)
情 。
回家 的 感觉 真 好 [ 奥特曼 ] 5(快樂)
各位 , 我 已经 安全 到家 了 。 。 。 [ 给 力 ] 。 嘿嘿 5(快樂)
每次 上 体育 课 都 很 累 , 但是 都 很 嗨 , 非常 开心 ~ ~ 5(快樂)
[ 嘻嘻 ] 真的 开始 上班 了 耶 , 看到 新 同事 很 热情 , 心 5(快樂)
里 很 高兴 !
不冷不热 的 春天 [ 脸红 ] 满地 花 开 的 春天 [ 花痴 ] 5(快樂)
今天 和 女友 一块 吃饭 很 舒服 很 开心 ! 5(快樂)
朋友 们 , 元宵 节 快乐 ! [ 嘻嘻 ] 5(快樂)
新 家 捣腾 了 一下 , 感觉 还 不错 。 。 。 开心 5(快樂)
我 骑车 到 拉萨 也 才 用 了 5000 元 , 可以 做 个 长途 预 5(快樂)
算 了 。 呵呵 ~ ~
十一 点 到 家 吃 了 两 碗 豆 焖饭 … … 我 好 嗨 森 ~ 5(快樂)

70
终于 出门 了 , 吉隆坡 很 热 5(快樂)
今晚 感谢 小 伙伴 们 的 饯行 5(快樂)

附錄 2: 生成式系統提交結果成效較好者

貼文 貼文 回文 回文
情緒 情緒
刚吃了早午餐,开始劳作啦 1(喜歡) 开始羡慕了哈 1(喜歡)
做一个好人的感觉,特别好。 1(喜歡) 别了 3(厭惡)
今天值班下班之后要去做红娘嘻嘻 5(快樂) 快乐 5(快樂)
~~~~希望可以成功哈
其实做 hr 真的不错,可以挑各种小 1(喜歡) 不错真是不错 5(快樂)
u 熊来面试
付出是真的会有回报的! 1(喜歡) 付出不应该求回报的 3(厭惡)

主機板 Z10PE-D16 WS
CPU Intel(R) Xeon(R) E5-2620 v4 @ 2.10GHz
硬體
顯示卡 微星 GTX 1080 TI (11GB GDDR5X)
記憶體 64GB DDR4-2400
OS Ubuntu 16.4
Python 3.6.8
TensorFlow 1.12.0
軟體
Cuda 10.0
NVIDIA-SMI 410.73
Keras 2.2.4

71
著作權聲明

論文題目:基於深度學習與自然語言處理發展的情感對話機器人

-以短文本情感對話生成為例

論文頁數:73 頁

系所組別:資訊管理研究所(學號:710636303)

研究生:高偉晉

指導教授:汪志堅、戴敏育

畢業年月:中華民國 108 年 9 月

本論文著作權為高偉晉、汪志堅與戴敏育所有,並受中華民國著作權法保護。

73

You might also like