整合分類與分群技術於物流業高價值顧客流失預測模型之研究

國立中正大學
資訊管理研究所
碩士論文
整合分類與分群技術於物流業
高價值顧客流失預測模型之研究
指導教授：胡雅涵教授
研究生：謝易澄
中華民國一百零二年六月
整合分類與分群技術於物流業高價值顧客流失預測模型之研究 [國立中正大學資訊管理研究所]
I
致謝
首先非常感謝指導教授胡雅涵教授的細心指導與提攜，除了指引學生的論文
方向之外，還在研究的過程中，讓學生能夠在邏輯思維上有所啟發，進而體會到
學習研究的態度與精神，因此才能順利地完成此篇論文，在此獻上最真摯的感
謝。
再者要感謝提案考試委員吳帆教授、學位考試委員蔡志豐教授，所提供的寶
貴建議、指導與方向，使得本論文得以更加嚴謹、詳實與完善，在此表達最深的
敬謝之意。
最後要感謝家倫學長在論文寫作上的指導。以及要感謝英豪、淑華、嘉恩、
芳易、慧琪、文雄、士騰，感謝你們的指點、打氣與鼓勵，無論是在課業上的協
助，亦或是工作上的經驗分享，甚至是在課餘之後培養運動習慣與鍛鍊體能，讓
我能在順利地完成學業之餘，還獲得一生受用知識與習慣。這兩年來研究生活中
的點點滴滴，都是難以忘懷的回憶，在此向你們獻上的最誠摯的感謝。
謝易澄謹誌於
國立中正大學資訊管理研究所
中華民國一百零二年六月
II
Abstract
Customer value and churn has always been the most important issue of concern
to enterprise, in the logistics industry as well. In recent years, with the rise of the
Internet, the rise of consumer awareness, coupled with horizontal competition in the
market, making the life cycle of the customer becomes more short-term than in the
past. How to establish long-term cooperative relationship with valuable customers, is
the key to stability in today's competitive market. For businesses, it is important to
establish a stable partnership with customers, but the cost is expensive. When the
corporate resources are limited, high-value customer retention will get higher benefits.
In the first part of this study, we perform data extraction to historical transaction
data. By extended customer value analysis model and customer satisfaction index for
logistics, construct a new and appropriate research variables to assess the customer
value and churn. In the second part, using data mining clustering techniques to
separate the high and low value customers by the customer value research variables.
In the third part, using data mining classification techniques to performed churn
prediction analysis for high-value customers. Finally, discover the key factors of
customer churn to provide business decision-makers to develop a marketing strategy.
Keywords: Logistics customer service; RFM analysis; Churn analysis; Data Mining;
III
中文摘要
顧客價值與顧客流失一直以來都是企業最關注的重要議題，在物流業界也
是如此。近年來隨著網際網路的興起、消費者意識的抬頭，再加上同業在市場上
的競爭，使得顧客的生命週期變得比過去更加短暫。如何與有價值的顧客建立長
期的合作關係，則是在現今競爭的市場當中求穩定的關鍵。對於企業而言，與顧
客建立穩固的合作關係是重要的，但是成本卻是昂貴的。當企業的資源有限，就
必須針對高價值顧客進行顧客保留，才會獲得更高的效益。
本研究的第一部分是執行資料萃取，以擴充的顧客價值分析模型、物流的
顧客滿意度指標等規則與定義，建構出新的且適合用來評估顧客價值與顧客流失
的研究變項。第二部分則是從顧客價值的研究變項當中，透過資料探勘的分群技
術，區隔出高、低價值顧客群。第三部分再從高價值的顧客群，透過資料探勘的
分類技術，進行顧客流失預測的分析。最後，藉此發掘出影響顧客流失的最重要
關鍵因素，以提供企業決策者制定對應的行銷策略。
關鍵詞：物流顧客服務、RFM 分析、流失分析、資料探勘。
IV
目次
致謝............................................................................................................................... II
Abstract ........................................................................................................................ III
中文摘要......................................................................................................................IV
目次............................................................................................................................... V
表目錄........................................................................................................................ VII
圖目錄..........................................................................................................................IX
第一章、緒論................................................................................................................ 1
1.1 研究背景......................................................................................................... 1
1.2 研究動機......................................................................................................... 2
1.3 研究目的......................................................................................................... 3
1.4 研究流程......................................................................................................... 4
第二章、文獻回顧........................................................................................................ 6
2.1 物流業............................................................................................................. 6
2.1.1 物流定義與重要性.............................................................................. 6
2.1.2 物流趨勢與顧客滿意度指標.............................................................. 7
2.2 顧客價值......................................................................................................... 9
2.2.1 顧客價值定義與分析模型.................................................................. 9
2.2.2 傳統 RFM 分析模型 ....................................................................... 10
2.2.3 擴充 RFM 分析模型 ....................................................................... 11
2.3 顧客流失....................................................................................................... 14
2.3.1 顧客流失定義.................................................................................... 14
2.3.2 顧客流失管理.................................................................................... 14
2.3.3 顧客流失預測之相關研究................................................................ 16
V
2.4 資料探勘技術............................................................................................... 18
2.4.1 K-Means .............................................................................................. 18
2.4.2 決策樹................................................................................................ 19
2.4.3 類神經網路........................................................................................ 22
2.4.4 支援向量機........................................................................................ 24
2.4.5 羅吉斯回歸........................................................................................ 26
第三章、研究方法...................................................................................................... 28
3.1 資料來源與前置處理................................................................................... 28
3.2 變項定義與計算處理................................................................................... 30
3.3 實驗設計....................................................................................................... 39
3.4 參數設定....................................................................................................... 43
3.5 評估程序與準則........................................................................................... 44
第四章、實驗結果與分析.......................................................................................... 46
4.1 實驗結果....................................................................................................... 46
4.1.1 顧客分群............................................................................................ 46
4.1.2 顧客完全流失.................................................................................... 48
4.1.3 顧客即將流失.................................................................................... 53
4.2 分析與評估................................................................................................... 58
4.3 綜合討論....................................................................................................... 61
第五章、研究結論與建議.......................................................................................... 63
5.1 研究結論....................................................................................................... 63
5.2 研究貢獻與限制........................................................................................... 64
5.3 未來研究方向與建議................................................................................... 65
參考文獻...................................................................................................................... 66
附錄一.......................................................................................................................... 72
附錄二.......................................................................................................................... 85
VI
表目錄
表 1 應用資料探勘技術於顧客價值區隔之相關研究整理 ..................................... 13
表 2 應用資料探勘技術於顧客流失預測之相關研究整理 ..................................... 17
表 3 K-MEANS 演算法 ................................................................................................. 18
表 4 基本的決策樹演算法 ......................................................................................... 20
表 5 感知機學習演算法 ............................................................................................. 23
表 6 原始資料欄位說明整理 ..................................................................................... 28
表 7 資料前置處理完畢之後的研究變項整理 ......................................................... 31
表 8 研究變項的敘述性統計 ..................................................................................... 38
表 9 參數設定-SIMPLEKMEANS .................................................................................. 43
表 10 參數設定-J48 .................................................................................................... 43
表 11 參數設定-MULTILAYERPERCEPTRON ................................................................ 43
表 12 混亂矩陣(CONFUSION MATRIX) ........................................................................ 44
表 13 K-MEANS CLUSTER CENTROIDS 與資料分佈百分比 ........................................ 47
表 14 使用 K-MEANS 分群後高低價值顧客群之資料分佈.................................. 48
表 15 K-MEANS 分群後顧客群保留與完全流失之資料分佈 ................................... 48
表 16 顧客完全流失_決策樹的訓練結果與其評估指標整理 ................................. 49
表 17 顧客完全流失_類神經網路的訓練結果與其評估指標整理 ......................... 50
表 18 顧客完全流失_支援向量機的訓練結果與其評估指標整理 ......................... 51
表 19 顧客完全流失_羅吉斯回歸的訓練結果與其評估指標整理 ......................... 51
表 20 顧客完全流失_以各個評估指標判斷四種分類技術的預測能力 ................. 52
表 21 K-MEANS 分群後顧客群保留與即將流失之資料分佈 ................................... 53
表 22 顧客即將流失_決策樹的訓練結果與其評估指標整理 ................................. 54
表 23 顧客即將流失_類神經網路的訓練結果與其評估指標整理 ......................... 55
VII
表 24 顧客即將流失_支援向量機的訓練結果與其評估指標整理 ......................... 56
表 25 顧客即將流失_羅吉斯回歸的訓練結果與其評估指標整理 ......................... 56
表 26 顧客即將流失_以各個評估指標判斷四種分類技術的預測能力 ................. 57
表 27 顧客完全流失_決策樹規則整理 A1 ............................................................... 58
表 32 顧客即將流失_決策樹規則整理 B1 ............................................................... 60
表 35 屬性選取的排名結果前 3 名 ........................................................................... 61
VIII
圖目錄
圖 1 研究流程圖 ........................................................................................................... 5
圖 2 使用 K-MEANS 演算法來尋找樣本資料中的三個群集 ................................... 18
圖 3 由訓練資料建立決策樹再將測試資料輸入至決策樹模型進行分類 ............. 20
圖 4 利用感知機描述布林函數 ................................................................................. 22
圖 5 多層前向式架構類神經網路 ............................................................................. 24
圖 6 支援向量機決策界限的邊界 ............................................................................. 25
圖 7 資料前置處理流程圖 ......................................................................................... 30
圖 8 實驗設計流程圖 ................................................................................................. 40
IX
第一章、緒論
1.1 研究背景
過去將貨品從生產地移動至消費者地的過程，其中包括運輸倉儲、包裝裝卸
等相關作業，在過去統稱為「運輸與倉儲」，又稱為「傳統物流（ Physical
Distribution）」(Waters, 2003)。隨著時代的變遷，傳統物流逐漸發展成為「現代
物流（Modern Times Logistics）」，除了傳統的作業之外，還涵蓋了流通服務、
配送業務、資訊系統、金融服務等相關服務(Liu, C. L. & Lyons, 2011)。兩者的區
別在於，前者只提供簡單的運輸、被動的服務、單一環節的管理、著重在點對點
的服務；而後者則提供主動的增值服務，透過資訊系統實施標準化並且優化整體
的架構，從點延伸到線再延伸到面進而建構出一個物流網路(Liu, C. L. & Lyons,
2011)。
而「物流」一詞的出現正代表對傳統運輸這個古老產業的革新，它已經不再
是過去企業與企業之間運送貨物的專有名詞。近年來隨著網路電子商務的興起，
更加帶動了在虛擬平台進行購物，由物流業者配送實體產品的一種風潮(Renko &
Ficko, 2010)。而物流業者藉由高效率的宅配系統，扛起了顧客供應鏈最後一哩
的重要任務(Esper, Jensen, Turnipseed, & Burton, 2003)。在現今市場激烈地競爭下，
如果運輸企業仍然只著重在運送商品的服務，幾乎無法滿足顧客的需求，最後一
定會在競爭中失去市場與顧客。加上近年來消費者意識逐漸抬頭與覺醒，由過去
的被動接受，逐漸轉換為主動地探尋自我需求，又更加速了這樣的一個趨勢，以
產品為導向的商業模式逐漸式微，而顧客導向的時代已經儼然成形 (Waters,
2003)。
因此，現今的運輸公司紛紛轉型爲現代化服務業，除了原本的物流服務之外，
還提供了商流、金流、資訊流整合之綜合型物流服務。國內貨運配送服務業也意
1
識到該產業本身就是一種高科技服務業，必須更加重視顧客服務體驗，提供更優
質的服務水準，為了提供差異化的服務，部分業者也成立了顧客價值服務體驗中
心，目的就是希望能找出如何為顧客創造額外的附加價值，藉此產生正面的營收
效益。由此可知，顧客關係管理對於物流業尤其是物流業者的重要性是愈來愈顯
著(Hsiao, 2009; Ramanathan, 2010)。
然而，與顧客建立長期且穩固的合作關係對企業而言是重要的，相對的所付
出的成本卻是昂貴的，假設企業對於每一位顧客均投入大量的成本與其建立長期
關係，顯然不是一個聰明的做法。由「80-20法則（The 80/20 Rule）」(Xu & Walton,
2005) 得知，百分之八十的企業利潤通常是由百分之二十的顧客所提供的。因此
我們必須針對企業的高價值顧客，繼續維持合作關係才能保持企業的長久利潤
(Guenzi & Troilo, 2007)。另一方面，如果企業一直都把重心放在獲取新的顧客，
忽略了企業本身所擁有的忠實老顧客，導致不斷費盡心思發掘新顧客的同時，卻
因為同業的競爭使得舊顧客一再地流失，如此一來便造成所謂的「旋轉門效應
（Revolving-door Effect）」(Kamakura, Wedel, de Rosa, & Mazzon, 2003)。企業的
最終目的還是在於獲利，當企業的顧客忠誠度不高，企業的成長與利潤就會面臨
威脅(Kisioglu & Topcu, 2011)。
有鑑於此，如何深化顧客關係管理，判斷顧客的價值，降低舊有顧客的流失
率，提高消費者的忠誠度，就成為一個非常重要的議題。
1.2 研究動機
我們蒐集並回顧過去的文獻，探討顧客區隔與顧客流失的研究相當多，其中
資料探勘為一種常用的研究方法。而資料探勘技術的優勢在於，可以從已存在的
大量顧客交易資料當中發掘出潛藏隱含且未知的有價值資訊(Tsai & Chen, 2010)，
協助企業能夠瞭解顧客的消費特性、趨勢與變化(Hung, Yen, & Wang, 2006)。這
也是現今物流業者迫切需要的重要情資。
在過去使用資料探勘技術研究顧客價值區隔管理的文獻相當多，尤其是在零
2
售業與銀行業(Chang, H. C. & Tsai, 2011; Khajvand & Tarokh, 2011; McCarty &
Hastak, 2007)，但是在物流業方面卻是相當稀少，尤其是研究台灣的物流業，幾
乎是沒有。同樣地，使用資料探勘技術研究顧客流失預測的文獻相當多，尤其是
在電信業與銀行業(Huang, B., Kechadi, & Buckley, 2012; Nie, Rowe, Zhang, Tian,
& Shi, 2011; Verbeke, Dejaeger, Martens, Hur, & Baesens, 2012)，但是在物流業方
面卻是相當稀少，尤其是研究台灣的物流業，幾乎也是沒有。
而且，大部分的顧客價值區隔與顧客流失研究，幾乎都著墨在企業對顧客
(Business to Consumer, B2C)的角度與環境來探討問題(Hung et al., 2006; Nie et al.,
2011; Tsai & Chen, 2010)，而物流產業的顧客群幾乎都以企業主居多，個人戶僅
佔少數。以本研究的個案公司為例，企業主的數量幾乎是個人戶的三倍。有鑑於
此，本研究希望加入企業對企業(Business to Business, B2B)的角度來探討與分析
這個議題。
另外，過去的資料探勘研究，所探討的顧客流失，都是已經確定流失的顧客。
然而，在企業的顧客群當中，必然有一些不活躍(Inactive)的顧客，雖然尚未流失，
但與確定流失的顧客卻無多大的差異。有鑑於此，本研究希望加入顧客即將流失
這個議題來進行探討與分析。
最後，過去大部分研究都僅使用單一的分類技術來進行分析，本研究則加入
混合的分類技術來進行顧客流失的分析與預測。
因此，本研究將以多個資料探勘技術來分析台灣物流業的顧客群，對其進行
顧客價值區隔管理與顧客流失預測，並探討顧客完全流失與顧客即將流失的議題，
是否也同樣能夠應用在產業型態以B2B為主的物流業身上。
1.3 研究目的
本研究主要目的是使用台灣物流業個案公司之顧客交易明細等歷史交易紀
錄來進行資料探勘分析。研究目的歸納如下：
1. 首先以顧客關係管理中常用的顧客價值分析模型為基礎，透過資料探勘技
3
術，將現有的顧客區隔出高、低價值顧客群。
2. 本研究主要是探討高價值的顧客群，在高價值顧客群當中，忠實顧客的數
量遠大於流失顧客，因此本研究將高價值忠實顧客等比例分批隨機抽樣與
流失顧客進行比較與分析，透過資料探勘技術，試圖找出最佳的顧客流失
預測模型。
3. 最後藉由顧客流失預測模型，發掘出影響物流業個案公司顧客流失的最重
要關鍵因素，藉此提供企業決策者制定對應的行銷策略。
1.4 研究流程
本研究論文之研究流程，大致可分為以下幾個階段，如下圖 1 所示：
4
研究方向及目的
文獻回顧與評析
(物流業、顧客價值、顧客流失、資料探勘技術)
資料來源與前置處理
變項定義與計算處理
資料探勘研究實驗設計
實驗評估與結果分析
建立預測模型
研究結論與建議
圖 1 研究流程圖
5
第二章、文獻回顧
2.1 物流業
2.1.1 物流定義與重要性
「物流」這一個形容詞，蘊含著物盡其用，貨暢其流的理想。物流是負責原
物料和製造商的其他組件之間的流動，或者是製成品從製造商到最終消費者之間
的流動，簡單的說，物流幫助企業整合了從原料來源到最終顧客之間所有的活動
(Bloomberg, LeMay, & Hanna, 2002)。而物流的價值就是，使產品在合適的時間出
現在正確的地方(Waters, 2003)。
在深入了解物流業之前，應該先認識物流的定義，而物流的定義可以分為廣
義與狹義兩個層面來探討與說明。就狹義而言，物流的定義僅止於物品的流通；
就廣義而言，物流除了物品的流通與之外，還涵蓋了服務性的支援活動。而物流
的任務就是在物品流通的過程當中，提供了運輸倉儲、包裝裝卸、流通服務、配
送業務、資訊系統、金融服務等加值服務。而物流也已經不再是過去企業與企業
之間單純運送貨物的一個代名詞(Liu, C. L. & Lyons, 2011)。
我們回顧過去的文獻發現，許多管理的論文都在探討企業的業績與物流績效
之間的關係，也證實了兩者之間是有顯著的關聯性(Hsiao, 2009; Ramanathan,
2010)。有許多因素確實會影響消費者的消費經驗，例如，方便性、產品的可用
性、送貨與退貨服務等等，顧客也會分享正面的消費經驗給其他的潛在顧客，而
上述的因素有些都是因為有物流企業所提供的高效率物流績效才能達成的
(Ramanathan, 2010)。
物流績效的內容主要涉及了交貨速度與可靠性，但一些研究指出還包括回應、
溝通、訂單處理和配送等因素(Cho, Ozment, & Sink, 2008)。與物流相關的業務因
6
素會間接影響到，顧客對於服務的看法和他們的忠誠度，企業提供可靠的物流運
營商，將可以獲得更多顧客的惠顧(Esper et al., 2003; Heim & Field, 2007)。
2.1.2 物流趨勢與顧客滿意度指標
今天的商業活動如此地成功，在很大程度上取決於物流和供應鏈的績效，在
過去物流的作用從來沒有像今天這樣的至關重要。而全球化和不斷變化的企業動
態，迫使企業實施新技術並更新他們的經營戰略，只為了提供顧客更高的服務價
值(Renko & Ficko, 2010)。
許多學者指出了幾個大趨勢迫使企業使用物流作為一種競爭的武器，而這些
趨勢也引起了物流產業的變化，本研究整理歸納如下：
1. 電子商務的重要性與日俱增(Renko & Ficko, 2010) ：在過去的十年裡，人
們購物方式已發生巨大變化，消費者除了在實體店面購物之外，可以透過
資訊通訊科技的幫助在網路上購物，這種新興的購物模式，擺脫了消費者
必須親自到實體店面的特性，大大地改變人們的日常生活(Hsiao, 2009)。
這種消費者只需要透過網路就可以完成購物的行為，使得宅配與指定地點
配送等物流相關的產業隨之蓬勃發展，也因此產生了所謂的「宅經濟」的
效應，而電子商務的行銷與物流業的結合也更加緊密(Hsiao, 2009)。電子
商務的好處在於，可以減少供應商的前置時間，降低顧客成本與產品價格，
並允許消費者搜尋更多的產品，也因此幫企業主節約不少營業成本(Renko
& Ficko, 2010)。
2. 產品的生命週期與交貨時間愈來愈短(Waters, 2003) ：現今消費者的消費
習慣已不同以往，消費者購物講求新穎、快速、個性化與多元化，使得商
品的生命週期大為縮短，庫存的損失與風險大大提升，企業主紛紛減少產
品的庫存，尤其是末端通路，幾乎都是商品快要銷售完畢才補貨。許多網
路購物業者也推出 24 小時到貨服務，所有貨件的處理進度與配送狀態都
可以即時上網查詢，這也是因為有宅配業者的高效率配送，才使得企業主
7
能夠提供這樣的優質服務。因此，縮短前置時間、嚴守交貨時間、不容許
遲送與誤送的狀況發生，這些都是現今物流業者必備的基本服務。
3. 消費者愈來愈容易獲取新的資訊與知識，而他們的需求也愈來愈挑剔
(Waters, 2003) ：現今市場的資訊已經非常透明化，關於商品與服務的資
訊與選擇，都可以從各種管道取得比較訊息。消費者從過去被動接收訊息，
演變成主動掌握訊息進而選擇商品或服務，企業所提供的商品或服務其替
代性也隨之提高。當消費者意識覺醒，使得企業不得不更加重視顧客服務
以滿足消費者多樣化的需求，唯有更貼近消費者的需求，洞悉消費者的心，
為消費者解決難題，就能夠搶下市場的先機，這也是物流業未來的商機來
源。
4. 企業強調降低整體營運成本，並採取流程外包的策略(Renko & Ficko,
2010) ：成功的企業在保持他們服務水準的同時也努力低降低成本，多數
的企業都專注於自己的核心業務和外包以外的業務活動(Renko & Ficko,
2010)。藉由物流服務商的物流服務，也就是外包物流功能，可以使企業專
注於自己的核心競爭力，提高顧客服務水準來面對其他同業的競爭，更可
以減少不必要額外的資產支出(Liu, C. L. & Lyons, 2011)。
由上述趨勢我們可以得知，物流的總體目標是提升顧客滿意度，提供優質且
低成本的服務。因此，本研究也列出影響顧客滿意度的物流條件指標，整理歸納
如下：
1. 交貨速度 (Delivery Speed) ：交貨時間，由供應商收到的顧客訂單的那一
刻開始，到顧客收到貨物為止之間的時間流逝(Danuta, 2005)。產品若無法
準時送貨上門，往往會讓顧客產生焦慮地等待(Cho et al., 2008)。
2. 可靠性 (Reliability) ：可靠性，這意味著供應商的承諾，以維護承諾按期
交貨(Danuta, 2005)。重要的是，貨物到達顧客的倉庫必須完整無損傷(Esper
et al., 2003; Heim & Field, 2007)。除了準時交貨之外，維持貨品完整性也
是相當重要的。顧客不滿的原因，往往都是貨件無法準時送達、貨件損壞
8
等原因(Rutner, Gibson, & Williams, 2003)。
3. 溝通與回應 (Communication & Responsiveness) ：能夠快速反應各式各樣
顧客所要求的配送服務，似乎是一個成功的物流企業在當今競爭激烈的商
業環境中的一個基本要求(Sheu, 2007)。因此，運輸企業必須根據顧客的需
求，提升新的服務內容與水準。
2.2 顧客價值
2.2.1 顧客價值定義與分析模型
現代行銷學之父 Philip Kotler 定義顧客價值為企業從顧客身上所獲得的利
益，與企業為了吸引和服務顧客所產生的費用，兩者之間的差額(Kotler, 2000)。
顧客價值是顧客關係管理的基礎，它是一個顧客關係管理的起點，專門用來理解
與衡量顧客的真正價值(Kim, S. Y., Jung, Suh, & Hwang, 2006)。高價值顧客所產
生出來的利潤，是公司的競爭優勢的基礎(Guenzi & Troilo, 2007)。高價值顧客不
但可以創造相對較高的企業利潤，如果企業可以在財務上與高價值顧客持續保留
長期的合作關係，勢必可以為企業帶來更多的利益，也可以比競爭對手更有效率
地創造更高的價值。顧客培養與保留一直是顧客關係管理一個相當重要的議題，
其中又以顧客對企業能貢獻多大利潤最值得深入探討，如何正確地評估顧客價值
且區隔出目標顧客，是顧客關係管理成功的關鍵，尤其是現今國內的物流業者，
正處於高度競爭市場與面臨顧客行為快速變遷的環境，若不能及時改革與創新，
將很快被競爭的潮流所淹沒。
因此，市場區隔不但是顧客關係管理方案的關鍵因素，而顧客區隔也是行銷
研究中最重要的方法之一(Chen, R. Y., 2009)。我們回顧過去的文獻發現，許多論
文都在探討如何分析顧客的終身價值(Customer Lifetime Value, CLV)。而顧客價
值分析是用來發掘顧客的特性，從大量的資料當中針對特定的顧客群分析出有用
的知識，企業運用這些方法，便可以明確地知道那些顧客是屬於貢獻傑出的目標
9
顧客(Cheng & Chen, 2009)。
Gupta 指出了五種關於顧客終身價值模型的研究分類(Gupta et al., 2006)。
1. RFM 模型(RFM Models)：以顧客最近一次購買時間(Recency)、購買頻率
(Frequency)、購買金額(Monetary)等三個構面所建構而成的模型。
2. 機率模型(Probability Models)：以 Pareto/NBD 模型和馬可夫鏈(Markov
Chains)為基礎所建構而成的模型。Pareto/NBD 模型主要是用於描述顧客重
複購買的行為。而馬可夫鏈(Markov Chain)主要是用來描述顧客購買行為
的改變。
3. 計量經濟模型(Econometric Models)：類似於機率模型，以 Pareto/NBD 模
型為基礎，再加入顧客獲取(Acquisition)、顧客保留(Retention)、顧客利潤
(Margin)、顧客擴展(Expansion)等經濟策略因素進行分析。
4. 持久性模型 (Persistence Models) ：以顧客的獲取 (Acquisition) 、保留
(Retention)、交叉銷售(Cross-selling)等構成要素所建構而成的模型。
5. 計算機科學模型(Computer Science Models)：以計算機科學的基礎理論來解
釋，例如效用理論(Utility Theory)。
其中，RFM規則是目前普遍承認最流行的顧客價值分析方法(Liang, 2010)。
RFM是一種廣泛使用於顧客行為分析的技術，可以有效地調查顧客價值與市場
區隔(Chen, M. C., Chiu, & Chang, 2005)。RFM模型是實施顧客關係管理和估計顧
客價值最強大和最簡單的一種模型(Cheng & Chen, 2009; Hosseini, Maleki, &
Gholamian, 2010; Liu, D. R. & Shih, 2005)。
2.2.2 傳統 RFM 分析模型
RFM模型是一個著名的顧客價值分析的方法，廣泛適用於顧客區隔(Chang,
E. C., Huang, & Wu, 2010; Cheng & Chen, 2009)。它是一種基於行為的模型用來分
析顧客的行為，並根據資料庫的資料變化作出預測(Yeh, Yang, & Ting, 2009)。
RFM規則是容易使用且能夠迅速落實的一種方法，它也是企業的決策和管理者
10
可以容易理解的一種規則。企業使用RFM分析來發掘資料庫的資料，來了解哪
一位顧客花企業最多的資金，而哪一位顧客可以為企業創造最大的利潤。
根據 Arthur Hughes (Hughes, 1994, 2005) 的研究，RFM分析模型是利用企業
過去的顧客歷史交易紀錄，以顧客消費行為的三個指標，分別為顧客最近一次的
購買日期(Recency)、一段時間內的購買頻率(Frequency)以及一段時間內的購買金
額(Monetary)，來進行量化與分析企業與顧客之間的關係。其目的在於評估顧客
的消費行為、忠誠度與貢獻度，並結合顧客基本資料，推導出顧客消費的特性，
衡量顧客的價值，進而預測顧客的消費行為，最後作為日後研擬行銷策略的參考
依據。RFM規則定義如下：
1. Recency，最近一次的購買日期：表示顧客最近一次購買日期距離進行分
析時間點的天數。顧客的消費時間距離現時愈接近，表示顧客再次消費的
機會愈高，如果距離現時愈遠，表示此顧客的消費行為已經改變。
2. Frequency，一段時間內的購買頻率：表示顧客在一段時間內的消費總次數。
主要是用來衡量顧客在這一段時間內與企業的互動程度，購買頻率愈高表
示該顧客對於企業的忠誠度與顧客價值愈高。
3. Monetary，一段時間內的購買金額：表示顧客在一段時間內的消費總金額。
主要是用來衡量顧客對企業的興趣指標，也就是實際對企業的金錢貢獻，
當購買金額愈高表示該顧客對於企業的價值性越高，即是重要性顧客。
而且，根據不同行業不同的特點，這三個變量的重要性也不盡相同，加權比
重也不盡相同。所以在進行RFM分析的時候，可以根據企業的特性，決定是否
分配相對應的RFM權重。
2.2.3 擴充 RFM 分析模型
我們回顧過去的文獻，有很多文獻以RFM模型為基礎，加入額外的變數開
發出新的模型，最後在測試新模型是否優於傳統的RFM模型。本研究整理歸納
如下：
11
1. Wei, Lin, Weng, and Wu (2012) 認為顧客的忠誠度取決於企業與顧客之間
長久的關係，加入顧客關係長度(L)，建立 LRFM 模型。
2. Li, D. C., Dai, and Tseng (2011) 認為顧客關係長度影響顧客的忠誠度與企
業的獲利能力，加入顧客關係長度(L)，建立 LRFM 模型。
3. Khajvand, Zolfaghar, Ashoori, and Alizadeh (2011) 以傳統的 RFM 分析為
基礎，加入顧客購買產品的品種(C)與顧客價值(CLV)為新變數，建立
CRFM 模型與 CLVRFM 模型。
4. Chang, H. C. and Tsai (2011) 以傳統的 RFM 為基礎，加入購買商品種類的
群組(G) 建立 GRFM 模型。
5. Yeh et al. (2009) 以傳統的 RFM 模型為基礎加入兩個變數，第一次購買時
間(T)與流失機率(C)，建立 RFMTC 模型。
由於資料探勘對於顧客價值區隔的相關研究數量相當多，我們蒐集從2004
年以來的期刊文獻，並整理出9篇應用資料探勘技術於顧客價值區隔之文獻，彙
整分析如表 1 所示。
這些文獻所涉及的產業包括了醫療業、網路業、紡織業、零售業、銀行業、
保險業等產業，他們都以RFM模型為基礎，再根據其產業的特性，加入1至2個
新變數開發出新的模型。其中K-Means是最常被使用的分群技術之一，許多文獻
指出它的分群的結果是相當不錯的。
12
表 1 應用資料探勘技術於顧客價值區隔之相關研究整理
作者 / 年份資料來源變數技術
Wei et al. (2012) 亞洲台灣醫療業，兒童牙科診 LRFM( L 顧客關係長度)、病人資料等變數。 Self-organizing Maps Technique
所的資料
Shim, Choi, and Suh (2012) 亞洲韓國網路產業，小型網購 RFM、會員資料、訂單資料、評價資料等 4 個 Association Rules; Sequential Patterns; Decision
商城的交易資料。角度，一共 9 個變數。 Tree; Artificial Neural Network; Logistic
Regression
Li, D. C. et al. (2011) 亞洲台灣紡織業，紡織製造公 LRFM( L 顧客關度係長度)、顧客資料等 5 個 Clustering Analysis(K-Means)
司銷售資料。角度，一共 7 個變數。
Chang, H. C. and Tsai (2011) 亞洲台灣零售業，零售商銷售 GRFM (G 以購買商品種類為群組) Constraint-based Clustering; Concept Hierarchy
資料。
Khajvand et al. (2011) 亞洲伊朗零售業，保健美容產 CRFM (C 顧客購買產品的品種)、CLVRFM Clustering Analysis(K-Means)
品銷售資料。 (CLV 顧客終身價值)
Khajvand and Tarokh (2011) 亞洲伊朗銀行業，零售銀行的 CLVRFM (CLV 顧客終身價值) Clustering Algorithms(K-Means); Time Series;
業務資料。 ARIMA Model
Yeh et al. (2009) 亞洲台灣醫療業，輸血服務中 RFMTC (T 第一次購買時間、C 流失機率) Bernoulli Sequence
心捐贈資料。
McCarty and Hastak (2007) 美國零售業，郵購公司銷售資 RFM (Recency、Frequency、Monetary) CHAID; Logistic Regression
料。
Kim, Y. S. and Street (2004) 歐洲保險業，RV 休旅車保險保險資料等 93 個變數。 Genetic Algorithms; Neural Networks; Ensemble
資料。
13
2.3 顧客流失
2.3.1 顧客流失定義
在不同的應用領域，顧客流失的定義有所不同。以下整理並列出過去的學者
們對於顧客流失議題的定義與想法：
1. 顧客流失被定義為，顧客在特定的時間內與一家公司停止業務往來(Neslin,
Gupta, Kamakura, Lu, & Mason, 2006; Yu, Guo, Guo, & Huang, 2011)。
2. 當顧客停止使用該公司的產品時，這種顧客通常被稱為流失顧客(Churner)
(Nie et al., 2011)。
3. 顧客與現有的供應商結束他們之間的合作關係，並與另外一家供應商建立
新的合作關係，也就是從一個服務提供商轉移至另一個，簡單的說就是同
業競爭，這種顧客被稱為流失顧客(Churner) (Kisioglu & Topcu, 2011)。
4. 當顧客的交易低於門檻時，顧客會被企業視為流失顧客(Churner) (Glady,
Baesens, & Croux, 2009)。
5. 流失顧客大致可以分為自願流失 (Voluntary Churner) 與非自願流失
(Involuntary Churner)。自願流失意指顧客向他們的供應商作出終止服務的
決定，而非自願流失則是因為顧客的某些原因，例如：顧客停止繳納服務
費用、公司倒閉等，導致供應商因而終止顧客服務(Linoff & Berry, 2011)。
本研究所探討的顧客流失則是針對同業競爭這一個領域與議題。
2.3.2 顧客流失管理
何謂顧客流失管理？顧客流失管理指的是運營商保留有利可圖的顧客的一
個過程(Berson & Smith, 2002)。流失預測是顧客保留的一個重要手段，主要是能
夠識別出有那些顧客是有很大的機率會流失的(Neslin et al., 2006))。顧客流失管
理的目的是將流失的損失降到最小，同時保留住有價值的顧客將其利潤最大化
14
(Kisioglu & Topcu, 2011)。調查並研究流失顧客，可以幫助企業留住他們的顧客
(Nie et al., 2011)。
今天以產品或服務為主的任何優勢都是短命的，與顧客建立長期的合作關係，
才是在日益活躍的市場當中穩定的關鍵，這也意味著傳統的行銷方式已不再滿足
網際網路時代的需求(Wu & Hung, 2009)。顧客保留是指公司在何種程度上是能夠
滿足並保留其現有的顧客，也是作為一個成功的顧客關係管理的關鍵(Payne &
Frow, 2005; Reinartz, W., Krafft, & Hoyer, 2004)。在當今競爭激烈的環境中，顧客
保留開始得到企業的特別關注，顧客的生命週期變得比過去更加短暫，主要是由
於競爭對手對現有合作關係的影響(Miguéis, Van den Poel, Camanho, & Falcão e
Cunha, 2012)。企業在激烈的市場競爭中主要還是必須依靠從顧客身上獲得的利
潤，顧客流失會導致企業的損失，我們從過去的行銷和管理的文獻當中發現到，
流失預測日益受到重視(Tsai & Lu, 2009)。許多企業意識到，留住現有的顧客和
有價值的顧客是在各行各業中求生存的核心管理戰略(Tsai & Chen, 2010)。顧客
流失已成為一個關鍵的問題，也是許多企業必須面對的主要挑戰之一(Yu et al.,
2011)。
顧客流失為何如此的重要，本研究整理歸納如下：
1. 獲取一位新顧客是困難而且昂貴的(Saradhi & Palshikar, 2011)。保留住現有
顧客的成本遠低於獲取新顧客(Reinartz, W. J. & Kumar, 2003)。根據研究顯
示，企業必須花費保留住一位舊顧客五到六倍的成本代價，才能開發一位
新顧客(Athanassopoulos, 2000; Slater & Narver, 2000)。現有的顧客比新顧客
更有利可圖，對舊顧客銷售產品絕對比新顧客所花費的成本來得便宜(Wu
& Hung, 2009)。如果企業能夠減少 5%的顧客流失率，便可以提升 25%到
85%的企業利潤。延長現有顧客的關係比起吸引新顧客將產生更高的投資
回報(De Bock & Van den Poel, 2012)。
2. 顧客流失導致企業收入的損失，對於企業的盈利是有負面的影響(Saradhi
& Palshikar, 2011)。終止顧客服務的過程當中，相關費用是很高的(Saradhi

15
& Palshikar, 2011)。顧客流失也間接導致銷售的機會大大地減少了(Van den
Poel & Larivière, 2004)。顧客流失的不利影響組織內的許多功能，例如：
流失顧客會影響品牌價值，甚至會影響潛在的顧客(Saradhi & Palshikar,
2011)。
3. 顧客保留率的微小變化會導致對企業盈利產生重大的影響(Van den Poel &
Larivière, 2004)。在顧客保持中的一個小小的改進，可以因此導致利潤大
幅地增加(Van den Poel & Larivière, 2004)。
4. 長期的顧客會產生更高的利潤，他們也會將正面的口碑推薦給其他的使用
者，這種效果往往是難以察覺的，但它卻是一種充滿競爭力的行銷活動，
而且所花費的成本一點也不昂貴(Ganesh, Arnold, & Reynolds, 2000)。但是
如果是對於服務不滿意的顧客，則會傳播負面的口碑。
有鑑於此，建立一個準確能夠理解顧客流失預測模型是必要的，它可以確定
誰是流失的顧客和這些顧客流失的原因。另外，顧客流失預測模型也應該考慮到
顧客的價值，針對更有價值的顧客提供更準確的顧客流失預測。雖然說它無法完
全防止顧客的流失，但至少是一個重點參考，可以防止高價值顧客的流失。
2.3.3 顧客流失預測之相關研究
由於資料探勘對於顧客流失預測的相關研究數量相當多，我們蒐集從2006年
以來的期刊文獻，並整理出9篇應用資料探勘技術於顧客流失預測之文獻，彙整
分析如表 2 所示。
這些文獻所涉及的產業包括了電信業、零售業、軟體業、銀行業等產業，他
們都以個案公司的歷史資料來進行探勘與分析。其中以決策樹、類神經網路、支
援向量機、羅吉斯回歸是最常被使用的分類技術，許多文獻指出它的分類的結果
是相當不錯的。
16
表 2 應用資料探勘技術於顧客流失預測之相關研究整理
作者 / 年份資料來源變數技術
Huang, B. et al. (2012) 歐洲愛爾蘭電信業，室內電話從顧客帳戶、服務訂單、歷史付款紀錄、帳單 Logistic Regression; Decision Trees; Naive
資料。補助、語音信箱服務、通話明細、投訴等 7 個 Bayes; Linear Classifiers; Artificial Neural
資料構面進行分析。 Networks; Support Vector Machines
Verbeke et al. (2012) 歐洲電信業，電信運營商資顧客保留利潤與最大利潤標準等 19 個變數。 CRISP-DM; Neural Networks; SVMs; LSSVMs
料。
Miguéis et al. (2012) 歐洲零售業，連鎖量販店銷售 RFM、顧客資料、產品資料、交易資料等變數。 Sequence Mining(Forward and Backward
資料。 Categories Succession); Logistic Regression;
Saradhi and Palshikar (2011) 亞洲印度軟體業，諮詢服務公 25 個員工資料屬性。 Naive Bayes; Support Vector Machines; Decision
司(TCS)員工資料。 Tree; Random Forests; Logistic Regression
Kisioglu and Topcu (2011) 亞洲土耳其電信業，電信供應 23 個顧客帳單屬性。 Bayesian Belief Network
商的顧客資料。
Nie et al. (2011) 亞洲中國銀行業，銀行信用卡從顧客資料、信用卡資料、風險資料、交易活 Logistic Regression; Decision Tree
資料。動資料等 4 個角度，設計 135 個變數。
Huang, B. Q. et al. (2010) 歐洲愛爾蘭電信業，室內電話帳戶資訊、補助資訊、電話資訊、服務訂單、 Window Techniques; Neural Networks; Support
資料。帳單付款記錄等 5 個資料構面進行分析。 Vector Machines; Decision Trees
Tsai and Chen (2010) 亞洲台灣電信業，電信公司 MOD 服務顧客資料等 22 個變數。 Association Rules; Neural Networks; Decision
MOD 服務資料。 Trees
Hung et al. (2006) 亞洲台灣電信業，無線電信公從顧客人口統計、帳單付款、通話紀錄、顧客 Decision Tree; Neural Network(Back
司顧客資料。服務等 4 個維度，一共 10 個變數。 Propagation Network, BPN)
17
2.4 資料探勘技術
2.4.1 K-Means
K-Means 演算法是 J. B. MacQueen 於 1967 年正式發表的分群演算法，必須
事先設定群集的數量 K，再找出最佳的群集結構。演算法如表 3 所示：

表 3 K-MEANS 演算法
K-Means Algorithm.
1: Select K point as initial centroids.
2: repeat
3: Form K clusters by assigning each point to its closest centroid.
4: Recompute the centroid of each cluster.
5: until Centroids do not change.
資料來源：Tan, Steinbach, and Kumar (2006)
1. 首先選擇 K 個初始群集的中心點，K 值是由使用者指定所要分群的群數。
2. 計算出每一個資料點與所有群中心點的距離，每一個資料點會被分配到最
近的群中心點，分配至該群中心點的所有資料點構成一個群集。
3. 每一個群集的群中心點會根據所分配之資料點再做更新。
4. 重複執行分配與更新的步驟，直到群集不在變動或者是群中心點保持不變
為止。
以下我們使用下圖 2 這一個範例來簡單說明 K-Means 是如何分群：
圖 2 使用 K-Means 演算法來尋找樣本資料中的三個群集
1. 「┼」表示群集中心點，「△□○」表示被分群後的資料點。
2. 圖 2 的第一次疊代(Iteration 1)表示，資料點被個別分配至三個初始群集中
18
心，剛好三個群中心點都落在較上方的資料點當中。
3. 圖 2 的第二次疊代(Iteration 2)表示，資料點分配完畢之後，群中心點會被
更新。二個群中心點會移動至圖形下方的兩個資料點群集中。如此一直重
複執行分配與更新的步驟。
4. 圖 2 的第三次疊代(Iteration 3)表示，群集已經不在變動(群中心點保持不變)，
分配結束。
K-Means 演算法屬於非監督式離散化的分群方法，是最早、最基本、最普遍
也是最具代表性的資料點群集化的一種計算方式(Khajvand et al., 2011)。它的優
點是原理簡單、時間複雜度小、計算快速，使用者可以自行設定分群的數量，因
此大多數的資料探勘軟體都有採用此演算法。
2.4.2 決策樹
決策樹 (Decision Tree) 是一個眾所周知的分類 (Classification) 與預測
(Prediction)技術，主要是藉由歷史資料或行為，推估並預測未來的結果，是一個
功能強大且受歡迎的分類與預測工具，並且在現實世界當中有許多成功的應用
(Nie et al., 2011)。它是一個監督式學習(Supervised Learning)的方法，採用樹狀層
次分支的架構圖來表達資料分類的規則與路徑，是一種很容易理解其結果的圖形
表示(Saradhi & Palshikar, 2011)。
在實際的應用上，我們通常會將資料分成訓練組(Training Set) 和測試組
(Validation Set)。訓練組主要是用來建立決策樹，它是採用遞迴(Recursive)的方式
不斷地將訓練組的資料分割至後繼的分類子集合當中，直到決策樹停止成長為止；
而測試組主要是用來將資料輸入至決策樹模型當中驗證模型的正確性。而決策樹
包含了三種節點：
1. 根節點(Root Node)：沒有進入的邊緣(Edges)，且有 0 個以上輸出邊緣。
2. 內部節點(Internal Node)：每個節點都有一個輸入的邊緣，以及 2 個以上的
輸出邊緣。
19
3. 葉節點或終端節點(Leaf or Terminal Node)：每個節點都有一個輸入的邊緣，
但是沒以任何的輸出邊緣。而每個葉節點都是一個類別標記。
如下圖 3 所示，當訓練組建立決策樹完畢之後，就可以針對測試資料集來進
行適當的分類，從根節點開始隨著適當的分枝來找到對應的結果，逐步導引到另
一個內部節點，最後導引至葉節點。
圖 3 由訓練資料建立決策樹再將測試資料輸入至決策樹模型進行分類
而基本的決策樹演算法說明如表 4 所示：
表 4 基本的決策樹演算法
A skeleton decision tree induction algorithm.
TreeGrowth (E, F)
1: if stopping_cond(E, F) = true then
2: leaf = createNode().
3: leaf.label = Classify(E).
4: return leaf.
5: else
6: root = createNode().
7: root.test_cond = find_best_split(E, F).
8: let V = {v | v is a possible outcome of root.test_cond }.
9: for each v ∈ V do
10: Ev = {e | root.test_cond(e) = v and e ∈ E }.
11: child = TreeGrowth (Ev, F).
12: add child as descendent of root and label the edge (root → child) as v.
13: end for
14: end if
15: return root.
資料來源：Tan et al. (2006)
20
1. 演算法輸入值為 E，屬性集合為 F。
2. Step 1：Stopping_cond()函數主要是藉由測試所有的資料是否已屬於同一類
別、或是有相同屬性值的方法來終止樹的成長。
3. Step 2：createNode() 函數會產生新節點以擴充決策樹。
4. Step 3：Classify()函數是用來決定葉節點的類別標記。
5. Step 7：Find_best_split() 函數將決定哪一個屬性要被當成測試條件來分割
訓練資料，並選取出最好的分割屬性。
6. Step 11&12：擴展樹的葉節點。
7. Step 1：直到符合停止條件為止。
簡單的來說，決策樹的演算法敘述了兩個主要的動作，從決策樹的切割
(Splitting)到決策樹的停止成長(Stopping)。當決策樹建立完成之後，有一個重點
是必須特別注意，如果決策樹太小時，因為演算法尚未學習好，導致模式訓練與
測試的錯誤率過高，這種情形稱為學習不足(Underfitting)；如果決策樹太大時，
測試錯誤率就會開始增加，就容易會有過度學習(Overfitting)的現象發生，必須透
過決策樹的修剪(Pruning)來幫助並改善決策樹類推至其他資料的能力。而修剪又
可以分為預先修剪(Pre-prunning)與事後修剪(Post-pruning)。前者是用在發展決策
樹的過程中，可以避免在過度學習的情形下先停止學習；後者則是讓決策樹任意
發展，等待建立完成之後，再將不必要或多餘的分支修剪掉。
而一個好的分類模式必須要有低的訓練錯誤率與低的推論錯誤率，以下介紹
幾種用來評估分類效果的方法：
1. 保持(Holdout)：一般最常用且基本的方法，將原始資料分成訓練集與測試
集，分類模式從訓練資料中形成，再利用測試資料進行評估。
2. 隨機次抽樣(Subsampling)：重複 holdout 多次，改善分類技術效果的估計。
3. 交叉驗證(Cross-validation)：訓練次數是相同的，取一半資料訓練，剩下一
半做為測試資料，然後二個資料的角色互換。
4. 重抽法(Bootstrap)：其訓練資料是要放回的，也就是再次抽樣的機率是相
21
同的。
2.4.3 類神經網路
類神經網路(Artificial Neural Network)的研究主要源起於人類想要模擬生物
的神經系統。人類的大腦是由許多的神經元(Neurons)所組成的，神經元彼此透過
神經軸(Axon)相互連結，而神經元藉由突觸(Dendrites)連結至另一個神經軸。人
類大腦的學習可藉由突觸與神經元之間連結的重覆刺激而改變長度進而獲得學
習(Tan et al., 2006)。
簡單的來說，類神經網路就是有很多內部節點相互連結所組成的結構。最早
的理論起源於 1950 年代，科學家提出感知機(Perceptron)的神經元模型，這是最
早、最簡單的類神經模型。以下我們使用下圖 4 這一個範例來簡單說明感知機：
圖 4 利用感知機描述布林函數
上圖 4 左邊是一組布林函數的資料集合(Data Set)，右邊則是用來表示該資料
集的感知機網路(Perceptron)，由輸入節點(Input Nodes)與輸出節點(Output Node)
兩種節點所組成，前者表示輸入屬性；後者表示輸出結果。而感知機網路會不斷
的調整連結的權重值，直到輸入輸出的對應符合原來的訓練資料為止(Tan et al.,
2006)。經由模型計算之後，輸出值顯示如下：
1, 𝑖𝑓 0.3𝑥1 + 0.3𝑥2 + 0.3𝑥3 − 0.4 > 0;

𝑦̂ = {
−1, 𝑖𝑓 0.3𝑥1 + 0.3𝑥2 + 0.3𝑥3 − 0.4 < 0.
詳細的說，感知機的輸出可以用下列式子表示：
22
𝑦̂ = sign(𝑤𝑑 𝑥𝑑 + 𝑤𝑑−1 𝑥𝑑−1 + ⋯ + 𝑤2 𝑥2 + 𝑤1 𝑥1 − 𝑡)
其中 𝑤𝑑 是連接至 𝑥𝑑 的權重值。
在訓練階段，權重參數 𝑤 會一直被調整，直到輸出結果與訓練資料結果一
致為止(Tsai & Chen, 2010)。而感知機學習演算法說明如表 5 所示：

表 5 感知機學習演算法
Perceptron learning algorithm.
1: Let D = { (xi, yi) | i = 1, 2, …, N } be the set of training examples.
2: Initialize the weight vector with random values, w(0)
3: repeat
4: for each training example (xi, yi) ∈ D do
5: Compute the predicted output 𝑦̂i(k)
6: for each weight wj do
7: Update the weight, wj(k+1) = wj(k) + λ (yi − 𝑦̂i(k)) xij.
8: end for
9: end for
10: until stopping condition is met
資料來源：Tan et al. (2006)
而類神經網路架構比感知機來得更加複雜，它可以允許輸入層(Input Layer)
與輸出層(Output Layer)中間再存在隱藏層(Hidden Layer)。隱藏層僅用於分析，
其函數聯繫輸入與輸出的變數，使其更適合(Fit)資料(Huang, B. et al., 2012)。
因此，類神經網路還未開始訓練之前輸出是很凌亂的，隨著訓練次數增加權
重值逐漸被調整，當目標值與輸出值誤差不再變化時，表示類神經網路已經收斂
(Convergence)完畢。
在過去學者們所遇到的問題都不盡相同，他們所提出類神經網路模型的演算
法也不盡相同，常見的網路有：多層前向式架構類神經網路 (Feed Forward
Artificial Neural Network)如下圖 5、倒傳遞類神經網路(Back Propagation Artificial
Neural Network)，等等。因此我們必須針對不同的問題選擇適合的類神經網路。
23
圖 5 多層前向式架構類神經網路
類神經網路的優點在於，並不需要瞭解系統的數學模型，直接以神經網路取
代之，直接得到輸入與輸出的對應關係。即便輸入的變數是未知的、非線性或者
是具模糊性，還是可以得到正確的輸出，這是歸納學習比較難以具備的能力。
而它的缺點在於類神經網路的參數設定相當費時，必須以嘗試錯誤的方式
(Try and Error)才能得到適當的參數值。而且更新權重值的計算量大且耗費資源，
類神經網路的解有無限多組，無法得知何者是最佳解。其結構屬於數值結構，不
像決策樹等演算法具備良好的解釋能力。
2.4.4 支援向量機
支援向量機(Support Vector Machine)是由 Vapnik 與 AT&T 實驗室團隊在
1995 年所提出的新方法，主要的理論基礎是來自於 VC 維度理論
(Vapnik-Chervonenkis Dimension)與統計學習理論當中的結構化風險最小誤差法
(Structural Risk Minimization)，主要是用來處理資料探勘中分類(Classification)的
問題(Tan et al., 2006)。
而支援向量機最主要的目的就是，在訓練資料所構成的空間當中，尋找一個
超平面(Hyperplane)，能將兩個或多個不同類別的資料作完美的切割，而且希望
將此超平面與這些類別的邊界(Margin) 最大化(Huang, B. et al., 2012)，如下圖 6
所示。
24
圖 6 支援向量機決策界限的邊界
如上圖 6 所示，矩形為訓練資料當中第一個資料類別，圓形則是第二個類別。
在這個例子中，B1 的邊界大於 B2，因此 B1 是具有最大邊界的超平面。
而支援向量機處理的問題又可分為線性與非線性兩種支援向量機。假設一個
二元分類問題是由 n 個訓練資料所組成的，每個資料點描述如下：
(𝑥𝑖 , 𝑦𝑖 ), ∀1 ≤ 𝑖 ≤ n. 𝑥𝑖 ∈ R, 𝑦𝑖 ∈ {−1,1}.
𝑥𝑖 是一種向量，用來描述某筆資料的樣式(Pattern)或屬性(Attribute)；𝑦𝑖 稱
為標記(Label)或目標(Target)，通常使用 1 和-1 來表示兩種類別。假設有一個超
平面，可以將資料區分開來，其線性分類的決策界限如下：
w⋅x+b =0
如果我們將所有矩形的類別表示為 1，所有圓形的類別表示為-1，我們就可
以用下列方式來對任何的測試資料 z 的類別 y 進行預測：
1, 𝑖𝑓 𝑤 ⋅ 𝑧 + 𝑏 > 0;
y= {
−1, 𝑖𝑓 𝑤 ⋅ 𝑧 + 𝑏 < 0.
而線性支援向量機在訓練階段參數的選取方法必須符合以下兩個條件：
𝑤 ⋅ 𝑥𝑖 + 𝑏 ≥ 1, 𝑖𝑓 𝑦𝑖 = 1
𝑤 ⋅ 𝑥𝑖 + 𝑏 ≤ −1, 𝑖𝑓 𝑦𝑖 = −1
這表示類別 y = 1 (矩形)所有的訓練資料必須位於超平面 w ⋅ x + b = 1 的
25
上方；類別 y = −1 (圓形)所有的訓練資料必須位於超平面 w ⋅ x + b = −1 的下
方。線性支援向量機的學習方式可以正式化成以下的限制最佳化的問題：
‖𝑤‖2
min
𝑤 2
限制式 𝑦𝑖 (w ⋅ 𝑥𝑖 + 𝑏) ≥ 1, 𝑖 = 1,2, … , 𝑛
然而，在現實世界中並非所有的資料都可以找到線性的區分的超平面，當資
料無法使用線性函數進行分類時，我們可以將原來屬於同一類空間 X 中的資料，
透過非線性的映射函數Φ，轉換成新的特徵空間(Feature Space)Φ(X)，線性決策
界限就可以在轉換過後的空間中分割資料(Saradhi & Palshikar, 2011)。
因此，非線性的支援向量機的學習可以用以下最佳化問題來表示：
‖𝑤‖2
min
𝑤 2
限制式 𝑦𝑖 (w ⋅ Φ(𝑥𝑖 ) + 𝑏) ≥ 1, 𝑖 = 1,2, … , 𝑛
2.4.5 羅吉斯回歸
羅吉斯迴歸(Logistic Regression)是由 J. Berkson 於 1944 年所提出的，它是
線性迴歸(Linear Regression)的一種變化型式。兩者相同的地方在於，都是描述單
一依變數(Dependent Variables)與一組自變數(Independent Variables)之間的關係式。
不同的地方在於，前者所探討的變數大多屬於離散型的變數(Discrete Variable)；
而後者所探討的變數大多屬於連續型的變數(Continuous Variable)。
羅吉斯迴歸與其他統計方法在使用上其實很相似，其目的都是建立一個最精
簡(Parsimonious)與最適合(Fit)的分析模型，用來預測依變數與一組獨立變數之間
的關係，差別在於其他統計的方法是去預測依變數的數值，而羅吉斯迴歸是試著
估計依變數是屬於哪一種分類的機率大小(Huang, B. et al., 2012)。
在羅吉斯迴歸分析當中，輸入的數值可以是離散變數或是連續變數，自變數
對於依變數之影響方式是以指數的方式來變動，因此不一定需要滿足常態分配
(The Normal Distribution)的假設，而依變數的對應值會落在 0 與 1 之間，其反應
26
函數所呈現曲線型態，為 S 或倒 S 型(Miguéis et al., 2012)。
羅吉斯回歸模型表示式描述如下：
𝑒 𝑓(𝑥)
𝑝=
1 + 𝑒 𝑓(𝑥)
𝑓(𝑥) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘
其中的關鍵在於勝算比(Odds Ratio)的概念，即事件成功機率與事件失敗機
率的比值， 𝑝 表示事件成功的機率， 1 − 𝑝 表示事件失敗的機率，因此勝算比

𝑝
為， 𝑝 受因素 𝑥 的影響，上述表示式經由取自然對數之後，可得表示式
1−𝑝
如下：
𝑝
ln = 𝑓(𝑥) = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘
1−𝑝
其中 𝛽 為回歸係數， 𝑘 為因素 𝑥 之項數。
27
第三章、研究方法
3.1 資料來源與前置處理
本研究相關的資料，由台灣物流業個案公司所提供，資料概述如下：
1. 資料種類：個案公司的顧客明細、託運明細、貨物配送等歷史交易資料。
2. 資料時間分佈：從 2010 年 3 月開始至 2012 年 8 月結束，共計 30 個月。
3. 資料區域分佈：資料區域涵蓋整個台灣本島。
4. 資料數量：總計約有 2 億 1 千多萬筆的歷史交易明細。
原始資料(Raw Data)包含了顧客明細、託運明細、貨物配送等資料，資料說
明如下：
1. 顧客明細資料表紀錄了個案公司所有顧客的顧客資訊。
2. 託運明細資料表紀錄了出貨主委託個案公司寄送貨物至收貨人的詳細交
易資訊。
3. 貨物配送資料表則是記錄了每一件貨物配送到客戶端的詳細資訊。
原始資料的欄位說明整理如表 6 所示：
表 6 原始資料欄位說明整理
序號資料種類欄位名稱欄位描述
01 顧客明細 CsrStrDay 交易開始日期
02 顧客明細 CsrStpDay 交易停止日期
03 顧客明細 CsrZip 郵遞區號
04 顧客明細 CsrAdr 出貨地址
05 顧客明細 CsrGuin 統一編號
06 顧客明細 CsrStRn 交易停止理由
07 託運明細 CsnDay 託運日期
08 託運明細 CsnWet 重量
09 託運明細 CsnMnt 金額費用
10 貨物配送 DlvDay 配送日期
11 貨物配送 DlvSta 配送狀態
28
資料前置處理(Data Pre-processing)是資料探勘的變項定義之前一個重要處
理過程，不同的領域所需要技術也不盡相同。基本處理動作包括了選擇、轉換、
合併、過濾、淨化、刪除、彙總等步驟，其主要目的是為了避免影響其模型及分
析的正確性，並確保後續研究不致於遭遇困難。以下列出針對個案公司所提供的
資料進行前置處理的動作：
(1) 去除原始資料當中的一些雜訊(Noise)或遺漏值(Missing Value)。
(2) 刪除錯誤、不合理或重覆的原始資料。
(3) 將部分資料的資料型態轉換成探勘所需的格式。
(4) 合併部分資料表或欄位以利探勘的進行。
(5) 計算出統計彙總過後的資料。
除此之外，資料前置處理最重要的步驟則是資料萃取(Data Extraction)，一般
而言原始資料(Raw Data)通常不太具有好的預測能力，資料萃取主要是建構出新
的且具備高度預測能力的衍生屬性。因此，本研究將顧客明細、託運明細、貨物
配送等資料表，透過一些特殊的規則與定義萃取出合適的研究變項。
其中，在顧客價值分析模型的部分，本研究以 RFM 分析模型為基礎，再加
上顧客關係長度與顧客利潤貢獻之變項，將傳統 RFM 分析模型，擴充為 LRFMP
分析模型。顧客關係長度可以調查出顧客忠誠度與利潤的影響(Bhatty, Skinkle, &
Spalding, 2001; Li, D. C. et al., 2011; Wei et al., 2012)；顧客利潤貢獻可以調查出顧
客對於企業利潤的影響(Verbeke et al., 2012)。因此，本研究使用 LRFMP 顧客價
值分析模型來計算顧客的價值。定義如下：
(1) L：Length，顧客關係長度。
(2) R：Recency，最近一次的交易日期。
(3) F：Frequency，交易次數。
(4) M：Monetary，交易金額。
(5) P：Profit，顧客利潤貢獻。
接著再透過文獻所提到的顧客流失與物流的顧客滿意度指標，計算並萃取出適合
29
用來評估顧客流失的物流變項。相關指標敘述如下：
(1) 顧客交易間隔時間的變化。
(2) 物流業者的交貨速度。
(3) 物流業者託運與配送貨物的可靠性。
(4) 物流業者與顧客有良好的溝通與回應。
總結上述所說明的整體資料處理流程如下圖 7 所示：
顧客明細資料
資
料
資料萃取
前
I. LRFMP
託運明細資料置研究變項
II. 物流指標
處
理
貨物配送資料
圖 7 資料前置處理流程圖
3.2 變項定義與計算處理
資料前置處理完畢之後，本研究將所有研究變項的說明整理如表 7 所示：
30
表 7 資料前置處理完畢之後的研究變項整理
序號變項名稱變項描述計算來源變項定義與說明
01 (I) CsrType 顧客類型 CsrGuin; B=企業主，C=個人戶。
02 (I) CsrRgn 行政區域 CsrZip; CsrAdr; 利用郵遞區號與出貨住址區分出 6 個行政區域。
03 (I) CsrNrRng 顧客距離最近營業據點的距離 CsrAdr; 利用經緯度計算出最近兩點的距離。(單位：KM)
04 (I) CsnLng 顧客關係長度(Length) CsrStrDay; CsrStpDay; 顧客第一次至最後一次交易的時間長度。(單位：天)
05 (I) CsnRcn 最近一次交易日期(Recency) CsnDay; 最近一次托運日期距離計算日期的日期天數。(單位：天)
06 (I) CsnFrq 交易次數(Frequency ) CsnDay; 顧客交易總次數除以持續交易總天數。
07 (I) CsnMnt 交易金額 (Monetary) CsnMnt; CsnDay; 顧客交易總金額除以持續交易總天數。
08 (I) CsnPft 顧客利潤貢獻(Profit) CsnMnt; CsnWet; CsnDay; 顧客寄送高單價貨件的總次數除以總交易次數。
09 (I) CsnStpItvMin 最短交易間隔天數 CsnDay; 計算交易間隔天數的最小值。
10 (I) CsnStpItvMax 最長交易間隔天數 CsnDay; 計算交易間隔天數的最大值。
11 (I) CsnStpItvAvg 交易間隔平均天數 CsnDay; 計算交易間隔天數的平均值。
12 (I) CsnStpItvAvgW 交易間隔加權平均天數 CsnDay; 計算交易間隔的加權平均值。
13 (I) DlvErsMiss 貨件短缺破損的比率 DlvSta; CsnFrq; 貨件短缺破損總次數除以總交易次數。
14 (I) DlvErsNoth 客戶不在的比率 DlvSta; CsnFrq; 客戶不在總次數除以總交易次數。
15 (I) DlvErsWrng 地址錯誤查無此人的比率 DlvSta; CsnFrq; 地址錯誤查無此人總次數除以總交易次數。
16 (I) DlvErsApnt 約定再配的比率 DlvSta; CsnFrq; 約定再配總次數除以總交易次數。
17 (I) DlvErsRjct 顧客拒收的比率 DlvSta; CsnFrq; 顧客拒收總次數除以總交易次數。
18 (I) DlvErsNothApnt 客戶不在且約定再配的比率 DlvSta; CsnFrq; 客戶不在且約定再配總次數除以總交易次數。
19 (I) DlvErsWrngApnt 地址錯誤查無此人且約定再配的比率 DlvSta; CsnFrq; 地址錯誤查無此人且約定再配總次數除以總交易次數。
20 (I) DlvRchDay1 配送完成天數為 1 天的比率 CsnDay; DlvDay; DlvSta; 配送完成天數為 1 天的總次數除以總交易次數。
21 (I) DlvRchDayOv3 配送完成天數超過 3 天的比率 CsnDay; DlvDay; DlvSta; 配送完成天數超過 3 天的總次數除以總交易次數。
22 (I) DlvRchDayMin 最短配送完成天數 CsnDay; DlvDay; DlvSta; 統計每一次交易的配送完成天數再取其最小值。
23 (I) DlvRchDayMax 最長配送完成天數 CsnDay; DlvDay; DlvSta; 統計每一次交易的配送完成天數再取其最大值。
24 (I) DlvRchDayAvg 平均配送完成天數 CsnDay; DlvDay; DlvSta; 統計每一次交易的配送完成天數再取其平均值。
25 (D) CsrStRnEnt 顧客完全流失與否 CsrStRn; Y=顧客流失，N=顧客保留。
26 (D) CsrStRnAbt 顧客即將流失與否 CsrStRn;CsnStpItvAvg;Csn Y=顧客流失，N=顧客保留。
StpItvAvgW
(I)：表示自變項 (Independent Variables) 、 (D)：表示依變項 (Dependent Variables) 。
31
本研究將所有研究變項的計算原理分述如下：
𝐶𝒾 代表每位顧客(CsrId，顧客編號)。
 研究自變項計算原理分述如下：
1. 𝐶𝑠𝑟𝑇𝑦𝑝𝑒𝐶𝒾 (顧客類型)：當顧客沒有統一編號時( 𝐶𝑠𝑟𝐺𝑢𝑖𝑛𝐶𝒾 = 0 )，註記
為 C，表示為個人戶，其餘註記為 B，表示為企業主。
2. 𝐶𝑠𝑟𝑅𝑔𝑛𝐶𝒾 (行政區域)：首先以 𝐶𝑠𝑟𝑍𝑖𝑝𝐶𝒾 (郵遞區號) 利用中華郵政郵遞區
號資料區分出 6 個行政區域，如果該欄位無法區分，再使用 𝐶𝑠𝑟𝐴𝑑𝑟𝐶𝒾 (出
貨地址)進行關鍵字比對，詳細的資料處理程式碼請參閱附錄一。
3. 𝐶𝑠𝑟𝑁𝑟𝑅𝑛𝑔𝐶𝒾 (顧客距離最近營業據點的距離)：首先使用 Google Maps API
輸入 𝐶𝑠𝑟𝐴𝑑𝑟𝐶𝒾 (出貨地址)取得經緯度，再利用 Haversine Formula (Sarddar
et al., 2010)計算出兩點的距離。
𝜙2 − 𝜙1 𝜆2 − 𝜆1
𝑑 = 2𝑅 × arcsin (√sin2 ( ) + cos 𝜙1 cos 𝜙2 sin2 ( ))
2 2
其中𝑑為大圓距離，𝑅是地球半徑，而兩點的經緯度分別為(𝜙1 , 𝜆1 )與(𝜙2 , 𝜆2 )。
詳細的資料處理程式碼請參閱附錄一。
 LRFMP 顧客價值分析模型：
4. 𝐶𝑠𝑛𝐿𝑛𝑔𝐶𝒾 (顧客關係長度，Length)，顧客第一次交易日期至最後一次交易
日期的時間長度(單位：天)。 𝐹𝑠𝑡𝐷𝑎𝑦𝐶𝒾 代表該顧客第一次交易日期，
𝐿𝑠𝑡𝐷𝑎𝑦𝐶𝒾 代表該顧客最後一次交易日期，因此顧客的 L 值計算方式如下：
𝐶𝑠𝑛𝐿𝑛𝑔𝐶𝒾 = 𝐿𝑠𝑡𝐷𝑎𝑦𝐶𝒾 − 𝐹𝑠𝑡𝐷𝑎𝑦𝐶𝒾 + 1
詳細的資料處理 SQL 語法請參閱附錄一。
5. 𝐶𝑠𝑛𝑅𝑐𝑛𝐶𝒾 (最近一次交易日期，Recency)，顧客最近一次的托運日期距離
系統計算日期的日期天數(單位：天)。 𝐶𝑢𝑟𝐷𝑎𝑦 代表擷取資料的日期，因
此顧客的 R 值計算方式如下：
𝐶𝑠𝑛𝑅𝑐𝑛𝐶𝒾 = 𝐶𝑢𝑟𝐷𝑎𝑦 − 𝐿𝑠𝑡𝐷𝑎𝑦𝐶𝒾 + 1

32
6. 𝐶𝑠𝑛𝐹𝑟𝑞𝐶𝒾 (交易次數，Frequency)，顧客交易總次數除以持續交易總天數。
𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡𝐶𝒾 代表該顧客全部總交易次數，因此顧客的 F 值計算方式如下：
𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡𝐶𝒾
𝐶𝑠𝑛𝐹𝑟𝑞𝐶𝒾 = ⁄𝐶𝑠𝑛𝐿𝑛𝑔
𝐶𝒾
7. 𝐶𝑠𝑛𝑀𝑛𝑡𝐶𝒾 (交易金額，Monetary)，顧客交易總金額除以持續交易總天數。
𝑇𝑡𝑙𝐶𝑠𝑛𝑀𝑡𝑦𝐶𝒾 代表該顧客全部總交易金額，因此顧客的 M 值計算方式如
下：
𝑇𝑡𝑙𝐶𝑠𝑛𝑀𝑡𝑦𝐶𝒾
𝐶𝑠𝑛𝑀𝑛𝑡𝐶𝒾 = ⁄𝐶𝑠𝑛𝐿𝑛𝑔
𝐶𝒾
8. 𝐶𝑠𝑛𝑃𝑓𝑡𝐶𝒾 (顧客利潤貢獻，Profit)，顧客寄送高單價貨件的總次數除以總
交易次數。高單價貨件的定義為，CsnMnt與 CsnWet兩者的比值大於 7.5
者為高單價貨件。𝐻𝑝𝑟𝑐𝐶𝑛𝑡𝐶𝒾 代表該顧客寄送高單價貨件的總次數，因此
顧客的 P 值計算方式如下：
𝐻𝑝𝑟𝑐𝐶𝑛𝑡𝐶𝒾
𝐶𝑠𝑛𝑃𝑓𝑡𝐶𝒾 = ⁄𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡
𝐶𝒾
 交易間隔時間計算：
𝑇𝐶𝑘 代表顧客每一次的交易日期，𝑆𝐼𝑗 代表交易的間隔天數(單位：天)。
𝑆𝐼𝑗 = 𝑇𝐶𝑘 − 𝑇𝐶𝑘−1 , ∀2 ≤ 𝑘 ≤ 𝑚, 1 ≤ 𝑗 ≤ 𝑛, 𝑛 = 𝑚 − 1.
9. 𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑀𝑖𝑛𝐶𝒾 (最短交易間隔天數)，計算該顧客交易間隔天數的最小值。
計算方式如下：
𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑀𝑖𝑛𝐶𝒾 = min{𝑆𝐼1 , 𝑆𝐼2 , … , 𝑆𝐼𝑛 }
10. 𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑀𝑎𝑥𝐶𝒾 (最長交易間隔天數)，計算該顧客交易間隔天數的最大值。

33
𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑀𝑎𝑥𝐶𝒾 = max{𝑆𝐼1 , 𝑆𝐼2 , … , 𝑆𝐼𝑛 }
11. 𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝐶𝒾 (交易間隔平均天數)，計算該顧客交易間隔天數的平均值。
𝑛
𝑆𝐼𝑗
𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝐶𝒾 = (𝑆𝐼1 + 𝑆𝐼2 + ⋯ + 𝑆𝐼𝑛 )⁄𝑛 = ∑
𝑛
𝑗=1
12. 𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝑊𝐶𝒾 ( 交易間隔加權平均天數 ) ，依據最大概似估計法
(Maximum Likelihood Estimation)，計算該顧客交易間隔天數的加權平均值。
𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝑊𝐶𝒾 = (1 ⋅ 𝑆𝐼1 + 2 ⋅ 𝑆𝐼2 + ⋯ + 𝑛 ⋅ 𝑆𝐼𝑛 )⁄(1 + 2 + ⋯ + 𝑛)

𝑛 𝑛
= ∑ 𝑗 ⋅ 𝑆𝐼𝑗 ⁄∑ 𝑗
𝑗=1 𝑗=1
 配送狀態計算：
𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡𝐶𝒾 代表該顧客全部總交易次數。
13. 𝐷𝑙𝑣𝐸𝑟𝑠𝑀𝑖𝑠𝑠𝐶𝒾 (貨件短缺破損的比率)，貨件短缺破損的總次數除以總交易
次數。𝑀𝑖𝑠𝑠𝐶𝑛𝑡𝐶𝒾 代表貨件短缺破損的總件數，計算方式如下：
𝑀𝑖𝑠𝑠𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝐸𝑟𝑠𝑀𝑖𝑠𝑠𝐶𝒾 = ⁄𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡
𝐶𝒾
14. 𝐷𝑙𝑣𝐸𝑟𝑠𝑁𝑜𝑡ℎ𝐶𝒾 (客戶不在的比率)，客戶不在的總次數除以總交易次數。
𝑁𝑜𝑡ℎ𝐶𝑛𝑡𝐶𝒾 代表客戶不在的總件數，計算方式如下：
𝑁𝑜𝑡ℎ𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝐸𝑟𝑠𝑁𝑜𝑡ℎ𝐶𝒾 = ⁄𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡
𝐶𝒾
34
15. 𝐷𝑙𝑣𝐸𝑟𝑠𝑊𝑟𝑛𝑔𝐶𝒾 (地址錯誤查無此人的比率)，地址錯誤查無此人的總次數
除以總交易次數。 𝑊𝑟𝑛𝑔𝐶𝑛𝑡𝐶𝒾 代表地址錯誤查無此人的總件數，計算方
式如下：
𝑊𝑟𝑛𝑔𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝐸𝑟𝑠𝑊𝑟𝑛𝑔𝐶𝒾 = ⁄𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡
𝐶𝒾
16. 𝐷𝑙𝑣𝐸𝑟𝑠𝐴𝑝𝑛𝑡𝐶𝒾 (約定再配的比率)，約定再配的總次數除以總交易次數。
𝐴𝑝𝑛𝑡𝐶𝑛𝑡𝐶𝒾 代表約定再配的總件數，計算方式如下：
𝐴𝑝𝑛𝑡𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝐸𝑟𝑠𝐴𝑝𝑛𝑡𝐶𝒾 = ⁄𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡
𝐶𝒾
17. 𝐷𝑙𝑣𝐸𝑟𝑠𝑅𝑗𝑐𝑡𝐶𝒾 (顧客拒收的比率)，顧客拒收的總次數除以總交易次數。
𝑅𝑗𝑐𝑡𝐶𝑛𝑡𝐶𝒾 代表顧客拒收的總件數，計算方式如下：
𝑅𝑗𝑐𝑡𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝐸𝑟𝑠𝑅𝑗𝑐𝑡𝐶𝒾 = ⁄𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡
𝐶𝒾
18. 𝐷𝑙𝑣𝐸𝑟𝑠𝑁𝑜𝑡h𝐴𝑝𝑛𝑡𝐶𝒾 (客戶不在且約定再配的比率)，客戶不在且約定再配
的總次數除以客戶不在的總次數。𝑁𝑜𝑡h𝐴𝑝𝑛𝑡𝐶𝑛𝑡𝐶𝒾 代表客戶不在且約定再
配的總件數，計算方式如下：
𝑁𝑜𝑡ℎ𝐴𝑝𝑛𝑡𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝐸𝑟𝑠𝑁𝑜𝑡ℎ𝐴𝑝𝑛𝑡𝐶𝒾 = ⁄𝑁𝑜𝑡ℎ𝐶𝑛𝑡
𝐶𝒾
19. 𝐷𝑙𝑣𝐸𝑟𝑠𝑊𝑟𝑛𝑔𝐴𝑝𝑛𝑡𝐶𝒾 (地址錯誤查無此人且約定再配的比率)，地址錯誤查
無此人且約定再配的總次數除以地址錯誤查無此人的總次數。
𝑊𝑟𝑛𝑔𝐴𝑝𝑛𝑡𝐶𝑛𝑡𝐶𝒾 代表地址錯誤查無此人且約定再配的總件數，計算方式
35
如下：
𝑊𝑟𝑛𝑔𝐴𝑝𝑛𝑡𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝐸𝑟𝑠𝑊𝑟𝑛𝑔𝐴𝑝𝑛𝑡𝐶𝒾 = ⁄𝑊𝑟𝑛𝑔𝐶𝑛𝑡
𝐶𝒾
 配送完成天數計算：
𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡𝐶𝒾 代表該顧客全部總交易次數。 𝑅𝐷𝑗 代表該顧客每次配送完成
所需的天數。
𝑅𝐷𝑗 , ∀1 ≤ 𝑗 ≤ n.
20. 𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦1𝐶𝒾 (配送完成天數為 1 天的比率)，配送完成天數為 1 天的總
次數除以總交易次數。 𝑅𝑐ℎ𝐷𝑎𝑦1𝐶𝑛𝑡𝐶𝒾 代表配送完成天數為 1 的總次數，
𝑅𝑐ℎ𝐷𝑎𝑦1𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦1𝐶𝒾 = ⁄𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡
𝐶𝒾
21. 𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝑂𝑣3𝐶𝒾 (配送完成天數超過 3 天的比率)，配送完成天數超過 3
天的總次數除以總交易次數。 𝑅𝑐ℎ𝐷𝑎𝑦𝑂𝑣3𝐶𝑛𝑡𝐶𝒾 代表配送完成天數超過 3
天的總次數，計算方式如下：
𝑅𝑐ℎ𝐷𝑎𝑦𝑂𝑣3𝐶𝑛𝑡𝐶𝒾
𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝑂𝑣3𝐶𝒾 = ⁄𝑇𝑡𝑙𝐶𝑠𝑛𝐶𝑛𝑡
𝐶𝒾
22. 𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝑀𝑖𝑛𝐶𝒾 (最短配送完成天數)，統計該顧客每一次交易的配送完
成天數再取其最小值。計算方式如下：
𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝑀𝑖𝑛𝐶𝒾 = min{𝑅𝐷1 , 𝑅𝐷2 , … , 𝑅𝐷𝑛 }
23. 𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎 𝑦𝑀𝑎𝑥𝐶𝒾 (最長配送完成天數)，統計該顧客每一次交易的配送完
成天數再取其最大值。計算方式如下：
36
𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝑀𝑎𝑥𝐶𝒾 = max{𝑅𝐷1 , 𝑅𝐷2 , … , 𝑅𝐷𝑛 }
24. 𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝐴𝑣𝑔𝐶𝒾 (平均配送完成天數)，統計該顧客每一次交易的配送完
成天數再取其平均值。計算方式如下：
𝑛
𝑅𝐷𝑗
𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝐴𝑣𝑔𝐶𝒾 = (𝑅𝐷1 + 𝑅𝐷2 + ⋯ + 𝑅𝐷𝑛 )⁄𝑛 = ∑
𝑛
𝑗=1
 研究依變項計算原理分述如下：
1. 𝐶𝑠𝑟𝑆𝑡𝑅𝑛𝐸𝑛𝑡𝐶𝒾 (顧客完全流失與否)：Y 表示顧客流失；N 表示顧客保留。
(1) 當顧客的交易停止理由為持續交易時( 𝐶𝑠𝑟𝑆𝑡𝑅𝑛𝐶𝒾 = 0 ) 註記為 N。
(2) 當顧客的交易停止理由為同業競爭時( 𝐶𝑠𝑟𝑆𝑡𝑅𝑛𝐶𝒾 = 4 ) 註記為 Y。
2. 𝐶𝑠𝑟𝑆𝑡𝑅𝑛𝐴𝑏𝑡𝐶𝒾 (顧客即將流失與否)：Y 表示顧客流失；N 表示顧客保留。
(1) 比照 𝐶𝑠𝑟𝑆𝑡𝑅𝑛𝐸𝑛𝑡𝐶𝒾 計算出顧客保留與流失。
(2) 𝐶𝑠𝑟𝑆𝑡𝑅𝑛𝐴𝑏𝑡𝐶𝒾 的顧客流失除了原本的顧客完全流失之外，還要再加上
顧客即將流失。計算出 𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑇𝑟𝑒𝑛𝑑𝐶𝒾 (顧客消費間隔時間趨勢)，
其中 𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝐶𝒾 表示交易的平均間隔時間，𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝑊𝐶𝒾
表示交易的加權平均間隔時間，計算方式如下：
𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑇𝑟𝑒𝑛𝑑𝐶𝒾
(𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝐶𝒾 − 𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝑊𝐶𝒾 )
= ⁄𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔
𝐶𝒾
如果 −0.3 ≤ 𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑇𝑟𝑒𝑛𝑑𝐶𝒾 ≤ −0.9 則表示顧客的消費間隔時間
長，為即將流失顧客，再將註記變更為 Y。
本研究將所有研究變項的敘述性統計整理成表格如表 8 所示：
37
表 8 研究變項的敘述性統計
序號變項名稱型態範圍敘述統計 (n=102747)
01 (I) CsrType 類別 B、C B：76310 (74.3%)
C：26437 (25.7%)
02 (I) CsrRgn 類別北北基宜、北北基宜：37652 (36.7%)
桃竹苗、桃竹苗：13479 (13.1%)
中彰投、中彰投：24899 (24.2%)
雲嘉南、雲嘉南：14067 (13.7%)
高屏、高屏：11353 (11.0%)
花東花東：1297 (1.3%)
03 (I) CsrNrRng 連續 0 ~ 50 3.85 (5.55)
04 (I) CsnLng 連續 1 ~ 915 581 (347)
05 (I) CsnRcn 連續 0 ~ 915 158 (246)
06 (I) CsnFrq 連續 0 ~ 8209 1.47 (29.14)
07 (I) CsnMnt 連續 0 ~ 544605 237 (2221)
08 (I) CsnPft 連續 0~1 0.39 (0.33)
09 (I) CsnStpItvMin 連續 0 ~ 904 8 (46)
10 (I) CsnStpItvMax 連續 0 ~ 950 87 (122)
11 (I) CsnStpItvAvg 連續 0 ~ 904 23.41 (56.96)
12 (I) CsnStpItvAvgW 連續 0 ~ 904 24.47 (58.84)
13 (I) DlvErsMiss 連續 0~1 0.0020 (0.0190)
14 (I) DlvErsNoth 連續 0~1 0.0306 (0.0786)
15 (I) DlvErsWrng 連續 0~1 0.0018 (0.0151)
16 (I) DlvErsApnt 連續 0~1 0.0166 (0.0494)
17 (I) DlvErsRjct 連續 0~1 0.0012 (0.0157)
18 (I) DlvErsNothApnt 連續 0~1 0.3851 (0.4728)
19 (I) DlvErsWrngApnt 連續 0~1 0.7706 (0.4156)
20 (I) DlvRchDay1 連續 0~1 0.9368 (0.1069)
21 (I) DlvRchDayOv3 連續 0~1 0.0096 (0.0489)
22 (I) DlvRchDayMin 連續 0 ~ 30 1.01 (0.484)
23 (I) DlvRchDayMax 連續 0 ~ 30 4.14 (4.36)
24 (I) DlvRchDayAvg 連續 0 ~ 30 1.079 (0.5799)
25(D) CsrStRnEnt 類別 Y、N Y：2325 (2.3%)
N：104422 (97.7%)
26 (D) CsrStRnAbt 類別 Y、N Y：11437 (11.1%)
N：91310 (88.9%)
(I)：表示自變項 (D)：表示依變項。
類別變項：項目筆數 (項目百分比)；連續變項：μ 平均數 (σ 標準差)
38
3.3 實驗設計
本研究主要是探討個案公司高價值顧客群的顧客流失預測。
本研究採用 WEKA v3.7.7 開放原始碼資料探勘應用軟體，搭配其的
Clusterers 模組與 Classifiers 模組，作為建構本研究高價值顧客流失預測模型的
工具。
本研究的研究依變項有兩個，因此會進行兩組實驗，分別由 24 個研究自變
項，個別搭配其中 1 個研究依變項，來進行實驗。
(1) 第一組實驗 A 為「顧客完全流失」：使用依變項「顧客完全流失與否」
搭配 24 個自變項，進行實驗。
(2) 第二組實驗 B 為「顧客即將流失」：使用依變項「顧客即將流失與否」
搭配 24 個自變項，進行實驗。
本研究的實驗設計流程如下圖 8 所示，由於這兩組實驗的設計流程都是相同
的，因此以下的實驗設計所敘述的顧客流失分別代表顧客完全流失與顧客即將流
失。
39
全部顧客群
顧客分群
(K-Means)
高價值顧客群
顧客保留
等比例隨機抽樣顧客流失
30 組訓練樣本
1 ．．．．．． 15 ．．．．．． 30
顧客流失預測
(決策樹、類神經網路、支援向量機、羅吉斯回歸)
最佳顧客流失預測模型
圖 8 實驗設計流程圖
40
本研究的實驗設計包含了顧客分群與顧客流失預測兩個步驟。
 顧客分群說明如下：
本研究以 L、R、F、M、P 值等顧客價值研究變項為基礎，搭配 K-Means 分
群演算法，對整體的顧客進行分群，將顧客區隔為高價值顧客群與低價值顧客群
兩個群組。分群的執行步驟說明如下：
(1) 將資料分為 K 群：使用 WEKA 軟體的 weka.clusterers.SimpleKMeans 模
組將 L、R、F、M、P 值個別依次進行分群，個別將其分為 K 群。
(2) 將分群的結果排序：將分群完畢的結果依據分群的平均值執行升幕排序
(Ascending Order)的動作，需要特別注意在於 L、F、M、P 值與顧客價
值呈現正向關係；而 R 值與顧客價值呈現負向關係，所以 R 值必須執行
降幕排序(Descending Order)的動作。
(3) 給予分數值：依次將分群且排序後的結果，給予 1 至 K 的分數值。
(4) 是否再次執行 K-Means 分群：由於 K-Means 分群會受極端值的影響，如
果分群的結果不佳，就必須再次執行 K-Means 分群。
i. 假設資料幾乎都被歸類為集群 1，而集群 2 至集群 K 的數量都小於整
體的 5%以下，本研究將手動給予集群 2 至集群 K 新的分數值 K，再
針對集群 1 進行 K-Means 分群，如此動作重複 M 次，直到第 M 次
每群的數量都大於 5%以上才終止。
ii. 假設資料幾乎都被歸類為集群 K，而集群 1 至集群 K-1 的數量都小於
整體的 5%以下，本研究將手動給予集群 1 至集群 K-1 新的分數值 1，
再針對集群 K 進行 K-Means 分群，如此動作重複 M 次，直到第 M 次
每群的數量都大於 5%以上才終止。
經由上述分群方法處理完畢之後，已經完成針對每位顧客價值指標的離散化。
顧客 𝐶𝒾 的 L、R、F、M、P 值的分數可以分別表示為 𝐿𝐶𝒾 、 𝑅𝐶𝒾 、 𝐹𝐶𝒾 、
𝑀𝐶𝒾 、 𝑃𝐶𝒾 ，而顧客整體價值分數 𝑆𝑐𝑜𝑟𝑒𝐶𝒾 可以表示如下：
𝑆𝑐𝑜𝑟𝑒𝐶𝒾 = 𝐿𝐶𝒾 + 𝑅𝐶𝒾 + 𝐹𝐶𝒾 + 𝑀𝐶𝒾 + 𝑃𝐶𝒾

41
根據上述公式，本研究定義顧客整體價值的門檻值為 𝑚𝑖𝑛𝑆𝑐𝑜𝑟𝑒 ，則高價
值顧客 𝐻𝑖𝑔ℎ 𝑎𝑙𝑢𝑒𝐶𝑢𝑠𝑡𝑜𝑚𝑒𝑟 可被定義為所有滿足 𝑚𝑖𝑛𝑆𝑐𝑜𝑟𝑒 的顧客集合：
𝐻𝑖𝑔ℎ 𝑎𝑙𝑢𝑒𝐶𝑢𝑠𝑡𝑜𝑚𝑒𝑟 = { 𝐶𝒾 𝐶𝒾 ∈ 𝑆𝑐𝑜𝑟𝑒𝐶𝒾 ≥ 𝑚𝑖𝑛𝑆𝑐𝑜𝑟𝑒 }
 顧客流失預測說明如下：
本研究以高價值顧客群的研究變項資料為基礎，搭配決策樹、類神經網路、
支援向量機與羅吉斯回歸等資料探勘技術，個別建立顧客流失預測模型。流失預
測模型建立的執行步驟如下：
(1) 等比例隨機抽樣：本研究將根據顧客流失的資料筆數，假設共有 N 筆，
再從顧客保留資料當中等比例隨機抽樣出 N 筆，再將兩者合併，如此動
作重複 30 次，總計產生 30 組訓練樣本，每一組訓練樣本的顧客保留與
流失的資料筆數的比率為 1：1，資料總筆數為 2N。
(2) 以決策樹建立顧客流失預測模型：將全部的訓練樣本個別以 WEKA 軟
體的 weka.classifiers.trees.J48 模組進行分析，再從其中選出準確性最佳
的決策樹顧客流失預測模型。
(3) 以類神經網路建立顧客流失預測模型：將全部的訓練樣本個別以 WEKA
軟體的 weka.classifiers.functions.MultilayerPerceptron 模組進行分析，再從
其中選出準確性最佳的類神經網路顧客流失預測模型。
(4) 以支援向量機建立顧客流失預測模型：將全部的訓練樣本個別以 WEKA
軟體的 weka.classifiers.functions.SMO 模組進行分析，再從其中選出準確
性最佳的支援向量機顧客流失預測模型。
(5) 以羅吉斯回歸建立顧客流失預測模型：將全部的訓練樣本個別以 WEKA
軟體的 weka.classifiers.functions.Logistic 模組進行分析，再從其中選出準
確性最佳的羅吉斯回歸顧客流失預測模型。
根據上述四種資料探勘分類技術的特性，並針對其預測的結果進行交叉分析，
試圖找出隱藏的規則或意涵，藉此提供企業的管理階層進行相關的決策運用。
42
3.4 參數設定
在實驗的參數值設定方面，各個演算法模組的設定方式與步驟說明如下：
1. K-Means：使用 SimpleKMeans 模組，只設定 1 個參數。設定完畢之後再定義
對應的高價值顧客門檻值。顧客完全流失與顧客即將流失兩組實驗使用相同
的設定值。參數的設定值如表 9 所示：
表 9 參數設定-SIMPLEKMEANS
numClusters 3 5 7
minScore ≧10 ≧15 ≧20
numClusters 表示分群的數目。
minScore 表示高價值顧客門檻值。
2. 決策樹：使用 J48 模組，只設定 1 個參數。參數的設定值如表 10 所示：

表 10 參數設定-J48
顧客完全流失顧客即將流失
Parameters Range Increment Range Increment
minNumObj 15 - 25 5 200 – 300 50
minNumObj 表示當各節點的資料量低於設定值時，就停止繼續往下分裂。
3. 類神經網路：使用 MultilayerPerceptron 模組，只設定 4 個參數。顧客完全流
失與顧客即將流失兩組實驗使用相同的設定值。設定值如表 11 所示：
表 11 參數設定-MULTILAYERPERCEPTRON
Parameters Range Increment
hiddenLayers 10 – 13 3
learingRate 0.1 – 0.3 0.2
momentum 0.2 – 0.4 0.2
trainingTime 500 0
hiddenLayers 表示設定神經網路隱藏層的數目。
learingRate 表示決定神經網路的收斂程度。
momentum 表示在訓練過程中權重值的動量調整。
trainingTime 表示訓練的次數(epochs)。
4. 支援向量機：使用 SMO 模組。只設定 1 個參數，將 kernel 設定為 PolyKernel，
其餘的數值直接採用軟體給予的初始預設值。顧客完全流失與顧客即將流失
兩組實驗使用相同的設定值。
43
5. 羅吉斯回歸：使用 Logistic 模組。不特別設定參數，直接採用軟體所給予的
初始預設值。顧客完全流失與顧客即將流失兩組實驗使用相同的設定值。
3.5 評估程序與準則
為了求得實驗品質的精確度與可靠性，本研究採用 10 摺交叉驗證法(10-Fold
Cross-validation) 進行實驗，對資料的預測模式進行效能評估。其目的是避免訓
練與測試樣本的資料重覆性，以及抽樣次數過少所造成的資料不平均等問題，進
而影響了預測模型的準確性，是一種經常用於評估演算法效能的檢驗方法。
首先將樣本以隨機方式劃分成數量相等 10 組資料集 𝐷𝑖 , 1 ≤ 𝑖 ≤ 10. ，並重
複執行下列步驟 10 次：
(1) 將 𝐷𝑖 當作測試組(Validation Set)。
(2) 將 𝐷𝑖 之外的 9 組資料當作為訓練組(Training Set)。
(3) 將訓練組以分類技術建構出預測模型，再使用測試組驗證模型的準確性，如
此就形成一摺資料組。
最後分別計算出十組所對應的準確率，再取其平均值就可以得到該預測模型的準
確率，以此作為整體效能評估的依據。
為了評估每一種預測模型的預測能力，本研究將採用混亂矩陣(Confusion
Matrix)為評估準則，藉此判斷預測模型的性能與好壞。混亂矩陣是一種非常有用
的工具，主要是用來評估分類模型的預測能力，衡量其預測的結果，混亂矩陣圖
示說明如表 12 所示：
表 12 混亂矩陣(CONFUSION MATRIX)
Predicted class
Class=Yes Class=No
Class=Yes TP (True Positive) FN (False Negative)
Actual Class
Class=No FP (False Positive) TN (True Negative)
其中，TP、TN 代表預測結果與事實相符，FN、FP 代表預測結果與事實不符。
而整體分類模型預測的準確性可以表示為： 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 。
44
由於對於本研究來說，顧客流失的重要性遠比顧客保留來得重要許多，為了有效
使用混亂矩陣測量分類模型預測顧客流失的能力，本研究透過精確率(Precision)
與回覆率(Recall)兩種評估指標來分析，其計算方法如下：
(1) 精確率， 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ，表示分類模型預測顧客流失的正確率。
(2) 回覆率， 𝑅𝑒𝑐𝑎𝑙𝑙 = ，表示分類模型實際顧客流失的正確率。
通常一個分類方法會最大化精確率與回覆率其中一個評估指標，如果精確率較高，
其回覆率就相對較低，反之亦然。因此，精確率與回覆率可以整合成 F1 評估指
標，原則上 F1 是精確率與回覆率兩者的調和平均數，其計算方法如下：
2 ∙ 𝑅𝑒𝑐𝑎𝑙𝑙 ∙ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
𝐹1 =
𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
45
第四章、實驗結果與分析
4.1 實驗結果
本研究的實驗分為兩個階段，第一個階段為顧客分群，第二個階段為顧客流
失預測。其中第一組實驗 A 顧客完全流失與第二組實驗 B 顧客即將流失的第一
階段顧客分群的結果是相同的，而第二階段顧客流失預測，由於第一組與第二組
實驗的顧客流失筆數不相同，其結果是不相同的。
4.1.1 顧客分群
首先是顧客分群的部分，在分群的實驗當中，分群的數目依次為 3、5、7，
分群的結果說明如下：
(1) K-Means 分 3 群：依序將 L、R、F、M、P 值個別進行分群，其中 L、R、P
資料分佈較平均，沒有太多的極端值，個別使用 SimpleKMeans 模組執行一
次分群即可。F 值在第一次分群之後，資料幾乎都被歸類在集群 1，必須再次
針對集群 1 執行分群，直到第三次分群之後，每群的數量才都大於 5%以上。
M 值在第一次分群之後，資料幾乎都被歸類在集群 1，必須再次針對集群 1
執行分群，直到第四次分群之後，每群的數量才都大於 5%以上。
針對集群 1 執行分群，直到第三次分群之後，每群的數量才都大於 5%以上。
執行分群，直到第三次分群之後，每群的數量才都大於 5%以上。
46
針對集群 1 執行分群，直到第二次分群之後，每群的數量才都大於 5%以上。
執行分群，直到第三次分群之後，每群的數量才都大於 5%以上。
本研究將每一組實驗的最終分群結果，包含了每一個集群的群中心點與資料
分佈百分比整理如下表所示：
表 13 K-MEANS CLUSTER CENTROIDS 與資料分佈百分比
K-Means 分 3 群 (K = 3)
集群 1 集群 2 集群 3
L 82(26) 459(20) 869(54)
R 711(13) 328(15) 23(72)
F 0.21(73) 1.57(21) 6.03(6)
M 15.8(52) 75.4(19) 151.5(29)
P 0.089(44) 0.447(31) 0.861(25)
集群 1 集群 2 集群 3 集群 4 集群 5
L 36(19) 239(13) 450(11) 695(11) 894(45)
R 807(7) 586(7) 371(8) 174(12) 13(66)
F 0.045(32) 0.165(18) 0.321(11) 0.514(7) 0.750(32)
M 25.1(62) 141.9(20) 346.7(8) 650.2(5) 1089.3(5)
P 0.037(30) 0.225(20) 0.439(19) 0.680(15) 0.938(16)
集群 1 集群 2 集群 3 集群 4 集群 5 集群 6 集群 7
L 23(17) 168(9) 325(9) 474(8) 641(8) 782(10) 902(41)
R 830(5) 653(6) 492(5) 348(6) 213(7) 93(11) 8(60)
F 0.075(43) 0.322(18) 0.677(9) 1.161(14) 2.459(6) 4.479(5) 7.373(5)
M 6.6(28) 23.7(17) 45.7(11) 72.3(8) 101.2(7) 133.9(6) 172.9(23)
P 0.017(23) 0.130(14) 0.254(12) 0.391(13) 0.552(13) 0.745(12) 0.955(14)
欄位內容說明：群中心點 (資料分佈百分比%)。
取得每一組實驗所有集群的群中心點之後，本研究利用 Microsoft Visual
Studio 2010 與 C# Language 撰寫程式，根據群中心點與每一筆資料的 L、R、F、
M、P 值，計算出對應的分數 𝐿𝐶𝒾 、 𝑅𝐶𝒾 、 𝐹𝐶𝒾 、 𝑀𝐶𝒾 、 𝑃𝐶𝒾 ，最後
47
再將 5 個分數作加總，計算出顧客整體價值分數 𝑆𝑐𝑜𝑟𝑒𝐶𝒾 。再依據分群數目個
別所對應的高價值顧客門檻值(K-Means 分 3 群的門檻為 10；K-Means 分 5 群的
門檻為 15；K-Means 分 7 群的門檻為 20) ，區隔出高價值與低價值的顧客群。

表 14 使用 K-MEANS 分群後高低價值顧客群之資料分佈
K=3 K=5 K=7
高價值顧客群 57685 56590 54654
低價值顧客群 45062 46157 48093
4.1.2 顧客完全流失
再來是顧客完全流失預測的部分，區隔出高價值顧客群之後，本研究再利用
C# 撰寫隨機抽樣程式，進行顧客保留與顧客完全流失等比例的隨機抽樣。
顧客完全流失與否與高價值顧客群的資料分佈如下表所示：
表 15 K-MEANS 分群後顧客群保留與完全流失之資料分佈
ALL (K=3) (K=5) (K=7)
全部顧客群高價值顧客群高價值顧客群高價值顧客群
顧客保留(N) 100422 57104 56048 54150
顧客流失(Y) 2325 581 542 504
總和 102747 57685 56590 54654
在 K-Means 分 3 群的高價值顧客群當中：顧客完全流失有 581 筆資料；而
顧客保留有 57104 筆資料。從顧客保留資料當中隨機抽樣出 581 筆，加上原本
581 筆顧客完全流失資料，合計 1162 筆資料。如此動作重複 30 次，總計產生 30
組訓練樣本。
組訓練樣本。

48
組訓練樣本。
根據上述等比例隨機抽樣的結果，共有 3 種分群數目各 30 組訓練樣本，總
計 90 組訓練樣本。再搭配決策樹、類神經網路、支援向量機與羅吉斯回歸等資
料探勘技術，進行資料分析。各個演算法分析的過程，與評估指標的比較，說明
敘述如下：
(1) 決策樹：使用 weka.classifiers.trees.J48 模組進行分析。由於本實驗須設定的
參數只有 1 個，設定值有 3 種選擇，因此合計會有 3 組排列組合，再投入 90
組訓練樣本進行訓練，總計會有 270 組訓練結果。接著再從 270 組訓練結果
當中，把相同分群數目與相同參數設定的 30 組訓練結果其四種評估指標取平
均值。相關結果整理如下表：
表 16 顧客完全流失_決策樹的訓練結果與其評估指標整理
分群數目參數設定 Accuracy Precision Recall F-Measure
M=15 0.872466 0.842833 0.916133 0.877800
K=3 M=20 0.872500 0.843366 0.915300 0.877800
M=25 0.872300 0.843233 0.914933 0.877466
M=15 0.885900 0.861466 0.920000 0.889600
K=5 M=20 0.886100 0.862066 0.919600 0.889833
M=25 0.886100 0.862633 0.918900 0.889800
M=15 0.886800 0.864733 0.917400 0.890033
K=7 M=20 0.888633 0.866433 0.919266 0.891833
M=25 0.888800 0.865600 0.921000 0.892300
M：表示 minNumObj。
(2) 類神經網路：使用 weka.classifiers.functions.MultilayerPerceptron 模組進行分析。
由於本實驗須設定的參數共有 4 個，設定值依序個別有 2、2、2、1 種選擇，
因此合計會有 8 組排列組合，再投入 90 組訓練樣本進行訓練，總計會有 720
組訓練結果。接著再從 720 組訓練結果當中，把相同分群數目與相同參數設
定的 30 組訓練結果其四種評估指標取平均值。相關結果整理如下表：
49
表 17 顧客完全流失_類神經網路的訓練結果與其評估指標整理
分群數目參數設定 1 參數設定 2 參數設定 3 參數設定 4 Accuracy Precision Recall F-Measure
H=10 L=0.1 M=0.2 N=500 0.848266 0.842166 0.857333 0.849566
H=10 L=0.1 M=0.4 N=500 0.847466 0.842433 0.855033 0.848600
H=10 L=0.3 M=0.2 N=500 0.845900 0.842400 0.851333 0.846700
H=10 L=0.3 M=0.4 N=500 0.845700 0.842600 0.850333 0.846366
K=3
H=13 L=0.1 M=0.2 N=500 0.850266 0.844333 0.859000 0.851666
H=13 L=0.1 M=0.4 N=500 0.845666 0.841033 0.852900 0.846833
H=13 L=0.3 M=0.2 N=500 0.844933 0.842433 0.848800 0.845466
H=13 L=0.3 M=0.4 N=500 0.845000 0.839133 0.853666 0.846233
H=10 L=0.1 M=0.2 N=500 0.851233 0.848200 0.856400 0.852100
H=10 L=0.1 M=0.4 N=500 0.850133 0.848533 0.852966 0.850566
H=10 L=0.3 M=0.2 N=500 0.847733 0.847200 0.848500 0.847833
H=10 L=0.3 M=0.4 N=500 0.847366 0.846266 0.849766 0.847733
K=5
H=13 L=0.1 M=0.2 N=500 0.849466 0.846066 0.854766 0.850333
H=13 L=0.1 M=0.4 N=500 0.848833 0.846066 0.853500 0.849600
H=13 L=0.3 M=0.2 N=500 0.843800 0.844366 0.843466 0.843833
H=13 L=0.3 M=0.4 N=500 0.846600 0.846000 0.847766 0.846766
H=10 L=0.1 M=0.2 N=500 0.863333 0.855966 0.874066 0.864900
H=10 L=0.1 M=0.4 N=500 0.862633 0.857266 0.870666 0.863800
H=10 L=0.3 M=0.2 N=500 0.859200 0.854800 0.866133 0.860300
H=10 L=0.3 M=0.4 N=500 0.859666 0.856066 0.865266 0.860500
K=7
H=13 L=0.1 M=0.2 N=500 0.866133 0.856666 0.879866 0.868000
H=13 L=0.1 M=0.4 N=500 0.862900 0.855200 0.874266 0.864600
H=13 L=0.3 M=0.2 N=500 0.857266 0.853366 0.863066 0.858233
H=13 L=0.3 M=0.4 N=500 0.857366 0.852866 0.864200 0.858400
H：表示 hiddenLayers、 L：表示 learingRate、 M：表示 momentum、 N：表示 trainingTime。
50
(3) 支援向量機：使用 weka.classifiers.functions.SMO 模組進行分析。由於本實驗
須設定的參數只有 1 個，設定值只有 1 種選擇，因此合計只有 1 組排列組合，
再投入 90 組訓練樣本進行訓練，總計會有 90 組訓練結果。接著再從 90 組訓
練結果當中，把相同分群數目與相同參數設定的 30 組訓練結果其四種評估指
標取平均值。相關結果整理如下表：
表 18 顧客完全流失_支援向量機的訓練結果與其評估指標整理
K=3 PolyKernel 0.858633 0.884300 0.825233 0.853633
K=5 PolyKernel 0.855466 0.899200 0.801000 0.847233
K=7 PolyKernel 0.857166 0.909266 0.794166 0.847633
PolyKernel：表示將 kernel 設定為 PolyKernel。
(4) 羅吉斯回歸：使用 weka.classifiers.functions.Logistic 模組進行分析。由於本實
驗不須特別設定參數，投入 90 組訓練樣本進行訓練，總計會有 90 組訓練結
果。接著再從 90 組訓練結果當中，把相同分群數目與相同參數設定的 30 組
訓練結果其四種評估指標取平均值。相關結果整理如下表：
表 19 顧客完全流失_羅吉斯回歸的訓練結果與其評估指標整理
K=3 無 0.842633 0.876066 0.797933 0.835233
K=5 無 0.846900 0.888100 0.793800 0.838233
K=7 無 0.849566 0.893600 0.794233 0.840866
藉由上述的表格整理，本研究再針對四種分類技術與三種分群數目，依據評
估指標 F-Measure、Precision 來判斷，分別挑選出最佳的結果，進行四種分類技
術的評估指標相互比較與分析。相關結果整理如下表：
51
表 20 顧客完全流失_以各個評估指標判斷四種分類技術的預測能力
分群數目決策樹類神經網路支援向量機羅吉斯回歸
參數設定 M=20 H=13, L=0.1, M=0.2, N=500 kernel=PolyKernel 無
Accuracy 0.872500 0.850266 0.858633 0.842633
K=3 Precision 0.843366 0.844333 0.884300 0.876066
Recall 0.915300 0.859000 0.825233 0.797933
F-Measure 0.877800 0.851666 0.853633 0.835233
Accuracy 0.886100 0.851233 0.855466 0.846900
K=5 Precision 0.862066 0.848200 0.899200 0.888100
Recall 0.919600 0.856400 0.801000 0.793800
F-Measure 0.889833 0.852100 0.847233 0.838233
Accuracy 0.888800 0.866133 0.857166 0.849566
K=7 Precision 0.865600 0.856666 0.909266 0.893600
Recall 0.921000 0.879866 0.794166 0.794233
F-Measure 0.892300 0.868000 0.847633 0.840866
由上述的表格整理可以發現，以各個評估指標來判斷，四種分類技術的預測能力，其中以決策樹為最佳、類神經網路次之，其次
是支援向量機，最後則是羅吉斯回歸。
52
4.1.3 顧客即將流失
再來是顧客即將流失預測的部分，區隔出高價值顧客群之後，本研究再利用
C# 撰寫隨機抽樣程式，進行顧客保留與顧客即將流失等比例的隨機抽樣。
顧客即將流失與否與高價值顧客群的資料分佈如下表所示：
表 21 K-MEANS 分群後顧客群保留與即將流失之資料分佈
ALL (K=3) (K=5) (K=7)
全部顧客群高價值顧客群高價值顧客群高價值顧客群
顧客保留(N) 91310 53789 53072 51514
顧客流失(Y) 11437 3896 3518 3140
總和 102747 57685 56590 54654
在 K-Means 分 3 群的高價值顧客群當中：顧客即將流失有 3896 筆資料；而
3896 筆顧客即將流失資料，合計 7792 筆資料。如此動作重複 30 次，總計產生
30 組訓練樣本。
根據上述等比例隨機抽樣的結果，共有 3 種分群數目各 30 組訓練樣本，總
計 90 組訓練樣本。再搭配決策樹、類神經網路、支援向量機與羅吉斯回歸等資
料探勘技術，進行資料分析。各個演算法分析的過程，與評估指標的比較，說明
敘述如下：
53
(1) 決策樹：使用 weka.classifiers.trees.J48 模組進行分析。由於本實驗須設定的
參數只有 1 個，設定值有 3 種選擇，因此合計會有 3 組排列組合，再投入 90
組訓練樣本進行訓練，總計會有 270 組訓練結果。接著再從 270 組訓練結果
當中，把相同分群數目與相同參數設定的 30 組訓練結果其四種評估指標取平
均值。相關結果整理如下表：
表 22 顧客即將流失_決策樹的訓練結果與其評估指標整理
M=200 0.810666 0.787233 0.852166 0.818200
K=3 M=250 0.807600 0.784266 0.848966 0.815200
M=300 0.803800 0.778866 0.848866 0.812266
M=200 0.810933 0.790800 0.845900 0.817333
K=5 M=250 0.806533 0.780300 0.853166 0.815100
M=300 0.801833 0.775200 0.851066 0.811200
M=200 0.811633 0.785100 0.858966 0.820133
K=7 M=250 0.805433 0.784433 0.842600 0.812400
M=300 0.801866 0.782600 0.836500 0.808433
M：表示 minNumObj。
(2) 類神經網路：使用 weka.classifiers.functions.MultilayerPerceptron 模組進行分析。
由於本實驗須設定的參數共有 4 個，設定值依序個別有 2、2、2、1 種選擇，
因此合計會有 8 組排列組合，再投入 90 組訓練樣本進行訓練，總計會有 720
組訓練結果。接著再從 720 組訓練結果當中，把相同分群數目與相同參數設
定的 30 組訓練結果其四種評估指標取平均值。相關結果整理如下表：
54
表 23 顧客即將流失_類神經網路的訓練結果與其評估指標整理
分群數目參數設定 1 參數設定 2 參數設定 3 參數設定 4 Accuracy Precision Recall F-Measure
H=10 L=0.1 M=0.2 N=500 0.827600 0.820733 0.838466 0.829400
H=10 L=0.1 M=0.4 N=500 0.824533 0.819466 0.833000 0.825966
H=10 L=0.3 M=0.2 N=500 0.812233 0.802966 0.828166 0.815200
H=10 L=0.3 M=0.4 N=500 0.807300 0.802000 0.816600 0.808900
K=3
H=13 L=0.1 M=0.2 N=500 0.825366 0.820533 0.833233 0.826633
H=13 L=0.1 M=0.4 N=500 0.822166 0.816533 0.831166 0.823633
H=13 L=0.3 M=0.2 N=500 0.811300 0.802666 0.826033 0.814000
H=13 L=0.3 M=0.4 N=500 0.807100 0.801966 0.816100 0.808733
H=10 L=0.1 M=0.2 N=500 0.817800 0.792766 0.860833 0.825433
H=10 L=0.1 M=0.4 N=500 0.816733 0.792100 0.858933 0.824200
H=10 L=0.3 M=0.2 N=500 0.806633 0.780500 0.853833 0.815466
H=10 L=0.3 M=0.4 N=500 0.804033 0.779133 0.848866 0.812366
K=5
H=13 L=0.1 M=0.2 N=500 0.815733 0.791333 0.857733 0.823133
H=13 L=0.1 M=0.4 N=500 0.813666 0.789733 0.855233 0.821000
H=13 L=0.3 M=0.2 N=500 0.805300 0.780566 0.849666 0.813433
H=13 L=0.3 M=0.4 N=500 0.803933 0.778566 0.849766 0.812533
H=10 L=0.1 M=0.2 N=500 0.817566 0.799700 0.847266 0.822800
H=10 L=0.1 M=0.4 N=500 0.817033 0.799500 0.846466 0.822233
H=10 L=0.3 M=0.2 N=500 0.809766 0.794133 0.836600 0.814566
H=10 L=0.3 M=0.4 N=500 0.808433 0.792766 0.835766 0.813600
K=7
H=13 L=0.1 M=0.2 N=500 0.816933 0.800333 0.844500 0.821800
H=13 L=0.1 M=0.4 N=500 0.814966 0.798700 0.842433 0.819833
H=13 L=0.3 M=0.2 N=500 0.809166 0.793066 0.836900 0.814133
H=13 L=0.3 M=0.4 N=500 0.807300 0.791733 0.833966 0.812133
H：表示 hiddenLayers、 L：表示 learingRate、 M：表示 momentum、 N：表示 trainingTime。
55
(3) 支援向量機：使用 weka.classifiers.functions.SMO 模組進行分析。由於本實驗
須設定的參數只有 1 個，設定值只有 1 種選擇，因此合計只有 1 組排列組合，
再投入 90 組訓練樣本進行訓練，總計會有 90 組訓練結果。接著再從 90 組訓
練結果當中，把相同分群數目與相同參數設定的 30 組訓練結果其四種評估指
標取平均值。相關結果整理如下表：
表 24 顧客即將流失_支援向量機的訓練結果與其評估指標整理
K=3 PolyKernel 0.785266 0.820933 0.729700 0.772633
K=5 PolyKernel 0.780866 0.823700 0.715033 0.765500
K=7 PolyKernel 0.782200 0.829833 0.709966 0.765333
PolyKernel：表示將 kernel 設定為 PolyKernel。
(4) 羅吉斯回歸：使用 weka.classifiers.functions.Logistic 模組進行分析。由於本實
驗不須特別設定參數，投入 90 組訓練樣本進行訓練，總計會有 90 組訓練結
果。接著再從 90 組訓練結果當中，把相同分群數目與相同參數設定的 30 組
訓練結果其四種評估指標取平均值。相關結果整理如下表：
表 25 顧客即將流失_羅吉斯回歸的訓練結果與其評估指標整理
K=3 無 0.885200 0.911033 0.853633 0.881400
K=5 無 0.903266 0.919433 0.883966 0.901366
K=7 無 0.904633 0.920300 0.885966 0.902700
藉由上述的表格整理，本研究再針對四種分類技術與三種分群數目，依據評
估指標 F-Measure、Precision 來判斷，分別挑選出最佳的結果，進行四種分類技
術的評估指標相互比較與分析。相關結果整理如下表：
56
表 26 顧客即將流失_以各個評估指標判斷四種分類技術的預測能力
分群數目決策樹類神經網路支援向量機羅吉斯回歸
Accuracy 0.810666 0.827600 0.785266 0.885200
K=3 Precision 0.787233 0.820733 0.820933 0.911033
Recall 0.852166 0.838466 0.729700 0.853633
F-Measure 0.818200 0.829400 0.772633 0.881400
Accuracy 0.810933 0.817800 0.780866 0.903266
K=5 Precision 0.790800 0.792766 0.823700 0.919433
Recall 0.845900 0.860833 0.715033 0.883966
F-Measure 0.817333 0.825433 0.765500 0.901366
Accuracy 0.811633 0.817566 0.782200 0.904633
K=7 Precision 0.785100 0.799700 0.829833 0.920300
Recall 0.858966 0.847266 0.709966 0.885966
F-Measure 0.820133 0.822800 0.765333 0.902700
由上述的表格整理可以發現，以各個評估指標來判斷，四種分類技術的預測能力，其中以羅吉斯回歸為最佳、類神經網路次之，
其次是決策樹，最後則是支援向量機。
57
4.2 分析與評估
本研究分別從兩組實驗的決策樹前 30 名預測能力較佳的訓練組別當中，整理
出顧客完全流失與顧客即將流失的預測規則，整理說明如下：
 第一組實驗(A)：顧客完全流失。
表 27 顧客完全流失_決策樹規則整理 A1
規則 A1 CsnRcn > 31
| CsnRcn > 68: Y (481.0/46.0)
當顧客最近已經超過 68 天未交易時，則該顧客有 90%的機率會流失。
分析當顧客的最近交易日期愈久，顧客愈容易流失；當顧客最近很久沒交易，已
經超過 2 個月，其實就是代表著顧客即將要流失的一種警訊了。
規則 A2a CsnRcn > 31
| CsnRcn <= 68
| | CsnStpItvAvg <= 4.0886: Y (34.0/5.0)
當顧客的平均交易間隔天數在 4 天以內，而且最近已經超過 31 天未交易，則
該顧客有 85%的機率會流失。
規則 A2b CsnRcn > 31
| CsnStpItvAvgW <= 9.7147: Y (506.0/50.0)
當顧客最近平均交易間隔天數在 10 天以內，而且最近已經超過 31 天未交易，
則該顧客有 90%的機率會流失。
分析當顧客的過去交易間隔天數很規律，每週至少 1 次，但現在已經超過 1 個月
未交易，其實就是代表著顧客即將要流失的一種警訊了。
| CsnMnt > 23.21136: Y (511.0/60.0)
當顧客過去每日交易金額超過 23 元，而且顧客已經超過 21 天未交易時，則
該顧客有 88%的機率會流失。
分析交易金額這個變項代表了顧客過去是一個穩定規律持續交易的顧客。當顧客
過去交易很穩定，每日交易金額超過 23 元，而現在已經超過 3 週未交易，其
實就是代表著顧客即將要流失的一種警訊了。
58
規則 A4a CsnRcn > 19
| CsnLng > 822
| | CsnStpItvAvg <= 4.046: Y (21.0/1.0)
當顧客是 2 年以上的老顧客，平均交易間隔天數在 4 天以內，而且顧客最近
已經超過 19 天未交易，則該顧客有 95%的機率會流失。
規則 A4b CsnRcn > 19
| CsnLng > 822
| | CsnStpItvAvgW <= 5.3152: Y (26.0/3.0)
當顧客是 2 年以上的老顧客，最近平均交易間隔天數在 5 天以內，而且顧客
最近已經超過 19 天未交易，則該顧客有 88%的機率會流失。
規則 A4c CsnRcn > 19
| CsnLng <= 822: Y (504.0/52.0)
當顧客是 2 年以下的新顧客，而且顧客最近已經超過 19 天未交易，則該顧客
有 90%的機率會流失。
分析新顧客只要最近超過三週未交易就容易流失；而在過去每週會都交易的老顧
客，只要最近超過三週未交易就容易流失。這表示兩年以下的新顧客比起老
顧客，需要花更多的心力進行顧客挽留。
| CsnRcn <= 93
| | DlvRchDayMax > 6: Y (20.0/1.0)
當顧客的最長配送完成天數超過 6 天，而且最近超過 31 天未交易，則該顧客
有 95%的機率會流失。
分析最長配送完成天數這個變項代表了企業對於顧客的服務品質。當顧客過去曾
經有過不好的消費經驗，曾經在一週以內沒有收到配送的貨品，而現在已經
超過 1 個月未交易，其實就是代表著顧客即將要流失的一種警訊了。
從上述所整理的規則當中，我們可以發現影響實驗 A 顧客完全流失的最關
鍵因素為「最近一次交易日期」。
59
 第二組實驗(B)：顧客即將流失。
表 32 顧客即將流失_決策樹規則整理 B1
規則 B1 CsnStpItvMax > 48
| CsnRcn > 18: Y (2282.0/321.0)
當顧客的最長交易間隔天數曾經超過 48 天以上，而且最近已經超過 18 天未
交易，則該顧客有 86%的機率會流失。
分析當顧客過去曾經有一段很長的時間未交易，超過了 7 週以上，但現在已經超
過 18 天未交易，其實就是代表著顧客即將要流失的一種警訊了。
規則 B2 CsnStpItvMax <= 48
| CsnRcn > 10
| | CsnFrq > 1.01874: Y (452.0/137.0)
當顧客的最長交易間隔天數小於 48 天，平均交易次數大於 1 次以上，且最近
超過 10 天未交易，則該顧客有 70%的機率會流失。
分析當顧客過去曾經有一小段的時間未交易，在 7 週以內，而且顧客的過去交易
間隔天數很規律，平均每天至少交易 1 次，但現在已經超過 10 天未交易，其
實就是代表著顧客即將要流失的一種警訊了。
規則 B3 CsnStpItvMax <= 50
| CsnRcn > 10
| | CsnLng <= 745
| | | CsnStpItvMax > 2: Y (516.0/119.0)
當顧客是 2 年以下的新顧客，最長交易間隔天數小於 50 天，而且最近超過 10
天未交易，則該顧客有 77%的機率會流失。
分析當顧客過去曾經有一小段的時間未交易，在 7 週以內，而且顧客是新顧客，
但現在已經超過 10 天未交易，其實就是代表著顧客即將要流失的一種警訊了。
從上述所整理的規則當中，我們可以發現影響實驗 B 顧客即將流失的最關鍵
因素為「最長交易間隔天數」。
最後，本研究再分別從實驗 A 與實驗 B 各 90 組訓練樣本，以 WEKA 軟體的
weka.attributeSelection.GainRatioAttributeEval 模組，進行屬性選取的分析。排名
第一的研究變項給予 1 分，排名第二的研究變項給予 2 分，依此類推排名 24 的
60
研究變項給予 24 分。最後再依據研究變項將 90 組的結果相加，當分數愈低則表
示該研究變項影響的程度愈高。排名前三名的研究變項整理如下表，完整的詳細
排名結果與分數請參閱附錄二。
表 35 屬性選取的排名結果前 3 名
研究變項實驗 A 排名實驗 B 排名
CsnRcn (最近一次交易日期) 1 1
CsnStpItvMax (最長交易間隔天數) 3 2
CsnLng (顧客關係長度) 2 4
4.3 綜合討論
從上述兩組實驗的決策樹分析的結果我們可以發現：
I. 對於顧客與顧客價值的研究變項來說，交易次數與交易金額對於顧客流失會
有影響，這兩個變項其實也代表了顧客過去是一個穩定規律持續交易的顧客。
至於顧客類型、行政區域與顧客距離最近營業據點的距離等研究變項的影響
反而比原先預期來得小。
II. 對於物流顧客滿意度指標的研究變項來說，只有配送完成天數的影響比較大，
另外貨物是否短缺破損、顧客是否拒收、是否與顧客約定時間再配送，這些
研究變項的影響反而比原先預期來得小。這表示顧客最在意的滿意度指標其
實是配送完成天數，只要顧客曾經在一週以內還沒有收到配送的貨品就容易
流失。
III. 從兩組實驗所整理出來的每一個規則，都有「最近一次交易日期」這個研究
變項在其中，這表示無論是顧客完全流失亦或是顧客即將流失，「最近一次
交易日期」是影響顧客流失的重要關鍵因素。
從上述兩組實驗的屬性選取分析的結果我們可以發現：
I. 影響程度最高的研究變項是「最近一次交易日期」。我們回顧過去的文獻，
61
學者 Li, Y., Deng, Qian, and Xu (2011) 也指出最近的交易時間 (Recency) 是
顧客流失的重要指標之一。
II. 影響程度第二名的研究變項則是「最長交易間隔天數」。我們回顧過去的文
獻，學者 Chen, Y., Fu, and Zhu (2008) 也依據其研究結果表示，當顧客的交
易間隔 (Transaction interval) 越長，顧客流失的風險也會相對地增加。
III. 影響程度第三名的研究變項則是「顧客關係長度」。我們回顧過去的文獻，
學者 Buckinx and Van den Poel (2005) 也根據其實驗結果指出，在所有的預
測變項當中，顧客關係長度 (Length of relationship) 的重要性排名是相當前
面的。
IV. 從兩組實驗所整理出來的排名，其中以「最近一次交易日期」(實驗 A 與實
驗 B 都是排名 1)與「最長交易間隔天數」(實驗 A 排名 3、實驗 B 排名 2)，
這兩個研究變項的排名順序很相似且順位都很高。而兩者所代表意義其實是
很相似的，如果把系統計算日期往前移，前一次的交易間隔天數其實就是最
近交易日期的天數。因此，當顧客最近已經超過一個月未交易；或者是過去
曾經超過一個月的時間未交易，這表示這個顧客有很高的機率將會成為流失
的顧客。
V. 從兩組實驗所整理出來的排名，其中以「配送完成天數超過 3 天的比率」(實
驗 A 排名 24、實驗 B 排名 10) 與「貨件短缺破損的比率」(實驗 A 排名 21、
實驗 B 排名 9)，這兩個研究變項的排名順位差異最大。而兩者所代表意義是
企業對於顧客的服務品質，當顧客過去曾經有過多次不好的消費經驗，或許
不會直接讓顧客終止合作關係並停止業務往來，成為完全流失的顧客；但是
會造成顧客的消費間隔時間變長，減少顧客再次消費的意願，進而成為即將
要流失的顧客。
62
第五章、研究結論與建議
5.1 研究結論
本研究主要是藉由物流業個案公司，現有的實際顧客交易明細資料，針對顧
客價值區隔與顧客流失預測，這兩個議題來進行探討。
首先以 LRFMP 顧客價值分析模型、物流的顧客滿意度指標等規則與定義，
透過資料前置處理的資料萃取動作，計算、萃取並建構出新的且適合用來評估顧
客價值區隔與顧客流失的研究變項，再來進行資料的探勘與分析。
在所有的研究變項都計算處理完畢之後，先從顧客價值分析的研究變項，透
過資料探勘的分群技術，將現有的顧客群區隔出高、低價值顧客群。再從高價值
顧客群當中，分批隨機抽樣出等比例的忠實顧客與流失顧客，透過資料探勘的分
類技術，再進行流失預測的分析。
從實驗的結果我們可以發現，影響顧客流失的關鍵因素是顧客的「最近一次
交易日期」、「最長交易間隔天數」與「顧客關係長度」，其中又以「最近一次交
易日期」最為重要。
從顧客價值的構面來分析：當顧客最近已經超過一個月未交易；或者是過去
曾經超過一個月的時間未交易；亦或是顧客的過去的交易很穩定且規律，每週至
少交易一次，但是最近已經超過一個月未交易，這就表示顧客將有很大的機會完
全流失或即將流失。
從物流顧客滿意度指標的構面來分析：只要顧客過去曾經在一週以內還沒有
收到配送的貨品，則顧客有很大的機會終止合作關係，成為完全流失的顧客。如
果顧客過去曾經發生，超過 3 天沒有收到配送貨品、或者是收到的貨品發生過短
缺或破損的情形，這樣不好的消費經驗的次數太多，雖然不會嚴重到讓顧客直接
終止業務往來，但是會降低顧客再次消費的意願，而成為即將要流失的顧客。
63
5.2 研究貢獻與限制
本研究第一個的貢獻在於，使用 LRFMP 顧客價值分析模型來區隔顧客的價
值。其目的是在於尋找出高價值的重要顧客群，由於低價值顧客群對於企業的獲
利影響有限，與其付出心力投入，倒不如將心力放在高價值顧客群身上，而顧客
價值的區分可以讓企業能夠在花費最少的行銷成本之下獲取最大的利益。
本研究第二個的貢獻在於，使用物流的顧客滿意度指標當作研究變項來預測
顧客的流失。藉由資料探勘可以發掘出影響物流業個案公司顧客流失的重要關鍵
因素與隱藏規則，藉此提供企業的管理階層或決策者，進行相關的決策運用或制
定對應的行銷策略。
本研究第三個的貢獻在於，使用顧客完全流失與顧客即將流失的研究變項來
分析與探討顧客的流失。當企業的所提供的服務內容與項目，讓顧客感受到服務
品質不佳，進而產生不愉快的消費經驗，或許不會直接造成顧客立即終止業務往
來，但是卻會降低顧客再次消費的意願，如果只探討顧客完全流失，就會無法發
掘出這樣的問題。畢竟顧客的交易狀態，從過去的活躍顧客轉變成現今的不活躍
顧客，雖然顧客尚未流失，但與確定流失的顧客卻無多大的差異可言，這對企業
來說也是一種嚴重的損失。
本研究第一個的限制在於，資料來源是由單一個案公司所提供，資料探勘所
分析的結果，比較無法廣泛說明整體台灣的物流業，但是可以作為同業的一個參
考指標。
本研究第二個的限制在於，LRFMP 顧客價值分析模型僅為眾多的顧客價值
區隔方法的其中之一，每個企業是否都適合使用相同的分析模型則有待商榷，但
是本研究的模型可以提供為同業作為參考，並且視其企業特性而有所調整。
另外，本研究的探勘結果，所產生出許多高支持度、高信心度之潛在規則，
還必須靠該領域專家的協助來分析是否可用，甚至有賴未來市場機制的檢驗與證
明，況且採用與否仍有賴決策主管之裁定。
64
5.3 未來研究方向與建議
本研究針對個案公司進行資料探勘實作之後，對於未來後續的研究與方向，
提出幾個要點以供建議與參考，並藉此使得本研究更為完備。
建議一：本研究僅以單一個案公司之資料來做分析與驗證，假若能收集數間
物流業個案公司之資料加以驗證，則可讓本研究之顧客流失預測更具有說服力。
建議二：另外，也可以以本研究的高價值顧客流失預測模型為基礎，持續追
蹤顧客的行為並適時異動模型，像是加入新的研究變項進行分析等等。
建議三：如果能夠再加上時間序列分析，就能更加精準地預測顧客流失的時
間點，這將對於企業進行顧客挽留會有相當大的助益。
65
參考文獻
Athanassopoulos, A. D. (2000). Customer satisfaction cues to support market
segmentation and explain switching behavior. Journal of Business Research,
47(3), 191-207. doi: 10.1016/S0148-2963(98)00060-5
Berson, A., & Smith, S. J. (2002). Building data mining applications for CRM. New
York City, New York State: McGraw-Hill, Inc.
Bhatty, M., Skinkle, R., & Spalding, T. (2001). Redefining customer loyalty, the
customer’s way. Ivey Business Journal, 65(3), 13-17.
Bloomberg, D. J., LeMay, S. A., & Hanna, J. B. (2002). Logistics. Beijing, China:
Tsinghua University Press.
Buckinx, W., & Van den Poel, D. (2005). Customer base analysis: partial defection of
behaviourally loyal clients in a non-contractual FMCG retail setting. European
Journal of Operational Research, 164(1), 252-268. doi:
10.1016/j.ejor.2003.12.010
Chang, E. C., Huang, S. C., & Wu, H. H. (2010). Using K-means method and spectral
clustering technique in an outfitter’s value analysis. Quality & Quantity, 44(4),
807-815. doi: 10.1007/s11135-009-9240-0
Chang, H. C., & Tsai, H. P. (2011). Group RFM analysis as a novel framework to
discover better customer consumption behavior. Expert Systems with
Applications, 38(12), 14499-14513. doi: 10.1016/j.eswa.2011.05.034
Chen, M. C., Chiu, A. L., & Chang, H. H. (2005). Mining changes in customer
behavior in retail marketing. Expert Systems with Applications, 28(4), 773-781.
doi: 10.1016/j.eswa.2004.12.033
Chen, R. Y. (2009). RFM-based eco-efficiency analysis using Takagi–Sugeno fuzzy
and AHP approach. Environmental Impact Assessment Review, 29(3), 157-164.
doi: 10.1016/j.eiar.2008.11.001
Chen, Y., Fu, C., & Zhu, H. (2008, 18-20 Oct. 2008). A Data Mining Approach to
Customer Segment Based on Customer Value. Proceedings of the Fuzzy
Systems and Knowledge Discovery, 2008. FSKD '08. Fifth International
Conference on, pp. 513-517. doi: 10.1109/fskd.2008.548
Cheng, C. H., & Chen, Y. S. (2009). Classifying the segmentation of customer value
via RFM model and RS theory. Expert Systems with Applications, 36(3, Part 1),
4176-4184. doi: 10.1016/j.eswa.2008.04.003
Cho, J. J. K., Ozment, J., & Sink, H. (2008). Logistics capability, logistics outsourcing
and firm performance in an e-commerce market. International Journal of
Physical Distribution & Logistics Management, 38(5), 336-359. doi:
66
10.1108/09600030810882825
Danuta, K. M. (2005). Logistics customer service levels in Poland:: Changes between
1993 and 2001. International Journal of Production Economics, 93-94,
121-128. doi: 10.1016/j.ijpe.2004.06.047
De Bock, K. W., & Van den Poel, D. (2012). Reconciling performance and
interpretability in customer churn prediction using ensemble learning based on
generalized additive models. Expert Systems with Applications, 39(8),
6816-6826. doi: 10.1016/j.eswa.2012.01.014
Esper, T. L., Jensen, T. D., Turnipseed, F. L., & Burton, S. (2003). The last mile: an
examination of effects of online retail delivery strategies on consumers.
Journal of Business Logistics, 24(2), 177-203. doi:
10.1002/j.2158-1592.2003.tb00051.x
Ganesh, J., Arnold, M. J., & Reynolds, K. E. (2000). Understanding the customer base
of service providers: an examination of the differences between switchers and
stayers. Journal of Marketing, 64(3), 65-87. doi: 10.1509/jmkg.64.3.65.18028
Glady, N., Baesens, B., & Croux, C. (2009). Modeling churn using customer lifetime
value. European Journal of Operational Research, 197(1), 402-411. doi:
10.1016/j.ejor.2008.06.027
Guenzi, P., & Troilo, G. (2007). The joint contribution of marketing and sales to the
creation of superior customer value. Journal of Business Research, 60(2),
98-107. doi: 10.1016/j.jbusres.2006.10.007
Gupta, S., Hanssens, D., Hardie, B., Kahn, W., Kumar, V., Lin, N., . . . Sriram, S.
(2006). Modeling Customer Lifetime Value. Journal of Service Research, 9(2),
139-155. doi: 10.1177/1094670506293810
Heim, G. R., & Field, J. M. (2007). Process drivers of e-service quality: Analysis of
data from an online rating site. Journal of Operations Management, 25(5),
962-984. doi: 10.1016/j.jom.2006.10.002
Hosseini, S. M. S., Maleki, A., & Gholamian, M. R. (2010). Cluster analysis using
data mining approach to develop CRM methodology to assess the customer
loyalty. Expert Systems with Applications, 37(7), 5259-5264. doi:
10.1016/j.eswa.2009.12.070
Hsiao, M. H. (2009). Shopping mode choice: Physical store shopping versus
e-shopping. Transportation Research Part E: Logistics and Transportation
Review, 45(1), 86-95. doi: 10.1016/j.tre.2008.06.002
Huang, B., Kechadi, M. T., & Buckley, B. (2012). Customer churn prediction in
telecommunications. Expert Systems with Applications, 39(1), 1414-1425. doi:
10.1016/j.eswa.2011.08.024
Huang, B. Q., Kechadi, T. M., Buckley, B., Kiernan, G., Keogh, E., & Rashid, T.
67
(2010). A new feature set with new window techniques for customer churn
prediction in land-line telecommunications. Expert Systems with Applications,
37(5), 3657-3665. doi: 10.1016/j.eswa.2009.10.025
Hughes, A. M. (1994). Strategic Database Marketing. Chicago, Illinois: Probus
Publishing Company.
Hughes, A. M. (2005). Strategic database marketing. New York City, New York State:
McGraw-Hill Companies.
Hung, S. Y., Yen, D. C., & Wang, H. Y. (2006). Applying data mining to telecom
churn management. Expert Systems with Applications, 31(3), 515-524. doi:
10.1016/j.eswa.2005.09.080
Kamakura, W. A., Wedel, M., de Rosa, F., & Mazzon, J. A. (2003). Cross-selling
through database marketing: a mixed data factor analyzer for data
augmentation and prediction. International Journal of Research in Marketing,
20(1), 45-65. doi: 10.1016/s0167-8116(02)00121-0
Khajvand, M., & Tarokh, M. J. (2011). Estimating customer future value of different
customer segments based on adapted RFM model in retail banking context.
Procedia Computer Science, 3, 1327-1332. doi: 10.1016/j.procs.2011.01.011
Khajvand, M., Zolfaghar, K., Ashoori, S., & Alizadeh, S. (2011). Estimating customer
lifetime value based on RFM analysis of customer purchase behavior: Case
study. Procedia Computer Science, 3, 57-63. doi: 10.1016/j.procs.2010.12.011
Kim, S. Y., Jung, T. S., Suh, E. H., & Hwang, H. S. (2006). Customer segmentation
and strategy development based on customer lifetime value: A case study.
Expert Systems with Applications, 31(1), 101-107. doi:
10.1016/j.eswa.2005.09.004
Kim, Y. S., & Street, W. N. (2004). An intelligent system for customer targeting: a
data mining approach. Decision Support Systems, 37(2), 215-228. doi:
10.1016/s0167-9236(03)00008-3
Kisioglu, P., & Topcu, Y. I. (2011). Applying Bayesian Belief Network approach to
customer churn analysis: A case study on the telecom industry of Turkey.
10.1016/j.eswa.2010.12.045
Kotler, P. (2000). Marketing management: The millennium edition. Upper Saddle
River, New Jersey: Prentice-Hall.
Li, D. C., Dai, W. L., & Tseng, W. T. (2011). A two-stage clustering method to analyze
customer characteristics to build discriminative customer management: A case
of textile manufacturing business. Expert Systems with Applications, 38(6),
7186-7191. doi: 10.1016/j.eswa.2010.12.041
Li, Y., Deng, Z., Qian, Q., & Xu, R. (2011). Churn Forecast Based on Two-step
68
Classification in Security Industry. Intelligent Information Management, 3(4),

160-165. doi: 10.4236/iim.2011.34019
Liang, Y. H. (2010). Integration of data mining technologies to analyze customer
value for the automotive maintenance industry. Expert Systems with
Applications, 37(12), 7489-7496. doi: 10.1016/j.eswa.2010.04.097
Linoff, G. S., & Berry, M. J. (2011). Data mining techniques: for marketing, sales,
and customer relationship management. Hoboken, New Jersey: Wiley
Computer Publishing.
Liu, C. L., & Lyons, A. C. (2011). An analysis of third-party logistics performance
and service provision. Transportation Research Part E: Logistics and
Transportation Review, 47(4), 547-570. doi: 10.1016/j.tre.2010.11.012
Liu, D. R., & Shih, Y. Y. (2005). Hybrid approaches to product recommendation based
on customer lifetime value and purchase preferences. Journal of Systems and
Software, 77(2), 181-191. doi: 10.1016/j.jss.2004.08.031
McCarty, J. A., & Hastak, M. (2007). Segmentation approaches in data-mining: A
comparison of RFM, CHAID, and logistic regression. Journal of Business
Research, 60(6), 656-662. doi: 10.1016/j.jbusres.2006.06.015
Miguéis, V. L., Van den Poel, D., Camanho, A. S., & Falcão e Cunha, J. (2012).
Modeling partial customer churn: On the value of first product-category
purchase sequences. Expert Systems with Applications, 39(12), 11250-11256.
doi: 10.1016/j.eswa.2012.03.073
Neslin, S., Gupta, S., Kamakura, W., Lu, J., & Mason, C. (2006). Defection detection:
improving predictive accuracy of customer churn models. Journal of
Marketing Research, 43(2), 204-211. doi: 10.1509/jmkr.43.2.204
Nie, G., Rowe, W., Zhang, L., Tian, Y., & Shi, Y. (2011). Credit card churn forecasting
by logistic regression and decision tree. Expert Systems with Applications,
38(12), 15273-15285. doi: 10.1016/j.eswa.2011.06.028
Payne, A., & Frow, P. (2005). A strategic framework for customer relationship
management. Journal of Marketing, 69(4), 167-176. doi:
10.1509/jmkg.2005.69.4.167
Ramanathan, R. (2010). The moderating roles of risk and efficiency on the
relationship between logistics performance and customer loyalty in
e-commerce. Transportation Research Part E: Logistics and Transportation
Review, 46(6), 950-962. doi: 10.1016/j.tre.2010.02.002
Reinartz, W., Krafft, M., & Hoyer, W. D. (2004). The customer relationship
management process: Its measurement and impact on performance. Journal of
Marketing Research, 41(3), 293-305. doi: 10.1509/jmkr.41.3.293.35991
Reinartz, W. J., & Kumar, V. (2003). The impact of customer relationship
69
characteristics on profitable lifetime duration. Journal of Marketing, 67(1),

77-99. doi: 10.1509/jmkg.67.1.77.18589
Renko, S., & Ficko, D. (2010). New logistics technologies in improving customer
value in retailing service. Journal of Retailing and Consumer Services, 17(3),
216-223. doi: 10.1016/j.jretconser.2010.03.012
Rutner, S. M., Gibson, B. J., & Williams, S. R. (2003). The impacts of the integrated
logistics systems on electronic commerce and enterprise resource planning
systems. Transportation Research Part E: Logistics and Transportation
Review, 39(2), 83-93. doi: 10.1016/s1366-5545(02)00042-x
Saradhi, V. V., & Palshikar, G. K. (2011). Employee churn prediction. Expert Systems
with Applications, 38(3), 1999-2006. doi: 10.1016/j.eswa.2010.07.134
Sarddar, D., Banerjee, J., Jana, T., Saha, S. K., Biswas, U., & Naskar, M. (2010).
Minimization of Handoff Latency by Angular Displacement Method Using
GPS Based Map. International Journal of Computer Science Issues, 7(3),
29-37. doi: 10.5121/vlsic.2010.1204
Sheu, J. B. (2007). A hybrid fuzzy-optimization approach to customer grouping-based
logistics distribution operations. Applied Mathematical Modelling, 31(6),
1048-1066. doi: 10.1016/j.apm.2006.03.024
Shim, B., Choi, K., & Suh, Y. (2012). CRM strategies for a small-sized online
shopping mall based on association rules and sequential patterns. Expert
Systems with Applications, 39(9), 7736-7742. doi: 10.1016/j.eswa.2012.01.080
Slater, S. F., & Narver, J. C. (2000). Intelligence generation and superior customer
value. Journal of the Academy of Marketing Science, 28(1), 120-127. doi:
10.1177/0092070300281011
Tan, P. N., Steinbach, M., & Kumar, V. (2006). Introduction to data mining. Boston,
Massachusetts: Pearson Addison Wesley Boston.
Tsai, C. F., & Chen, M. Y. (2010). Variable selection by association rules for customer
churn prediction of multimedia on demand. Expert Systems with Applications,
37(3), 2006-2015. doi: 10.1016/j.eswa.2009.06.076
Tsai, C. F., & Lu, Y. H. (2009). Customer churn prediction by hybrid neural networks.
10.1016/j.eswa.2009.05.032
Van den Poel, D., & Larivière, B. (2004). Customer attrition analysis for financial
services using proportional hazard models. European Journal of Operational
Research, 157(1), 196-217. doi: 10.1016/S0377-2217(03)00069-9
Verbeke, W., Dejaeger, K., Martens, D., Hur, J., & Baesens, B. (2012). New insights
into churn prediction in the telecommunication sector: A profit driven data
mining approach. European Journal of Operational Research, 218(1), 211-229.
70
doi: 10.1016/j.ejor.2011.09.031
Waters, D. (2003). Logistics: an introduction to supply chain management. New York
City, New York State: Palgrave Macmillan.
Wei, J. T., Lin, S. Y., Weng, C. C., & Wu, H. H. (2012). A case study of applying
LRFM model in market segmentation of a children’s dental clinic. Expert
Systems with Applications, 39(5), 5529-5533. doi: 10.1016/j.eswa.2011.11.066
Wu, I. L., & Hung, C. Y. (2009). A strategy-based process for effectively determining
system requirements in eCRM development. Information and Software
Technology, 51(9), 1308-1318. doi: 10.1016/j.infsof.2009.03.004
Xu, M., & Walton, J. (2005). Gaining customer knowledge through analytical CRM.
Industrial management & data systems, 105(7), 955-971. doi:
10.1108/02635570510616139
Yeh, I. C., Yang, K. J., & Ting, T. M. (2009). Knowledge discovery on RFM model
using Bernoulli sequence. Expert Systems with Applications, 36(3, Part 2),
5866-5871. doi: 10.1016/j.eswa.2008.07.018
Yu, X., Guo, S., Guo, J., & Huang, X. (2011). An extended support vector machine
forecasting framework for customer churn in e-commerce. Expert Systems
with Applications, 38(3), 1425-1430. doi: 10.1016/j.eswa.2010.07.049
71
附錄一
𝐶𝑠𝑟𝑅𝑔𝑛𝐶𝒾 研究變項的 C#程式碼：

public void DataExtractAttribute01() {
DateTime TimeStart = DateTime.Now;
Dictionary<int, int> DtZip = new Dictionary<int, int>();
Dictionary<string, int> DtnAdr = new Dictionary<string, int>();
this.mDbTht.Open();
DataTable DtCsrBsc = mDbTht.Select("SELECT CsrId1G, CsrId2G, CsrId3G, CsrNmF, CsrZip, CsrAdr, CsrRgn FROM DbExt.dbo.CsrBsc ORDER BY CsrId1G, CsrId2G, CsrId3G; ");
foreach (DataRow dr in DtCsrBsc.Rows) {
string CsrNmF = Convert.ToString(dr["CsrNmF"]);
int CsrZip = Convert.ToInt32(dr["CsrZip"]);
string CsrAdr = Convert.ToString(dr["CsrAdr"]);
bool Finded = false;
foreach (KeyValuePair<int, int> kvp in DtZip) {
if (CsrZip == kvp.Key) {
Finded = true;
dr["CsrRgn"] = kvp.Value;
break;
}
}
if (!Finded) {
foreach (KeyValuePair<string, int> kvp in DtnAdr) {
if (CsrAdr.Contains(kvp.Key)) {
Finded = true;
dr["CsrRgn"] = kvp.Value;
break;
}
}
}
if (!Finded) {
dr["CsrRgn"] = 0;
}
}
72
DbAdapter Dapt = this.mDbTht.CreateDbAdapter(DtCsrBsc);

Dapt.UpdateCommand("UPDATE DbExt.dbo.CsrBsc SET CsrNmF=@4, CsrAdr=@5, CsrRgn=@6 WHERE CsrId1G=@1 AND CsrId2G=@2 AND CsrId3G=@3; ", "CsrId1G",
"CsrId2G", "CsrId3G", "CsrNmF", "CsrAdr", "CsrRgn");
this.mDbTht.Update(Dapt);
this.mDbTht.Close();
}
𝐶𝑠𝑟𝑁𝑟𝑅𝑛𝑔𝐶𝒾 研究變項的 C#程式碼：

private static double AcquireRadians(double d) {
return d * Math.PI / 180.0;
}
public static double AcquireDistance(double Latitude1, double Longitude1, double Latitude2, double Longitude2) {
double radLat1 = GpsMap.AcquireRadians(Latitude1);
double radLat2 = GpsMap.AcquireRadians(Latitude2);
double a = radLat1 - radLat2;
double b = GpsMap.AcquireRadians(Longitude1) - GpsMap.AcquireRadians(Longitude2);
double s = 2 * Math.Asin(Math.Sqrt(Math.Pow(Math.Sin(a / 2), 2) + Math.Cos(radLat1) * Math.Cos(radLat2) * Math.Pow(Math.Sin(b / 2), 2)));
s = s * GpsMap.mEarthRadius;
s = Math.Round(s * 10000) / 10000;
return s;
}
int LoopMaxNum = 18;
this.mDbTht.Open();
DataTable DtStaLatLng = mDbTht.Select("SELECT Latitude, Longitude FROM DbExt.dbo.AidLatLng WHERE AdrType=1; ");
DataTable DtCsrBsc = null;
int TotalCnt = 0;
for (int x = 0; x < LoopMaxNum; x++) {
DtCsrBsc = mDbTht.Select("SELECT TOP 10000 CsrId1G, CsrId2G, CsrId3G, Latitude, Longitude, CsrNrRng FROM DbExt.dbo.CsrBsc WHERE Latitude<>0 AND
CsrNrRng=500; ");
foreach (DataRow dr1 in DtCsrBsc.Rows) {
int CsrId1G = Convert.ToInt32(dr1["CsrId1G"]);
double Latitude = Convert.ToDouble(dr1["Latitude"]);
double Longitude = Convert.ToDouble(dr1["Longitude"]);
73
double CsrNrRng = Convert.ToDouble(dr1["CsrNrRng"]); CsrNrRng = 500;

foreach (DataRow dr2 in DtStaLatLng.Rows) {
double StaLat = Convert.ToDouble(dr2["Latitude"]);
double SatLng = Convert.ToDouble(dr2["Longitude"]);
double Distance = GpsMap.AcquireDistance(StaLat, SatLng, Latitude, Longitude);
CsrNrRng = CsrNrRng > Distance ? Distance : CsrNrRng;
}
dr1["CsrNrRng"] = CsrNrRng;
TotalCnt++;
}
Dapt.UpdateCommand("UPDATE DbExt.dbo.CsrBsc SET CsrNrRng=@4 WHERE CsrId1G=@1 AND CsrId2G=@2 AND CsrId3G=@3; ", "CsrId1G", "CsrId2G", "CsrId3G",
"CsrNrRng");
}
}
𝐶𝑠𝑛𝐿𝑛𝑔𝐶𝒾 、𝐶𝑠𝑛𝑅𝑐𝑛𝐶𝒾 、𝐶𝑠𝑛𝐹𝑟𝑞𝐶𝒾 、𝐶𝑠𝑛𝑀𝑛𝑡𝐶𝒾 研究變項的 SQL 語法：

TRUNCATE TABLE DbExt.dbo.CsrCsnDlv
GO
INSERT DbExt.dbo.CsrCsnDlv (CsrId1G, CsrId2G, CsrId3G, CsnLng, CsnRcn, CsnFrq, CsnMnt)
SELECT
C.CsrId1G, C.CsrId2G, C.CsrId3G,
(DbExt.UDF.DiffDay(Min(FstDay),MAX(LstDay))+1) AS LngValue, (DbExt.UDF.DiffDay(MAX(LstDay),20120831)+1) AS RcnValue, SUM(S.Frq) AS FrqValue, SUM(S.Mnt) AS
MntValue
FROM DbOrg1.RawData.Customer2 AS C
INNER JOIN (
SELECT CsnSndCsrId1, CsnSndCsrId2, CsnSndCsrId3, Min(CsnDay) AS FstDay, MAX(CsnDay) AS LstDay, COUNT(*) AS Frq, SUM(CsnMnt) AS Mnt
FROM DbOrg1.RawData.Consign
WHERE CsnDay BETWEEN 20100301 AND 20120831 AND NOT (CsnSndCsrId1=0 AND CsnSndCsrId2=0 AND CsnSndCsrId3=0)
GROUP BY CsnSndCsrId1, CsnSndCsrId2, CsnSndCsrId3
) AS S ON S.CsnSndCsrId1=C.CsrId1 AND S.CsnSndCsrId2=C.CsrId2 AND S.CsnSndCsrId3=C.CsrId3
GROUP BY C.CsrId1G, C.CsrId2G, C.CsrId3G
ORDER BY C.CsrId1G ASC, C.CsrId2G ASC, C.CsrId3G ASC
GO
74
𝐶𝑠𝑛𝑃𝑓𝑡𝐶𝒾 研究變項的 SQL 語法：

SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, SUM(W.CNT) AS CsnPft INTO #TempCsnPft
FROM (
SELECT W1.CsnSndCsrId1, W1.CsnSndCsrId2, W1.CsnSndCsrId3, SUM(W1.CNT) AS CNT
FROM (
SELECT CsnSndCsrId1, CsnSndCsrId2, CsnSndCsrId3, COUNT(*) AS CNT FROM DbOrg1.RawData.Consign
WHERE CsnDay BETWEEN 20100301 AND 20120831 AND CsnSndCsrId1>0 AND CsnMnt>0 AND CsnWet=0
GROUP BY CsnSndCsrId1, CsnSndCsrId2, CsnSndCsrId3
UNION ALL
SELECT W2.CsnSndCsrId1, W2.CsnSndCsrId2, W2.CsnSndCsrId3, COUNT(*) AS CNT
FROM (
SELECT CsnSndCsrId1, CsnSndCsrId2, CsnSndCsrId3, CAST(CAST(CsnMnt AS NUMERIC(15,5))/CsnWet AS NUMERIC(15,5)) AS CsnPft
FROM DbOrg1.RawData.Consign
WHERE CsnDay BETWEEN 20100301 AND 20120831 AND CsnSndCsrId1>0 AND CsnMnt>0 AND CsnWet>0 ) AS W2
WHERE CsnPft>=7.5
GROUP BY CsnSndCsrId1, CsnSndCsrId2, CsnSndCsrId3 ) AS W1
GROUP BY W1.CsnSndCsrId1, W1.CsnSndCsrId2, W1.CsnSndCsrId3 ) AS W
INNER JOIN DbOrg1.RawData.Customer2 AS C ON C.CsrId1=W.CsnSndCsrId1 AND C.CsrId2=W.CsnSndCsrId2 AND C.CsrId3=W.CsnSndCsrId3
GO
MERGE DbExt.dbo.CsrCsnDlv AS T
USING #TempCsnPft AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.CsnPft=S.CsnPft;
GO
𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑀𝑖𝑛𝐶𝒾 、𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝑀𝑎𝑥𝐶𝒾 、𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝐶𝒾 、𝐶𝑠𝑛𝑆𝑡𝑝𝐼𝑡𝑣𝐴𝑣𝑔𝑊𝐶𝒾 研究變項的 C#程式碼：

int LoopMaxNum = 12;
this.mDbTht.Open();
int TotalCnt = 0;
for (int x = 0; x < LoopMaxNum; x++) {
DataTable DtCsrBsc = null;
DataTable DtAamp2 = null;
75
DataTable DtDvdt = null;

List<DateTime> LtDvdt = new List<DateTime>();
List<int> LtDayDiff = new List<int>();
DtCsrBsc = mDbTht.Select("SELECT TOP 10000 CsrId1G, CsrId2G, CsrId3G, CsnStpItvMin, CsnStpItvMax, CsnStpItvAvg, CsnStpItvAvgW FROM DbExt.dbo.CsrCsnDlv
WHERE CsnFrq>1 AND CsnStpItvAvgW=0 ORDER BY CsrId1G, CsrId2G, CsrId3G; ");
foreach (DataRow dr1 in DtCsrBsc.Rows) {
LtDvdt.Clear(); LtDayDiff.Clear();
int CsnStpItvMin = Convert.ToInt32(dr1["CsnStpItvMin"]);
int CsnStpItvMax = Convert.ToInt32(dr1["CsnStpItvMax"]);
double CsnStpItvAvg = Convert.ToDouble(dr1["CsnStpItvAvg"]);
double CsnStpItvAvgW = Convert.ToDouble(dr1["CsnStpItvAvgW"]);
StringBuilder SbWhrTxt = new StringBuilder();
DtAamp2 = mDbTht.Select("SELECT CsrId1, CsrId2, CsrId3 FROM DbOrg1.RawData.Customer2 WHERE CsrId1G=@1 AND CsrId2G=@2 AND CsrId3G=@3; ", CsrId1G,
CsrId2G, CsrId3G);
foreach (DataRow dr2 in DtAamp2.Rows) {
int CsrId1 = Convert.ToInt32(dr2["CsrId1"]);
SbWhrTxt.Append(string.Format("OR (CsnSndCsrId1={0} AND CsnSndCsrId2={1} AND CsnSndCsrId3={2}) ", CsrId1, CsrId2, CsrId3));
}
string SqlTxt = "SELECT CAST(SUBSTRING(CAST(X.CsnDay AS VARCHAR),1,4)+'-'+SUBSTRING(CAST(X.CsnDay AS
VARCHAR),5,2)+'-'+SUBSTRING(CAST(X.CsnDay AS VARCHAR),7,2) AS DATETIME) AS Dvdt " +
"FROM ( " +
"SELECT DISTINCT CsnDay " +
"FROM DbOrg1.RawData.Consign " +
"WHERE CsnDay BETWEEN 20100101 AND 20120831 AND ( " +
"(CsnSndCsrId1={0} AND CsnSndCsrId2={1} AND CsnSndCsrId3={2}) " +
"{3} " +
") " +
") AS X ORDER BY Dvdt ";
string SqlStr = string.Format(SqlTxt, CsrId1G, CsrId2G, CsrId3G, SbWhrTxt.ToString());
DtDvdt = mDbTht.Select(SqlStr);
foreach (DataRow dr3 in DtDvdt.Rows) {
LtDvdt.Add(Convert.ToDateTime(dr3["Dvdt"]));
}
if (LtDvdt.Count > 1) {
for (int i = 1; i < LtDvdt.Count; i++) {
76
LtDayDiff.Add(Convert.ToInt32(LtDvdt[i].Subtract(LtDvdt[i - 1]).TotalDays));
}
int SumDayDiff = 0;
int SumDayDiffW = 0;
int SumNumber = 0;
for (int j = 0; j < LtDayDiff.Count; j++) {
SumDayDiff += LtDayDiff[j];
SumDayDiffW += (j + 1) * LtDayDiff[j];
SumNumber += (j + 1);
}
CsnStpItvAvg = Convert.ToDouble(SumDayDiff) / LtDayDiff.Count;
CsnStpItvAvgW = Convert.ToDouble(SumDayDiffW) / SumNumber;
LtDayDiff.Sort();
CsnStpItvMin = LtDayDiff[0];
CsnStpItvMax = LtDayDiff[LtDayDiff.Count - 1];
}
dr1["CsnStpItvMin"] = CsnStpItvMin;
dr1["CsnStpItvMax"] = CsnStpItvMax;
dr1["CsnStpItvAvg"] = CsnStpItvAvg;
dr1["CsnStpItvAvgW"] = CsnStpItvAvgW;
TotalCnt++;
}
Dapt.UpdateCommand("UPDATE DbExt.dbo.CsrCsnDlv SET CsnStpItvMin=@4, CsnStpItvMax=@5, CsnStpItvAvg=@6, CsnStpItvAvgW=@7 WHERE CsrId1G=@1 AND
CsrId2G=@2 AND CsrId3G=@3; ", "CsrId1G", "CsrId2G", "CsrId3G", "CsnStpItvMin", "CsnStpItvMax", "CsnStpItvAvg", "CsnStpItvAvgW");
}
}
𝐷𝑙𝑣𝐸𝑟𝑠𝑀𝑖𝑠𝑠𝐶𝒾 研究變項的 SQL 語法：

SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, SUM(M.CNT) AS DlvErsMiss INTO #TempDlvErsMiss
FROM (
SELECT X.CsnSndCsrId1, X.CsnSndCsrId2, X.CsnSndCsrId3, COUNT(*) AS CNT
FROM (
SELECT Csn.CsnDay, Csn.CsnNo, Csn.CsnSndCsrId1, Csn.CsnSndCsrId2, Csn.CsnSndCsrId3
FROM DbOrg1.RawData.Consign AS Csn
77
INNER JOIN ( SELECT DlvDay, DlvNo, DlvBsn, DlvSta FROM DbOrg2.RawData.Deliver WHERE DlvSta IN ('02','03','07') ) AS Dlv
ON Csn.CsnDay<=Dlv.DlvDay AND Dlv.DlvDay<=DbOrg2.UDF.NumericAddDay(Csn.CsnDay,30) AND Csn.CsnNo=Dlv.DlvNo AND Csn.CsnRcvBsn=Dlv.DlvBsn
WHERE Csn.CsnDay BETWEEN 20100301 AND 20120831 AND NOT (Csn.CsnSndCsrId1=0 AND Csn.CsnSndCsrId2=0 AND Csn.CsnSndCsrId3=0)
GROUP BY Csn.CsnDay, Csn.CsnNo, Csn.CsnSndCsrId1, Csn.CsnSndCsrId2, Csn.CsnSndCsrId3 ) AS X
GROUP BY X.CsnSndCsrId1, X.CsnSndCsrId2, X.CsnSndCsrId3 ) AS M
INNER JOIN DbOrg1.RawData.Customer2 AS C ON C.CsrId1=M.CsnSndCsrId1 AND C.CsrId2=M.CsnSndCsrId2 AND C.CsrId3=M.CsnSndCsrId3
GO
USING #TempDlvErsMiss AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvErsMiss=S.DlvErsMiss;
GO
𝐷𝑙𝑣𝐸𝑟𝑠𝑁𝑜𝑡ℎ𝐶𝒾 研究變項的 SQL 語法：

SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, SUM(M.CNT) AS DlvErsNoth INTO #TempDlvErsNoth
FROM (
FROM (
INNER JOIN ( SELECT DlvDay, DlvNo, DlvBsn, DlvSta FROM DbOrg2.RawData.Deliver WHERE DlvSta IN ('04') ) AS Dlv
GO
USING #TempDlvErsNoth AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvErsNoth=S.DlvErsNoth;
GO
78
𝐷𝑙𝑣𝐸𝑟𝑠𝑊𝑟𝑛𝑔𝐶𝒾 研究變項的 SQL 語法：

SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, SUM(M.CNT) AS DlvErsWrng INTO #TempDlvErsWrng
FROM (
FROM (
INNER JOIN ( SELECT DlvDay, DlvNo, DlvBsn, DlvSta FROM DbOrg2.RawData.Deliver WHERE DlvSta IN ('05','06') ) AS Dlv
GO
USING #TempDlvErsWrng AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvErsWrng=S.DlvErsWrng;
GO
𝐷𝑙𝑣𝐸𝑟𝑠𝐴𝑝𝑛𝑡𝐶𝒾 研究變項的 SQL 語法：

SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, SUM(M.CNT) AS DlvErsApnt INTO #TempDlvErsApnt
FROM (
FROM (
INNER JOIN ( SELECT DlvDay, DlvNo, DlvBsn, DlvSta FROM DbOrg2.RawData.Deliver WHERE DlvSta IN ('10','11') ) AS Dlv
79

GO
USING #TempDlvErsApnt AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvErsApnt=S.DlvErsApnt;
GO
𝐷𝑙𝑣𝐸𝑟𝑠𝑅𝑗𝑐𝑡𝐶𝒾 研究變項的 SQL 語法：

SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, SUM(M.CNT) AS DlvErsRjct INTO #TempDlvErsRjct
FROM (
FROM (
INNER JOIN ( SELECT DlvDay, DlvNo, DlvBsn, DlvSta FROM DbOrg2.RawData.Deliver WHERE DlvSta IN ('16') ) AS Dlv
GO
USING #TempDlvErsRjct AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvErsRjct=S.DlvErsRjct;
GO
𝐷𝑙𝑣𝐸𝑟𝑠𝑁𝑜𝑡h𝐴𝑝𝑛𝑡𝐶𝒾 研究變項的 SQL 語法：

SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, SUM(M.CNT) AS DlvErsNothApnt INTO #TempDlvErsNothApnt
80
FROM (
FROM (
INNER JOIN ( SELECT DlvDay, DlvNo, DlvBsn, DlvSta FROM DbOrg2.RawData.Deliver WHERE DlvSta IN ('04') ) AS Dlv04
ON Csn.CsnDay<=Dlv04.DlvDay AND Dlv04.DlvDay<=DbOrg2.UDF.NumericAddDay(Csn.CsnDay,30) AND Csn.CsnNo=Dlv04.DlvNo AND Csn.CsnRcvBsn=Dlv04.DlvBsn
INNER JOIN ( SELECT DlvDay, DlvNo, DlvBsn, DlvSta FROM DbOrg2.RawData.Deliver WHERE DlvSta IN ('10','11') ) AS Dlv10
GO
USING #TempDlvErsNothApnt AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvErsNothApnt=S.DlvErsNothApnt;
GO
𝐷𝑙𝑣𝐸𝑟𝑠𝑊𝑟𝑛𝑔𝐴𝑝𝑛𝑡𝐶𝒾 研究變項的 SQL 語法：

SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, SUM(M.CNT) AS DlvErsWrngApnt INTO #TempDlvErsWrngApnt
FROM (
FROM (
81

GO
USING #TempDlvErsWrngApnt AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvErsWrngApnt=S.DlvErsWrngApnt;
GO
𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦1𝐶𝒾 、𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝑂𝑣3𝐶𝒾 、𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝑀𝑖𝑛𝐶𝒾 、𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝑀𝑎𝑥𝐶𝒾 、𝐷𝑙𝑣𝑅𝑐ℎ𝐷𝑎𝑦𝐴𝑣𝑔𝐶𝒾 研究變項的 SQL 語法：

TRUNCATE TABLE DbExt.dbo.AidDlvRchDay
GO
INSERT DbExt.dbo.AidDlvRchDay
SELECT C.CsrId1G, C.CsrId2G, C.CsrId3G, M.DiffDay, SUM(M.CNT) AS DlvRchDayCnt
FROM (
SELECT X.CsnSndCsrId1, X.CsnSndCsrId2, X.CsnSndCsrId3, X.DiffDay AS DiffDay, COUNT(*) AS CNT
FROM (
SELECT Csn.CsnDay, Csn.CsnNo, Csn.CsnSndCsrId1, Csn.CsnSndCsrId2, Csn.CsnSndCsrId3, MAX(Dlv.DlvDay) AS DlvDay,
DbExt.UDF.DiffDayH(Csn.CsnDay,MAX(Dlv.DlvDay)) AS DiffDay
INNER JOIN ( SELECT DlvDay, DlvNo, DlvBsn FROM DbOrg2.RawData.Deliver WHERE DlvSta IN ('01') ) AS Dlv
GROUP BY X.CsnSndCsrId1, X.CsnSndCsrId2, X.CsnSndCsrId3, X.DiffDay ) AS M
GROUP BY C.CsrId1G, C.CsrId2G, C.CsrId3G, M.DiffDay ORDER BY C.CsrId1G, C.CsrId2G, C.CsrId3G, M.DiffDay
GO
-- (0) Set Default Value
UPDATE DbExt.dbo.CsrCsnDlv SET DlvRchDay1=0, DlvRchDayOv3=0, DlvRchDayMin=0, DlvRchDayMax=0, DlvRchDayAvg=0
GO
-- (1) DbExt.dbo.CsrCsnDlv.DlvRchDay1
SELECT CsrId1G, CsrId2G, CsrId3G, SUM(CNT) AS DlvRchDay1 INTO #TempDlvRchDay1
FROM DbExt.dbo.AidDlvRchDay WHERE DiffDay IN (0,1) GROUP BY CsrId1G, CsrId2G, CsrId3G
GO
USING #TempDlvRchDay1 AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
82
WHEN MATCHED THEN

UPDATE SET
T.DlvRchDay1=S.DlvRchDay1;
GO
-- (2) DbExt.dbo.CsrCsnDlv.DlvRchDayOv3
SELECT CsrId1G, CsrId2G, CsrId3G, SUM(CNT) AS DlvRchDayOv3 INTO #TempDlvRchDayOv3
FROM DbExt.dbo.AidDlvRchDay WHERE DiffDay>3 GROUP BY CsrId1G, CsrId2G, CsrId3G
GO
USING #TempDlvRchDayOv3 AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvRchDayOv3=S.DlvRchDayOv3;
GO
-- (3) DbExt.dbo.CsrCsnDlv.DlvRchDayMin
SELECT CsrId1G, CsrId2G, CsrId3G, (CASE MIN(DiffDay) WHEN 0 THEN 1 ELSE MIN(DiffDay) END) AS DlvRchDayMin INTO #TempDlvRchDayMin
FROM DbExt.dbo.AidDlvRchDay GROUP BY CsrId1G, CsrId2G, CsrId3G
GO
USING #TempDlvRchDayMin AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvRchDayMin=S.DlvRchDayMin;
GO
-- (4) DbExt.dbo.CsrCsnDlv.DlvRchDayMax
SELECT CsrId1G, CsrId2G, CsrId3G, MAX(DiffDay) AS DlvRchDayMax INTO #TempDlvRchDayMax
FROM DbExt.dbo.AidDlvRchDay GROUP BY CsrId1G, CsrId2G, CsrId3G
GO
USING #TempDlvRchDayMax AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvRchDayMax=S.DlvRchDayMax;
GO
-- (5) DbExt.dbo.CsrCsnDlv.DlvRchDayAvg
SELECT CsrId1G, CsrId2G, CsrId3G, (CAST(SUM(DiffDay*CNT) AS NUMERIC(11,4))/SUM(CNT)) AS DlvRchDayAvg INTO #TempDlvRchDayAvg
FROM (
SELECT CsrId1G, CsrId2G, CsrId3G, (CASE DiffDay WHEN 0 THEN 1 ELSE DiffDay END) AS DiffDay, CNT
FROM DbExt.dbo.AidDlvRchDay) AS D
GROUP BY CsrId1G, CsrId2G, CsrId3G
83
GO
USING #TempDlvRchDayAvg AS S ON S.CsrId1G=T.CsrId1G AND S.CsrId2G=T.CsrId2G AND S.CsrId3G=T.CsrId3G
WHEN MATCHED THEN
UPDATE SET
T.DlvRchDayAvg=S.DlvRchDayAvg;
GO
𝐶𝑠𝑟𝑆𝑡𝑅𝑛𝐸𝑛𝑡𝐶𝒾 、𝐶𝑠𝑟𝑆𝑡𝑅𝑛𝐴𝑏𝑡𝐶𝒾 研究變項的 SQL 語法：

-- (1) CsrStRnEnt
INSERT DbExt.dbo.CsrCsnDlvAtr
SELECT
(CASE C.CsrStRn WHEN 0 THEN 'N' WHEN 4 THEN 'Y' ELSE '' END) AS CsrStRnEnt,
(CASE C.CsrStRn WHEN 0 THEN 'N' WHEN 4 THEN 'Y' ELSE '' END) AS CsrStRnAbt,
CASE WHEN CsnStpItvAvg=0 THEN 0 ELSE CAST((CsnStpItvAvg - CsnStpItvAvgW)/CsnStpItvAvg AS NUMERIC(8,4)) END
FROM DbExt.dbo.CsrBsc AS C
INNER JOIN DbExt.dbo.CsrCsnDlv AS D ON D.CsrId1G=C.CsrId1G AND D.CsrId2G=C.CsrId2G AND D.CsrId3G=C.CsrId3G
GO
-- (2) CsrStRnAbt
UPDATE DbExt.dbo.CsrCsnDlvAtr SET CsrStRnAbt='Y' WHERE CsnStpItvTrend BETWEEN -0.3 AND -0.9
GO
84
附錄二
使用 Weka 執行屬性選取分析後的結果：
實驗 A 顧客完全流失實驗 B 顧客即將流失
排名變項分數變項分數
1 CsnRcn 90 CsnRcn 127
2 CsnLng 180 CsnStpItvMax 143
3 CsnStpItvMax 418 CsnStpItvAvgW 279
4 CsnStpItvMin 424 CsnLng 351
5 CsnFrq 582 CsnStpItvAvg 450
6 CsnPft 594 CsnMnt 588
7 CsnStpItvAvgW 623 CsnFrq 667
8 CsnStpItvAvg 667 DlvErsApnt 709
9 CsnMnt 812 DlvErsMiss 782
10 CsrNrRng 995 DlvRchDayOv3 909
11 DlvRchDayAvg 1088 DlvErsWrng 1065
12 DlvRchDay1 1143 CsnStpItvMin 1142
13 DlvRchDayMax 1215 DlvErsRjct 1212
14 DlvErsNothApnt 1276 DlvRchDayMax 1345
15 CsrRgn 1416 DlvRchDay1 1357
16 DlvErsApnt 1479 CsnPft 1386
17 DlvErsRjct 1492 DlvRchDayAvg 1393
18 DlvErsNoth 1597 DlvErsNoth 1571
19 CsrType 1636 DlvErsNothApnt 1678
20 DlvRchDayMin 1668 DlvErsWrngApnt 1772
21 DlvErsMiss 1765 CsrType 1864
22 DlvErsWrng 1883 CsrRgn 1980
23 DlvErsWrngApnt 1974 DlvRchDayMin 2070
24 DlvRchDayOv3 1983 CsrNrRng 2160
85

整合分類與分群技術於物流業高價值顧客流失預測模型之研究

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

整合分類與分群技術於物流業高價值顧客流失預測模型之研究

Uploaded by

Copyright:

Available Formats

國 立 中 正 大 學

past. How to establish long-term cooperative relationship with valuable customers, is

the key to stability in today's competitive market. For businesses, it is important to

customer churn to provide business decision-makers to develop a marketing strategy.

Abstract ........................................................................................................................ III

2.2.2 傳統 RFM 分析模型 ....................................................................... 10

2.2.3 擴充 RFM 分析模型 ....................................................................... 11

2.4.1 K-Means .............................................................................................. 18

表 3 K-MEANS 演算法 ................................................................................................. 18

表 12 混亂矩陣(CONFUSION MATRIX) ........................................................................ 44

表 13 K-MEANS CLUSTER CENTROIDS 與資料分佈百分比 ........................................ 47

表 15 K-MEANS 分群後顧客群保留與完全流失之資料分佈 ................................... 48

表 21 K-MEANS 分群後顧客群保留與即將流失之資料分佈 ................................... 53

圖 2 使用 K-MEANS 演算法來尋找樣本資料中的三個群集 ................................... 18

物流（Modern Times Logistics）」，除了傳統的作業之外，還涵蓋了流通服務、

配送業務、資訊系統、金融服務等相關服務(Liu, C. L. & Lyons, 2011)。兩者的區

的架構，從點延伸到線再延伸到面進而建構出一個物流網路(Liu, C. L. & Lyons,

的重要任務(Esper, Jensen, Turnipseed, & Burton, 2003)。在現今市場激烈地競爭下，

著(Hsiao, 2009; Ramanathan, 2010)。

關係，顯然不是一個聰明的做法。由「80-20法則（The 80/20 Rule）」(Xu & Walton,

(Guenzi & Troilo, 2007)。另一方面，如果企業一直都把重心放在獲取新的顧客，

（Revolving-door Effect）」(Kamakura, Wedel, de Rosa, & Mazzon, 2003)。企業的

威脅(Kisioglu & Topcu, 2011)。

大量顧客交易資料當中發掘出潛藏隱含且未知的有價值資訊(Tsai & Chen, 2010)，

協助企業能夠瞭解顧客的消費特性、趨勢與變化(Hung, Yen, & Wang, 2006)。這

(Business to Consumer, B2C)的角度與環境來探討問題(Hung et al., 2006; Nie et al.,

2011; Tsai & Chen, 2010)，而物流產業的顧客群幾乎都以企業主居多，個人戶僅

此，本研究希望加入企業對企業(Business to Business, B2B)的角度來探討與分析

(Bloomberg, LeMay, & Hanna, 2002)。而物流的價值就是，使產品在合適的時間出

之間單純運送貨物的一個代名詞(Liu, C. L. & Lyons, 2011)。

之間的關係，也證實了兩者之間是有顯著的關聯性(Hsiao, 2009; Ramanathan,

溝通、訂單處理和配送等因素(Cho, Ozment, & Sink, 2008)。與物流相關的業務因

營商，將可以獲得更多顧客的惠顧(Esper et al., 2003; Heim & Field, 2007)。

值(Renko & Ficko, 2010)。

1. 電子商務的重要性與日俱增(Renko & Ficko, 2010) ：在過去的十年裡，人

& Ficko, 2010)。

2. 產品的生命週期與交貨時間愈來愈短(Waters, 2003) ：現今消費者的消費

(Waters, 2003) ：現今市場的資訊已經非常透明化，關於商品與服務的資

4. 企業強調降低整體營運成本，並採取流程外包的策略(Renko & Ficko,

的企業都專注於自己的核心業務和外包以外的業務活動(Renko & Ficko,

以減少不必要額外的資產支出(Liu, C. L. & Lyons, 2011)。

1. 交貨速度 (Delivery Speed) ：交貨時間，由供應商收到的顧客訂單的那一

準時送貨上門，往往會讓顧客產生焦慮地等待(Cho et al., 2008)。

2. 可靠性 (Reliability) ：可靠性，這意味著供應商的承諾，以維護承諾按期

et al., 2003; Heim & Field, 2007)。除了準時交貨之外，維持貨品完整性也

等原因(Rutner, Gibson, & Williams, 2003)。

3. 溝通與回應 (Communication & Responsiveness) ：能夠快速反應各式各樣

現代行銷學之父 Philip Kotler 定義顧客價值為企業從顧客身上所獲得的利

與衡量顧客的真正價值(Kim, S. Y., Jung, Suh, & Hwang, 2006)。高價值顧客所產

生出來的利潤，是公司的競爭優勢的基礎(Guenzi & Troilo, 2007)。高價值顧客不

研究中最重要的方法之一(Chen, R. Y., 2009)。我們回顧過去的文獻發現，許多論

文都在探討如何分析顧客的終身價值(Customer Lifetime Value, CLV)。而顧客價

顧客(Cheng & Chen, 2009)。

Gupta 指出了五種關於顧客終身價值模型的研究分類(Gupta et al., 2006)。

1. RFM 模型(RFM Models)：以顧客最近一次購買時間(Recency)、購買頻率

2. 機率模型(Probability Models)：以 Pareto/NBD 模型和馬可夫鏈(Markov

3. 計量經濟模型(Econometric Models)：類似於機率模型，以 Pareto/NBD 模

4. 持 久 性 模 型 (Persistence Models) ： 以 顧 客 的 獲 取 (Acquisition) 、 保 留

5. 計算機科學模型(Computer Science Models)：以計算機科學的基礎理論來解

區隔(Chen, M. C., Chiu, & Chang, 2005)。RFM模型是實施顧客關係管理和估計顧

客價值最強大和最簡單的一種模型(Cheng & Chen, 2009; Hosseini, Maleki, &

Gholamian, 2010; Liu, D. R. & Shih, 2005)。

2.2.2 傳統 RFM 分析模型

E. C., Huang, & Wu, 2010; Cheng & Chen, 2009)。它是一種基於行為的模型用來分

國立中正大學

4. 持久性模型 (Persistence Models) ：以顧客的獲取 (Acquisition) 、保留

決策樹 (Decision Tree) 是一個眾所周知的分類 (Classification) 與預測