You are on page 1of 37

第三章 .

資料探勘介紹

高中資訊先修課程
目錄

❏ 3-1. 資料庫知識發現 (KDD) 步驟


❏ 3-2. 資料探勘定義與功能
❏ 3-3. 常見的資料探勘分析方法
❏ 3-4. 問題討論:探討資料探勘技術差別

2
3-1. 資料庫知識發現 (KDD) 步驟

資料庫知識發現 (Knowledge Discovery in Database ,簡稱 KDD) ,是指從資料


中,探索出有用的知識。

( 圖片來源: Fayyad, U., Piatesky-Shapiro, G. & Smyth , P. (1996). The KDD process for extracting useful knowledge
from volumes of Data. Communications of the ACM, 39(11), 27-34. ) 3
3-1. 資料庫知識發現 (KDD) 步驟

❏ 資料預處理
➔ 資料清理、整合、轉換

❏ 資料探勘
➔選擇模型、訓練模型

❏ 評估驗證

4
3-1. 資料庫知識發現 (KDD) 步驟

❏ 資料預處理
➔ 資料整合、清理、轉換

❏ 資料探勘
➔選擇模型、訓練模型

❏ 評估驗證

( 圖片來源: http://203.71.151.9/~luti/105data-comnine.htm )

5
資料預處理

❏ 資料整合 (Data Integration)


➔消除資料不一致
➔消除資料重複性

6
資料預處理

❏ 資料整合 (Data Integration)

7
資料預處理

❏ 資料清理 (Data Cleaning)


➔填補缺失值 (missing data)
➔處理雜訊 (noise) 問題
取代補值 (e.g., 中位數、平均數 ) 、新建欄位、整欄刪除

8
資料預處理

❏ 資料轉換 (Data Transformation)


➔資料平滑化 (Smoothing)
➔資料聚合 (Aggregation)
➔資料一般化 (Generalization)
➔資料正規化 (Nomalization)

9
資料預處理

❏ 資料轉換 (Data Transformation)


➔資料平滑化 (Smoothing) :找出資料的關係式
➔資料聚合 (Aggregation)
➔資料一般化 (Generalization)
➔資料正規化 (Nomalization)

10
( 圖片來源: http://www.simulkade.com/posts/2015-05-07-how-to-smoothen-noisy-
資料預處理

❏ 資料轉換 (Data Transformation)


➔資料平滑化 (Smoothing) :找出資料的關係式
➔資料聚合 (Aggregation) :對資料進行匯總與聚集
➔資料一般化 (Generalization)
➔資料正規化 (Nomalization)

11
資料預處理

❏ 資料轉換 (Data Transformation)


➔資料平滑化 (Smoothing) :找出資料的關係式
➔資料聚合 (Aggregation) :對資料進行匯總與聚集
➔資料一般化 (Generalization) :將層級較低的資料轉換為層級較高的資料
➔資料正規化 (Nomalization)

12
資料預處理

❏ 資料轉換 (Data Transformation)


➔資料平滑化 (Smoothing) :找出資料的關係式
➔資料聚合 (Aggregation) :對資料進行匯總與聚集
➔資料一般化 (Generalization) :將層級較低的資料轉換為層級較高的資料
➔資料正規化 (Nomalization) :將資料按比例縮放,使資料數值落入一定特
性區間內

13
3-1. 資料庫知識發現 (KDD) 步驟

❏ 資料預處理
➔ 資料清理、整合、轉換

❏ 資料探勘
➔選擇模型、訓練模型

❏ 評估驗證

14
資料探勘

❏ 選擇模型
➔ 迴歸方法 (Regression)
➔ 分類方法 (Classification)
➔ 聚類方法 (Clustering) 迴歸方法 -
線性迴歸
(linear
regression)

15
( 圖片來源: https://kknews.cc/zh-tw/tech/p5x8ygz.html )
資料探勘

❏ 選擇模型
➔ 迴歸方法 (Regression)
➔ 分類方法 (Classification)
➔ 聚類方法 (Clustering)
分類方法 -
支持向量機
(SVM)

16
( 圖片來源: https://kknews.cc/zh-tw/tech/p5x8ygz.html )
資料探勘

❏ 選擇模型
➔ 迴歸方法 (Regression)
➔ 分類方法 (Classification)
聚類方法 -
➔ 聚類方法 (Clustering)
K 均值聚類
(K-means)

17
( 圖片來源: https://kknews.cc/zh-tw/tech/p5x8ygz.html )
資料探勘

❏ 訓練模型
➔使用訓練資料集 (Traning Set) 和驗證資料集 (Validation Set) 來訓
練模型。

( 圖片來源: https://notesforai.blogspot.com/2018/05/blog-post.html)
18
評估驗證

❏ 使用測試資料集 (Testing Set) 進行模型的評估驗證


➔分類指標
精確率 (Precision), 召回率 (Recall), 準確率 (Accuracy)

( 範例:精確率 (Precision) 計算方式 )

Preicison = (TP) / 「模型預測」為真的總



Recall = (TP) / 「真實情況」為真的總數
Accuracy = (TP+TN) / 總數 19
評估驗證

❏ 使用測試資料集 (Testing Set) 進行模型的評估驗證


➔分類指標
➔迴歸指標
平均均方誤差 (Mean Squared Error, MSE)
平均絕對誤差 (Mean Absolute Error, MAE) 迴歸方法 -
線性迴歸
( 範例 : 平均均方誤差 (MSE) 計算方式 )
(linear
regression)

20
3-2. 資料探勘定義與功能

資料探勘為利用統計、人工智慧 (AI) 或其他的分析技術,在企業之大型資料庫內


尋找與發掘事前未知、有效的資料彼此監所隱藏的關係與規則。

( 圖片來源: Frontender Corporation. (2018). Retrieved from 21


http://frontender.com/blog/enablers/data-mining/)
資料探勘 vs 線上分析處理

❏ 線上分析處理 (OLAP: On-Line Analytical Processing)


➔採用多維度的資料結構,以進行多項不同維度整合的分析,讓用戶能
夠從多個角度互動地分析多維資料。
線上分析處理 資料探勘
多少人曾購買筆記型電腦? 哪些顧客可能會購買筆記型電腦?

顧客平均每月消費總金額是多少? 哪些顧客下個月的消費有可能會超過一萬元?

昨日有多少顧客沒有瀏覽網頁商品? 未來一週多少客戶可能瀏覽網頁商品?

去年的銷售業績統計報表 明天預期之銷售業績額度
22
3-3. 常見的資料探勘分析方法

❏ 決策樹 (Decision Tree)


❏ 邏輯回歸 (Logistic Regression)
❏ 類神經網路 (Neural Network)

23
決策樹 (Decision Tree)

決策樹是一種過程單純、執行效率也較高的模型,適用於分類和回歸資料
類型的預行。

24
( 圖片來源: https://chtseng.wordpress.com/2017/02/10/ 決策樹 -decision-trees/)
決策樹 (Decision Tree)

可透過計算每種分割方法的分數,來決定決策樹的架構。

25
( 圖片來源: https://chtseng.wordpress.com/2017/02/10/ 決策樹 -decision-trees/)
邏輯回歸 (Logistic Regression)

❏ 邏輯回歸可以判定資料邊界,對不同類別的數據做分割

26
邏輯回歸 (Logistic Regression)

( 圖片來源: https://kknews.cc/health/4ovvxx2.html)

27
類神經網路 (Neural Network)
神經網路技術是指用電腦來模仿生物的神經網路,並經過不斷學習,讓機
器能夠像人類一樣擁有推導能力。

( 圖片來源: https://dotblogs.com.tw/allanyiin/2016/03/12/222215
http://hn28082251.blogspot.com/2018/07/artificial-neural-network.html) 28
類神經網路 (Neural Network)

( 圖片來源: stockfeel.com.tw/ 神經網路的復興:重回風口的深度學習 /)


29
類神經網路 (Neural Network)

❏ 深度神經網路 (DNN, Deep Neural Network)

( 圖片來源: https://kknews.cc/zh-tw/tech/8g9lk44.html)
30
類神經網路 (Neural Network)

❏ 卷積神經網路 (CNN, Convolution Neural Network)

( 圖片來源: https://medium.com/ 雞雞與兔兔的工程世界 / 機器學習 -ml-note-convolution-neural-network- 卷積神經網


路 -bfa8566744e9) 31
類神經網路 (Neural Network)

❏ 卷積 (Convolution)

( 圖片來源: https://medium.com/ 雞雞與兔兔的工程世界 / 機器學習 -ml-note-convolution-neural-network- 卷積神經網


路 -bfa8566744e9) 32
類神經網路 (Neural Network)

❏ 循環神經網路 (RNN, Recurrent Neural Network)

( 圖片來源: https://colah.github.io/posts/2015-08-Understanding-LSTMs/)
33
[ 補充資料 ] 資料探勘的應用實例

❏ 美國著名超級市場 Wal-Mart

( 圖片來源: http://letstartup.hk/2020/03/24/amazon-and-walmart-ramping-up-hiring/ https://tenor.com/view/beer-baby-diaper-gif-16302735)


34
[ 補充資料 ] 資料探勘的應用實例

❏美國超大型量販店 Target

( 圖片來源: https://localrecordsoffice.co/target-hiring-10000-workers-across-u-s/)
35
[ 補充資料 ] 資料探勘的應用實例

❏微軟紐約研究院 David Rothschild


2013 奧斯卡金像獎

最佳影片: 12 Years a Slave, 88.7 %

最佳導演: Alfonso Cuarón – Gravity, 97.6 %

最佳男主角: Matthew McConaughey – Dallas Buyers Club, 90.9 %

最佳女主角: Cate Blanchett – Blue Jasmine, 99.2 %

最佳男配角: Jared Leto – Dallas Buyers Club, 97.9 %

最佳女配角: Lupita Nyong’o – 12 Years a Slave, 60.1 %

( 圖片來源: http://insankutuphanesi.com/)
36
3-4. 問題討論

❏ 探討資料探勘技術差別
➔(1) 不同資料探勘分析方法能了解資料的何種特性?
➔(2) 資料探勘技術與資料視覺化的比較

37

You might also like