Professional Documents
Culture Documents
0111assosiation Rule
0111assosiation Rule
2023-12-12
樸素⾙式演算法預測客⼾是否流失
安裝 e1071 套件
導入數據 並分成訓練數據和測試數據
70%的數據⽤於訓練 30%的數據⽤於測試
1
預測結果
2
Decision Tree
使⽤sklearn創建了⼀個基於決策樹的機器學習模型,以預測患者對哪種藥物會有反應,
根據他們的年齡、性別、膽固醇⽔平、⾎壓以及⾎液中的鈉-鉀比例。
獲取數據
3
探索數據分析
進⾏探索性數據分析(EDA)以及必要的預處理,以滿⾜決策樹的假設。
數據集包含6列,具有適當的數據類型,且沒有缺失值。
模型使⽤剩餘的5列來預測 'Drug' 列。
有5種類型的藥物。檢查它們的分佈以確保數量是否平衡。
4
數量嚴重不平衡,其中⼀種藥物的出現頻率為45.5%。因此,使⽤準確度來衡量模型
的性能並不適當。相反,我將使⽤加權 F15 分數。。
決策樹的⼀個假設是所有特徵都是數值型的。
因此,對於名義特徵,使⽤獨熱編碼是合適的,對於有序特徵,可以使⽤序數編碼。
性別是⼀個名義特徵,⽽⾎壓和膽固醇則都是有序特徵。
6
訓練模型
將數據劃分為訓練集和測試集。由於數量不平衡,使⽤了分層抽樣(strati cation)。
模型將在70%的數據上進⾏訓練,並在剩餘的30%上進⾏測試。
7
fi
最佳模型達到了100% 的驗證準確度
8
最佳模型達到了100% 的驗證準確度
9
10
可視化決策樹。可以看到,這些類別只需要少數的分割就能夠被區分開來。
Drug Y 只需經過⼀個問題的提問,Drug A 和 B 在三個問題後能夠被區分開,⽽Drug C
和 X 在四個問題後能夠完全區分開。此外,當檢視葉⼦節點時,可以看到沒有任何剩餘數
據點很少的葉⼦節點。這表明樹模型不是過度擬合。
11