Welcome to Scribd!

Skip carousel

1212再修正

Uploaded by

evanke183

0% found this document useful (0 votes)

5 views13 pages

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

5 views13 pages

1212再修正

Uploaded by

evanke183

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 13

Search inside document

資科三A 10173143 柯建丞

2023-12-12

樸素⾙式演算法預測客⼾是否流失

安裝 e1071 套件

導入數據並分成訓練數據和測試數據
70%的數據⽤於訓練 30%的數據⽤於測試

使⽤ e1071 套件中的 naiveBayes 函數構建了⼀個朴素⾙葉斯模型，然後使⽤

這個模型對訓練數據和測試數據進⾏預測，最後計算了混淆矩陣

1
預測結果

2
Decision Tree

使⽤sklearn創建了⼀個基於決策樹的機器學習模型，以預測患者對哪種藥物會有反應，
根據他們的年齡、性別、膽固醇⽔平、⾎壓以及⾎液中的鈉-鉀比例。

獲取數據

3
探索數據分析

進⾏探索性數據分析（EDA）以及必要的預處理，以滿⾜決策樹的假設。

數據集包含6列，具有適當的數據類型，且沒有缺失值。
模型使⽤剩餘的5列來預測 'Drug' 列。

有5種類型的藥物。檢查它們的分佈以確保數量是否平衡。

4
數量嚴重不平衡，其中⼀種藥物的出現頻率為45.5%。因此，使⽤準確度來衡量模型
的性能並不適當。相反，我將使⽤加權 F15 分數。。
決策樹的⼀個假設是所有特徵都是數值型的。
因此，對於名義特徵，使⽤獨熱編碼是合適的，對於有序特徵，可以使⽤序數編碼。
性別是⼀個名義特徵，⽽⾎壓和膽固醇則都是有序特徵。

將 'BP' 和 'Cholesterol' 使⽤序數編碼，'Sex' 使⽤獨熱編碼，並保留了未指定的其他特徵。

這是為了滿⾜決策樹模型的假設，即所有特徵都應該是數值型的。

6
訓練模型

將數據劃分為訓練集和測試集。由於數量不平衡，使⽤了分層抽樣（strati cation）。
模型將在70%的數據上進⾏訓練，並在剩餘的30%上進⾏測試。

為了找到決策樹的最佳參數，使⽤ grid search with 5-fold cross validation.

7
fi
最佳模型達到了100% 的驗證準確度

8
9
可視化決策樹。可以看到，這些類別只需要少數的分割就能夠被區分開來。
Drug Y 只需經過⼀個問題的提問，Drug A 和 B 在三個問題後能夠被區分開，⽽Drug C
和 X 在四個問題後能夠完全區分開。此外，當檢視葉⼦節點時，可以看到沒有任何剩餘數
據點很少的葉⼦節點。這表明樹模型不是過度擬合。

10
模型評估與討論

在這⼀部分，模型將在測試數據上進⾏評估。

可以看出，模型在給定的任務上學到了⼀些東⻄，
然⽽，在將藥物A和藥物B進⾏分類時，它仍然犯了⼀些錯誤。

模型在樣本138中犯了⼀個錯誤

11
如果我們參考決策樹的可視化結果，我們可以觀察到藥物A和B是根據患者的年齡來區分的。
如果患者的年齡是51歲或更低，則他們將對藥物A產⽣反應，否則，他們將對藥物B產⽣反應。
患者138的年齡是51歲，恰好處於邊界。
我們可以得出結論，模型的錯誤非常⼩，整體上具有很好的泛化性。

12
觀察模型估計的特徵重要性，並可視化樹模型對數據的決策過程。

根據結果，似乎最重要的特徵是鈉-鉀比。
此外，在預測患者對藥物的反應時，患者的性別是不重要的。
因此，我們可以從數據集中移除性別，並在檢查新患者時忽略記錄性別。

醫學研究中常見的統計應用及誤用
Document89 pages
醫學研究中常見的統計應用及誤用
洪侊增
No ratings yet
5j26生物統計入門
Document26 pages
5j26生物統計入門
T4醫學護理類編輯室
No ratings yet
檢驗醫學Vol 1
Document38 pages
檢驗醫學Vol 1
黃靖恩
No ratings yet
統計常態檢定
Document66 pages
統計常態檢定
張雅婷
No ratings yet
Untitled
Document3 pages
Untitled
小静最
No ratings yet
工統0 概論
Document103 pages
工統0 概論
JASON2 CHIB
No ratings yet
SPSS Usage (Chinese)
Document34 pages
SPSS Usage (Chinese)
Joffrey Hsu
No ratings yet
MRP 2020 009bbbbb
Document1 page
MRP 2020 009bbbbb
suckle honey
No ratings yet
分類演算法之比較以帕金森氏症電子監控資料為例
Document6 pages
分類演算法之比較以帕金森氏症電子監控資料為例
Jimmy Lu
No ratings yet
Metaboanalyst
Document27 pages
Metaboanalyst
田沛孜
No ratings yet
Data Science 面试必备指南 + 面试真题
Document54 pages
Data Science 面试必备指南 + 面试真题
Yue Hu
No ratings yet
21 28
Document8 pages
21 28
chihhsuan5426
No ratings yet
第5章统计量及其分布
Document64 pages
第5章统计量及其分布
落玥
No ratings yet
申请
Document2 pages
申请
huangzz1016
No ratings yet
小议在MTT法测细胞增殖抑制率中IC 50 的计算方法
Document3 pages
小议在MTT法测细胞增殖抑制率中IC 50 的计算方法
tlxw
No ratings yet
什么是随机分配？
Document13 pages
什么是随机分配？
ewacg862
100% (1)
Cui - 2023 - Prog. - Biomed. - Eng. - 5 - 022001 ZH
Document43 pages
Cui - 2023 - Prog. - Biomed. - Eng. - 5 - 022001 ZH
yl893
No ratings yet
machine learning yearning 中文版 2
Document15 pages
machine learning yearning 中文版 2
sapphirelsen
No ratings yet
对药物临床试验中置信区间法预设检验界值的考虑
Document7 pages
对药物临床试验中置信区间法预设检验界值的考虑
Wenju Qian
No ratings yet
ch7社會實驗
Document26 pages
ch7社會實驗
萍萍林
No ratings yet
（22）Meta 分析从Idea到Paper（41页）
Document41 pages
（22）Meta 分析从Idea到Paper（41页）
monazqx
No ratings yet
中介效应分析方法和模型发展温忠麟
Document15 pages
中介效应分析方法和模型发展温忠麟
Tenny Luo
No ratings yet
数据科学合集
Document140 pages
数据科学合集
757786288
No ratings yet
AUC、Cmax、Tmax 与制剂之间的关联
Document13 pages
AUC、Cmax、Tmax 与制剂之间的关联
windli2014
No ratings yet
（3）Meta分析原理与实践（37页）
Document37 pages
（3）Meta分析原理与实践（37页）
monazqx
No ratings yet
Critical Appraisal: Therapy Question Systematic Review
Document33 pages
Critical Appraisal: Therapy Question Systematic Review
吳怡瑾
No ratings yet
臨床研究常見之生物統計醫研部 101-4-28 Workshop
Document33 pages
臨床研究常見之生物統計醫研部 101-4-28 Workshop
洪侊增
No ratings yet
生化反应干扰实验
Document80 pages
生化反应干扰实验
三石哥哥
No ratings yet
第9章簡單隨機抽樣與抽樣分配ok
Document13 pages
第9章簡單隨機抽樣與抽樣分配ok
jamie20031106once
No ratings yet
多分類邏輯斯迴歸分析
Document5 pages
多分類邏輯斯迴歸分析
Radar Red
No ratings yet
研究中的假设发展
Document8 pages
研究中的假设发展
afefifskv
100% (1)
化妆品功效消费者使用测试的抽样标准侯姣靓
Document3 pages
化妆品功效消费者使用测试的抽样标准侯姣靓
吴艺谋
No ratings yet
Book p299-561. Translated PDF
Document263 pages
Book p299-561. Translated PDF
俞悅
No ratings yet
统计学试卷
Document5 pages
统计学试卷
Jiaao Li
No ratings yet
112-2期中作業生物統計學實習
Document2 pages
112-2期中作業生物統計學實習
Torr N.C.V.
No ratings yet
2.4 组学分析常用统计方法
Document63 pages
2.4 组学分析常用统计方法
l1961314866
No ratings yet
統計學 W2
Document164 pages
統計學 W2
Joc here.圓圓係我
No ratings yet
基于深度学习算法的图像识别技术研究
Document11 pages
基于深度学习算法的图像识别技术研究
meiwanlanjun
No ratings yet
5 T-Test
Document37 pages
5 T-Test
石書旻
No ratings yet
決策樹分析
Document61 pages
決策樹分析
api-26693386
No ratings yet
1112 顯著性檢定
Document30 pages
1112 顯著性檢定
陳岱佑
No ratings yet
樣本平均數之抽樣分析
Document29 pages
樣本平均數之抽樣分析
api-19644056
No ratings yet
科学2年级
Document89 pages
科学2年级
Cll Lian
No ratings yet
科学2年级
Document89 pages
科学2年级
Cll Lian
No ratings yet
「身體功能測試」於台灣失智
Document18 pages
「身體功能測試」於台灣失智
IVY LAM
No ratings yet
司马的讲义 15.【文数一轮复习】导数、概率统计、向量、不等式、复数第7讲统计与概率
Document10 pages
司马的讲义 15.【文数一轮复习】导数、概率统计、向量、不等式、复数第7讲统计与概率
20231102faxuejia
No ratings yet
適康版作業簿自然一
Document23 pages
適康版作業簿自然一
陳燊
No ratings yet
抽樣分配統計估計
Document32 pages
抽樣分配統計估計
林俊德
No ratings yet
所示，其中顯示了鐵的定量測定結果。以完全相同的方式分析六等份「已知」濃度為 20.00 ppm 鐵 (III) 的水溶液。2
Document42 pages
所示，其中顯示了鐵的定量測定結果。以完全相同的方式分析六等份「已知」濃度為 20.00 ppm 鐵 (III) 的水溶液。2
miacherry2710
No ratings yet
10 5A統計學
Document8 pages
10 5A統計學
Yonghue Lin
No ratings yet
102S113 CS01L01
Document60 pages
102S113 CS01L01
蔡炅宸
No ratings yet
實驗數據的處理與分析
Document15 pages
實驗數據的處理與分析
chihuang luo
No ratings yet
我正與您共用 '2023Springfinal'
Document4 pages
我正與您共用 '2023Springfinal'
bibby88888888
No ratings yet
CN Machine Learning Ebook All Chapters
Document65 pages
CN Machine Learning Ebook All Chapters
PENG YAN
No ratings yet
3 癌症伤口临床特点及其护理干预策略
Document3 pages
3 癌症伤口临床特点及其护理干预策略
pheobe Qiu
No ratings yet
20230213單元01 統計學概念
Document32 pages
20230213單元01 統計學概念
Gabiyah F
No ratings yet
The Experiencing of Imposed Rule - A New Attempt To Test Both Normative and Descriptive Decision Theories
Document11 pages
The Experiencing of Imposed Rule - A New Attempt To Test Both Normative and Descriptive Decision Theories
Randy Bab
No ratings yet
1112 SPSS Wk05 T-Test
Document24 pages
1112 SPSS Wk05 T-Test
peterr716
No ratings yet
01 Intro
Document10 pages
01 Intro
hkumosesmed
No ratings yet