You are on page 1of 73

การพยากรณ์ผลสัมฤทธิ์ทางการเรียน

ด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner


THE PREDICTION OF STUDENT PERFORMANCE
USING DATA MINING TECHNIQUES WITH RAPID MINER

จิราภรณ์ เจริญยิ่ง

บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ
2563
การพยากรณ์ผลสัมฤทธิ์ทางการเรียน
ด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner

จิราภรณ์ เจริญยิ่ง

สารนิพนธ์นีเ้ ป็ นส่วนหนึ่งของการศึกษาตามหลักสูตร
วิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ
คณะวิทยาศาสตร์ มหาวิทยาลัยศรีนครินทรวิโรฒ
ปี การศึกษา 2563
ลิขสิทธิ์ของมหาวิทยาลัยศรีนครินทรวิโรฒ
THE PREDICTION OF STUDENT PERFORMANCE
USING DATA MINING TECHNIQUES WITH RAPID MINER

JIRAPORN JAREANYING

A Master’s Project Submitted in Partial Fulfillment of the Requirements


for the Degree of MASTER OF SCIENCE
(Information Technology)
Faculty of Science, Srinakharinwirot University
2020
Copyright of Srinakharinwirot University
สารนิพนธ์
เรื่อง
การพยากรณ์ผลสัมฤทธิ์ทางการเรียน
ด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner
ของ
จิราภรณ์ เจริญยิ่ง

ได้รบั อนุมตั ิจากบัณฑิตวิทยาลัยให้นบั เป็ นส่วนหนึ่งของการศึกษาตามหลักสูตร


ปริญญาวิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ
ของมหาวิทยาลัยศรีนครินทรวิโรฒ

(รองศาสตราจารย์ นายแพทย์ฉตั รชัย เอกปั ญญาสกุล)


คณบดีบณ ั ฑิตวิทยาลัย

คณะกรรมการสอบปากเปล่าสารนิพนธ์

.............................................. ที่ปรึกษาหลัก .............................................. ประธาน


(ผูช้ ่วยศาสตราจารย์ ดร.วีรยุทธ เจริญเรืองกิจ) (อาจารย์ ดร.รัตน์ชยั นันท์ ธรรมสุจริต)

.............................................. กรรมการ
(อาจารย์ ดร.โสภณ มงคลลักษมี)

บทคัดย่อภาษาไทย

ชื่อเรื่อง การพยากรณ์ผลสัมฤทธิ์ทางการเรียน
ด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner
ผูว้ ิจยั จิราภรณ์ เจริญยิ่ง
ปริญญา วิทยาศาสตรมหาบัณฑิต
ปี การศึกษา 2563
อาจารย์ท่ีปรึกษา ผูช้ ว่ ยศาสตราจารย์ ดร. วีรยุทธ เจริญเรืองกิจ

งานวิจยั นีน้ าเสนอการทาเหมืองข้อมูลทางการศึกษา โดยการจาแนกประเภทข้อมูล


การวิเ คราะห์องค์ประกอบหลักของข้อมูล เพื่ อหาความสัม พันธ์ของตัวแปร และเปรียบเที ยบ
ประสิ ทธิ ภ าพของอัล กอริทึม ซึ่ง เป็ นการศึกษาด้วยเทคนิค ต้นไม้ตัดสินใจ เทคนิคป่ าแห่ง การ
ทานาย การเรียนรูเ้ บย์ และ K-NN โดยใช้ขอ้ มูลของนักเรียนระดับมัธยมศึกษาในโรงเรียนโปรตุเกส
ประกอบด้วยข้อมูลด้านผลการเรียน ด้านความเป็ นอยู่ และความเชื่อมโยงทางสังคมและโรงเรียน
จาก UCI Machine Learning Repository มีขอ้ มูล 649 รายการ 31 แอตทริบิวต์ จากผลการวิจยั
พบว่าเทคนิคที่ให้คา่ ความถูกต้อง มากที่สดุ คือเทคนิคป่ าไม้ตดั สินใจ เท่ากับ 80.74 และเทคนิคที่
มีคา่ ความถ่วงดุลมากที่สดุ คือ เทคนิคการเรียนรูเ้ บย์ เท่ากับ 55.52

คาสาคัญ : เทคนิคเหมืองข้อมูล, การจาแนกประเภทข้อมูล, การพยากรณ์ผลการเรียน, เทคนิค


ต้นไม้ตดั สินใจ, เทคนิคป่ าเพื่อการทานาย, เทคนิคการเรียนรูเ้ บย์, เทคนิคเพื่อนบ้านใกล้ท่ีสดุ ,
โปรแกรม Rapid Miner

บทคัดย่อภาษาอ ังกฤษ

Title THE PREDICTION OF STUDENT PERFORMANCE


USING DATA MINING TECHNIQUES WITH RAPID MINER
Author JIRAPORN JAREANYING
Degree MASTER OF SCIENCE
Academic Year 2020
Thesis Advisor Assistant Professor Dr. Werayuth Charoenruengkit

This research presents education data mining using data classification and
Principal Component Analysis (PCA) to predict student grades using several variables
and algorithms. The algorithms used in this paper are Decision Tree, Random Forest,
Naïve- Bayes, and K- NN ( K- Nearest Neighbors) . The dataset experiment included
secondary school students in Portuguese schools containing information about the
socioeconomic environment of the students and learning environment from the UCI
Machine Learning Repository. The population consisted of 649 samples with 31 attributes.
The experimental results showed that the best accuracy from the Random Forest
technique was 80.74 and the Naïve-Bayes technique had the highest average at 55.52.

Keyword : Data Mining, Classification, Student Performance Prediction, Decision Tree,


Random Forest, Naïve-Bayes, k-Nearest Neighbor, Rapid Miner

กิตติ กรรมประ กาศ

กิตติกรรมประกาศ

สารนิพนธ์เล่มนีส้ าเร็จสมบูรณ์ได้ดว้ ยดีเพราะได้รบั ความกรุณาชีแ้ นะและช่วยเหลืออย่างดี


ยิ่งจาก ผูช้ ว่ ยศาสตราจารย์ ดร. วีรยุทธ เจริญเรืองกิจ อาจารย์ท่ีปรึกษาสารนิพนธ์ ที่ให้คาแนะนาและ
ตรวจแก้ไขข้อบกพร่องมาโดยตลอด ตัง้ แต่เริ่มต้นจนสาเร็จเรียบร้อย และคณะอาจารย์ทุกท่านที่ให้
ความรู ้ใ นสาระวิ ช าต่า ง ๆ ในการศึก ษาระดับ ปริ ญ ญาโทมาตลอดการศึก ษานี ้ผู้วิ จัย ขอกราบ
ขอบพระคุณด้วยความเคารพอย่างสูง
สุดท้ายนีข้ อขอบคุณบิดา มารดา และครอบครัว ที่ ให้การสนับสนุนและให้กาลังใจมาให้
โดยตลอด และขอบคุณเพื่อน ๆ พี่ ๆ และน้อง ๆ ที่รว่ มเรียนสาขาเทคโนโลยีสารสนเทศซึ่งได้ให้ความ
ช่วยเหลือทัง้ ทางตรงและทางอ้อมไว้ ณ โอกาสนี ้

จิราภรณ์ เจริญยิ่ง
สารบัญ

หน้า
บทคัดย่อภาษาไทย ................................................................................................................ ง
บทคัดย่อภาษาอังกฤษ ........................................................................................................... จ
กิตติกรรมประกาศ.................................................................................................................. ฉ
สารบัญ ................................................................................................................................. ช
สารบัญตาราง ....................................................................................................................... ฌ
สารบัญรูปภาพ .....................................................................................................................ญ
บทที่ 1 บทนา........................................................................................................................ 1
1.1 ความสาคัญและที่มาของงานวิจยั ................................................................................. 1
1.2 วัตถุประสงค์ของงานวิจยั ............................................................................................. 2
1.3 ขอบเขตของงานวิจยั .................................................................................................... 2
1.4 วิธีดาเนินงานวิจยั ........................................................................................................ 2
1.5 ประโยชน์ท่ีคาดว่าจะได้รบั จากงานวิจยั ......................................................................... 3
บทที่ 2 แนวคิด ทฤษฎี เทคโนโลยีท่ีเกี่ยวข้อง ............................................................................ 4
2.1 ทฤษฎีพืน้ ฐานเกี่ยวกับการทาเหมืองข้อมูล (Data Mining) ............................................. 4
2.2 การแปลงข้อความเป็ นตัวเลข (Label Encoding)........................................................... 5
2.3 การแปลงข้อความเป็ นตัวเลขฐาน 2 ( One-hot Encoding) ............................................ 6
2.4 การหาค่าสหสัมพันธ์ (Correlation) ............................................................................... 7
2.5 การวิเคราะห์องค์ประกอบหลัก (Principal Component Analysis : PCA) ....................... 8
2.5 เทคนิคต้นไม้ตดั สินใจ (Decision Tree) ......................................................................... 9
2.6 เทคนิคป่ าแห่งการทานาย (Random Forest) .............................................................. 10
2.6 เทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) ......................................................................... 11

2.7 เทคนิคเพื่อนบ้านใกล้ท่ีสดุ KNN (K-Nearest Neighbors)............................................ 12


2.8 การวิเคราะห์ความแม่นตรงของตัวแบบทานาย K-fold Cross Validation ...................... 13
2.9 การวัดประสิทธิภาพของตัวแบบทานาย ....................................................................... 14
2.9 โปรแกรม RapidMiner studio 9.5 .............................................................................. 15
2.10 งานวิจยั ที่เกี่ยวข้อง .................................................................................................. 24
บทที่ 3 วิธีดาเนินการวิจยั ..................................................................................................... 26
3.1 การจัดเตรียมข้อมูล .................................................................................................... 26
3.2 การสร้างตัวแบบทานายใน Rapid Miner studio 9.5 ................................................... 31
3.2 การคัดเลือกข้อมูล ..................................................................................................... 36
3.3 การวัดประสิทธิภาพของตัวแบบทานาย ...................................................................... 38
บทที่ 4 ผลการศึกษา ........................................................................................................... 40
4.1 ผลการเตรียมข้อมูล (Data Preparation) เพื่อให้ขอ้ มูลพร้อมในการสร้างตัวแบบทานาย. 40
4.2 ผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์ โดยใช้เทคนิคต่าง ๆ ........................ 42
4.2 ผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์ดว้ ยเทคนิคการวิเคราะห์องค์ประกอบ
หลักของข้อมูล .......................................................................................................... 47
4.3 ผลการวิเคราะห์ความแม่นตรง และเปรียบเทียบประสิทธิภาพของตัวแบบทานายด้วย
เทคนิคต่าง ๆ โดยใช้วิธี K-fold cross validation ......................................................... 49
บทที่ 5 สรุปผลการวิจยั และข้อเสนอแนะ ................................................................................ 52
5.1 สรุปผลการวิจยั .......................................................................................................... 52
5.2 ข้อเสนอแนะ .............................................................................................................. 55
บรรณานุกรม ....................................................................................................................... 56
ประวัตผิ เู้ ขียน....................................................................................................................... 60
สารบัญตาราง

หน้า
ตาราง 1 ตารางแสดงสัตว์เลีย้ ง................................................................................................ 6
ตาราง 2 ตารางแสดงสัตว์เลีย้ งหลังจากแปลงเป็ น Label Encoder............................................ 6
ตาราง 3 ตารางแสดงสีเสือ้ แดง 1 เขียว 2 นา้ เงิน 3 .................................................................. 7
ตาราง 4 ตารางสีเสือ้ หลังจากแปลงเป็ น One Hot Encoding.................................................... 7
ตาราง 5 Data Dictionary อธิบายรายละเอียดในแต่ละแอตทริบวิ ต์......................................... 27
ตาราง 6 (ต่อ) ...................................................................................................................... 28
ตาราง 7 (ต่อ) ...................................................................................................................... 29
ตาราง 8 ตัวอย่างการแปลงข้อมูลในรูป Label encoding ....................................................... 29
ตาราง 9 ตัวอย่างการแปลงข้อมูลในรูป one hot encoding .................................................... 30
ตาราง 10 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า maximal depth ที่ดีท่ีสดุ ของเทคนิคต้นไม้
ตัดสินใจ (Decision Tree) .................................................................................................... 33
ตาราง 11 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า number of trees ที่ดีท่ีสดุ ของป่ าแห่งการ
ทานาย (Random Forest) .................................................................................................... 34
ตาราง 12 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า maximal depth ที่ดีท่ีสดุ ของป่ าแห่งการทานาย
(Random Forest) ................................................................................................................ 34
ตาราง 13 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า k ที่ดีท่ีสดุ ของป่ าแห่งการทานาย เทคนิคเพื่อน
บ้านใกล้ท่ีสดุ (K-Nearest Neighbors) ................................................................................. 36
ตาราง 14 ผลการเปรียบเทียบค่าความถูกต้องจากการสร้างตัวแบบทานาย ............................. 47
ตาราง 15 ผลการเปรียบเทียบค่าความถูกต้องจากการสร้างตัวแบบทานาย เมื่อข้อมูลผ่าน PCA49
ตาราง 16 ผลการเปรียบเทียบประสิทธิภาพจากการสร้างตัวแบบทานาย โดยใช้วิธี K-fold cross
validation ........................................................................................................................... 51
สารบัญรู ปภาพ

หน้า
ภาพประกอบ 1 ขัน้ ตอนในการทา CRISP-DM ......................................................................... 4
ภาพประกอบ 2 ระดับค่าความสัมพันธ์ของ Correlation ........................................................... 8
ภาพประกอบ 3 แบบจาลองการสร้าง PCA .............................................................................. 9
ภาพประกอบ 4 การสร้างโมเดลด้วยเทคนิคต้นไม้ตดั สินใจ ...................................................... 10
ภาพประกอบ 5 การสร้างป่ าแห่งการทานาย .......................................................................... 11
ภาพประกอบ 6 การทอยลูกเต๋าเพื่อคานวณความน่าจะเป็ น .................................................... 12
ภาพประกอบ 7 การแบ่งกลุ่มข้อมูลด้วยเทคนิคเพื่อนบ้านใกล้ท่ีสดุ .......................................... 13
ภาพประกอบ 8 ขัน้ ตอนการวิเคราะห์ความแม่นตรงของตัวแบบทานาย K-fold cross validation
........................................................................................................................................... 14
ภาพประกอบ 9 แสดงตาราง Confusion Matrix ..................................................................... 15
ภาพประกอบ 10 Operator Read CSV................................................................................. 16
ภาพประกอบ 11 Operator Set Role .................................................................................... 16
ภาพประกอบ 12 Operator Correlation Matrix ..................................................................... 17
ภาพประกอบ 13 Operator Apply Model ............................................................................. 18
ภาพประกอบ 14 Operator decision tree ............................................................................ 19
ภาพประกอบ 15 Operator Random Forest......................................................................... 20
ภาพประกอบ 16 Operator Naive Bayes ............................................................................. 21
ภาพประกอบ 17 Operator k-NN ......................................................................................... 22
ภาพประกอบ 18 Operator Set Role .................................................................................... 23
ภาพประกอบ 19 Operators Cross Validation ..................................................................... 23
ภาพประกอบ 20 แสดงขัน้ ตอนการดาเนินงานวิจยั ................................................................. 26

ภาพประกอบ 21 รายละเอียดชุดข้อมูลของนักเรียน ................................................................ 27


ภาพประกอบ 22 การตัง้ ค่า Parameter ภายใน Operator Correlation Matrix ........................ 30
ภาพประกอบ 23 การกาหนดชนิดของข้อมูลที่ตอ้ งการทานาย ................................................. 31
ภาพประกอบ 24 การตัง้ ค่า Parameter ภายใน Operator Set Role ....................................... 31
ภาพประกอบ 25 การ Split ข้อมูลเป็ น Training Data และ Test data ..................................... 32
ภาพประกอบ 26 การสร้างตัวแบบทานายและการตัง้ ค่า Parameter Decision Tree ................ 33
ภาพประกอบ 27 การสร้างตัวแบบทานายและการตัง้ ค่า Parameter Random Forest ............. 35
ภาพประกอบ 28 การสร้างตัวแบบทานายและการตัง้ ค่า Parameter Naïve-Bayes ................. 35
ภาพประกอบ 29 การสร้างตัวแบบทานายการ และการตัง้ ค่า Parameter k-NN ....................... 36
ภาพประกอบ 30 จานวนตัวแปรคงหลือเมื่อผ่านกระบวนการ PCA .......................................... 37
ภาพประกอบ 31 การตัง้ ค่า Parameter Operator PCA ......................................................... 37
ภาพประกอบ 32 การสร้างตัวแบบทานาย Decision Tree จากข้อมูลที่ผา่ น PCA .................... 37
ภาพประกอบ 33การสร้างตัวแบบทานาย Random Forest จากข้อมูลที่ผา่ น PCA ................... 38
ภาพประกอบ 34 การสร้างตัวแบบทานาย k-NN จากข้อมูลที่ผา่ น PCA................................... 38
ภาพประกอบ 35 การสร้างตัวแบบทานาย Naïve-Bayes จากข้อมูลที่ผา่ น PCA ...................... 38
ภาพประกอบ 36 การตัง้ ค่า Parameter Operator Validation ................................................ 39
ภาพประกอบ 37 การตรวจสอบค่าต่าง ๆ ในข้อมูลทัง้ หมด ...................................................... 41
ภาพประกอบ 38 ตารางแสดงค่า Correlation ของตัวแปร ...................................................... 41
ภาพประกอบ 39 การแสดงค่านา้ หนักความสัมพันธ์ของแต่ละตัวแปรในชุดข้อมูล ..................... 41
ภาพประกอบ 40 การแสดงค่านา้ หนักความสัมพันธ์ของแต่ละตัวแปร Fedu และ Medu ........... 42
ภาพประกอบ 41 ตัวแบบทานาย Decision Tree ................................................................... 43
ภาพประกอบ 42 ค่าความถูกต้องของการพยากรณ์ตวั แบบทานาย Decision Tree .................. 44
ภาพประกอบ 43 ตัวแบบทานาย Random Forest ................................................................. 44

ภาพประกอบ 44 ค่าความถูกต้องของการพยากรณ์ตวั แบบทานาย Random Forest................ 45


ภาพประกอบ 45 ตัวแบบทานาย Naïve-Bayes ..................................................................... 45
ภาพประกอบ 46 ค่าความถูกต้องของการพยากรณ์ตวั แบบทานาย Naïve-Bayes.................... 46
ภาพประกอบ 47 ตัวแบบทานาย k-NN.................................................................................. 46
ภาพประกอบ 48 ค่าความถูกต้องของการพยากรณ์ตวั แบบทานาย k-NN ................................ 46
ภาพประกอบ 49 ตัวอย่างตัวแปรที่ผา่ นกระบวนการ PCA ...................................................... 47
ภาพประกอบ 50 การแสดงค่า Variance ตัวแปรเมื่อผ่านกระบวนการ PCA............................. 48
ภาพประกอบ 51 การวิเคราะห์ความแม่นตรงโดยใช้ขอ้ มูลที่ไม่ผา่ น PCA ................................. 50
ภาพประกอบ 52 การวิเคราะห์ความแม่นตรงโดยใช้ขอ้ มูลที่ผา่ น PCA ..................................... 50
บทที่ 1
บทนา

1.1 ความสาคัญและทีม่ าของงานวิจัย


การศึกษาเป็ นสิ่งสาคัญที่ช่วยในการพัฒนาบุคคลให้มีความรูค้ วามสามารถในด้านต่าง ๆ
รวมทั้ง ทัศนคติและพฤติกรรมอื่ น ๆ ซึ่ง เป็ นฐานส าคัญให้บุคคลนั้นมี ค วามเจริญงอกงามทาง
ปั ญญา ดารงชีวิตได้อย่างเหมาะสม ส่งผลต่อการพัฒนาประเทศในลาดับต่อไป ทัง้ ในด้านสังคม
เศรษฐกิจ และการเมือง
การวัดและประเมินผลการเรียนรูข้ องผูเ้ รียนเป็ นองค์ประกอบสาคัญในการพัฒนาคุณภาพ
การศึกษา ทาให้ได้ขอ้ มูลสารสนเทศที่จาเป็ นในการพิจารณาว่าผูเ้ รียนเกิดคุณภาพการเรียนรูต้ าม
ผลการเรียนรูท้ ่ีคาดหวังและมาตรฐานการเรียนรู ้ การวัดและประเมินผลทางการศึกษาจะเกี่ยวข้อง
กับคา 3 คา คือ (สมชาย รัตนทองคา, 2554)
1. การทดสอบ (testing) หมายถึ ง การน าเสนอชุ ด ค าถามที่ เ รี ย กว่ า ข้ อ สอบหรื อ
แบบทดสอบที่มีมาตรฐานให้ผสู้ อบตอบ
2. การวัดผล (measurement) หมายถึง การวัดคุณลักษณะ (ตัวแปร)ของบุคคลจากผล
การตอบคาถามในแบบทสอบตามกฏเกณฑ์ท่ีกาหนด เพื่อแสดงคุณค่าเชิงปริมาณหรือตัวเลขที่ วดั
ได้ การวัดผลนอกจากใช้แบบทดสอบแล้วยังรวมถึงการใช้เครื่องมืออื่ นเพื่อรวบรวมข้อมูลเชิง
ปริมาณหรือเชิงคุณภาพด้วย เช่น การสังเกตพฤติกรรม การสัมภาษณ์การตรวจผลงานต่าง ๆ ที่
กาหนดให้ผปู้ ระเมินทา
3. การประเมินผล (evaluation) หมายถึง กระบวนการอย่างมีระบบที่นาข้อมูลจากการ
วัดผลมาตีค่าและตัดสินคุณค่าของผูเ้ รียน ซึ่งการวัดผลและการประเมินผลเป็ นกระบวนการที่มี
ความต่อเนื่อง เมื่อมีการวัดผลจะทาให้ได้ขอ้ มูลและรายละเอียดหลายด้าน เมื่อนาข้อมูลดังกล่าว
มาวิ เ คราะห์เ ปรี ย บเที ย บกับ เกณฑ์ใด เกณฑ์ห นึ่ง เพื่ อ ตี ค่า หรื อ สรุ ป คุณ ค่ า ออกมาถื อ ว่ า เป็ น
กระบวนการประเมิน ผลการประเมินจะมีความถูกต้องเที่ยงตรงเพียงใดขึน้ กับความถูกต้องของผล
การวัด ถ้าผลการวัดถูกต้องการประเมินก็จะมีความเชื่อถือได้มากและตรงกับความเป็ นจริง ถ้าผล
การวัดผิดพลาด การประเมินก็จะผิดพลาดไปด้วย การวัดผลและการประเมินผลมีความแตกต่าง
กัน
โดยการวัดและประเมินผลการเรียนรู ข้ องผูเ้ รียนนัน้ มีจุดประสงค์เพื่อพัฒนาผูเ้ รียน แต่
ข้อมูลการวัดและประเมินผลการเรียนรู เ้ ป็ นสิ่งที่ครูผสู้ อนยังไม่ท ราบข้อมูลได้ในตอนต้น ดังนัน้ จึง
2

ต้องนาข้อมูลอื่น ๆ ที่เกี่ยวข้องกับตัวผูเ้ รียนมาใช้ในการทานาย เพื่อให้ทราบผลการประเมินจึงจะ


สามารถส่งเสริมหรือแก้ไขการเรียนรูร้ วมทัง้ การสอนของครูให้มีคณ ุ ภาพมากยิ่งขึน้
จากที่ ม าและความส าคัญ ดัง กล่าว ผู้วิจัยได้เห็นความส าคัญ ของประเมิ นผลสัม ฤทธิ์
ทางการเรียน จึงมีแนวคิดที่จะใช้ขอ้ มูลของผูเ้ รียนมาวิเคราะห์ดว้ ยเทคนิคเมืองข้อมูลในการทานาย
ผลสัมฤทธิ์ทางการเรียน และได้เลือกทาการศึกษาข้อมูลตัวอย่าง ซึ่งเป็ นข้อมูลของนักเรียนระดับ
มัธยมศึกษาในโรงเรียนโปรตุเกส ประกอบด้วยข้อมูลด้านผลการเรียน ด้านความเป็ นอยู่ และความ
เชื่ อมโยงทางสังคมและโรงเรียน จาก UCI Machine Learning Repository (Cortez, 2008) มี
ข้อมูล 649 รายการ 33 แอตทริบิวต์ เพื่อนาผลการพยากรณ์ท่ีได้มาช่วยให้ คณ ุ ครูได้ทราบถึงกลุ่ม
เด็กที่ตอ้ งให้ความสนใจเป็ นพิเศษ เพื่อคอยสนับสนุนและให้ความช่วยเหลือ จนทาให้ผลการเรียน
ของผูเ้ รียนนัน้ บรรลุตามวัตถุประสงค์ตอ่ ไป

1.2 วัตถุประสงค์ของงานวิจัย
1.เพื่ อศึกษาเทคนิ คที่ เ หมาะสมในการพยากรณ์ผ ลสัม ฤทธิ์ ทางการเรี ยนด้วยการท า
เหมืองข้อมูล
2.เพื่อพยากรณ์ผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3 ของนักเรียนในข้อมูลตัวอย่าง
3.เพื่อสารวจตัวแปรที่สามารถทานายผลสัมฤทธิ์ทางการเรียนของนักเรียน

1.3 ขอบเขตของงานวิจัย
การวิจัยนี เ้ ป็ นการทาเหมื องข้อมูลทางการศึกษา (Education Data Mining) โดยการ
จาแนกประเภทข้อมูล (Classification) หาความสัมพันธ์ของข้อมูล และเปรียบเทียบประสิทธิภาพ
ของอัลกอริทึม โดยเป็ นการศึกษาด้วยเทคนิค ต้นไม้ตดั สินใจ (Decision Tree) เทคนิคป่ าแห่งการ
ทานาย (Random Forest) การเรียนรู เ้ บย์ (Naïve-Bayes) และ K-NN (K-Nearest Neighbors)
โดยใช้ซ อฟต์แวร์ Rapid Miner Studio ในการประมวลผลข้อมูล และสร้างตัวแบบทานายการ
พยากรณ์ผลสัมฤทธิ์ทางการเรียน

1.4 วิธีดาเนินงานวิจัย
1. ศึกษางานวิจยั ที่เกี่ยวข้อง: Literature Review โดยศึกษาทฤษฎีและศึกษางานวิจัยที่
เกี่ยวกับเทคนิคการทาเหมืองข้อมูล (Data Mining)
2. กาหนดขอบเขตการศึกษา เลือกเครื่องมือที่ใช้ในการประมวลผลการพยากรณ์
- ชุดข้อมูล คือ การเตรียมข้อมูล, วิเคราะห์ขอ้ มูลและค่าต่าง ๆ ที่จะทานาย
3

- เครื่องมือ คือ ศึกษาเครื่องมือ และเลือกเครื่องมือที่จะนามาวิเคราะห์ขอ้ มูล


3. ศึกษาทฤษฎี และเทคนิคต่าง ๆ ในการทาเหมืองข้อมูล (Data Mining)
4. ใช้ซอฟต์แวร์ RapidMiner Studio เพื่อทาการวิเคราะห์ขอ้ มูล ด้วยเทคนิค (Decision
Tree) เทคนิคป่ าแห่งการทานาย (Random Forest) การเรียนรู เ้ บย์ (Naïve-Bayes) และ K-NN
(K-Nearest Neighbors) และตรวจสอบความถูกต้อง
5. ทาการสรุป และอภิปรายผลของงานวิจยั

1.5 ประโยชน์ทคี่ าดว่าจะได้รับจากงานวิจัย


1. สามารถศึกษาการจัดการข้อมูลและการจาแนกประเภทของข้อมูลได้
2. สามารถศึกษาการวิเคราะห์องค์ประกอบหลัก ของข้อมูลได้ (Principal Component
Analysis
3. สามารถศึกษาการใช้เทคนิค (Decision Tree) เทคนิคป่ าแห่งการทานาย (Random
Forest) การเรียนรูเ้ บย์ (Naïve-Bayes) และ K-NN (K-Nearest Neighbors) ในการสร้างตัวแบบ
ทานายเพื่อการพยากรณ์ผลสัมฤทธิ์ทางการเรียนได้
4. สามารถศึกษาการใช้ Rapid Miner Studio ซึ่งเป็ นเครื่องมือวิเคราะห์ขอ้ มูลและสร้า ง
ตัวแบบทานายการพยากรณ์ผลสัมฤทธิ์ทางการเรียนได้
บทที่ 2
แนวคิด ทฤษฎี เทคโนโลยีทเี่ กีย่ วข้อง

2.1 ทฤษฎีพนื้ ฐานเกี่ยวกับการทาเหมืองข้อมูล (Data Mining)


Data Mining เป็ นกระบวนการ (Process) ที่กระทากับข้อมูลขนาดใหญ่ เพื่อค้นหารูปแบบ
แนวทาง และความสัมพันธ์ท่ีซ่อนอยู่ในชุดข้อมูลนัน้ โดยอาศัยหลักสถิติการรู จ้ ากการเรียนรู ข้ อง
เครื่องและหลักคณิตศาสตร์ ทาการจาแนกประเภท รู ปแบบ เชื่อมโยงข้อมูลที่มีความสัมพันธ์กนั
และหาความน่าจะเป็ นที่ จ ะเกิ ดขึ น้ เพื่ อให้ไ ด้องค์ความรู ใ้ หม่ ที่ สามารถนาไปใช้ประกอบการ
ตัดสิ นใจในด้านต่าง ๆ เพื่ อให้ไ ด้สารสนเทศที่ เราไม่รูอ้ อกมา โดยสารสนเทศที่ ไ ด้จ ะมี เหตุผ ล
สนับสนุนและสามารถนาไปใช้ประโยชน์ได้ (อดุลย์ ยิม้ งาม, 2551) ซึ่งมาตรฐานที่ใช้สาหรับการทา
เหมืองข้อมูล เพื่อทาการวิเคราะห์และนาไปใช้ประโยชน์ ดังภาพประกอบที่ 1 คือ Cross-industry
standard process for data mining : CRISP-DM ประกอบด้ว ย 6 ขั้น ตอน คื อ (Data Cube,
2564)

ภาพประกอบ 1 ขัน้ ตอนในการทา CRISP-DM

ที่มา: https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_
Mining
5

1. การทาความเข้าใจธุรกิจ (Business Understanding) เป็ นการทาความเข้าใจ


ข้อมูล ปัญหาและวัตถุประสงค์ร จากนัน้ แปลงปัญหาให้อยูใ่ นรูปของโจทย์สาหรับการวิเคราะห์
ข้อมูล และวางแผนการดาเนินงานเบือ้ งต้น
2. การทาความเข้าใจข้อมูล (Data Understanding) เป็ นการรวบรวมข้อมูลที่ทา
ความเข้าใจ จากนัน้ ตรวจสอบคุณภาพ และเลือกข้อมูลที่เก็บรวบรวมมาว่าจะใช้ขอ้ มูลใดบ้างใน
การวิเคราะห์
3. การเตรียมข้อมูล (Data Preparation) เป็ นการเตรียมข้อมูลทัง้ หมดที่จะทา เพื่อให้
ข้อมูลดิบที่เรารวบรวมมากลายเป็ นข้อมูลสมบูรณ์ท่ีพร้อมจะเข้าสู่ตวั แบบทานาย เช่น การสร้าง
ตาราง การลบข้อมูลที่ไม่ตอ้ งการออก การแปลงข้อมูลให้อยูใ่ นรูปแบบที่ตอ้ งการ เป็ นต้น
4. การสร้างตัวแบบทานาย (Modeling) เป็ นขัน้ ตอนที่จะเลือกและทดสองสร้างตัว
แบบทานายหลาย ๆ แบบที่น่าจะสามารถแก้ไขปัญหาที่ตอ้ งการได้ จากนัน้ ค่อย ๆ ปรับ
ค่าพารามิเตอร์ในแต่ละตัวแบบทานาย เพื่อให้ได้ตวั แบบทานายที่เหมาะสมที่สดุ มาใช้ในการแก้ไข
ปัญหา หากยังไม่ได้ตวั แบบทานายที่พอใจ ก็สามารถกลับไปเตรียมข้อมูลให้พร้อมมากกว่านีไ้ ด้
เนื่องจากข้อมูลที่ดี ก็จะทาให้ได้ผลลัพธ์ท่ีดีเช่นกัน
5. การวัดประสิทธิภาพของตัวแบบทานาย (Evaluation) เป็ นการวัดประสิทธิภาพ
ของตัวแบบทานายที่ได้จากขัน้ ตอนที่ 4 เพื่อวัดว่าตัวแบบทานายมีประสิทธิภาพเพียงพอต่อการ
นาไปใช้งานแล้วหรือไม่ ซึ่งตัวแบบทานายแต่ละประเภทก็จะมีตวั วัดประสิทธิภาพที่แตกต่างกัน
ออกไป
6. การนาตัวแบบทานายไปใช้งานจริง (Deployment) เป็ นการนาตัวแบบทานายที่
เหมาะสมที่สดุ ไปใช้งานจริง เพื่อวิเคราะห์และแก้ปัญหาที่ตอ้ งการ

2.2 การแปลงข้อความเป็ นตัวเลข (Label Encoding)


เป็ นการแปลงข้อมูล ประเภทข้อ ความให้เ ป็ น ตัวเลข 0 1 2 3 โดยทาให้ข้อมูลในแต่ล ะ
คอลัมน์เป็ น id ที่ตา่ งกัน แต่ยงั คงอยูใ่ นคอลัมน์เดิม ซึ่งจะทาการแปลงข้อมูลเมื่อข้อมูลเป็ นข้อมูลที่
เป็ นอันดับหรือข้อมูลที่ไม่ได้เป็ นตัวเลข ซึ่งข้อมูลที่ Encode แบบ Label Encoding จะช่วยทาให้
โมเดลใช้พืน้ ที่ในการเก็บข้อมูลน้อยลง และลดเวลาในการคานวณด้วย จากตารางที่ 1 สัตว์เลีย้ ง
ของนาย A นาย B นาย C และ นาย D (ชิตพงษ์ กิตตินราดร, 2562)
6

ตาราง 1 ตารางแสดงสัตว์เลีย้ ง

ชื่อ สัตว์เลีย้ ง
คุณ A Dog
คุณ B Cat
คุณ C Dog
คุณ D Mouse

เมื่อเราแปลงข้อมูล Column สัตว์เลีย้ ง เป็ น Label Encoder แล้ว จะได้ดงั ตารางที่ 2

ตาราง 2 ตารางแสดงสัตว์เลีย้ งหลังจากแปลงเป็ น Label Encoder

ชื่อ สัตว์เลีย้ ง
คุณ A 1
คุณ B 2
คุณ C 1
คุณ D 3

2.3 การแปลงข้อความเป็ นตัวเลขฐาน 2 ( One-hot Encoding)


เป็ นการแปลงข้อมูลประเภทข้อความให้แตกเป็ นคอลัมน์ย่อย ๆ แบบ Binary 0/1 ตามค่า
ของข้อมูล โดยใช้ 0,1 แทนว่า item นัน้ อยู่ในคอลัมน์ใดและข้อมูลยังคงมีความสัมพันธ์กนั อยู่ ซึ่ง
ข้อมูลที่ Encode แบบ One Hot จะช่วยให้โมเดล Machine Learning ทางานง่ายขึน้ แทนที่โมเดล
จะเรี ย นรู ้ Pattern จากสัญ ญาณเดี ย ว 3 ระดับ เปลี่ ย นมาเรี ย นรู ้จ ากสวิ ท ช์ปิ ด เปิ ด 3 ตัว แทน
ความหมายของข้อ มูล แบบ Nominal จะตรงขึน้ เนื่ อ งจาก สี แ ดง 1 ไม่ไ ด้ใ กล้เ คี ย ง สี เ ขี ย ว 2
มากกว่าสีนา้ เงิน 3 จากตารางที่ 3 ใน Column สีเสือ้ แดง = 1, เขียว = 2 และ นา้ เงิน = 3 (ชิตพงษ์
กิตตินราดร, 2562)
7

ตาราง 3 ตารางแสดงสีเสือ้ แดง 1 เขียว 2 นา้ เงิน 3

ชื่อ จานวนบุตร สีเสือ้


คุณ A 4 2
คุณ B 3 1
คุณ C 1 3
คุณ D 2 1

เมื่อเราแปลงข้อมูล Column สีเสือ้ เป็ น One Hot Encoding แล้ว จะได้ดงั ตารางที่ 4

ตาราง 4 ตารางสีเสือ้ หลังจากแปลงเป็ น One Hot Encoding

ชื่อ จานวนบุตร สีเสือ้ แดง สีเสือ้ เขียว สีเสือ้ นา้ เงิน


คุณ A 4 0 1 0
คุณ B 3 1 0 0
คุณ C 1 0 0 1
คุณ D 2 1 0 0

2.4 การหาค่าสหสัมพันธ์ (Correlation)


เป็ นการศึกษาความสัมพันธ์ระหว่างตัวแปรตัง้ แต่ 2 ตัวขึน้ ไป เช่น การหาความสัมพันธ์
ระหว่างอายุกบั นา้ หนัก อายุกบั รายได้ ซึ่งใช้คา่ Correlation เป็ นค่าวัดความสัมพันธ์ โดยใช้วิธีการ
ทางสถิติหลากหลายวิธี การจะใช้ค่าสถิติตวั ใดขึน้ อยู่กับลักษณะของตัวแปร และจะต้องมีการ
ทดสอบนัยสาคัญก่อน จึงจะสรุปว่าตัวแปรนัน้ ๆ สัมพันธ์กนั หรือไม่ การอ่านผลจะอ่านเพียงว่าทัง้
สองตัวมีความสัมพันธ์กนั หรือไม่ ถ้าสัมพันธ์กนั แปรผันตามกันหรือแปรผกผันกันเป็ นค่ามากน้อย
เพียงใด แต่จะไม่สามารถบอกว่าตัวแปรใดเป็ นตัวแปรต้น หรือตัวแปรใดเป็ นตัวตาม
8

ภาพประกอบ 2 ระดับค่าความสัมพันธ์ของ Correlation

ที่มา : https://jupiter.ba.cmu.ac.th/data-mining-with-rapidminer-สาหรับผูเ้ ริ่มต้น/

จากภาพประกอบที่ 2 จะแสดงระดั บ ค่ า ความสั ม พั น ธ์ ข อง Correlation โดยค่ า


Correlation จะมีคา่ ระหว่าง -1 ถึง 1 ซึ่งระดับความสัมพันธ์ตงั้ แต่ 0 – 0.4 และ 0 – (-4) หมายถึง
ตัวแปรมีสมั พันธ์ไม่มีความสัมพันธ์กนั เลย หรือมีความสัมพันธ์กนั น้อยมาก 0.41 - 0.6 และ (-0.41)
– (-0.6) หมายถึง ตัวแปรมีสมั พันธ์กันบ้าง 0.61 – 0.8 และ (-0.61) – (-0.8) หมายถึง ตัวแปรมี
สัมพันธ์กนั มาก 0.81 – 1.0 และ (-0.81) – (-1.0) หมายถึง ตัวแปรมีสมั พันธ์กนั มากที่สดุ

2.5 การวิเคราะห์องค์ประกอบหลัก (Principal Component Analysis : PCA)


PCA (ธีระดา ภิญโญ, 2561) เป็ นการวิเคราะห์เพื่อหาความสัมพันธ์ของข้อมูลที่มีหลายตัว
แปร หลักการนีจ้ ะไม่ส่งผลกระทบต่อข้อมูลหลัก เพียงแค่ปรับเปลี่ยนมุมมองข้อมูลใหม่ ให้ขอ้ มูลมี
ความกระชับ มีขนาดเล็กลงง่ายต่อการนาไปใช้งาน ซึ่งทาให้ขอ้ มูลที่มีความซับซ้อน เกิดการลด
ขนาดของ Matrix มี ขนาดเล็ กลงและง่ ายต่อ การอธิ บ าย และช่วยให้ใช้เวลาการสร้างตัว แบบ
ทานายน้อยลง เช่น มีตวั แปร 50 ตัว แต่อาจจะไม่ได้ใช้งานทัง้ หมด โดยจะเรียงลาดับความสาคัญ
ของตัวแปร และพิจ ารณาว่า ตัวแปรใดส่ง ผลกระทบก็ จ ะน ามาใช้ ส่วนตั วแปรใดที่ ไ ม่มี ค วาม
เกี่ยวข้องก็จะไม่ได้นามาสร้างโมเดล
9

ภาพประกอบ 3 แบบจาลองการสร้าง PCA

ที่มา : https://kongruksiamza.medium.com/สรุป-machine-learning-ep-5-การ
วิเคราะห์องค์ประกอบหลัก-pca-185c29aa8954

จากภาพประกอบที่ 3 จะเห็นว่า PCA จะทาการสร้างตัวแปรที่เรียกว่า component โดย


แต่ละ component จะไม่มีความสัมพันธ์กนั เลย component ตัวแรกจะมีคา่ variance สูงที่สดุ ซึ่ง
อธิบายข้อมูลได้มากที่สดุ และตัวถัดๆ ไปก็จะมี variance ลดลงตามลาดับ โดยค่าที่ครอบคลุมจะ
มี variance ประมาณ 80–90% แต่หลังจากใช้ PCA บนชุดข้อมูลแล้ว คุณลักษณะดัง้ เดิม ของ
ข้อมูลจะเปลี่ยนไปเป็ นส่วนประกอบหลัก ซึ่งส่วนประกอบหลักนัน้ จะไม่สามารถอ่านและตีความได้
เหมือนกับคุณสมบัตดิ งั้ เดิม

2.5 เทคนิคต้นไม้ตัดสินใจ (Decision Tree)


เป็ นการเรียนรูโ้ ดยการจาแนกประเภทข้อมูลออกเป็ นกลุม่ โดยใช้คณ ุ สมบัตขิ องข้อมูล เป็ น
ตัวกาหนด ซึ่งประกอบไปด้วย โหนดภายใน, กิ่ง และโหนดใบ วิธีการวิเคราะห์แบบต้นไม้ตดั สินใจ
เป็ นการค้นหาจากบนลงล่าง โดยเริ่มจากการเลือกคุณสมบัติท่ีดีท่ีสุดมาเป็ นโหนดราก และวน
สร้างโหนดลูกและเส้นเชื่อมไปเรื่อย ๆ จนกว่าข้อมูลที่ได้จะถูกจัดไว้เป็ นกลุ่มเดียวกัน ถึงจะหยุด
สร้างต้นไม้ จาการคานวณ Information Gain (IG) โดยเลือกคุณสมบัติท่ีมีคา่ IG สูงที่สดุ หรือการ
คานวณค่า Gini Index ซึ่งเป็ นค่าที่บง่ บอกว่า ตัวแปรใดสมควรนามาใช้ในการแบ่ง และคานวณที่
หาค่า Gini Index ที่นอ้ ยที่สดุ จะคือค่าที่ดีท่ีสุด จะนาตัวแปรนัน้ มาเป็ นโหนดราก (ชณิดาภา บุญ
ประสม และ จรัญ แสนราช, 2561)
10

ภาพประกอบ 4 การสร้างโมเดลด้วยเทคนิคต้นไม้ตดั สินใจ

ที่มา : https://dataminingtrend.com/2014/data-minimg-techniques/ensemble-
model/

จากภาพประกอบที่ 4 เป็ นการทานายอีเมลเป็ น spam mail หรือไม่ โดยการคานวณค่า


Information Gain (IG) ของแต่ละแอตทริบวิ ท์ คือ free won และ cash หากแอตทริบวิ ท์ใดมีคา่ IG
สูงที่สุดก็จะนามาเป็ นโหนดราก และแอตทริบิวท์ท่ีมีค่ารองลงมาก็จะเป็ นโหนดใบ และต่อกันไป
เรื่อย ๆ จนสามารถบอกได้วา่ อีเมลฉบับนีเ้ ป็ น spam หรือ normal

2.6 เทคนิคป่ าแห่งการทานาย (Random Forest)


เป็ นการเทรนตัวแบบทานายที่เหมือนกันหลายๆ ครัง้ บนข้อมูลชุดเดียวกัน โดยแต่ละ
ครัง้ ของการเทรนจะเลือกส่วนของข้อมูลที่เทรนไม่เหมือนกัน จากนัน้ เอาการตัดสินใจของตัวแบบ
ทานายเหล่านัน้ มาโหวตกันว่า Class ไหนถูกเลือกมากที่สดุ ซึ่งจะช่วยแก้ปัญหา high variance ที่
เกิดจาก tree แต่ละต้นได้ ซึ่งจะใช้ตวั แบบทานายจากต้นไม้ตดั สินใจหลาย ๆ ต้น ตัง้ แต่ 10 ถึง
มากกว่า 1000 ตัวแบบทานาย ซึ่งแต่ละตัวแบบทานายจะได้รบั ชุดข้อมูลที่ ไม่เหมือนกัน และจะ
ทานายแยกกันออกมา หลังจากนัน้ จะเลือกผลการทานายสุดท้าย จากค่าการทานายที่ได้รบั การ
โหวตมากที่สุด ดังภาพประกอบที่ 5 (ปรเมษฐ์ ธันวานนท์, ชัยกรยิ่ง เสรี, วรพล พงษ์เพ็ชร และ ธน
ภัทร ฆังคะจิตรสกสรรค์, 2560)
11

ภาพประกอบ 5 การสร้างป่ าแห่งการทานาย

ที่มา : https://medium.com/@witchapongdaroontham/เจาะลึก-random-forest-
part-2-of-รูจ้ กั -decision-tree-random-forest-และ-xgboost-79b9f41a1c1c

ซึ่งค่าที่สามารถปรับได้ มีดงั นี ้ 1) number of tree คือ จานวน tree ที่มีผลต่อประสิทธิภาพ


ของ model โดยดู จ ากจุ ด ที่ performance เริ่ ม จะนิ่ ง จนจ านวน tree ไม่ มี ผ ลต่ อ model
performance แล้ว 2) criterion คือ cost function ที่เราจะใช้ สาหรับ classification tree นัน้ จะ มี
ค่า default เป็ น gini ซึ่งสามารถจะเลือกเป็ น entropy ก็ได้ 3) max_depth คือ จานวน level ที่มาก
ที่ สุด ของ node ที่ จ ะท าการ split observation ซึ่ง เราจะท ากาหนดค่า max_depth ไม่ใ ห้ม าก
เกินไป เพื่อป้องกันปัญหา overfitting

2.6 เทคนิคการเรียนรู้เบย์ (Naïve-Bayes)


เป็ นตัวแบบทานายการจาแนกประเภทข้อมูล โดยวิเคราะห์หาความน่าจะเป็ นของสิ่งที่ยงั
ไม่เคยเกิดขึน้ โดยการคาดเดาจากสิ่งที่เคยเกิดขึน้ มาก่อน ความน่าจะเป็ นที่เกิดเหตุการณ์หนึ่ง ก็
ต่อเมื่อเหตุการนึงได้เกิดไปแล้ว กล่าวคือเราสนใจจะหาความน่าจะเป็ นที่จะเกิดเหตุการณ์ y ถ้ามี
เหตุการ์ x เกิดขึน้ เล้ว โดยมีสมมติฐานว่าปริมาณของความสนใจขึน้ อยู่กบั การกระจายความน่าจะ
เป็ น(Probability Distribution) เช่น ความน่าจะเป็ นคนที่มีงานแล้ว ได้อนุมตั เิ งินกู้ หรือโอกาสคนที่
ปลอดหนีบ้ า้ นจะได้อนุมตั เิ งินกูเ้ ป็ นเท่าใด ยิ่งมีตวั แปรในการพิจารณาจานวนมาก การพิจารณา
ความน่าจะเป็ นก็จะมากขึน้ ตามไปด้วย (ชณิดาภา บุญประสม และ จรัญ แสนราช, 2561)
12

ภาพประกอบ 6 การทอยลูกเต๋าเพื่อคานวณความน่าจะเป็ น

ที่มา : http://cakeknowledgeblogs.blogspot.com/2019/08/naive-bayes-
classification-1.html

จากภาพประกอบ 6 คือการทอยลูกเต๋า ซึ่งถ้าสมมุติโจทย์เราคือต้องการหาความน่าจะ


เป็ นของการทอยลูกเต๋าหนึ่งลูกแล้วโอกาสที่จะได้เลขจานวนคูม่ ีความน่าจะเป็ นเท่าไหร่ ซึ่งสามารถ
รู ไ้ ด้ว่ามีโอกาสเกิดได้ 50 เปอร์เซ็นดังนี ้ P(dice lands on an even number) = 3/6 = 1/2 = 0.5
จากสมการซึ่งรูอ้ ยู่แล้วว่าลูกเต๋า 1 ลูกมีคา่ ทัง้ หมด 6 ค่าคือ 1,2,3,4,5,6 ซึ่งเป็ นเลขคูค่ ือเลข 2,4,6
ซึ่งมีทงั้ หมด 3 ค่า ดังนัน้ ความน่าจะเป็ นที่ออกได้เลขคูจ่ งึ เกิดจาก 3/6=1/2=0.5

2.7 เทคนิคเพือ่ นบ้านใกล้ทส่ี ุด KNN (K-Nearest Neighbors)


เป็ นวิธีการค้นหาเพื่อนบ้านใกล้ท่ีสดุ K-Nearest Neighbors เป็ นการแบ่งกลุ่มข้อมูล และ
ทาการวัดระยะห่างระหว่างข้อมูลที่ตอ้ งการทานายกับข้อมูลที่อยู่ใกล้เคียงเป็ นจานวน K ตัว โดย
การวัดระยะมี 2 แบบ คือ ฟั งก์ชันระยะทาง(Distance Function) เป็ นการคานวณค่าระยะห่าง
ระหว่างสองเรคคอร์ด เพื่ อที่ จ ะมาวัดความคล้ายคลึง กันของข้อ มูล และฟั ง ก์ชันการแจกแจง
(Combination Function) เป็ นการรวมกันของผลลัพธ์ท่ีได้จากการคานวณค่าระยะห่าง(Distance)
โดยทาการเรี ยงล าดับ ค่า ระยะห่าง(Distance) จากน้อยไปมาก หลัง จากนั้นดูจ ากค่า “K” ว่า
กาหนดเป็ นเท่าไร แล้วนาลาดับที่เรียงได้มาเทียบกับคลาสข้อมูลที่เรียงแล้วนามาตอบ โดยทัง้ 2
แบบเหมาะสาหรับข้อมูลแบบตัวเลขเพื่อหาวิธีการวัดระยะห่างของแต่ละ Attribute ในข้อมูลได้
(ชณิดาภา บุญประสม และ จรัญ แสนราช, 2561)
13

ภาพประกอบ 7 การแบ่งกลุ่มข้อมูลด้วยเทคนิคเพื่อนบ้านใกล้ท่ีสดุ

ที่มา : https://kongruksiamza.medium.com/สรุป-machine-learning-ep-4-เพื่อน
บ้านใกล้ท่ีสดุ -k-nearest-neighbors-787665f7c09d

จากภาพประกอบที่ 7 เป็ นการหาว่ า จุ ด สี เ ขี ย วเป็ น class 1 หรื อ class 2 ด้ว ยการ


กาหนดค่า k และเมื่อกาหนด k = 1 จะทานายว่าเป็ นคลาส 1 เพราะในวงกลมจะมีแค่ส่ีเหลี่ ยมสี
ฟ้า 1 รูป แต่เมื่อกาหนด k = 3 จะทานายว่าเป็ นคลาส 2 เพราะในวงกลมจะมีส่ีเหลี่ยมสีฟ้า 1 รูป
และมีสามเหลี่ยมสีแดง 2 รูป

2.8 การวิเคราะห์ความแม่นตรงของตัวแบบทานาย K-fold Cross Validation


เป็ น การวิ เ คราะห์ค วามแม่ น ตรงของตัว แบบท านาย K-fold cross validation วิ ธี ก าร
ตรวจสอบค่าความผิดพลาดในการคาดการของตัวแบบทานาย โดยการแบ่งข้อมูลออกเป็ นกลุ่ม
จานวน K กลุ่ม (K-fold) ในตอนแรกเลือกข้อมูลกลุ่มที่ 1 เป็ นข้อมูลชุดทดสอบ และข้อมูลชุดที่
เหลื อจะเป็ นข้อมูลชุดสอน นาข้อมูลไปจัดหมวดหมู่ จากนั้นจะสลับข้อมูลกลุ่ม ที่ 2 มาเป็ นชุด
ทดสอบและข้อมูลกลุ่มอื่น ๆ ที่เหลือ เป็ นชุดทดสอบ สลับอย่างนีไ้ ปเรื่อย ๆ จนครบ K กลุ่ม ใน
ขัน้ ตอนสุดท้ายจะหาค่าเฉลี่ยและค่าส่วนเบี่ยงเบนมาตรฐานของค่าความถูกต้องในแต่ละกลุ่ม
โดยวิธีการนีข้ อ้ มูลทุกตัวจะได้เป็ นทัง้ ชุดทดสอบและชุดสอน ซึ่งจะดีกว่าการแบ่งข้อมูลไว้เป็ น 2
ส่วนคือ Training Data กับ Testing Data ที่ทาให้ไม่ทราบได้ว่าข้อมูลใดคือข้อมูลที่ควรจะนามา
เป็ น Training Data แต่ Cross Validation จะสามารถหา Training Data ที่ ดี ท่ี สุด โดยการแบ่ง
ข้อมูลและนาทุกส่วนมาเป็ น Training Data และยังสามารถใช้เปรียบเทียบได้อีกว่าควรใช้วิธีไหนที่
เหมาะสมที่สดุ ในการสร้างโมเดล (รัชพล กลัดชื่น และ จรัญ แสนราช, 2561)
14

ภาพประกอบ 8 ขัน้ ตอนการวิเคราะห์ความแม่นตรงของตัวแบบทานาย K-fold cross


validation

ที่มา : https://www.kaggle.com/discussion/204878

จากภาพประกอบที่ 8 เป็ นการวิเคราะห์ความแม่นตรงของตัวแบบทานาย โดยกาหนดให้


k = 5 แล้วเรียงลาดับการทดสอบซึ่งเป็ นข้อมูลในช่องสีฟ้าเป็ นข้อมูลทดสอบ และข้อมูลในช่องสี
เทาเป็ นข้อมูลชุดสอน โดยสลับข้อมูลไปเรื่อย ๆ จนครบทุกช่อง

2.9 การวัดประสิทธิภาพของตัวแบบทานาย
ตัววัดประสิทธิภาพของตัวแบบทานายเป็ นวิธีการที่ใช้ในการประเมิ นคุณภาพของการจัด
กลุ่ม รวมไปถึ ง การประเมิ น ประสิ ท ธิ ภ าพของตัว แบบท านาย โดยการน าผลลัพ ธ์ท่ี ไ ด้จ าก
แบบจาลองมาสร้างเป็ น Confusion Matrix ดังภาพประกอบที่ 9 ดังนี ้
True Positive ( TP ) คือ สิ่งที่โปรแกรมทานายว่า “จริง” และ มีคา่ เป็ น “ จริง ”
True Negative ( TN ) คือ สิ่งที่โปรแกรมทานายว่า “ไม่จริง” และ มีคา่ “ ไม่จริง ”
False Positive ( FP ) คือ สิ่งที่โปรแกรมทานายว่า “จริง” แต่ มีคา่ เป็ น “ไม่จริง”
False Negative ( FN ) คือ สิ่งที่โปรแกรมทานายว่า “ไม่จริง” แต่ มีคา่ เป็ น “จริง”
15

ภาพประกอบ 9 แสดงตาราง Confusion Matrix

ซึ่งการประเมินความแม่นตรงของตัวแบบทานายที่เลือกใช้ประกอบด้วย
1) Accuracy คือ ค่าความถูกต้อง ค่าที่บอกว่าโปรแกรมสามารถทานายได้
แม่นยาขนาดไหนเป็ นการวัดความถูกต้องของ Model โดยพิจารณารวมทุกคลาส
2) Precision คื อ ค่า ความแม่ น ย า ค่า ที่ บ อกว่ า โปรแกรมท านายว่ า จริ ง
ถูกต้องเท่าไหร่ เป็ นการวัดความแม่นยาของข้อมูล โดยพิจารณาแยกทีละคลาส
3) Recall คื อ ค่า ความระลึ ก ค่า ที่ บ อกว่ า โปรแกรมท านายได้จ ริ ง เป็ น
อัตราส่วนเท่าไหร่ของค่าจริงทั้งหมดเป็ นการวัดความถูกต้องของ Model โดยพิจารณาแยกทีละ
คลาส
4) f1_measure คือ ค่าความถ่วงดุล เป็ นการนาค่า Precision กับ Recall มา
คานวณค่าเฉลี่ยกันสาหรับพิจารณาร่วมกันเพื่อความแม่นยา และความครบถ้วน

2.9 โปรแกรม RapidMiner studio 9.5


RapidMiner Studio เป็ นโปรแกรมที่ใช้สาหรับการออกแบบการวิเคราะห์ และประมวลผล
ข้อมูลผ่านทางหน้า GUI (Graphical User Interface) ซึ่งสามารถทาการจัดการข้อมูล และสร้าง
ตัวแบบทานายแบบต่าง ๆ ได้ง่าย และรวดเร็ว โดย Operator ที่ใช้ในการทาวิจัยประกอบด้วย
Operator ดังนี ้
2.9.1 Operator Read CSV ดังภาพประกอบที่ 10 เป็ นตัวที่นาข้อมูลไปใช้งาน โดย
ถ้าข้อมูลไฟล์ csv มีการเปลี่ยนแปลงจะ update ไฟล์ให้อตั โนมัติ ไม่ตอ้ งทาการโหลดใหม่
รายละเอียดดังนี ้
16

ภาพประกอบ 10 Operator Read CSV

Input
- File (ไฟล์) เอกสารหรือไฟล์นามสกุล .CSV
Output
- Output (ตารางข้อมูล) พอร์ต (Port) นีจ้ ะส่งออกชุดข้อมูล ExampleSet
ที่สร้างจากไฟล์ CSV ที่นาเข้าจากพอร์ตอินพุต

2.9.2 Operator Set Role ดังภาพประกอบที่ 11 เป็ นการกาหนด column left ให้
เป็ นประเภท Label รายละเอียดดังนี ้

ภาพประกอบ 11 Operator Set Role


Input
- Example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- Example set (ตารางข้อมูล)
พอร์ตเอาต์พตุ จะส่งค่าชุดข้อมูล ExampleSet ที่กาหนดบทบาทเรียบร้อย
แล้ว
- Original (ตารางข้อมูล)
17

พอร์ต นี ้จ ะส่ ง ค่า ชุด ข้อ มูล ExampleSet ตั้ง ต้น ที่ ไ ด้รับ ผ่ า นทางพอร์ต
อินพุต โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ

2.9.3 Operator Correlation Matrix ดังภาพประกอบที่ 12 เป็ นการนาข้อมูลมาหา


ความสัมพันธ์ระหว่างข้อมูล โดยสร้างค่านา้ หนักให้ตวั แปร เพื่อหาว่าแต่ละตัวแปรมีความสัมพันธ์
กันมากน้อยเพียงใด รายละเอียดดังนี ้

ภาพประกอบ 12 Operator Correlation Matrix

Input
- example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
- matrix (ค่าเมทริกซ์)
พอร์ตนีจ้ ะส่งค่าเมทริกซ์ของตัวแปร ซึ่งเมื่อไม่ได้กาหนดค่าของตัวแปรส่งผล
ให้คา่ นัน้ หายไป และพอร์ตจะคานวณเฉพาะค่าที่สมบูรณ์
- weights (ค่านา้ หนักของตัวแปร)
พอร์ตนีจ้ ะส่งค่านา้ หนักของตัวแปรที่คานวณแล้วไปพอร์ตต่อไป
18

2.9.4 Operator Apply Model ดังภาพประกอบที่ 13 เป็ นการนา Model ที่ได้จาก


การประมวลผลข้อมูลในส่วนกลุม่ ข้อมูลสอน (Training Data) มาใช้กบั ข้อมูลในกลุม่ ข้อมูล
ทดสอบ (Test Data) ซึ่งแอตทริบวิ ต์ของข้อมูลที่ผา่ นการเรียนรูเ้ พื่อสร้างแบบจาลองนัน้ จะต้องมีคา่
ตรงกันกับชุดข้อมูล ExampleSet รายละเอียดดังนี ้

ภาพประกอบ 13 Operator Apply Model

Input
- query set (ตารางข้อมูล)
พอร์ตอินพุตสาหรับรับค่า ExampleSet ที่มีคา่ แอตทริบิวต์ของข้อมูลตรงกับ
แอตทริบวิ ต์ของข้อมูลที่ผา่ นการเรียนรูข้ องแบบจาลอง
- Model (แบบจาลอง)
พอร์ตอินพุตรับค่าแบบจาลอง ที่แอตทริบิวต์ของข้อมูลที่ผ่านการเรียนรู เ้ พื่อ
สร้างแบบจาลองนัน้ มีคา่ ตรงกันกับชุดข้อมูล ExampleSet
Output
- result set (ตารางข้อมูล)
ExampleSet ที่ส่งมาจากพอร์ตนีถ้ กู เปลี่ยนโดยใช้แบบจาลอง ในที่นีจ้ ะเพิ่ม
ค่ารายการแนะนาพร้อมการอันดับ
- Model (แบบจาลอง)
พอร์ตนีจ้ ะส่งค่าแบบจาลองตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต โดยที่ไม่ได้
ผ่านขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
19

2.9.5 Operator decision tree ดังภาพประกอบที่ 14 เป็ นตัวที่ใช้สร้าง tree ตัวแบบ


ทานาย ที่ใช้ในการทานายผลการเรียนในเทอมที่ 3 ของนักเรียนในข้อมูลตัวอย่าง โดยให้เชื่อมต่อ
กับไฟล์ Read CSV รายละเอียดดังนี ้

ภาพประกอบ 14 Operator decision tree

Input
- example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- Model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลอง decision tree
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
Parameters
- criterion การกาหนดเกณฑ์ท่ีจะเลือกแอตทริบวิ ต์เพื่อนามาสร้างโมเดล
- maximal depth กาหนดค่าความลึกของต้นไม้แต่ละต้น จานวน level
ที่มากที่สดุ ของ node ที่จะทาการ split
- confidence การกาหนดระดับ ความเชื่ อ มั่นที่ ใช้ส าหรับการค านวณ
ข้อผิดพลาดในสร้างโมเดล
20

2.9.6 Operator Random Forest ดังภาพประกอบที่ 15 เป็ นตัวที่ใช้สร้างตัวแบบ


ทานายป่ าไม้แห่งการทานาย ที่ใช้ในการทานายผลการเรียนในเทอมที่ 3 ของนักเรียนในข้อมูล
ตัวอย่าง โดยให้เชื่อมต่อกับไฟล์ Read CSV รายละเอียดดังนี ้

ภาพประกอบ 15 Operator Random Forest

Input
- example Set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet ที่ใช้ในการเรียนรูโ้ มเดล
Output
- model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลอง Naive Bayes
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
- weights (ค่านา้ หนัก)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ที่กาหนดค่านา้ หนักของแอตทริ
บิวต์ท่ีใช้ในการทานาย
Parameters
- number of tree การกาหนดจานวน tree ที่จะนามาสร้างโมเดล
- criterion การกาหนดเกณฑ์ท่ีจะเลือกแอตทริบวิ ต์เพื่อนามาสร้างโมเดล
- maximal depth กาหนดค่าความลึกของต้นไม้แต่ละต้น จานวน level
ที่มากที่สดุ ของ node ที่จะทาการ split
21

2.9.7 Operator Naive Bayes ดังภาพประกอบที่ 16 เป็ นตัวที่ใช้สร้างตัวแบบ


ทานายความน่าจะเป็ นที่ใช้ในการทานายผลการเรียนในเทอมที่ 3 ของนักเรียนในข้อมูลตัวอย่าง
โดยให้เชื่อมต่อกับไฟล์ Read CSV รายละเอียดดังนี ้

ภาพประกอบ 16 Operator Naive Bayes

Input
- example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- Model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลอง Naive Bayes
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
Parameters
- laplace correction คือการเพิ่มจานวนเรคคอร์ด 1 เรคคอร์ดให้แต่ละ
กรณีของแต่ละค่าที่จะเกิดขึน้ ในแอตทริบิวต์ท่ีพิจารณา เมื่อแอตทริบิวต์ท่ีพิจารณานัน้ มีคา่ ไม่ครบ
จนทาให้การคานวณความน่าจะเป็ นในแต่ละครัง้ มีเป็ นค่า 0 เมื่อตัง้ ค่าแล้วจะเติมจานวนเรคคอร์ด
ให้สามารถคานวณค่าความน่าจะเป็ นได้

2.9.8 Operator K-NN ดังภาพประกอบที่ 17 เป็ นตัวที่ใช้สร้างตัวแบบทานายโดยหา


ข้อมูลที่อยูใ่ กล้เคียงเป็ นจานวน K ที่ใช้ในการทานายผลการเรียนในเทอมที่ 3 ของนักเรียนใน
ข้อมูลตัวอย่าง โดยให้เชื่อมต่อกับไฟล์ Read CSV รายละเอียดดังนี ้
22

ภาพประกอบ 17 Operator k-NN

Input
- example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- Model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลอง k-nn
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
Parameters
- k การกาหนดจานวนตัวอย่างที่ อยู่ใกล้เคียงที่สุดกับตัวอย่างที่ไม่รูจ้ กั
โดยทั่วไป k เป็ นจานวนเต็มบวก และเป็ นจานวนคี่
- measure types การกาหนดลักษณะการวัดที่ใช้ในการหาเพื่อนบ้านที่
ใกล้ท่ีสดุ และนามาใช้ในการสร้างโมเดล

2.9.9 Operators Performance ดังภาพประกอบที่ 18 ใช้สาหรับวัดประสิทธิภาพ


ของ Model ที่เลือกใช้ ซึ่งในที่นีจ้ ะใช้ Decision Tree, Random forest, Naive Bayes, k-NN
23

ภาพประกอบ 18 Operator Set Role

2.9.10 Operators Cross Validation ดังภาพประกอบที่ 19 เป็ นการตรวจสอบ


ความถูกต้องของ Model ที่เลือกใช้ ซึ่งในที่นีจ้ ะใช้ Decision Tree, Random forest, Naive
Bayes, k-NN, ตรวจสอบด้วย 10-fold Cross Validation รายละเอียดดังนี ้

ภาพประกอบ 19 Operators Cross Validation

Input
- Example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล Example Set
Output
- Model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลองตามอัลกอริทมึ ที่เชื่อมต่อ
Parameters
- number of folds จานวนการแบ่งกลุ่มข้อมูลเพื่อใช้เป็ น กลุ่มข้อมูลสอน
(Training Data) และกลุม่ ข้อมูลทดสอบ (Test Data)
- sampling type การกาหนดวิธีการเลือกกลุม่ ตัวอย่างเพื่อทาการทานาย
24

2.10 งานวิจัยทีเ่ กี่ยวข้อง


Ferda Ünal ได้นาเสนองานวิจยั การเปรียบเทียบประสิทธิภาพของเทคนิคเหมืองข้อมูล ที่
ใช้ในการทานายผลการเรียนของเด็กนักเรีย น โดยใช้ Dataset จาก UCI Dataset มี ข้อมูล 33
คอลัมน์ ทานายเกรดที่เ ด็กนักเรียนจะได้ ซึ่งจะแบ่งการให้เกรดเป็ น 2 ประเภท คือ Five-level
grading เป็ นวิธีการแบ่งเกรดแบบให้เป็ นช่วงคะแนน คือ คะแนน 16 - 20 ได้เกรด A, คะแนน 14 -
15 ได้เกรด B, คะแนน 12 - 13 ได้เกรด C, คะแนน 10 - 11 ได้เกรด D, คะแนน 0 - 9 ได้เกรด F
และ Binary grading เป็ นวิธี การแบ่ง เกรดแบบ 2 ประเภท คือ คะแนน >,= 10 ได้ pass และ
คะแนนอื่น ๆ ที่ตากว่า ได้ fail โดยใช้เทคนิคเหมืองข้อมูล 3 เทคนิค และยังใช้เทคนิคการคัดเลือก
คุณ ลัก ษณะของ Feature ที่ จ ะเลื อ กมาท านายด้ว ยเทคนิ ค Wrapper พบว่า การให้เ กรดแบบ
Binary grading มีผลทาให้ประสิทธิภาพของการทานายมีคา่ สูงกว่าแบบ Five-level grading โดย
เทคนิ ค Random forest เป็ น เทคนิ ค ที่ ดี ท่ี สุด และเมื่ อ ใช้เ ทคนิ ค Wrapper พบว่า feature ที่ มี
ความสาคัญในการทานายมีทงั้ หมด 13 feature ซึ่งคุณลักษณะทัง้ หมดจะถูกจัดให้อยู่ในรู ปของ
เซต หลังจากนัน้ ดาเนินการค้นหาเซตของคุณลักษณะที่ เหมาะสมที่สุดก่อนเข้าสู่กระบวนการ
จาแนกข้อมูลโดยลาดับ (Sequential selection algorithm) ด้วยการพิจารณาคุณลักษณะที่เพิ่มที
ละตัวตามลาดับ หรือลดคุณลักษณะลงทีละตัวตามลาดับจนกว่าจะได้เซตคุณลักษณะที่เหมาะสม
ชณิดาภา บุญประสม และ จรัญ แสนราช (2561) ได้นาเสนองานวิจยั เรื่อง การวิเคราะห์
การทานายการลาออกกลางคันของนักศึกษา ระดับปริญญาตรีโดยใช้เทคนิควิธีการทาเหมื อง
ข้อมูล เพื่ อวิเ คราะห์หาปั จ จัยที่ เ กี่ ยวข้องในการลาออก สัง เคราะห์ตัวแบบทานายส าหรับการ
ทานาย และเปรียบเทียบประสิ ทธิ ภ าพการจ าแนกข้อมูลของตัวแบบทานายด้วยเทคนิค ต้นไม้
ตัดสินใจ (Decision Tree) การเรียนรู เ้ บย์ (Naïve-Bayes) และ K-NN (K-Nearest Neighbors)
เมื่อวิเคราะห์คา่ นา้ หนักของแอททริบิวต์ดว้ ยวิธีการ Information Theory พบว่า มีปัจจัยที่เกี่ยวข้อง
ในการลาออกกลางคันของนักศึกษาสูงสุด 5 ปั จจัย และนามาทาการสร้างเป็ นตัวแบบทานาย
ทดสอบผลลัพธ์ดว้ ยวิธีการ 10-Fold Cross Validation และวัดประสิทธิภาพด้วย ค่า Accuracy
พบว่าตัวแบบทานายที่สร้างด้วยเทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) มีประสิทธิภาพสูงสุด
ปริวรรต เพียรภายลุน, ธาดา จันตะคุณ, รักถิ่น เหลาหา (2560) ได้นาเสนองานวิจยั เรื่อง
การเปรียบเทียบตัวแบบสาหรับใช้พยากรณ์คะแนน O-NET ด้วยเทคนิคเหมืองข้อมูล ใช้ขอ้ มูลของ
ใช้ขอ้ มูลคะแนน O-NET ของนักเรียน ชัน้ ประถมศึกษาปี ท่ี 6 ที่ผ่านการทดสอบแล้ว จานวน 148
คน ทาการคัดเลือกแอตทริบิวต์ท่ีเกี่ยวข้องมีทงั้ หมด 7 แอตทริบิวต์ พบว่า ค่าความแม่นยาของตัว
แบบ Naïve Bayes นัน้ มีคา่ ความแม่นยาที่ดีท่ีสดุ
25

เสกสรรค์ วิลัยลักษณ์, วิภา เจริญภัณฑารักษ์, ดวงดาว วิชาดากุล (2558) ได้นาเสนอ


งานวิจยั เรื่องการพัฒนาคลังข้อมูล และพยากรณ์ผลการเรียนของนักเรียน โดยใช้ขอ้ มูลนักเรียน
ระดับมัธ ยมศึกษาปี ท่ี 4 จ านวน 525 ระเบียน ประกอบด้วย16 คุณลักษณะ มาสร้างตัวแบบ
พยากรณ์ผลการเรียนโดยใช้เทคนิคเหมืองข้อมูลแบบโครงข่ายประสาทเทียมแบบมัลติเลเยอร์
เพอร์เซ็ปตรอน (MLP) ซัพพอร์ตเวกเตอร์แมชชีน (SVM) และต้นไม้ตดั สินใจ (Decision Tree) มา
สร้า งตัว แบบพยากรณ์แ ละทดสอบประสิ ท ธิ ภ าพของตัว แบบพยากรณ์ด ้ว ย 10-fold Cross
Validation ซึ่งพบว่าจากการคัดเลือกคุณลักษณะมี 5 ปั จจัยที่ส่งผลต่อผลการเรียน และชุดข้อมูล
แบบไม่จดั กลุม่ มัลติเลเยอร์เพอร์เซ็ปตรอน ให้คา่ ความถูกต้องสูงที่สดุ
ศศิธร ตุม้ เพชรรัตน์, สมบูรณ์ อเนกฤทธิ์ มงคล, สุมนา เกษมสวัสดิ์ (2560) ได้นาเสนอ
งานวิจยั การสร้างตัวแบบพยากรณ์ผลการสอบ TOEIC ของนักศึกษาคณะศิลปศาสตร์ ที่สามารถ
สอบได้ 500 คะแนนขึน้ ไป โดยใช้ซอฟต์แวร์ RapidMiner Studio 7.3 เป็ นเครื่องมือในการวิเคราะห์
ข้อมูลและสร้างตัวแบบทานายการพยากรณ์ผลการสอบ ซึ่งพบว่ามีบางวิชาที่ไม่ได้เป็ นปั จจัยใน
การมาสร้างตัวแบบทานายใหม่ จึงปรับบางรายวิชาออก และเมื่อทดสอบตัวแบบพยากรณ์ดว้ ย
วิธีการ10 Fold Cross Validation พบว่าตัวแบบที่สร้างด้วยวิธี K-NN (K-Nearest Neighbors) ให้
ประสิทธิภาพสูงสุด
อัจฉราภรณ์ จุฑาผาด (2559) ได้นาเสนองานวิจยั เรื่อง การพัฒนาระบบสารสนเทศเพื่อ
การพยากรณ์จานวนนักศึกษาใหม่ โดยใช้กฎการจาแนกต้นไม้ พยากรณ์จานวนนักศึกษาใหม่ท่ีจะ
ศึกษาในระดับป.ตรี ในปี พ.ศ. 2558 และ 2559 ซึ่งใช้ปัจจัยสาคัญที่นามาสร้างตัวต้นแบบเพื่อการ
พยากรณ์ 5 ปัจจัย และผลการสอบคัดเลือก แบ่งเป็ นคลาส คือ ผ่าน และไม่ผา่ น พบว่ามีการวัดค่า
ความถูกต้องได้เท่ากับร้อยละ 97.34 ค่าความแม่นยาเท่ากับร้อยละ 98.56 ค่าความระลึกเท่ากับ
ร้อยละ 97.00 และค่าความถ่วงดุลเท่ากับร้อยละ 97.13
บทที่ 3
วิธีดาเนินการวิจัย

ในการดาเนินงานวิจยั ครัง้ นี ไ้ ด้เสนอวิธีการทาเหมืองข้อมูลโดยใช้โปรแกรม RapidMiner


studio 9.5 ซึ่ง มี กระบวนการตามมาตรฐานการทาเหมื องข้อมูลแบบ CRISP-DM ขั้นตอนการ
ดาเนินงานวิจยั ประกอบด้วย การทาความเข้าใจกับข้อมูลเพื่อให้รูจ้ กั โครงสร้าง และรู ปแบบของ
ข้อมูล เมื่อเข้าใจข้อมูและรูร้ ูปแบบ หรือปัญหาของข้อมูลแล้ว จะนาข้อมูลไปแปลงให้อยู่ในรู ปแบบ
ที่สามารถนาไปใช้สร้างตัวแบบทานายได้ พร้อมทัง้ คัดเลือกเฉพาะข้อมูลที่สาคั ญ และนาข้อมูล
เข้าสู่โมเดล โดยจะมีการแบ่งข้อมูลออกเป็ นข้อมูลที่ใช้ในการสอน และข้อมูลที่ใช้ทดสอบ เพื่อ
ตรวจสอบประสิทธิภาพของโมเดล และประเมินผลโมเดล ดังภาพประกอบที่ 20

ภาพประกอบ 20 แสดงขัน้ ตอนการดาเนินงานวิจยั

3.1 การจัดเตรียมข้อมูล
เป็ นการกลั่นกรองข้อมูลให้เหลือเพียงข้อมูลที่สมบูรณ์ และอยู่ในรูปแบบที่พร้อมจะนาไป
ป ร ะ ม ว ล ผ ล โ ด ย น า ข้ อ มู ล ที่ ไ ด้ จ า ก แ ห ล่ ง ข้ อ มู ล UCI Machine Learning Rapository
ดังภาพประกอบที่ 21
27

ภาพประกอบ 21 รายละเอียดชุดข้อมูลของนักเรียน

ขัน้ ตอนในการจัดเตรียมข้อมูล รายละเอียดดังนี ้


3.1.1 ทาความเข้าใจข้อมูลว่าในแต่ละแอตทริบิวต์มีความหมายอย่างไร ซึ่งข้อมูลที่ใช้ใน
งานวิจยั ในครัง้ นีเ้ ป็ นข้อมูลของนักเรียนระดับมัธยมศึกษาในโรงเรียนโปรตุเกสจานวน 649 รายการ
33 ตัวแปร ซึ่งมีรายละเอียดดังตารางที่ 5 – 7 (Data Dictionary) และสามารถสารวจข้อมูลโดยการ
Import ข้อมูลเข้าใน Rapid Miner เพื่อให้ทราบโครงสร้างของข้อมูล เพื่อนาไปสูก่ ารแปลงข้อมูลใน
ขัน้ ตอนต่อไป โดยก่อนเข้าสู่กระบวนการแปลงข้อมูล ได้ทาการตัดข้อมูลออก 2 ตัวแปร ได้แก่ G1
และ G2 เนื่องจากเป็ นเกรดของเทอมก่อนหน้าซึ่งจะไม่นามาใช้ในการสร้างตัวแบบทานาย

ตาราง 5 Data Dictionary อธิบายรายละเอียดในแต่ละแอตทริบวิ ต์

Attribute Description Type Values


School โรงเรียนที่นกั เรียนเรียน Binary GP คือ Gabriel Pereira หรือ MS คือ Mousinho da
Silveira)
Sex เพศของนักเรียน Binary F คือ เพศหญิง(female) หรือ M คือ เพศชาย(male)
Age อายุของนักเรียน Numeric ตัง้ แต่ 15 ปี ถึง 22 ปี
Address ที่อยูข่ องนักเรียน Binary U คือ ในเมือง(Urban) หรือ R คือ ชนบท(Rural)
Famsize จานวนสมาชิกใน Binary LE3 คือ น้อยกว่า หรือ เท่ากับ 3 และ GT3 คือ มากกว่า
ครอบครัว 3
Pstatus สถานะของครอบครัว Binary T คือ อยูด่ ว้ ยกัน หรือ A คือ แยกกันอยู่
Medu ระดับการศึกษาของแม่ Numeric 0 คือ ไม่ได้เรียน, 1 คือ เรียนถึงเกรด 4, 2 คือ เรียนถึง
เกรด 5 -9, 3 ระดับมัธยมศึกษา หรือ 4 ระดับที่สงู กว่า
Fedu ระดับการศึกษาของพ่อ Numeric 0 คือ ไม่ได้เรียน, 1 คือ เรียนถึงเกรด 4, 2 คือ เรียนถึง
เกรด 5 -9, 3 ระดับมัธยมศึกษา หรือ 4 ระดับที่สงู กว่า
Mjob อาชีพของแม่ Nominal teacher, health care related, civil services,
at_home, other
28

ตาราง 6 (ต่อ)

Attribute Description Type Values


Fjob อาชีพของพ่อ Nominal teacher, health care related, civil services,
at_home, other
Guardian ผูป้ กครองของนักเรียน Nominal mother คือ แม่, father คือ พ่อ, other คือ อื่น ๆ
Traveltime ระยะเวลาในการ Numeric 1 คือ น้อยกว่า 15 นาที, 2 คือ 15 ถึง 30 นาที, 3
เดินทางไปโรงเรียน คือ 30 นาที – 1ชั่วโมง หรือ 4 คือ มากกว่า 1
ชั่วโมง
Studytime ระยะเวลาในการเรียน Numeric 1 คือ น้อยกว่า 2 ชั่วโมง, 2 คือ 2 ถึง 5 ชั่วโมง, 3
ต่อ 1 สัปดาห์ คือ 5 – 10ชั่วโมง หรือ 4 คือ มากกว่า 10 ชั่วโมง
Failures ซา้ ชัน้ /ไม่ผา่ น กี่ครัง้ Numeric ตัง้ แต่ 1 - 4 ครัง้
Schoolsup เรียนพิเศษที่ รร. Binary yes หรือ no
Famsup เรียนพิเศษที่บา้ น Binary yes หรือ no
Paid จ่ายเงินเพื่อเรียนพิเศษ Binary yes หรือ no
Activities กิจกรรมนอกหลักสูตร Binary yes หรือ no
Nursery เรียนอนุบาล Binary yes หรือ no
Higher ต้องการเรียนสูงๆ Binary yes หรือ no
Internet ที่บา้ นมีอินเตอร์เน็ต Binary yes หรือ no
Romantic อยูใ่ นความสัมพันธ์ที่โร Binary yes หรือ no
แมนติก/มีแฟน
Famrel ระดับความผูกพันธ์ใน Numeric ระดับ 1 คือ แย่มาก ถึง 5 คือ ดีเยี่ยม
ครอบครัว
Freetime มีเวลาว่างหลังเลิกเรียน Numeric ระดับ 1 คือ น้อยมาก ถึง 5 คือ สูงมาก
แค่ไหน
Gout ออกไปเที่ยวกับเพื่อน Numeric ระดับ 1 คือ น้อยมาก ถึง 5 คือ สูงมาก
บ่อยแค่ไหน
Dalc การดื่มแอลกอฮอล์ใน Numeric ระดับ 1 คือ น้อยมาก ถึง 5 คือ สูงมาก
วันจันทร์-ศุกร์
Walc การดื่มแอลกอฮอล์ใน Numeric ระดับ 1 คือ น้อยมาก ถึง 5 คือ สูงมาก
หยุด
Health ระดับของสุขภาพ Numeric ระดับ 1 คือ แย่มาก ถึง 5 คือ ดีเยี่ยม
29

ตาราง 7 (ต่อ)

Attribute Description Type Values


absences ขาดเรียนกี่ครัง้ Numeric ตัง้ แต่ 0 – 93 ครัง้
G1 เกรดเทอมที่ 1 Numeric ตัง้ แต่ 0 ถึง 20 คะแนน
G2 เกรดเทอมที่ 2 Numeric ตัง้ แต่ 0 ถึง 20 คะแนน
G3 เกรดเทอมที่ 3 Numeric ตัง้ แต่ 0 ถึง 20 คะแนน

3.1.2 เนื่ อ งจากข้อ มูล ที่ น ามาใช้ มี ทั้ง ในรู ป แบบของตัว อัก ษร(Nominal) และตัว เลข
(Numeric) จึงทาการแปลงข้อมูลจากตัวอักษรให้อยู่ในรู ปแบบของตัวเลขทัง้ หมดเพื่อ ให้ตวั แบบ
ทานายสามารถทางานได้ ดังนี ้
1 . Label endcoding: คื อ การแปลงข้อ มูล ในแต่ล ะคอลัม น์ใ ห้เ ป็ น id ที่
ต่างกัน ซึ่งตัวเลขที่อยูใ่ กล้กนั จะถูกตีความว่ามี "คุณค่า" ใกล้กนั เช่น 1 กับ 2 ใกล้กนั มากกว่า 1 กับ
3 ดังนัน้ ถ้าค่าจริงของ 1, 2, 3 มีความสัมพันธ์เชิงคุณค่าที่ตอ่ เนื่องกัน สามารถใช้ได้เลย เช่นถ้า 1
แปลว่า "น้อย", 2 แปลว่า "ปานกลาง", และ 3 แปลว่า "มาก" เป็ นต้น เช่น Famsize คือ จานวน
สมาชิกในครอบครัว มีคา่ เป็ น LE3 คือ น้อยกว่า หรือ เท่ากับ 3 และ GT3 คือ มากกว่า 3 แปลงให้
อยูใ่ นรูป Label endcoding ดังตารางที่ 8

ตาราง 8 ตัวอย่างการแปลงข้อมูลในรูป Label encoding

Famsize Label encoding

LE3 1

GT3 2

2. One Hot Endcoding : เป็ นการแปลงข้อมูลประเภทข้อความให้แตกเป็ น


คอลัมน์ย่อย ๆ แบบ Binary 0/1 กรณีท่ีค่าจริงของแต่ละเลขนัน้ ไม่ได้มีความสัมพันธ์ต่อเนื่องเป็ น
ลาดับขัน้ กัน เช่น Mjob คือ อาชีพของแม่ ได้แก่ teacher, health care related, civil services,
at_home, other ค่าของแต่ละเลขล้วนมีความหมายของตัวเอง และไม่เกี่ยวข้องทางลาดับชัน้ กับ
ค่าอื่น แปลงให้อยูใ่ นรูป one hot endcoding ดังตารางที่ 9
30

ตาราง 9 ตัวอย่างการแปลงข้อมูลในรูป one hot encoding

teacher health care related civil service at_home other

1 0 0 0 0

0 1 0 0 0

0 0 1 0 0

0 0 0 1 0

0 0 1 0 1

3.1.3 การหาความสัม พั น ธ์ข องตัว แปรก่ อ นการท านาย (Correlation) เป็ นการหา
ความสัมพันธ์ของแต่ละตัวแปร เพื่อเลือกนาเฉพาะตัวแปรที่จะส่งผลให้การทานายมีความถูกต้อง
แม่ น ย ามากยิ่ ง ขึ ้น โดยเริ่ ม จากการ Import ข้ อ มู ล เข้ า ใน Rapid Miner โดยใช้ Operator
Correlation Matrix และก าหนด Parameters attribute filter type .ให้เ ป็ น all เพื่ อ เลื อ กข้อ มูล
ทัง้ หมดในการทา Correlation และเลือก normalize weights เพื่อประมวลค่านา้ หนัก Correlation
ให้เป็ นค่าตัง้ แต่ 0 – 1 และ 0 – (-1) ดังภาพประกอบที่ 22

ภาพประกอบ 22 การตัง้ ค่า Parameter ภายใน Operator Correlation Matrix


31

3.2 การสร้างตัวแบบทานายใน Rapid Miner studio 9.5


เป็ น การสร้า งและทดสอบความถูก ต้อ งของตัว แบบท านายโดยการวิ เ คราะห์ข้อ มูล
ประมวลผลตัวแบบทานายจากข้อมูลทั้งหมด เริ่ม จากการ Import ข้อมูล เข้าใน Rapid Miner
studio 9.5 ดังภาพประกอบที่ 23 เพื่อวิเคราะห์และคานวณค่าต่าง ๆ ที่ใช้ในการทานาย

ภาพประกอบ 23 การกาหนดชนิดของข้อมูลที่ตอ้ งการทานาย

จากการสารวจข้อมูลประกอบด้วย 649 Row 28 ตัวแปร ซึ่งแต่ละ ตัวแปร จะแสดงให้เห็น


ถึงคุณลักษณะเฉพาะของข้อมูล คือ integer จากภาพประกอบที่ 18 เป็ นการแสดงค่าสถิติของ
ข้อมูลในแต่ละ ตัวแปร ซึ่งไม่พบข้อมูลว่าง หรือข้อมูลที่ผิดแปลก และสามารถนามาสร้างตัวแบบ
ทานายในการทานายได้

3.2.1 การสร้างตัวแบบทานายเพื่อทานายผลการเรียนในเทอมที่ 3 ของนักเรียน โดยนาเข้า


ชุดข้อมูล student_por.csv ผ่านโอเปอร์เรเตอร์ ReadCSV เรียบร้อยแล้ว จึงกาหนดบทบาทของ
แอตทริบิวต์ โดยใช้โอเปอร์เรเตอร์ Set Role ระบุให้ ตัวแปร G3 เป็ น Label เพราะเป็ นข้อมูลที่
ต้องการทานาย ดังภาพประกอบที่ 24

ภาพประกอบ 24 การตัง้ ค่า Parameter ภายใน Operator Set Role


32

จากนัน้ แบ่งข้อมูลเป็ น 2 กลุ่ม ผ่านโอเปอร์เรเตอร์ Split Data ดังภาพประกอบที่ 25 คือ


กลุ่มข้อมูลที่จะใช้สอน (Training Data) 80% และข้อมูลที่จะใช้ทดสอบ (Test Data) 20% และ
กาหนด Parameters ให้แบ่งข้อมูลแบบ Stratified sampling เพื่อสุ่มตัวอย่างโดยแยกประชากร
ออกเป็ นกลุ่ม ประชากรย่อย ๆ ก่อน เพื่อให้ได้จานวนกลุ่ม ตัวอย่างตามสัดส่วนของขนาดกลุ่ม
ตัวอย่างและกลุ่มประชากร ก่อนการเชื่อมต่อกับเทคนิ คการทานายต่าง ๆโดยใช้เทคนิคเหมือง
ข้อมูล ดังนี ้

ภาพประกอบ 25 การ Split ข้อมูลเป็ น Training Data และ Test data

1. การสร้า งตัว แบบท านายโดยใช้เ ทคนิ ค ต้น ไม้ตัด สิ น ใจ ( Decision Tree) โดยใช้
Operator Decision Tree และกาหนด Parameters ดังภาพประกอบที่ 26
- criterion ตัง้ ค่าเป็ น gini_index ค่าที่บง่ บอกว่าคุณลักษณะหรือปั จจัยใด
ควรนามาใช้เป็ นคุณลักษณะในการแบ่งกลุ่มของอัลกอรึธึม โดยจะคานวณให้ได้ค่า gini ที่นอ้ ย
ที่สดุ มาเป็ นโหนดราก
- confidence ตัง้ ค่าเป็ น 0.1 เพื่ อกาหนดค่าช่วงความเชื่ อมั่นที่ ใช้
สาหรับการคานวณ error ในการทานาย
- maximal depth ตัง้ ค่าเป็ น 10 ขัน้ เพื่อกาหนดค่าความลึกของต้นไม้ โดย
ได้จากการเปรียบเทียบการกาหนดค่า maximal depth ที่ให้ผลลัพธ์ท่ีดีท่ีสดุ เมื่อถึง Scenario 5 ที่
ให้ผลลัพธ์เท่ากับค่าใน Scenario 2- 4 ผูว้ ิจยั จึงหยุดสุม่ ค่า maximal depth ดังตารางที่ 10
33

ตาราง 10 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า maximal depth ที่ดีท่ีสดุ ของเทคนิคต้นไม้


ตัดสินใจ (Decision Tree)

No. maximal depth ค่าความถูกต้อง %

Scenario 1 5 90.00

Scenario 2 10 91.54

Scenario 3 15 91.54

Scenario 4 20 91.54

Scenario 5 25 91.54

ภาพประกอบ 26 การสร้างตัวแบบทานายและการตัง้ ค่า Parameter Decision Tree

2. การสร้างตัวแบบทานาย โดยเทคนิคป่ าแห่งการทานาย (Random Forest)


โดยใช้ Operator RandomForest และกาหนด Parameters ดังภาพประกอบที่ 27
- criterion ตัง้ ค่าเป็ น gini_index ค่าที่บง่ บอกว่าคุณลักษณะหรือปั จจัยใด
ควรนามาใช้เป็ นคุณลักษณะในการแบ่งกลุ่มของอัลกอรึธึม โดยจะคานวณให้ได้ค่า gini ที่นอ้ ย
ที่สดุ มาเป็ นโหนดราก
- number of trees เพื่อกาหนดจานวนต้นไม้ หรือโมเดลที่นามาสร้างให้เป็ น
ป่ าแห่งทานาย ตัง้ ค่าเป็ น 100 ต้น โดยได้จากการเปรียบเทียบการกาหนดค่า number of trees ที่
ให้ผลลัพธ์ท่ีดีท่ีสดุ ซึ่งเมื่อถึง Scenario 4 ให้ผลลัพธ์เท่ากับค่าใน Scenario 2- 3 ผูว้ ิจยั จึงหยุดสุ่ม
ค่า number of trees ดังตารางที่ 11
34

ตาราง 11 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า number of trees ที่ดีท่ีสดุ ของป่ าแห่งการ


ทานาย (Random Forest)

No. number of trees ค่าความถูกต้อง %

Scenario 1 50 99.23

Scenario 2 100 100

Scenario 3 150 100

Scenario 4 200 100

- maximal depth เพื่อกาหนดค่าความลึกของต้นไม้แต่ละต้น จานวน level


ที่ ม ากที่ สุด ของ node ที่ จ ะท าการ split ตั้ง ค่า เป็ น 15 ขั้น โดยได้จ ากการเปรี ย บเที ย บการ
กาหนดค่า maximal depth ที่ให้ผลลัพธ์ท่ีดีท่ีสุด เมื่อถึง Scenario 4 ที่ให้ผลลัพธ์เท่ากับ ค่าใน
Scenario 2 - 3 ผูว้ ิจยั จึงหยุดสุม่ ค่า maximal depth ดังตารางที่ 12

ตาราง 12 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า maximal depth ที่ดีท่ีสดุ ของป่ าแห่งการทานาย


(Random Forest)

No. maximal depth ค่าความถูกต้อง %

Scenario 1 5 88.46

Scenario 2 10 98.46

Scenario 3 15 100

Scenario 4 20 100
35

ภาพประกอบ 27 การสร้างตัวแบบทานายและการตัง้ ค่า Parameter Random Forest

3. การสร้างตัวแบบทานาย โดยใช้เทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes)


โดยใช้ Operator RandomForest และกาหนด Parameters ดังภาพประกอบที่ 28
- laplace correction การตัง้ ค่าให้การทานายความน่าจะเป็ นในแต่ละ
ครัง้ ไม่เป็ นค่า 0

ภาพประกอบ 28 การสร้างตัวแบบทานายและการตัง้ ค่า Parameter Naïve-Bayes

4. การสร้า งตัว แบบท านายโดยใช้ เ ทคนิ ค เพื่ อ นบ้า นใกล้ท่ี สุ ด k-NN (K-Nearest
Neighbors) โดยใช้ Operator k-NN และกาหนด Parameters ดังภาพประกอบที่ 29
- k เป็ นการก าหนดข้อ มู ล ที่ อ ยู่ ใ กล้เ คี ย ง ตั้ง ค่ า เป็ น 5 โดยได้จ ากการ
เปรียบเทียบการกาหนดค่า k ที่ให้ผลลัพธ์ท่ีดีท่ีสุด เมื่อถึง Scenario 5 ที่ให้ผลลัพธ์เท่ากับค่าใน
Scenario 3 - 4 ผูว้ ิจยั จึงหยุดสุม่ ค่า maximal depth ดังตารางที่ 13
36

ตาราง 13 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า k ที่ดีท่ีสดุ ของป่ าแห่งการทานาย เทคนิคเพื่อน


บ้านใกล้ท่ีสดุ (K-Nearest Neighbors)

No. k ค่าความถูกต้อง %

Scenario 1 5 82.31

Scenario 2 10 81.54

Scenario 3 15 77.69

Scenario 4 20 77.69

Scenario 5 25 77.69

- measure types ตัง้ ค่าเป็ น mixed measures หมายถึงให้สามารถคานวณ


ระยะทางในกรณีท่ีแอตทริบิวต์นนั้ เป็ นค่าที่ตา่ งกัน ทัง้ ที่เป็ นตัวเลขและที่ไม่ใช่ตวั เลข ให้สามารถหา
ระยะทางได้

ภาพประกอบ 29 การสร้างตัวแบบทานายการ และการตัง้ ค่า Parameter k-NN

3.2 การคัดเลือกข้อมูล
เป็ นการนาข้อมูลมาพิจารณาว่าจะเลือกข้อมูลใดบ้าง เนื่องจากการสร้างตัวแบบทานาย
เป็ นการนาข้อมูลทัง้ หมดมาใช้ในการทานาย โดยหลังจากการผ่านขัน้ ตอนการเตรียมข้อมูล และ
หาความสัมพันธ์ของตัวแปรแล้ว ทาให้มีตวั แปร ทัง้ หมด 42 ตัวแปร ซึ่งยังไม่ทราบว่าข้อมูลที่ใช้ จะ
สามารถใช้งานได้ทงั้ หมดหรือไม่ อาจส่งผลต่อความถูกต้องของการประมวลผล ดังนัน้ ผูว้ ิจยั จึงทา
การคัดเลือกข้อมูล โดยการวิเคราะห์องค์ประกอบหลัก Principal Component Analysis (PCA)
ซึ่งเป็ นเทคนิคเชิงคานวณที่นิยมนามาใช้ในการย่อยข้อมูล และวิเคราะห์ขอ้ มูลที่มีหลายตัวแปร
37

เพื่อหาความสัมพันธ์ของตัวแปรเหล่านัน้ และปรับให้ขอ้ มูลมีความกระชับ มีขนาดเล็กลง เมื่อผ่าน


กระบวนการ PCA แล้ว ส่งผลให้มี ตัวแปร คงเหลือ 22 ตัวแปร ดังภาพประกอบที่ 30

ภาพประกอบ 30 จานวนตัวแปรคงหลือเมื่อผ่านกระบวนการ PCA

จากนัน้ สร้างตัวแบบทานายให้ครบทัง้ 4 เทคนิค ดังภาพประกอบที่ 32-35 โดยมีการตัง้ ค่า


Parameter เช่นเดียวกับการสร้างตัวแบบทานายซึ่งใช้ขอ้ มูลที่ยงั ไม่ได้ผ่านกระบวนการ PCA แต่
เพิ่ม Operator PCA และกาหนด Parameters ดังภาพประกอบที่ 31
- dimensionality reduction ตัง้ ค่าเป็ น keep variance โดยเป็ นการกาหนด
ช่วงความแปรปรวน ที่ใช้วดั การกระจายของข้อมูลได้
- variance threshold เป็ นการกาหนดค่าที่ตอ้ งการ โดยตัง้ ค่าเป็ น 0.95 คือ
ตัง้ ค่าความแปรปรวนของตัวแปรซึ่งจะเลือกเอาตัวแปรที่มีคา่ variance ไม่เกินที่ 0.95

ภาพประกอบ 31 การตัง้ ค่า Parameter Operator PCA

ภาพประกอบ 32 การสร้างตัวแบบทานาย Decision Tree จากข้อมูลที่ผา่ น PCA


38

ภาพประกอบ 33การสร้างตัวแบบทานาย Random Forest จากข้อมูลที่ผา่ น PCA

ภาพประกอบ 34 การสร้างตัวแบบทานาย k-NN จากข้อมูลที่ผา่ น PCA

ภาพประกอบ 35 การสร้างตัวแบบทานาย Naïve-Bayes จากข้อมูลที่ผา่ น PCA

3.3 การวัดประสิทธิภาพของตัวแบบทานาย
เป็ นการทานายค่าความแม่นยาของตัวแบบทานายแต่ละประเภท โดยใช้วิธี K-fold cross
validation ซึ่ง จะทาการแบ่ง ข้อมูลเป็ น 10 ส่วน โดยเท่า ๆ กัน แล้วทาการทดสอบ จากนั้นจะ
เปลี่ยนข้อมูลทดสอบชุดที่ 2 เป็ นข้อมูลทดสอบ และข้อมูลส่วนที่เหลือคือ 1-(k-1) เป็ นชุด
ข้อมูลสอน ทาไปเรื่อย ๆ จนครบถึงชุดทดสอบที่ K เป็ นชุดทดสอบ และส่วนที่ 1-(k-1) เป็ นชุด
ข้อมูลสอน และนาค่าที่ได้มาหาค่าเฉลี่ย
โดยสร้างตัวแบบทานายเพื่อทานายผลการเรียนในเทอมที่ 3 ของนักเรียน โดยใช้เทคนิค
เหมืองข้อมูล เช่นเดิมอีกครัง้ และใช้ชดุ ข้อมูล ทัง้ ที่ผา่ นและไม่ผ่านกระบวนการ PCA มาทาการวัด
ค่าความแม่นยาของตัวแบบทานายแต่ละประเภท โดยใช้วิธี K-fold cross validation
39

จากนัน้ สร้างตัวแบบทานายให้ครบทัง้ 4 เทคนิค ดังภาพประกอบที่ 28 โดยใช้ขอ้ มูลทัง้ ที่


ผ่ า น และไม่ ผ่ า นกระบวนการ PCA รวมทั้ง ตั้ง ค่ า Parameter เช่ น เดิ ม แต่ เ พิ่ ม Operator
Validation และกาหนด Parameters ดังภาพประกอบที่ 36
- number of fold ตัง้ ค่าข้อมูลในการทดสอบเป็ น 10 ส่วนเท่า ๆ กัน
- sampling type ตัง้ ค่าเป็ น Stratified sampling เพื่ อ สุ่ม ตัวอย่างโดยแยก
ประชากรออกเป็ นกลุ่มประชากรย่อย ๆ ก่อน การเลือกตัวอย่างวิธีนี ้ ประชากรจะถูกแบ่งออกเป็ น
ชั้นภูมิ (Stratum) ตามลักษณะอย่างใดอย่างหนึ่ง โดยไม่ให้มี หน่ว ยซ า้ กัน คือแต่ละหน่ ว ยใน
ประชากรจะต้องอยูใ่ นชัน้ ภูมิใดชัน้ ภูมิหนึ่งเท่านัน้ โดยที่พยายามจัดให้ชนั้ ภูมิเดียวกันประกอบด้วย
หน่วยที่มีลกั ษณะคล้ายคลึงกันมากที่สดุ และมีความแตกต่างระหว่างชัน้ ภูมิมากที่สดุ

ภาพประกอบ 36 การตัง้ ค่า Parameter Operator Validation


บทที่ 4
ผลการศึกษา

งานวิจยั นีเ้ ป็ นงานวิจยั เพื่อศึกษาการสร้างตัวแบบทานายการพยากรณ์ผลสัมฤทธิ์ทางการ


เรียน โดยใช้ซอฟต์แวร์ Rapid Miner Studio โดยผูว้ ิจยั ได้ทาการวิเคราะห์ขอ้ มูล และนาเสนอผล
การศึกษาดังนี ้
1. ผลการเตรียมข้อมูล (Data Preparation) เพื่อให้ขอ้ มูลพร้อมในการสร้างตัวแบบทานาย
2. ผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์โดยใช้เทคนิคต่าง ๆ ดังนี ้
- เทคนิคต้นไม้ตดั สินใจ (Decision Tree)
- เทคนิคป่ าแห่งการทานาย (Random Forest)
- เทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes)
- เทคนิคเพื่อนบ้านใกล้ท่ีสดุ (K-Nearest Neighbors)
2. ผลการศึ ก ษาการสร้า งตัว แบบท านายการพยากรณ์ ด ้ว ยเทคนิ ค การวิ เ คราะห์
องค์ประกอบหลัก (Principal Component Analysis : PCA)
3. ผลการวิเคราะห์ความแม่นตรง และเปรียบเทียบประสิทธิภาพของตัวแบบทานายด้วย
เทคนิคต่าง ๆ โดยใช้วิธี K-fold cross validation

4.1 ผลการเตรียมข้อมูล (Data Preparation) เพือ่ ให้ข้อมูลพร้อมในการสร้างตัวแบบ


ทานาย
ผู้วิจัยได้นาข้อมูล เข้า สู่ตัวแบบท านายโดย ใช้ซ อฟต์แวร์ Rapid Miner Studio ในการ
วิเคราะห์ขอ้ มูล ซึ่งข้อมูลที่ใช้นนั้ ผ่านขัน้ ตอนการเตรียมข้อมูล โดยเมื่อตรวจสอบข้อมูลแล้วพบว่า
ข้อมูลทัง้ หมดเป็ นข้อมูลที่ประกอบด้วย 649 รายการ 28 ตัวแปร ซึ่งแต่ละ ตัวแปร จะแสดงให้เห็น
ถึงคุณลักษณะเฉพาะของข้อมูล คือ integer แต่จะยกเว้นใน ตัวแปร G3 ซึ่งเป็ น Polynominal และ
กาหนดให้เป็ น Label เพราะเป็ นข้อมูลที่ตอ้ งการทานาย ซึ่งแบ่งเป็ น class pass 504 รายการ
และ class fail 145 รายการ ดังภาพประกอบที่ 37
41

ภาพประกอบ 37 การตรวจสอบค่าต่าง ๆ ในข้อมูลทัง้ หมด

เมื่อ Import ข้อมูลเข้าใน Rapid Miner โดยใช้ Operator Correlation Matrix ประมวลค่า
นา้ หนัก Correlation ให้เป็ นค่าตัง้ แต่ 0 – 1 และ 0 – (-1) ดังภาพประกอบที่ 38

ภาพประกอบ 38 ตารางแสดงค่า Correlation ของตัวแปร

ภาพประกอบ 39 การแสดงค่านา้ หนักความสัมพันธ์ของแต่ละตัวแปรในชุดข้อมูล


42

จากภาพประกอบที่ 39 - 40 จะเห็นค่าความสัมพันธ์ของตัวแปรมีคา่ ระหว่าง 0 – 1 เมื่อ


นาข้อมูลมาหาความสัมพันธ์ของตัวแปร สาหรับงานวิจยั ในครัง้ นี จ้ ะคัดเลือกเฉพาะตัวแปรที่มีค่า
ความสัมพันธ์ตงั้ แต่ 0.4 ขึน้ ไป ทาให้มีตวั แปร คงเหลือ 42 ตัวแปร ซึ่งตัวแปรที่ถกู ตัดออก 2 ตัวแปร
ได้แ ก่ Medu มี ค่ า ความสัม พัน ธ์ เท่ า กั บ 0 และ Fedu มี ค่ า ความสัม พัน ธ์ เท่ า กั บ 0.21 ดัง
ภาพประกอบที่ 40

ภาพประกอบ 40 การแสดงค่านา้ หนักความสัมพันธ์ของแต่ละตัวแปร Fedu และ Medu

4.2 ผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์ โดยใช้เทคนิคต่าง ๆ


เมื่อข้อมูลพร้อมสาหรับการทานายแล้ว จึงนามาสร้างตัวแบบทานายและมีผลการสร้างตัว
แบบทานาย ดังนี ้
4.2.1 เทคนิคต้นไม้ตดั สินใจ (Decision Tree)
ผู้วิจัยทาการสร้างตัว แบบทานายด้วยเทคนิค ต้นไม้ตัด สินใจ เพื่ อทาการ
พยากรณ์ผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3 จากนัน้ ผูว้ ิจยั ได้นาข้อมูลเข้าสู่ตวั แบบทานาย โดย
ซอฟต์แวร์ Rapid Miner นัน้ Operator Decision Tree จะทาการวิเคราะห์คณ ุ สมบัติท่ีดีท่ีสุดของ
ข้อมูลมาเป็ นโหนดราก (Root node) และวนสร้างโหนดลูกและเส้นเชื่อมไปเรื่อย ๆ จนกว่าข้อมูลที่
ได้จะถูกจัดไว้เป็ นกลุม่ เดียวกันและหยุดสร้างต้นไม้
43

ภาพประกอบ 41 ตัวแบบทานาย Decision Tree

จากภาพประกอบที่ 41 พบว่าตัวแบบทานายมี 10 ขัน้ ตามที่กาหนด และมี


failures เป็ นโหนดราก ซึ่งเป็ นตัวแปรที่สาคัญที่สุดในการทานาย ต่อด้วยโหนดต่อไปจานวน 10
โหนด โดยไล่ลาดับค่าที่มีคา่ สูงเรียงลาดับไปเรื่อย ๆ จนครบ ซึ่งเชื่อมกันด้วยกิ่งที่แสดงค่าที่เป็ นไป
ได้ของโหนด และโหนดใบแสดงคลาสที่กาหนดไว้ คือ pass และ fail ดังนี ้
- เมื่อ failures และ paid มีค่ามากกว่า 0.5 school มีค่ามากกว่า 1.5 จะ
ทานายว่า fail แต่ถา้ school มีคา่ น้อยกว่าหรือเท่ากับ 1.5 จะทานายว่า
pass
- เมื่อ failures มีค่าน้อยกว่า 0.5 และ paid มีค่ามากกว่าหรือเท่ากับ 0.5
จะทานายว่า fail
- เมื่อ failures มีค่ามากกว่าหรือเท่ากับ 0.5 Internet มีค่ามากกว่า 0.5
address มีคา่ มากกว่า 1.5 famrel มีคา่ มากกว่า 4.5 จะทานายว่า fail
แต่ถา้ address มีคา่ น้อยกว่าหรือเท่ากับ 1.5 จะทานายว่า pass
- เมื่อ failures มีค่ามากกว่าหรือเท่ากับ 0.5 Internet มีค่าน้อยกว่าหรือ
เท่ากับ 0.5 Fjob1 มีคา่ มากกว่า 0.5 จะทานายว่า fail แต่ถา้ Fjob1 มีคา่
น้อยกว่าหรือเท่ากับ 0.5 traveltime มีคา่ มากกว่า 3.5 จะทานายว่า fail
แต่ถ้า traveltime มีค่าน้อยกว่าหรือเท่ากับ 3.5 และ reson3 มีค่าน้อย
กว่าหรือเท่ากับ 0.5 จะทานายว่า pass แต่ถา้ reson3 มีคา่ มากกว่า 0.5
44

และ walc มีค่ามากกว่า 1.5 จะทานายว่า pass แต่ถ้า walc มีค่าน้อย


กว่าหรือเท่ากับ 1.5 จะทานายว่า fail
เมื่อพิจารณาค่าในการทานาย ซึ่งโมเดลได้ทานายว่า จะมีเด็กที่สอบผ่าน
104 คน และสอบตก 26 คน แต่เมื่อเปรียบเทียบกับข้อมูลจริงพบว่า มีเด็กที่สอบผ่าน 101 คน และ
สอบตก 29 คน จึง มี ค่าความถูก ต้อ งในการพยากรณ์โมเดล(accuracy) เท่ากับ 91.54% ดัง
ภาพประกอบที่ 42

ภาพประกอบ 42 ค่าความถูกต้องของการพยากรณ์ตวั แบบทานาย Decision Tree

4.2.2 เทคนิคป่ าแห่งการทานาย (Random Forest)


ผูว้ ิจยั ทาการสร้างตัว แบบทานายด้วยเทคนิคป่ าแห่งการทานาย เพื่อทาการ
พยากรณ์ผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3 โดยใช้ตวั แบบทานายจากต้นไม้ตดั สินใจหลาย ๆ
ต้น ตัง้ แต่ 100 ตัวแบบทานายขึน้ ไป ซึ่งถูกสร้างจากการนาข้อมูลฝึ กสอนไปสุ่มเลื อกตัวอย่า ง
ข้อมูลและคุณลักษณะข้อมูลแล้วนามาสร้างเป็ นต้นไม้ตดั สินใจ จากนัน้ ผูว้ ิจยั ได้นาข้อมูลเข้าสู่ตวั
แบบทานาย โดยซอฟต์แวร์ Rapid Miner นัน้ Operator Random Forest จะทาการวิเคราะห์และ
ใช้ตวั แบบทานายจากต้นไม้ตดั สินใจ ดังภาพประกอบที่ 43 ทางด้านซ้ายของรู ป คือ โมเดลต้นไม้
ตัดสินใจ 100 ต้น

ภาพประกอบ 43 ตัวแบบทานาย Random Forest


45

เมื่อพิจารณาค่าในการทานาย ซึ่งโมเดลได้ทานายว่า จะมีเด็กที่สอบผ่าน


101 คน และสอบตก 29 คน และเมื่อเปรียบเทียบกับข้อมูลจริงพบว่าการทานายจานวนเด็กที่สอบ
ผ่าน และสอบตกนั้น ถูกต้องทั้ง หมด จึง มี ค่าความถูกต้องในการพยากรณ์โมเดล(accuracy)
เท่ากับ 91.54% ดังภาพประกอบที่ 44

ภาพประกอบ 44 ค่าความถูกต้องของการพยากรณ์ตวั แบบทานาย Random Forest

4.1.3 เทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes)


ผู้วิจัยทาการสร้างตัว แบบท านายด้ว ยเทคนิ ค การเรี ยนรู เ้ บย์ เพื่ อทาการ
พยากรณ์ผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3 โดยการหาความน่าจะเป็ นของสิ่งที่ยงั ไม่เคยเกิดขึน้
และคาดเดาจากสิ่งที่เคยเกิดขึน้ มาก่อน โดยซอฟต์แวร์ Rapid Miner นัน้ Operator Naïve-Bayes
จะทาการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร ซึ่งไม่มีการปรับค่า parameter ใด

ภาพประกอบ 45 ตัวแบบทานาย Naïve-Bayes

จากภาพประกอบที่ 45 พบว่า ค่าความน่าจะเป็ นที่โมเดลทานายทัง้ หมด คือ


ค่าความน่าจะเป็ นไปของ Class pass เท่ากับ 0.777 และ ค่าความน่าจะเป็ นไปของ Class fail
เท่ากับ 0.223
เมื่อพิจารณาค่าในการทานาย ซึ่งโมเดลได้ทานายว่า จะมีเด็กที่สอบผ่าน 64
คน และสอบตก 66 คน แต่เมื่อเปรียบเทียบกับข้อมูลจริงพบว่า มีเด็กที่สอบผ่าน 101 คน และสอบ
ตก 29 คน จึ ง มี ค่ า ความถู ก ต้อ งในการพยากรณ์โ มเดล(accuracy) เท่ า กั บ 91.54% ดัง
ภาพประกอบที่ 46
46

ภาพประกอบ 46 ค่าความถูกต้องของการพยากรณ์ตวั แบบทานาย Naïve-Bayes

4.1.3 เทคนิคเพื่อนบ้านใกล้ท่ีสดุ (K-Nearest Neighbors)


ผูว้ ิจยั ทาการสร้างตัวแบบทานายด้วยเทคนิคเพื่อนบ้านใกล้ท่ีสดุ เพื่อทาการ
พยากรณ์ผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3 โดยการค้นหาเพื่อนบ้านใกล้ท่ีสดุ เป็ นการแบ่งกลุม่
ข้อมูล และวัดระยะห่างระหว่างข้อมูลที่ตอ้ งการทานายกับข้อมูลที่อยู่ใกล้เคียงเป็ นจานวน K ตัว
ซึ่ ง ซอฟต์แ วร์ Rapid Miner นั้น Operator K-Nearest Neighbors จะท าการวิ เ คราะห์ข้อ มู ล
หลังจากนัน้ ดูคา่ “k” ว่ากาหนดเท่าใด แล้วทาการสร้างแบบทานาย

ภาพประกอบ 47 ตัวแบบทานาย k-NN

จากภาพประกอบที่ 47 กาหนดให้คา่ k = 5 โดยมีขอ้ มูลทัง้ หมด 130 รายการ


43 คอลัมน์ ซึ่งทานายหาว่าแต่ละรายการจะเข้าใกล้ และเป็ นคลาสใด ระหว่าง pass และ fail
เมื่อพิจารณาค่าในการทานาย ซึ่งโมเดลได้ทานายว่า จะมีเด็กที่สอบผ่าน
120 คน และสอบตก 10 คน แต่เมื่อเปรียบเทียบกับข้อมูลจริงพบว่า มีเด็กที่สอบผ่าน 101 คน และ
สอบตก 29 คน จึง มี ค่าความถูก ต้องในการพยากรณ์โ มเดล(accuracy) เท่ากับ 82.31% ดัง
ภาพประกอบที่ 48

ภาพประกอบ 48 ค่าความถูกต้องของการพยากรณ์ตวั แบบทานาย k-NN


47

จากผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์ โดยใช้เทคนิคต่าง ๆ จะเห็นได้วา่


เทคนิคป่ าแห่งการทานาย (Random Forest) ให้ค่าความถูกต้อง (accuracy) มากที่สุด เท่ากับ
100% และเทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) ให้คา่ ความถูกต้อง (accuracy) น้อยที่สดุ เท่ากับ
68.46% ดังตารางที่ 14

ตาราง 14 ผลการเปรียบเทียบค่าความถูกต้องจากการสร้างตัวแบบทานาย

เทคนิคเหมืองข้อมูล ค่าความถูกต้อง %

เทคนิคต้นไม้ตดั สินใจ (Decision Tree) 91.54

เทคนิคป่ าแห่งการทานาย (Random Forest) 100

เทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) 68.46

เทคนิคเพื่อนบ้านใกล้ที่สดุ (K-NN) 82.31

4.2 ผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์ด้วยเทคนิคการวิเคราะห์
องค์ประกอบหลักของข้อมูล
เนื่องจากเมื่อข้อมูลได้ผา่ นขัน้ ตอนการเตรียมข้อมูลแล้ว ทาให้มีตวั แปรทัง้ หมด 42 ตัวแปร
ซึ่งทางผูว้ ิจยั ยังไม่ทราบแน่ชดั ว่าข้อมูลใดบ้างที่จะมีคณ
ุ ลักษณะที่จะสามารถใช้งานได้ อาจส่งผล
ต่อความถูกต้องของการประมวลผล ดังนัน้ ผูว้ ิจยั จึงทาการวิเคราะห์องค์ประกอบหลักของข้อมูล
โดยใช้วิธี Principal Component Analysis (PCA) เพื่อย่อย วิเคราะห์ และหาความสัมพันธ์ของ
ข้อมูลเหล่านัน้ ให้มีความกระชับมากขึน้ โดยไม่ทาให้สูญเสียข้อมูลสาคัญไป ส่ งผลให้มีตวั แปร
คงเหลือ 22 ตัวแปร ดังภาพประกอบที่ 49 ซึ่งใช้สาหรับการสร้างตัวแบบทานาย

ภาพประกอบ 49 ตัวอย่างตัวแปรที่ผา่ นกระบวนการ PCA

จากภาพประกอบที่ 50 จะแสดงค่า Variance ของตัวแปร และจะสังเกตได้ว่าตัวแปรที่มี


ค่า Variance ช่วง 0.95 มีทงั้ หมด 22 ตัว
48

ภาพประกอบ 50 การแสดงค่า Variance ตัวแปรเมื่อผ่านกระบวนการ PCA

โดยผูว้ ิจัยได้นาข้อมูลทัง้ หมดที่ ผ่านกระบวนการวิเคราะห์องค์ประกอบหลักของข้อมูล


(PCA) แล้วนัน้ เข้าสู่ตวั แบบทานาย โดยใช้เทคนิคต้นไม้ตดั สินใจ (Decision Tree) เทคนิคป่ าแห่ง
การทานาย (Random Forest) เทคนิคการเรียนรู เ้ บย์ (Naïve-Bayes) เทคนิคเพื่อนบ้านใกล้ท่ีสุด
(K-Nearest Neighbors) เพื่อพยากรณ์ผลการเรียนในเทอมที่ 3 พบว่าเทคนิคป่ าแห่งการทานาย
(Random Forest) ให้คา่ ความถูกต้อง (accuracy) มากที่สดุ เท่ากับ 99.23% แต่ลดลงเมื่อเทียบ
ผลลัพท์ท่ีไม่ใช้ PCA และเทคนิคเพื่อนบ้านใกล้ท่ีสดุ (K-NN) ให้คา่ ความถูกต้อง (accuracy) น้อย
ที่สุดเท่ากับ 82.31% ซึ่งมีผลลัพท์เท่าเดิมเมื่ อเทียบกับการไม่ใช้ PCA ส่วนเทคนิคป่ าแห่ง การ
ท านาย (Random Forest) และเทคนิ ค การเรี ย นรู ้เ บย์ (Naïve-Bayes) ) ให้ค่า ความถูก ต้อ ง
(accuracy) มากขึน้ เมื่อเทียบกับผลลัพท์ท่ีไม่ใช้ PCA ดังตารางที่ 15
49

ตาราง 15 ผลการเปรียบเทียบค่าความถูกต้องจากการสร้างตัวแบบทานาย เมื่อข้อมูลผ่าน PCA

เทคนิคเหมืองข้อมูล ค่าความถูกต้อง %

เทคนิคต้นไม้ตดั สินใจ (Decision Tree) 94.62

เทคนิคป่ าแห่งการทานาย (Random Forest) 99.23

เทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) 85.38

เทคนิคเพื่อนบ้านใกล้ที่สดุ (K-NN) 82.31

4.3 ผลการวิเคราะห์ความแม่นตรง และเปรียบเทียบประสิทธิภาพของตัวแบบทานายด้วย


เทคนิคต่าง ๆ โดยใช้วิธี K-fold cross validation
หลังจากการสร้างตัวแบบทานายการพยากรณ์ดว้ ยเทคนิคทัง้ 4 เทคนิคข้างต้นแล้วนัน้
ผูว้ ิจยั ได้ทาการวิเคราะห์ความแม่นตรงของตัวแบบทานาย โดยใช้วิธี K-fold cross validation คือ
การแบ่งข้อมูลเป็ น k ส่วนเท่า ๆ กันเพื่อสร้างและทดสอบตัวแบบทานาย
โดยในงานวิจยั นีไ้ ด้แบ่งข้อมูลเป็ น 10 ส่วนเท่า ๆ กัน และทาการทดสอบ ซึ่งข้อมูลที่ใช้ใน
การสร้า งตัว แบบท านายการพยากรณ์ จ ะทดลองใช้ข้อ มูล ทั้ง ที่ ไ ม่ผ่า นกระบวนการวิ เ คราะห์
องค์ป ระกอบหลัก ของข้อ มูล (PCA) ดัง ภาพประกอบที่ 51 และผ่ า นกระบวนการวิ เ คราะห์
องค์ป ระกอบหลัก ของข้อ มู ล (PCA) ดัง ภาพประกอบที่ 52 น าเข้า สู่ โ อเปอร์เ รเตอร์ Cross
validation โดยกาหนดให้แบ่งข้อมูลแบบ Stratified sampling เพื่อให้ได้จานวนกลุ่มตัวอย่างตาม
สัดส่วนของขนาดกลุ่มตัวอย่างและกลุม่ ประชากร ในการหาค่าความถูกต้อง (accuracy) ค่าความ
แม่นยา (precision) ค่าความระลึก (recall) และค่าความถ่วงดุล (f1_measure)
50

ภาพประกอบ 51 การวิเคราะห์ความแม่นตรงโดยใช้ขอ้ มูลที่ไม่ผา่ น PCA

ภาพประกอบ 52 การวิเคราะห์ความแม่นตรงโดยใช้ขอ้ มูลที่ผา่ น PCA

จากการศึกษาการสร้างตัวแบบทานายการพยากรณ์ดว้ ยเทคนิคทัง้ ด้วยเทคนิคทัง้ 4


เทคนิคข้างต้น และทาการวิเคราะห์ความแม่นตรงของตัวแบบทานาย ดังตารางที่ 16 พบว่าข้อมูล
ที่ไม่ผา่ นกระบวนการวิเคราะห์องค์ประกอบหลักของข้อมูล (PCA) นัน้ ซึ่งผูว้ ิจยั ใช้ตวั ย่อแทนข้อมูล
51

นี ว้ ่า Ori เทคนิ ค ป่ าไม้ตัด สิ น ใจ (Random Forest) ให้ค่า ความถูก ต้อ ง (accuracy) มากที่ สุด
เท่ากับ 80.58% ให้ค่าความแม่น ย า (precision) มากที่ สุด เท่ากับ 66.49% ให้ค่าความระลึก
(recall) เป็ นอันดับ 3 เท่ากับ 28.38% และให้คา่ ความถ่วงดุล (f1_measure) เป็ นอันดับ 3 เท่ากับ
39.78% ซึ่งเทคนิคต้นไม้ตดั สินใจ (Decision Tree) ให้ค่าความถูกต้อง (accuracy) น้อยที่ สุด
เท่ากับ 76.28% ให้ค่าความแม่น ยา (precision) น้อยที่ สุด เท่ากับ 33.02% ให้ค่าความระลึก
(recall) เป็ นอันดับ 2 เท่ากับ 37.43% และให้คา่ ความถ่วงดุล (f1_measure) เป็ นอันดับ 2 เท่ากับ
41.59%
ข้อมูลที่ผ่านกระบวนการวิเคราะห์องค์ประกอบหลักของข้อมูล (PCA) นัน้ เทคนิคป่ าไม้
ตัดสิ นใจ (Random Forest) ให้ค่าความถูกต้อง (accuracy) มากที่ สุด เท่ากับ 80.74% ให้ค่า
ความแม่นยา (precision) มากที่ สุด เท่ากับ 76.50% ให้ค่าความระลึก (recall) เป็ นอันดับ 3
เท่ากับ 19.57% และให้ค่าความถ่วงดุล (f1_measure) เป็ นอันดับ 2เท่ากับเท่ากับ 31.16% ซึ่ง
เทคนิคต้นไม้ตดั สินใจ (Decision Tree) ให้คา่ ความถูกต้อง (accuracy) น้อยที่สดุ เท่ากับ 76.28%
ให้คา่ ความแม่นยา (precision) น้อยที่สดุ เท่ากับ 33.02% ให้คา่ ความระลึก (recall) เป็ นอันดับ 2
เท่ากับ 25.10% และให้คา่ ความถ่วงดุล (f1_measure) เป็ นอันดับ 2 เท่ากับ 28.52%

ตาราง 16 ผลการเปรียบเทียบประสิทธิภาพจากการสร้างตัวแบบทานาย โดยใช้วิธี K-fold cross


validation

ค่าความถูกต้อง % ค่าความแม่นยา % ค่าความระลึก % ค่าความถ่วงดุล %


เทคนิคเหมืองข้อมูล
Ori PCA Ori PCA Ori PCA Ori PCA

เทคนิคต้นไม้ตดั สินใจ 76.28 71.35 46.81 33.02 37.43 25.10 41.59 28.52
(Decision Tree)

เทคนิคป่ าไม้ตดั สินใจ 80.58 80.74 66.49 76.50 28.38 19.57 39.78 31.16
(Random Forest)

เทคนิคการเรียนรูเ้ บย์ 76.58 78.28 50.19 55.09 62.14 30.48 55.52 39.24
(Naïve-Bayes)

เทคนิคเพื่อนบ้านใกล้ 78.43 78.43 61.90 60.00 9.00 10.38 15.71 17.6


ที่สดุ (K-NN)
บทที่ 5
สรุ ปผลการวิจัยและข้อเสนอแนะ

5.1 สรุปผลการวิจัย
จากการศึกษาการสร้างตัวแบบทานายผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3 ของนักเรียน
ทัง้ หมด 649 คน ตัวแปรทัง้ หมด 33 ตัวแปร ซึ่งต้องการทานายว่า นักเรียนจะสอบผ่าน (pass) หรือ
สอบตก(fail) โดยใช้โปรแกรม RapidMiner studio 9.5 เป็ นซอฟต์แวร์ในการวิเคราะห์ดว้ ยเทคนิค
เหมืองข้อมูลต่าง ๆ ซึ่งก่อนการสร้างตัวแบบทานายผูว้ ิจยั ได้ทาตามกระบวนการทาเหมืองข้อมูล
แบบ CRISP-DM โดยจัดเตรียมข้อมูลให้พร้อม ซึ่งต้องทาการแปลงข้อมูล ให้อยู่ในรู ปแบบของ
ตัวเลขทัง้ หมด และหาความสัมพันธ์ของข้อมูลก่อนการทานาย (Correlation) จึงทาให้สามารถ
คัดเลือกตัวแปรได้ทงั้ หมด 42 ตัวแปร และได้ศึกษาและเลือกเทคนิคที่ใช้สร้างตัวแบบทานาย 4
เทคนิค คือ เทคนิคต้นไม้ตัดสิ นใจ (Decision Tree), เทคนิคป่ าไม้ตัดสินใจ (Random Forest),
เทคนิ ค การเรี ย นรู ้เ บย์ (Naïve-Bayes), เทคนิ ค เพื่ อ นบ้า นใกล้ท่ี สุด (K-Nearest Neighbors)
รวมทัง้ การวิเคราะห์องค์ประกอบหลักของข้อมูลที่ส่งผลต่อประสิทธิภาพของตัวแบบทานาย และ
การวิเคราะห์ความแม่นตรงของโมเดล K-fold Cross Validation จากนัน้ จึงเริ่มศึกษาการสร้าง
แบบจาลองด้วยเทคนิคต่าง ๆ โดยก่อนการสร้างตัวแบบทานาย ผูว้ ิจยั ได้แบ่งข้อมูลเป็ น 2 กลุม่ คือ
80 : 20 และการศึก ษาวิ จัย มี ก ารปรับ ค่า ตัว แปรที่ เ กี่ ย วข้อ งเพื่ อ ให้แ บบท านายให้ผ ลลัพ ธ์ท่ี มี
ประสิทธิภาพที่ดีท่ีสดุ ซึ่งมีรายละเอียดดังนี ้
1. การศึกษาการสร้างตัวแบบทานายการพยากรณ์ โดยเทคนิคต่าง ๆ โดยมีการใช้ เทคนิค
ต้นไม้ตดั สินใจ (Decision Tree) โดยผูศ้ กึ ษาวิจยั ปรับเกณฑ์การวัดผลเป็ น gini index เพื่อเลือกตัว
แปรที่ดีท่ีสดุ ที่สามารถแยกความแตกต่างระหว่างเรคคอร์ดต่าง ๆ ในชุดข้อมูลได้ และ กาหนดค่า
maximal depth เท่ากับ 10 พบว่าค่าความถูกต้องของการพยากรณ์ (accuracy) เท่ากับ 91.54%
ใช้เทคนิคป่ าไม้ตดั สินใจ (Random Forest) โดยผูศ้ กึ ษาวิจยั ปรับค่าจานวนของ tree ที่นามาใช้ใน
การสร้างตัวแบบการทานายที่ 100 ต้น และกาหนดค่า maximal depth ของแต่ละ tree ที่ 15
พบว่าค่าความถูกต้องของการพยากรณ์ (accuracy) เท่ากับ 100 % ซึ่งเป็ นค่าที่ดีท่ีสุด การใช้
เทคนิคการเรียนรู เ้ บย์ (Naïve-Bayes) โดยผูว้ ิจยั ได้นาข้อมูลเข้าสู่ตวั แบบทานายเข้าสู่ซอฟต์แวร์
Rapid Miner ซึ่ ง ไม่ มี ก ารปรับ ค่ า parameter ใด พบว่ า ค่ า ความถู ก ต้อ งของการพยากรณ์
(accuracy) เท่ากับ 68.46% ซึ่งเป็ นค่าที่ดีท่ีนอ้ ยที่สดุ การใช้เทคนิคเทคนิคเพื่อนบ้านใกล้ท่ีสดุ (K-
Nearest Neighbors) โดยผูว้ ิจยั ได้นาข้อมูลเข้าสู่ตวั แบบทานาย กาหนดค่า “k” เท่ากับ 5 ที่ทา
53

ให้ค่า ความถูก ต้อ งดี ท่ี สุด และพบว่า ค่า ความถูก ต้อ งของการพยากรณ์ (accuracy) เท่า กับ
82.31%
จะเห็นได้ว่า ผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์ โดยใช้ เทคนิคต้น ไม้
ตัดสินใจ (Decision Tree) เทคนิคป่ าแห่งการทานาย (Random Forest) และเทคนิคเพื่อนบ้าน
ใกล้ท่ี สุด (K-NN) ให้ค่าความถูกต้อง (accuracy) อยู่ในระดับมาก ส่วนเทคนิคการเรียนรู เ้ บย์
(Naïve-Bayes) ให้คา่ ความถูกต้อง (accuracy) อยู่ในระดับน้อยที่สุด ซึ่งมีความเป็ นไปได้ว่า การ
สร้า งตัว แบบท านายโดยซอฟต์แ วร์ Rapid Miner ใน 3 เทคนิ ค ที่ ใ ห้ค่า สูง สามารถปรับ แต่ง
ค่าพารามิเตอร์ในแต่ละตัวแบบทานาย เพื่อให้ได้ตวั แบบทานายที่เหมาะสมที่สดุ ในขณะที่เทคนิค
การเรียนรูเ้ บย์ (Naïve-Bayes) ไม่สามารถปรับแต่งค่าใดได้
2. การวิเคราะห์องค์ประกอบหลักของข้อมูลที่ส่งผลต่อประสิทธิภาพของตัวแบบทานาย
เมื่อข้อมูลได้ผ่านขัน้ ตอนการเตรียมข้อมูลแล้ว ทาให้จานวนตัวแปรที่ใช้มีจานวนเพิ่มขึน้ เท่ากับ 42
ตัวแปร โดยผูศ้ ึกษาวิจัยจึงได้นาเทคนิคการวิเคราะห์องค์ประกอบหลัก (Principal Component
Analysis : PCA) เพื่ อทาการวิเ คราะห์และคัดเลื อกตัวแปรเพื่ อน าไปสร้างตัวแบบท านายการ
พยากรณ์อี ก ครั้ง ซึ่ง ท าให้มี ตัว แปรลดลงเท่า กับ 22 ตัว แปร ซึ่ง พบว่า กระบวนการวิ เ คราะห์
องค์ประกอบหลักของข้อมูล (PCA) ที่เลือกใช้นนั้ ส่งผลทาให้ค่าความถูกต้อง (accuracy) ของ
เทคนิคต้นไม้ตดั สินใจ (Decision Tree) และเทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) เพิ่มขึน้ ในขณะ
ที่เทคนิคเพื่อนบ้านใกล้ท่ีสุด (K-NN) เท่าเดิม และ เทคนิคป่ าแห่งการทานาย (Random Forest)
ลดลง
จะเห็นได้ว่าเทคนิคการวิเคราะห์องค์ประกอบหลักของข้อมูล ส่งผลต่อค่าความถูกต้อง
(accuracy) ของตัวแบบทานาย ซึ่งส่งผลให้ตวั แบบทานายมีประสิทธิภาพเพิ่มขึน้ แค่เฉพาะบาง
เทคนิค และบางเทคนิคกลับมีประสิทธิ ภาพลดลง นั่นหมายความว่า เทคนิคการสร้างตัวแบบ
ทานายที่เลือกใช้นนั้ บางเทคนิคอาจจะเหมาะสมกับการใช้ตวั แปรที่ มีจานวนมาก และมี ความ
ซับซ้อน เมื่ อผู้วิ จัยทาการลดจ านวน และขนาดความซับซ้อนลง จึง ส่ง ผลต่อ ค่าความถูก ต้อ ง
(accuracy) ให้ลดลงด้วย
3. การวิเ คราะห์ความแม่น ตรงของโมเดล K-fold Cross Validation เพื่ อตรวจสอบค่า
ความผิดพลาดในการพยากรณ์ของตัวแบบทานาย โดยผูศ้ กึ ษาวิจยั กาหนดให้คา่ k เท่ากับ 10 และ
ท าการสร้า งตัว แบบท านาย ซึ่ง จะใช้ข้อ มูล ทั้ง ที่ ไ ม่ผ่า น (Ori) และผ่า น (PCA) การวิ เ คราะห์
องค์ประกอบหลักของข้อมูล พบว่าค่าความถูกต้อง(accuracy) โดยรวมของการทานายเมื่อเทียบ
กับข้อมูลที่เ ราใช้ในการทานายนักเรียนที่ มีผลการเรียนในเทอมที่ 3 เป็ น pass และ fail พบว่า
54

เทคนิคที่มีความถูกต้องมากที่สดุ คือ เทคนิคป่ าไม้ตดั สินใจ (Random Forest) เท่ากับ 80.58(Ori)


และ 80.74(PCA)
จากการทดลองจะเห็นได้ว่า การสร้างตัวแบบทานายผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3
ด้วยเทคนิคเหมืองข้อมูลทัง้ 4 เทคนิคให้ผลลัพธ์ท่ีแตกต่างกัน จึงทาให้ผวู้ ิจัยทราบว่าลักษณะของ
ข้อมูลที่ใช้ในการสร้างแบบจาลองมีผลต่อการทานาย และการปรับค่าพารามิเตอร์ ก็ส่งผลให้
ประสิทธิภาพของการทานายเพิ่มขึน้ หรือลดลงได้เช่นกัน ทัง้ นี ้เทคนิคการวิเคราะห์องค์ประกอบ
หลักของข้อมูล ถึงแม้จะทาให้จานวนตัวแปรที่มีจานวนมากสามารถลดจานวนลงได้ แต่ ก็ยงั ไม่
สามารถส่งผลที่เป็ นที่น่าพอใจเมื่อนามาใช้ และไม่สามารถดูได้ว่าตัวแปรใดที่ส่งผลให้ตวั แบบ
ทานายมีประสิทธิภาพสูงสุด นอกจากการลดจานวนของตัวแปรลงเท่านัน้ แต่การใช้ ซอฟต์แวร์
Rapid Miner นัน้ ช่วยให้ผวู้ ิจยั สามารถสร้างแบบจาลองได้ง่าย โดยที่ไม่ตอ้ งทาการ Coding อีกทัง้
ยังใช้เวลาในการประมวลได้อย่างรวดเร็ว
4. การเปรียบเทียบความเหมาะสมในการเลือกเทคนิคที่ใช้ในการสร้างตัวแบบพยากรณ์
เนื่องจากงานวิจยั นีเ้ ป็ นการทานายผลการสอบของเด็กในเทอมที่ 3 และเมื่อพิจารณาจากสิ่งที่เรา
สนใจ คือ การทานายเด็กที่สอบตกจริงว่าสอบตก ซึ่งเป็ นค่า True Positive และ การทานายเด็กที่
สอบตกจริงว่าสอบผ่าน ซึ่งเป็ นค่า False Positive นัน้ จะเป็ นค่าที่มีประโยชน์กับคุณครูมากที่สดุ
ซึ่งจะช่วยให้คณ ุ ครูให้ความสนใจกับเด็กคนดังกล่าวได้และช่วยให้เด็กนักเรียนกลุ่มนัน้ ๆ สามารถ
มีผลสัมฤทธิ์ในเทอมที่ 3 เป็ น ผ่าน ได้ในที่สดุ
โดยเมื่อพิจารณาจากค่า True Positive ที่เราต้องการให้คา่ นีอ้ ยู่ในระดับที่สงู ดังนัน้ เราจึง
ต้อ งการให้ค่า ค่า ความระลึก (Recall) อยู่ใ นระดับ ที่ สูง ด้ว ย และเมื่ อ พิจ ารณาจากค่า False
Positive ที่ เ ราต้อ งการให้ค่า นี ้อ ยู่ใ นระดับ ที่ ต่ า ดัง นั้น เราจึ ง ต้อ งการให้ค่า ค่า ความแม่ น ย า
(Precision) อยูใ่ นระดับที่ต่าด้วย ซึ่งพบว่า เทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) ให้คา่ ความระลึก
(Recall) อยู่ในระดับที่ สูง ที่ สุด เท่ากับ 62.14(Ori) และ 30.48 (PCA) และให้ค่าความแม่นย า
(Precision) อยู่ในระดับ ที่ ต่ า เท่ากับ 50.19(Ori) และ 55.09 (PCA) จึง ทาให้ค่า ความถ่ ว งดุล
(f1_measure) ของเทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) เป็ นเทคนิคที่มีคา่ เฉลี่ยมากที่สุด ดังนัน้
จึง เลื อก เทคนิคการเรียนรู เ้ บย์ (Naïve-Bayes) เป็ นเทคนิคที่ ใช้ในการสร้างตัวแบบพยากรณ์
ผลสัมฤทธิ์ในเทอมที่ 3 ของนักเรียน
55

5.2 ข้อเสนอแนะ
การเตรียมข้อมูลก่อนการทาการวิเคราะห์และสร้างแบบทานายนัน้ มีความสาคัญเป็ น
อย่างมาก เพราะหากทาการแปลงข้อมูลผิดพลาด อาจส่งผลต่อตัวแบบทานาย รวมทัง้ เมื่อทาการ
แปลงข้อมูลแล้วส่งผลทาให้ได้ขอ้ มูลที่มีจานวนมากขึน้ สาหรับงานวิจยั นีใ้ นอนาคต อาจใช้วิธีการ
คัดเลือกคุณลักษณะของข้อมูลวิธีอ่ืน ๆ ที่จะสามารถลดมิติของข้อมูล หรือลดจานวนของข้อมูลลง
ได้ เช่น การคัดเลือกคุณลักษณะแบบแรปเปอร์ ซึ่ง Ferda Ünal ได้ใช้ในการทานายผลการเรียน
ของเด็กนักเรียน รัชพล กลัดชื่น และ จรัญ แสนราช (2561) ก็ยงั ใช้การคัดเลือกคุณลักษณะแบบ
ฟิ ลเตอร์ และการคัดเลือกคุณลักษณะแบบฝั งตัว ซึ่งช่วยลดมิติของข้อมูลเพื่อใช้ในการทานาย
ผลสัมฤทธิ์ทางการเรียนของนักศึกษาระดับอาชี วศึกษา และเห็นถึงความแตกต่างของค่าความ
ถูกต้องในการสร้างตัวแบบทานายอย่างชัดเจนมากขึน้ อีกทัง้ การแบ่งข้อมูลในการสร้างตัวแบบ
ทานาย
ทัง้ นีก้ ารสุ่มหรือแบ่งข้อมูลก่อนการสร้างตัวแบบทานายก็มีความสาคัญที่จะทาให้ขอ้ มูล
ของเราไม่มีความโอนเอียงไปข้างใดข้างหนึ่งจนเกินไป ดังนัน้ ขัน้ ตอนการแบ่งข้อมูลเพื่อใช้เป็ นกลุ่ม
ข้อมูลสอน (Training Data) และกลุ่มข้อมูลทดสอบ (Test Data) ควรต้องคานึงถึงข้อมูลโดยต้อง
กาหนดให้ขอ้ มูลของเด็กที่สอบผ่านและสอบตก อยู่ในจานวนที่เหมาะสม เพื่อไม่ให้โมเดลมีขอ้ มูล
ใดข้อมูลหนึ่งมากเกินไป และทานายได้ถกู ต้องมากยิ่งขึน้ และนอกจากนีย้ งั มีเทคนิคเหมืองข้อมูล
อื่น ๆ ที่สามารถสร้างตัวแบบทานายเพื่อพยากรณ์ผลการเรียนของนักเรียนจาก Data set นีไ้ ด้
บรรณานุกรม

บรรณานุกรม

Cortez, P. (2008). Student Performance Data Set. Retrieved from


https://archive.ics.uci.edu/ml/datasets/Student+Performance
Cortez, P., & Silva, A. (2008). Using Data Mining to Predict Secondary School Student
Performance. Paper presented at the FUture BUsiness TEChnology Conference
(FUBUTEC 2008)
Cube, D. (2564). เอกสารประกอบการอบรมหลักสูตรอบรม Practical Data Mining with
RapidMiner Studio 9. Retrieved from สืบค้นเมื่อวันที่ 30 มกราคม 2564, จาก
https://datacubeth.ai/crisp-dm/
Deepika, K., & Sathyanarayana, N. (2018). Comparison Of Student Academic Performance
On Different Educational Dataset Using Different Data Mining Techniques.
International Journal of Computational Engineering Research (IJCER), 08(09), 28-
38.
LTD, C. C. (2560). สถิตเิ บือ้ งต้นง่าย ๆ ที่จะทาให้คณ
ุ เข้าใจการวิเคราะห์มากขึน้ . Retrieved from
สืบค้นเมื่อวันที่ 30 มกราคม 2564, จาก https://medium.com/@info_46914/
Petkovic, D., & Yang, S. H. B. J. From Explaning How Random Forest Classifier Predicts
Learning of Software Engineering Teamwork to Guidance for Education.
Ünal, F. (2020). Data mining for student performance prediction in education. Retrieved
from https://www.intechopen.com/online-first/data-mining-for-student-performance-
prediction-in-education
ชณิดาภา บุญประสม, & จรัญ แสนราช. (2561). การวิเคราะห์การทานายการลาออกกลางคันของ
นักศึกษา ระดับปริญญาตรีโดยใช้เทคนิควิธีการทาเหมืองข้อมูล. วารสารวิชาการครุศาสตร์
อุตสาหกรรม พระจอมเกล้าพระนครเหนือ, 9(1), 98-105.
ชิตพงษ์ กิตตินราดร. (2562). Categorical Encoding. Retrieved from สืบค้นเมื่อวันที่ 30 มกราคม
2564, จาก https://guopai.github.io/ml-blog05.html
ณัฐพร เห็นเจริญเลิศ. (2558). รายงานผลการเข้าฝึ กอบรมหลักสูตร การวิเคราะห์ขอ้ มูลด้วยเทคนิค
Data Mining โดยซอฟต์แวร์ RapidMiner Studio 6 (ขัน้ พืน้ ฐานและปานกลาง). Retrieved
57

from สาขาวิชาวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยเกษตรศาสตร์วิทยาเขตบางเขน :


กรุงเทพฯ:
ธีระดา ภิญโญ. (2561). เทคนิคการแปลผลการวิเคราะห์องค์ประกอบสาหรับงานวิจยั . วารสาร
ปัญญาภิวฒ ั น์(10), 290-304.
ปรเมษฐ์ ธันวานนท์, ชัยกรยิ่ง เสรี, วรพล พงษ์เพ็ชร, & และธนภัทร ฆังคะจิตรสกสรรค์. (2560). การ
ประยุกต์ใช้โมเดลการเรียนรูแ้ บบรวมกลุม่ เพื่อพยากรณ์แนวโน้มของราคาหลักทรัพย์ใน
ตลาดหลักทรัพย์แห่งประเทศไทย. JOURNAL OF INFORMATION SCIENCE AND
TECHNOLOGY, 7, 12-21.
ปริวรรต เพียรภายลุน, ธาดา จันตะคุณ, & รักถิ่น เหลาหา. (2560). การเปรียบเทียบตัวแบบสาหรับ
ใช้พยากรณ์คะแนน O-NET ด้วยเทคนิคเหมืองข้อมูล. Paper presented at the การประชุม
วิชาการระดับชาติครัง้ ที่ 2 กาญจนบุรี : มหาวิทยาลัยราชภัฏกาญจนบุรี.
รัชพล กลัดชื่น, & จรัญ แสนราช. (2561). การเปรียบเทียบประสิทธิภาพอัลกอริทมึ และการคัดเลือก
คุณลักษณะที่เหมาะสม เพื่อการทานายผลสัมฤทธิ์ทางการเรียนของนักศึกษาระดับ
อาชีวศึกษา. วารสารวิจยั มหาวิทยาลัยเทคโนโลยีราชมงคลธัญบุรี, 17(1), 1-10.
ศศิธร ตุม้ เพชรรัตน์, สมบูรณ์ อเนกฤทธิ์มงคล, & สุมนา เกษมสวัสดิ.์ (2560). การพยากรณ์ผลการ
สอบ TOEIC สาขาวิชาภาษาอังกฤษ มหาวิทยาลัยรังสิต โดยใช้เทคนิคเหมืองข้อมูล. Paper
presented at the การประชุมวิชาการระดับชาติ มหาวิทยาลัยรังสิต ประจาปี 2560.
สมชาย รัตนทองคา. (2554). เอกสารประกอบการสอน การวัดและประเมินผลทางการศึกษา.
เสกสรรค์ วิลยั ลักษณ์, วิภา เจริญภัณฑารักษ์, & ดวงดาว วิชาดากุล. (2558). การใช้เทคนิคการทา
เหมืองข้อมูลเพื่อพยากรณ์ผลการเรียนของนักเรียนโรงเรียนสาธิตแห่ง
มหาวิทยาลัยเกษตรศาสตร์ วิทยาเขตกาแพงแสน ศูนย์วิจยั และพัฒนาการศึกษา. วาสาร
สาขาวิทยาศาสตร์และเทคโนโลยี, 2(2), 1-17.
อดุลย์ ยิม้ งาม. (2551). การทาเหมืองข้อมูล (Data Mining). Retrieved from สืบค้นเมื่อวันที่ 30
มกราคม 2564, จาก http://compcenter.bu.ac.th/news-information/data-mining
อัจฉราภรณ์ จุฑาผาด. (2559). การพัฒนาระบบสารสนเทศเพื่อการพยากรณ์จานวนนักศึกษาใหม่
โดยใช้กฎการจาแนกต้นไม้ตดั สินใจ. เอกสารประการประชุมวิชาการระดับชาติ. Paper
presented at the นเรศวรวิจยั ครัง้ ที่ 12 : วิจยั และนวัตกรรมกับการพัฒนาประเทศ,
พิษณุโลก : มหาวิทยาลัยนเรศวร.
58
ประวัติผเขี
ู้ ย น

ประวัตผิ ู้เขียน

ชื่อ-สกุล จิราภรณ์ เจริญยิ่ง


วัน เดือน ปี เกิด 06 มีนาคม 2534
สถานทีเ่ กิด กรุงเทพฯ
วุฒกิ ารศึกษา พ.ศ. 2556
ศิลปศาสตร์บณ ั ฑิต เกียรตินิยมอันดับ 2
สาขาบรรณารักษศาสตร์และสารสนเทศศาสตร์
จาก มหาวิทยาลัยศรีนครินทรวิโรฒ

You might also like