Professional Documents
Culture Documents
จิราภรณ์ เจริญยิ่ง
บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ
2563
การพยากรณ์ผลสัมฤทธิ์ทางการเรียน
ด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner
จิราภรณ์ เจริญยิ่ง
สารนิพนธ์นีเ้ ป็ นส่วนหนึ่งของการศึกษาตามหลักสูตร
วิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ
คณะวิทยาศาสตร์ มหาวิทยาลัยศรีนครินทรวิโรฒ
ปี การศึกษา 2563
ลิขสิทธิ์ของมหาวิทยาลัยศรีนครินทรวิโรฒ
THE PREDICTION OF STUDENT PERFORMANCE
USING DATA MINING TECHNIQUES WITH RAPID MINER
JIRAPORN JAREANYING
คณะกรรมการสอบปากเปล่าสารนิพนธ์
.............................................. กรรมการ
(อาจารย์ ดร.โสภณ มงคลลักษมี)
ง
บทคัดย่อภาษาไทย
ชื่อเรื่อง การพยากรณ์ผลสัมฤทธิ์ทางการเรียน
ด้วยเทคนิคเหมืองข้อมูลโดยใช้ Rapid Miner
ผูว้ ิจยั จิราภรณ์ เจริญยิ่ง
ปริญญา วิทยาศาสตรมหาบัณฑิต
ปี การศึกษา 2563
อาจารย์ท่ีปรึกษา ผูช้ ว่ ยศาสตราจารย์ ดร. วีรยุทธ เจริญเรืองกิจ
This research presents education data mining using data classification and
Principal Component Analysis (PCA) to predict student grades using several variables
and algorithms. The algorithms used in this paper are Decision Tree, Random Forest,
Naïve- Bayes, and K- NN ( K- Nearest Neighbors) . The dataset experiment included
secondary school students in Portuguese schools containing information about the
socioeconomic environment of the students and learning environment from the UCI
Machine Learning Repository. The population consisted of 649 samples with 31 attributes.
The experimental results showed that the best accuracy from the Random Forest
technique was 80.74 and the Naïve-Bayes technique had the highest average at 55.52.
กิตติกรรมประกาศ
จิราภรณ์ เจริญยิ่ง
สารบัญ
หน้า
บทคัดย่อภาษาไทย ................................................................................................................ ง
บทคัดย่อภาษาอังกฤษ ........................................................................................................... จ
กิตติกรรมประกาศ.................................................................................................................. ฉ
สารบัญ ................................................................................................................................. ช
สารบัญตาราง ....................................................................................................................... ฌ
สารบัญรูปภาพ .....................................................................................................................ญ
บทที่ 1 บทนา........................................................................................................................ 1
1.1 ความสาคัญและที่มาของงานวิจยั ................................................................................. 1
1.2 วัตถุประสงค์ของงานวิจยั ............................................................................................. 2
1.3 ขอบเขตของงานวิจยั .................................................................................................... 2
1.4 วิธีดาเนินงานวิจยั ........................................................................................................ 2
1.5 ประโยชน์ท่ีคาดว่าจะได้รบั จากงานวิจยั ......................................................................... 3
บทที่ 2 แนวคิด ทฤษฎี เทคโนโลยีท่ีเกี่ยวข้อง ............................................................................ 4
2.1 ทฤษฎีพืน้ ฐานเกี่ยวกับการทาเหมืองข้อมูล (Data Mining) ............................................. 4
2.2 การแปลงข้อความเป็ นตัวเลข (Label Encoding)........................................................... 5
2.3 การแปลงข้อความเป็ นตัวเลขฐาน 2 ( One-hot Encoding) ............................................ 6
2.4 การหาค่าสหสัมพันธ์ (Correlation) ............................................................................... 7
2.5 การวิเคราะห์องค์ประกอบหลัก (Principal Component Analysis : PCA) ....................... 8
2.5 เทคนิคต้นไม้ตดั สินใจ (Decision Tree) ......................................................................... 9
2.6 เทคนิคป่ าแห่งการทานาย (Random Forest) .............................................................. 10
2.6 เทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) ......................................................................... 11
ซ
หน้า
ตาราง 1 ตารางแสดงสัตว์เลีย้ ง................................................................................................ 6
ตาราง 2 ตารางแสดงสัตว์เลีย้ งหลังจากแปลงเป็ น Label Encoder............................................ 6
ตาราง 3 ตารางแสดงสีเสือ้ แดง 1 เขียว 2 นา้ เงิน 3 .................................................................. 7
ตาราง 4 ตารางสีเสือ้ หลังจากแปลงเป็ น One Hot Encoding.................................................... 7
ตาราง 5 Data Dictionary อธิบายรายละเอียดในแต่ละแอตทริบวิ ต์......................................... 27
ตาราง 6 (ต่อ) ...................................................................................................................... 28
ตาราง 7 (ต่อ) ...................................................................................................................... 29
ตาราง 8 ตัวอย่างการแปลงข้อมูลในรูป Label encoding ....................................................... 29
ตาราง 9 ตัวอย่างการแปลงข้อมูลในรูป one hot encoding .................................................... 30
ตาราง 10 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า maximal depth ที่ดีท่ีสดุ ของเทคนิคต้นไม้
ตัดสินใจ (Decision Tree) .................................................................................................... 33
ตาราง 11 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า number of trees ที่ดีท่ีสดุ ของป่ าแห่งการ
ทานาย (Random Forest) .................................................................................................... 34
ตาราง 12 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า maximal depth ที่ดีท่ีสดุ ของป่ าแห่งการทานาย
(Random Forest) ................................................................................................................ 34
ตาราง 13 แสดงผลลัพธ์จากการทดสอบสุม่ หาค่า k ที่ดีท่ีสดุ ของป่ าแห่งการทานาย เทคนิคเพื่อน
บ้านใกล้ท่ีสดุ (K-Nearest Neighbors) ................................................................................. 36
ตาราง 14 ผลการเปรียบเทียบค่าความถูกต้องจากการสร้างตัวแบบทานาย ............................. 47
ตาราง 15 ผลการเปรียบเทียบค่าความถูกต้องจากการสร้างตัวแบบทานาย เมื่อข้อมูลผ่าน PCA49
ตาราง 16 ผลการเปรียบเทียบประสิทธิภาพจากการสร้างตัวแบบทานาย โดยใช้วิธี K-fold cross
validation ........................................................................................................................... 51
สารบัญรู ปภาพ
หน้า
ภาพประกอบ 1 ขัน้ ตอนในการทา CRISP-DM ......................................................................... 4
ภาพประกอบ 2 ระดับค่าความสัมพันธ์ของ Correlation ........................................................... 8
ภาพประกอบ 3 แบบจาลองการสร้าง PCA .............................................................................. 9
ภาพประกอบ 4 การสร้างโมเดลด้วยเทคนิคต้นไม้ตดั สินใจ ...................................................... 10
ภาพประกอบ 5 การสร้างป่ าแห่งการทานาย .......................................................................... 11
ภาพประกอบ 6 การทอยลูกเต๋าเพื่อคานวณความน่าจะเป็ น .................................................... 12
ภาพประกอบ 7 การแบ่งกลุ่มข้อมูลด้วยเทคนิคเพื่อนบ้านใกล้ท่ีสดุ .......................................... 13
ภาพประกอบ 8 ขัน้ ตอนการวิเคราะห์ความแม่นตรงของตัวแบบทานาย K-fold cross validation
........................................................................................................................................... 14
ภาพประกอบ 9 แสดงตาราง Confusion Matrix ..................................................................... 15
ภาพประกอบ 10 Operator Read CSV................................................................................. 16
ภาพประกอบ 11 Operator Set Role .................................................................................... 16
ภาพประกอบ 12 Operator Correlation Matrix ..................................................................... 17
ภาพประกอบ 13 Operator Apply Model ............................................................................. 18
ภาพประกอบ 14 Operator decision tree ............................................................................ 19
ภาพประกอบ 15 Operator Random Forest......................................................................... 20
ภาพประกอบ 16 Operator Naive Bayes ............................................................................. 21
ภาพประกอบ 17 Operator k-NN ......................................................................................... 22
ภาพประกอบ 18 Operator Set Role .................................................................................... 23
ภาพประกอบ 19 Operators Cross Validation ..................................................................... 23
ภาพประกอบ 20 แสดงขัน้ ตอนการดาเนินงานวิจยั ................................................................. 26
ฎ
1.2 วัตถุประสงค์ของงานวิจัย
1.เพื่ อศึกษาเทคนิ คที่ เ หมาะสมในการพยากรณ์ผ ลสัม ฤทธิ์ ทางการเรี ยนด้วยการท า
เหมืองข้อมูล
2.เพื่อพยากรณ์ผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3 ของนักเรียนในข้อมูลตัวอย่าง
3.เพื่อสารวจตัวแปรที่สามารถทานายผลสัมฤทธิ์ทางการเรียนของนักเรียน
1.3 ขอบเขตของงานวิจัย
การวิจัยนี เ้ ป็ นการทาเหมื องข้อมูลทางการศึกษา (Education Data Mining) โดยการ
จาแนกประเภทข้อมูล (Classification) หาความสัมพันธ์ของข้อมูล และเปรียบเทียบประสิทธิภาพ
ของอัลกอริทึม โดยเป็ นการศึกษาด้วยเทคนิค ต้นไม้ตดั สินใจ (Decision Tree) เทคนิคป่ าแห่งการ
ทานาย (Random Forest) การเรียนรู เ้ บย์ (Naïve-Bayes) และ K-NN (K-Nearest Neighbors)
โดยใช้ซ อฟต์แวร์ Rapid Miner Studio ในการประมวลผลข้อมูล และสร้างตัวแบบทานายการ
พยากรณ์ผลสัมฤทธิ์ทางการเรียน
1.4 วิธีดาเนินงานวิจัย
1. ศึกษางานวิจยั ที่เกี่ยวข้อง: Literature Review โดยศึกษาทฤษฎีและศึกษางานวิจัยที่
เกี่ยวกับเทคนิคการทาเหมืองข้อมูล (Data Mining)
2. กาหนดขอบเขตการศึกษา เลือกเครื่องมือที่ใช้ในการประมวลผลการพยากรณ์
- ชุดข้อมูล คือ การเตรียมข้อมูล, วิเคราะห์ขอ้ มูลและค่าต่าง ๆ ที่จะทานาย
3
ที่มา: https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_
Mining
5
ตาราง 1 ตารางแสดงสัตว์เลีย้ ง
ชื่อ สัตว์เลีย้ ง
คุณ A Dog
คุณ B Cat
คุณ C Dog
คุณ D Mouse
ชื่อ สัตว์เลีย้ ง
คุณ A 1
คุณ B 2
คุณ C 1
คุณ D 3
เมื่อเราแปลงข้อมูล Column สีเสือ้ เป็ น One Hot Encoding แล้ว จะได้ดงั ตารางที่ 4
ที่มา : https://kongruksiamza.medium.com/สรุป-machine-learning-ep-5-การ
วิเคราะห์องค์ประกอบหลัก-pca-185c29aa8954
ที่มา : https://dataminingtrend.com/2014/data-minimg-techniques/ensemble-
model/
ที่มา : https://medium.com/@witchapongdaroontham/เจาะลึก-random-forest-
part-2-of-รูจ้ กั -decision-tree-random-forest-และ-xgboost-79b9f41a1c1c
ภาพประกอบ 6 การทอยลูกเต๋าเพื่อคานวณความน่าจะเป็ น
ที่มา : http://cakeknowledgeblogs.blogspot.com/2019/08/naive-bayes-
classification-1.html
ภาพประกอบ 7 การแบ่งกลุ่มข้อมูลด้วยเทคนิคเพื่อนบ้านใกล้ท่ีสดุ
ที่มา : https://kongruksiamza.medium.com/สรุป-machine-learning-ep-4-เพื่อน
บ้านใกล้ท่ีสดุ -k-nearest-neighbors-787665f7c09d
ที่มา : https://www.kaggle.com/discussion/204878
2.9 การวัดประสิทธิภาพของตัวแบบทานาย
ตัววัดประสิทธิภาพของตัวแบบทานายเป็ นวิธีการที่ใช้ในการประเมิ นคุณภาพของการจัด
กลุ่ม รวมไปถึ ง การประเมิ น ประสิ ท ธิ ภ าพของตัว แบบท านาย โดยการน าผลลัพ ธ์ท่ี ไ ด้จ าก
แบบจาลองมาสร้างเป็ น Confusion Matrix ดังภาพประกอบที่ 9 ดังนี ้
True Positive ( TP ) คือ สิ่งที่โปรแกรมทานายว่า “จริง” และ มีคา่ เป็ น “ จริง ”
True Negative ( TN ) คือ สิ่งที่โปรแกรมทานายว่า “ไม่จริง” และ มีคา่ “ ไม่จริง ”
False Positive ( FP ) คือ สิ่งที่โปรแกรมทานายว่า “จริง” แต่ มีคา่ เป็ น “ไม่จริง”
False Negative ( FN ) คือ สิ่งที่โปรแกรมทานายว่า “ไม่จริง” แต่ มีคา่ เป็ น “จริง”
15
ซึ่งการประเมินความแม่นตรงของตัวแบบทานายที่เลือกใช้ประกอบด้วย
1) Accuracy คือ ค่าความถูกต้อง ค่าที่บอกว่าโปรแกรมสามารถทานายได้
แม่นยาขนาดไหนเป็ นการวัดความถูกต้องของ Model โดยพิจารณารวมทุกคลาส
2) Precision คื อ ค่า ความแม่ น ย า ค่า ที่ บ อกว่ า โปรแกรมท านายว่ า จริ ง
ถูกต้องเท่าไหร่ เป็ นการวัดความแม่นยาของข้อมูล โดยพิจารณาแยกทีละคลาส
3) Recall คื อ ค่า ความระลึ ก ค่า ที่ บ อกว่ า โปรแกรมท านายได้จ ริ ง เป็ น
อัตราส่วนเท่าไหร่ของค่าจริงทั้งหมดเป็ นการวัดความถูกต้องของ Model โดยพิจารณาแยกทีละ
คลาส
4) f1_measure คือ ค่าความถ่วงดุล เป็ นการนาค่า Precision กับ Recall มา
คานวณค่าเฉลี่ยกันสาหรับพิจารณาร่วมกันเพื่อความแม่นยา และความครบถ้วน
Input
- File (ไฟล์) เอกสารหรือไฟล์นามสกุล .CSV
Output
- Output (ตารางข้อมูล) พอร์ต (Port) นีจ้ ะส่งออกชุดข้อมูล ExampleSet
ที่สร้างจากไฟล์ CSV ที่นาเข้าจากพอร์ตอินพุต
2.9.2 Operator Set Role ดังภาพประกอบที่ 11 เป็ นการกาหนด column left ให้
เป็ นประเภท Label รายละเอียดดังนี ้
พอร์ต นี ้จ ะส่ ง ค่า ชุด ข้อ มูล ExampleSet ตั้ง ต้น ที่ ไ ด้รับ ผ่ า นทางพอร์ต
อินพุต โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
Input
- example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
- matrix (ค่าเมทริกซ์)
พอร์ตนีจ้ ะส่งค่าเมทริกซ์ของตัวแปร ซึ่งเมื่อไม่ได้กาหนดค่าของตัวแปรส่งผล
ให้คา่ นัน้ หายไป และพอร์ตจะคานวณเฉพาะค่าที่สมบูรณ์
- weights (ค่านา้ หนักของตัวแปร)
พอร์ตนีจ้ ะส่งค่านา้ หนักของตัวแปรที่คานวณแล้วไปพอร์ตต่อไป
18
Input
- query set (ตารางข้อมูล)
พอร์ตอินพุตสาหรับรับค่า ExampleSet ที่มีคา่ แอตทริบิวต์ของข้อมูลตรงกับ
แอตทริบวิ ต์ของข้อมูลที่ผา่ นการเรียนรูข้ องแบบจาลอง
- Model (แบบจาลอง)
พอร์ตอินพุตรับค่าแบบจาลอง ที่แอตทริบิวต์ของข้อมูลที่ผ่านการเรียนรู เ้ พื่อ
สร้างแบบจาลองนัน้ มีคา่ ตรงกันกับชุดข้อมูล ExampleSet
Output
- result set (ตารางข้อมูล)
ExampleSet ที่ส่งมาจากพอร์ตนีถ้ กู เปลี่ยนโดยใช้แบบจาลอง ในที่นีจ้ ะเพิ่ม
ค่ารายการแนะนาพร้อมการอันดับ
- Model (แบบจาลอง)
พอร์ตนีจ้ ะส่งค่าแบบจาลองตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต โดยที่ไม่ได้
ผ่านขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
19
Input
- example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- Model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลอง decision tree
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
Parameters
- criterion การกาหนดเกณฑ์ท่ีจะเลือกแอตทริบวิ ต์เพื่อนามาสร้างโมเดล
- maximal depth กาหนดค่าความลึกของต้นไม้แต่ละต้น จานวน level
ที่มากที่สดุ ของ node ที่จะทาการ split
- confidence การกาหนดระดับ ความเชื่ อ มั่นที่ ใช้ส าหรับการค านวณ
ข้อผิดพลาดในสร้างโมเดล
20
Input
- example Set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet ที่ใช้ในการเรียนรูโ้ มเดล
Output
- model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลอง Naive Bayes
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
- weights (ค่านา้ หนัก)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ที่กาหนดค่านา้ หนักของแอตทริ
บิวต์ท่ีใช้ในการทานาย
Parameters
- number of tree การกาหนดจานวน tree ที่จะนามาสร้างโมเดล
- criterion การกาหนดเกณฑ์ท่ีจะเลือกแอตทริบวิ ต์เพื่อนามาสร้างโมเดล
- maximal depth กาหนดค่าความลึกของต้นไม้แต่ละต้น จานวน level
ที่มากที่สดุ ของ node ที่จะทาการ split
21
Input
- example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- Model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลอง Naive Bayes
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
Parameters
- laplace correction คือการเพิ่มจานวนเรคคอร์ด 1 เรคคอร์ดให้แต่ละ
กรณีของแต่ละค่าที่จะเกิดขึน้ ในแอตทริบิวต์ท่ีพิจารณา เมื่อแอตทริบิวต์ท่ีพิจารณานัน้ มีคา่ ไม่ครบ
จนทาให้การคานวณความน่าจะเป็ นในแต่ละครัง้ มีเป็ นค่า 0 เมื่อตัง้ ค่าแล้วจะเติมจานวนเรคคอร์ด
ให้สามารถคานวณค่าความน่าจะเป็ นได้
Input
- example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล ExampleSet
Output
- Model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลอง k-nn
- example set (ตารางข้อมูล)
พอร์ตนีจ้ ะส่งค่าชุดข้อมูล ExampleSet ตัง้ ต้นที่ได้รบั ผ่านทางพอร์ตอินพุต
โดยที่ไม่ได้ผา่ นขัน้ ตอนการตัง้ ค่าบทบาทใด ๆ
Parameters
- k การกาหนดจานวนตัวอย่างที่ อยู่ใกล้เคียงที่สุดกับตัวอย่างที่ไม่รูจ้ กั
โดยทั่วไป k เป็ นจานวนเต็มบวก และเป็ นจานวนคี่
- measure types การกาหนดลักษณะการวัดที่ใช้ในการหาเพื่อนบ้านที่
ใกล้ท่ีสดุ และนามาใช้ในการสร้างโมเดล
Input
- Example set (ตารางข้อมูล)
พอร์ตอินพุตจะรับค่าชุดข้อมูล Example Set
Output
- Model (แบบจาลอง)
พอร์ตเอาต์พตุ ให้คา่ แบบจาลองตามอัลกอริทมึ ที่เชื่อมต่อ
Parameters
- number of folds จานวนการแบ่งกลุ่มข้อมูลเพื่อใช้เป็ น กลุ่มข้อมูลสอน
(Training Data) และกลุม่ ข้อมูลทดสอบ (Test Data)
- sampling type การกาหนดวิธีการเลือกกลุม่ ตัวอย่างเพื่อทาการทานาย
24
3.1 การจัดเตรียมข้อมูล
เป็ นการกลั่นกรองข้อมูลให้เหลือเพียงข้อมูลที่สมบูรณ์ และอยู่ในรูปแบบที่พร้อมจะนาไป
ป ร ะ ม ว ล ผ ล โ ด ย น า ข้ อ มู ล ที่ ไ ด้ จ า ก แ ห ล่ ง ข้ อ มู ล UCI Machine Learning Rapository
ดังภาพประกอบที่ 21
27
ภาพประกอบ 21 รายละเอียดชุดข้อมูลของนักเรียน
ตาราง 6 (ต่อ)
ตาราง 7 (ต่อ)
3.1.2 เนื่ อ งจากข้อ มูล ที่ น ามาใช้ มี ทั้ง ในรู ป แบบของตัว อัก ษร(Nominal) และตัว เลข
(Numeric) จึงทาการแปลงข้อมูลจากตัวอักษรให้อยู่ในรู ปแบบของตัวเลขทัง้ หมดเพื่อ ให้ตวั แบบ
ทานายสามารถทางานได้ ดังนี ้
1 . Label endcoding: คื อ การแปลงข้อ มูล ในแต่ล ะคอลัม น์ใ ห้เ ป็ น id ที่
ต่างกัน ซึ่งตัวเลขที่อยูใ่ กล้กนั จะถูกตีความว่ามี "คุณค่า" ใกล้กนั เช่น 1 กับ 2 ใกล้กนั มากกว่า 1 กับ
3 ดังนัน้ ถ้าค่าจริงของ 1, 2, 3 มีความสัมพันธ์เชิงคุณค่าที่ตอ่ เนื่องกัน สามารถใช้ได้เลย เช่นถ้า 1
แปลว่า "น้อย", 2 แปลว่า "ปานกลาง", และ 3 แปลว่า "มาก" เป็ นต้น เช่น Famsize คือ จานวน
สมาชิกในครอบครัว มีคา่ เป็ น LE3 คือ น้อยกว่า หรือ เท่ากับ 3 และ GT3 คือ มากกว่า 3 แปลงให้
อยูใ่ นรูป Label endcoding ดังตารางที่ 8
LE3 1
GT3 2
1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 1 0 1
3.1.3 การหาความสัม พั น ธ์ข องตัว แปรก่ อ นการท านาย (Correlation) เป็ นการหา
ความสัมพันธ์ของแต่ละตัวแปร เพื่อเลือกนาเฉพาะตัวแปรที่จะส่งผลให้การทานายมีความถูกต้อง
แม่ น ย ามากยิ่ ง ขึ ้น โดยเริ่ ม จากการ Import ข้ อ มู ล เข้ า ใน Rapid Miner โดยใช้ Operator
Correlation Matrix และก าหนด Parameters attribute filter type .ให้เ ป็ น all เพื่ อ เลื อ กข้อ มูล
ทัง้ หมดในการทา Correlation และเลือก normalize weights เพื่อประมวลค่านา้ หนัก Correlation
ให้เป็ นค่าตัง้ แต่ 0 – 1 และ 0 – (-1) ดังภาพประกอบที่ 22
1. การสร้า งตัว แบบท านายโดยใช้เ ทคนิ ค ต้น ไม้ตัด สิ น ใจ ( Decision Tree) โดยใช้
Operator Decision Tree และกาหนด Parameters ดังภาพประกอบที่ 26
- criterion ตัง้ ค่าเป็ น gini_index ค่าที่บง่ บอกว่าคุณลักษณะหรือปั จจัยใด
ควรนามาใช้เป็ นคุณลักษณะในการแบ่งกลุ่มของอัลกอรึธึม โดยจะคานวณให้ได้ค่า gini ที่นอ้ ย
ที่สดุ มาเป็ นโหนดราก
- confidence ตัง้ ค่าเป็ น 0.1 เพื่ อกาหนดค่าช่วงความเชื่ อมั่นที่ ใช้
สาหรับการคานวณ error ในการทานาย
- maximal depth ตัง้ ค่าเป็ น 10 ขัน้ เพื่อกาหนดค่าความลึกของต้นไม้ โดย
ได้จากการเปรียบเทียบการกาหนดค่า maximal depth ที่ให้ผลลัพธ์ท่ีดีท่ีสดุ เมื่อถึง Scenario 5 ที่
ให้ผลลัพธ์เท่ากับค่าใน Scenario 2- 4 ผูว้ ิจยั จึงหยุดสุม่ ค่า maximal depth ดังตารางที่ 10
33
Scenario 1 5 90.00
Scenario 2 10 91.54
Scenario 3 15 91.54
Scenario 4 20 91.54
Scenario 5 25 91.54
Scenario 1 50 99.23
Scenario 1 5 88.46
Scenario 2 10 98.46
Scenario 3 15 100
Scenario 4 20 100
35
4. การสร้า งตัว แบบท านายโดยใช้ เ ทคนิ ค เพื่ อ นบ้า นใกล้ท่ี สุ ด k-NN (K-Nearest
Neighbors) โดยใช้ Operator k-NN และกาหนด Parameters ดังภาพประกอบที่ 29
- k เป็ นการก าหนดข้อ มู ล ที่ อ ยู่ ใ กล้เ คี ย ง ตั้ง ค่ า เป็ น 5 โดยได้จ ากการ
เปรียบเทียบการกาหนดค่า k ที่ให้ผลลัพธ์ท่ีดีท่ีสุด เมื่อถึง Scenario 5 ที่ให้ผลลัพธ์เท่ากับค่าใน
Scenario 3 - 4 ผูว้ ิจยั จึงหยุดสุม่ ค่า maximal depth ดังตารางที่ 13
36
No. k ค่าความถูกต้อง %
Scenario 1 5 82.31
Scenario 2 10 81.54
Scenario 3 15 77.69
Scenario 4 20 77.69
Scenario 5 25 77.69
3.2 การคัดเลือกข้อมูล
เป็ นการนาข้อมูลมาพิจารณาว่าจะเลือกข้อมูลใดบ้าง เนื่องจากการสร้างตัวแบบทานาย
เป็ นการนาข้อมูลทัง้ หมดมาใช้ในการทานาย โดยหลังจากการผ่านขัน้ ตอนการเตรียมข้อมูล และ
หาความสัมพันธ์ของตัวแปรแล้ว ทาให้มีตวั แปร ทัง้ หมด 42 ตัวแปร ซึ่งยังไม่ทราบว่าข้อมูลที่ใช้ จะ
สามารถใช้งานได้ทงั้ หมดหรือไม่ อาจส่งผลต่อความถูกต้องของการประมวลผล ดังนัน้ ผูว้ ิจยั จึงทา
การคัดเลือกข้อมูล โดยการวิเคราะห์องค์ประกอบหลัก Principal Component Analysis (PCA)
ซึ่งเป็ นเทคนิคเชิงคานวณที่นิยมนามาใช้ในการย่อยข้อมูล และวิเคราะห์ขอ้ มูลที่มีหลายตัวแปร
37
3.3 การวัดประสิทธิภาพของตัวแบบทานาย
เป็ นการทานายค่าความแม่นยาของตัวแบบทานายแต่ละประเภท โดยใช้วิธี K-fold cross
validation ซึ่ง จะทาการแบ่ง ข้อมูลเป็ น 10 ส่วน โดยเท่า ๆ กัน แล้วทาการทดสอบ จากนั้นจะ
เปลี่ยนข้อมูลทดสอบชุดที่ 2 เป็ นข้อมูลทดสอบ และข้อมูลส่วนที่เหลือคือ 1-(k-1) เป็ นชุด
ข้อมูลสอน ทาไปเรื่อย ๆ จนครบถึงชุดทดสอบที่ K เป็ นชุดทดสอบ และส่วนที่ 1-(k-1) เป็ นชุด
ข้อมูลสอน และนาค่าที่ได้มาหาค่าเฉลี่ย
โดยสร้างตัวแบบทานายเพื่อทานายผลการเรียนในเทอมที่ 3 ของนักเรียน โดยใช้เทคนิค
เหมืองข้อมูล เช่นเดิมอีกครัง้ และใช้ชดุ ข้อมูล ทัง้ ที่ผา่ นและไม่ผ่านกระบวนการ PCA มาทาการวัด
ค่าความแม่นยาของตัวแบบทานายแต่ละประเภท โดยใช้วิธี K-fold cross validation
39
เมื่อ Import ข้อมูลเข้าใน Rapid Miner โดยใช้ Operator Correlation Matrix ประมวลค่า
นา้ หนัก Correlation ให้เป็ นค่าตัง้ แต่ 0 – 1 และ 0 – (-1) ดังภาพประกอบที่ 38
ตาราง 14 ผลการเปรียบเทียบค่าความถูกต้องจากการสร้างตัวแบบทานาย
เทคนิคเหมืองข้อมูล ค่าความถูกต้อง %
4.2 ผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์ด้วยเทคนิคการวิเคราะห์
องค์ประกอบหลักของข้อมูล
เนื่องจากเมื่อข้อมูลได้ผา่ นขัน้ ตอนการเตรียมข้อมูลแล้ว ทาให้มีตวั แปรทัง้ หมด 42 ตัวแปร
ซึ่งทางผูว้ ิจยั ยังไม่ทราบแน่ชดั ว่าข้อมูลใดบ้างที่จะมีคณ
ุ ลักษณะที่จะสามารถใช้งานได้ อาจส่งผล
ต่อความถูกต้องของการประมวลผล ดังนัน้ ผูว้ ิจยั จึงทาการวิเคราะห์องค์ประกอบหลักของข้อมูล
โดยใช้วิธี Principal Component Analysis (PCA) เพื่อย่อย วิเคราะห์ และหาความสัมพันธ์ของ
ข้อมูลเหล่านัน้ ให้มีความกระชับมากขึน้ โดยไม่ทาให้สูญเสียข้อมูลสาคัญไป ส่ งผลให้มีตวั แปร
คงเหลือ 22 ตัวแปร ดังภาพประกอบที่ 49 ซึ่งใช้สาหรับการสร้างตัวแบบทานาย
เทคนิคเหมืองข้อมูล ค่าความถูกต้อง %
นี ว้ ่า Ori เทคนิ ค ป่ าไม้ตัด สิ น ใจ (Random Forest) ให้ค่า ความถูก ต้อ ง (accuracy) มากที่ สุด
เท่ากับ 80.58% ให้ค่าความแม่น ย า (precision) มากที่ สุด เท่ากับ 66.49% ให้ค่าความระลึก
(recall) เป็ นอันดับ 3 เท่ากับ 28.38% และให้คา่ ความถ่วงดุล (f1_measure) เป็ นอันดับ 3 เท่ากับ
39.78% ซึ่งเทคนิคต้นไม้ตดั สินใจ (Decision Tree) ให้ค่าความถูกต้อง (accuracy) น้อยที่ สุด
เท่ากับ 76.28% ให้ค่าความแม่น ยา (precision) น้อยที่ สุด เท่ากับ 33.02% ให้ค่าความระลึก
(recall) เป็ นอันดับ 2 เท่ากับ 37.43% และให้คา่ ความถ่วงดุล (f1_measure) เป็ นอันดับ 2 เท่ากับ
41.59%
ข้อมูลที่ผ่านกระบวนการวิเคราะห์องค์ประกอบหลักของข้อมูล (PCA) นัน้ เทคนิคป่ าไม้
ตัดสิ นใจ (Random Forest) ให้ค่าความถูกต้อง (accuracy) มากที่ สุด เท่ากับ 80.74% ให้ค่า
ความแม่นยา (precision) มากที่ สุด เท่ากับ 76.50% ให้ค่าความระลึก (recall) เป็ นอันดับ 3
เท่ากับ 19.57% และให้ค่าความถ่วงดุล (f1_measure) เป็ นอันดับ 2เท่ากับเท่ากับ 31.16% ซึ่ง
เทคนิคต้นไม้ตดั สินใจ (Decision Tree) ให้คา่ ความถูกต้อง (accuracy) น้อยที่สดุ เท่ากับ 76.28%
ให้คา่ ความแม่นยา (precision) น้อยที่สดุ เท่ากับ 33.02% ให้คา่ ความระลึก (recall) เป็ นอันดับ 2
เท่ากับ 25.10% และให้คา่ ความถ่วงดุล (f1_measure) เป็ นอันดับ 2 เท่ากับ 28.52%
เทคนิคต้นไม้ตดั สินใจ 76.28 71.35 46.81 33.02 37.43 25.10 41.59 28.52
(Decision Tree)
เทคนิคป่ าไม้ตดั สินใจ 80.58 80.74 66.49 76.50 28.38 19.57 39.78 31.16
(Random Forest)
เทคนิคการเรียนรูเ้ บย์ 76.58 78.28 50.19 55.09 62.14 30.48 55.52 39.24
(Naïve-Bayes)
5.1 สรุปผลการวิจัย
จากการศึกษาการสร้างตัวแบบทานายผลสัมฤทธิ์ทางการเรียนในเทอมที่ 3 ของนักเรียน
ทัง้ หมด 649 คน ตัวแปรทัง้ หมด 33 ตัวแปร ซึ่งต้องการทานายว่า นักเรียนจะสอบผ่าน (pass) หรือ
สอบตก(fail) โดยใช้โปรแกรม RapidMiner studio 9.5 เป็ นซอฟต์แวร์ในการวิเคราะห์ดว้ ยเทคนิค
เหมืองข้อมูลต่าง ๆ ซึ่งก่อนการสร้างตัวแบบทานายผูว้ ิจยั ได้ทาตามกระบวนการทาเหมืองข้อมูล
แบบ CRISP-DM โดยจัดเตรียมข้อมูลให้พร้อม ซึ่งต้องทาการแปลงข้อมูล ให้อยู่ในรู ปแบบของ
ตัวเลขทัง้ หมด และหาความสัมพันธ์ของข้อมูลก่อนการทานาย (Correlation) จึงทาให้สามารถ
คัดเลือกตัวแปรได้ทงั้ หมด 42 ตัวแปร และได้ศึกษาและเลือกเทคนิคที่ใช้สร้างตัวแบบทานาย 4
เทคนิค คือ เทคนิคต้นไม้ตัดสิ นใจ (Decision Tree), เทคนิคป่ าไม้ตัดสินใจ (Random Forest),
เทคนิ ค การเรี ย นรู ้เ บย์ (Naïve-Bayes), เทคนิ ค เพื่ อ นบ้า นใกล้ท่ี สุด (K-Nearest Neighbors)
รวมทัง้ การวิเคราะห์องค์ประกอบหลักของข้อมูลที่ส่งผลต่อประสิทธิภาพของตัวแบบทานาย และ
การวิเคราะห์ความแม่นตรงของโมเดล K-fold Cross Validation จากนัน้ จึงเริ่มศึกษาการสร้าง
แบบจาลองด้วยเทคนิคต่าง ๆ โดยก่อนการสร้างตัวแบบทานาย ผูว้ ิจยั ได้แบ่งข้อมูลเป็ น 2 กลุม่ คือ
80 : 20 และการศึก ษาวิ จัย มี ก ารปรับ ค่า ตัว แปรที่ เ กี่ ย วข้อ งเพื่ อ ให้แ บบท านายให้ผ ลลัพ ธ์ท่ี มี
ประสิทธิภาพที่ดีท่ีสดุ ซึ่งมีรายละเอียดดังนี ้
1. การศึกษาการสร้างตัวแบบทานายการพยากรณ์ โดยเทคนิคต่าง ๆ โดยมีการใช้ เทคนิค
ต้นไม้ตดั สินใจ (Decision Tree) โดยผูศ้ กึ ษาวิจยั ปรับเกณฑ์การวัดผลเป็ น gini index เพื่อเลือกตัว
แปรที่ดีท่ีสดุ ที่สามารถแยกความแตกต่างระหว่างเรคคอร์ดต่าง ๆ ในชุดข้อมูลได้ และ กาหนดค่า
maximal depth เท่ากับ 10 พบว่าค่าความถูกต้องของการพยากรณ์ (accuracy) เท่ากับ 91.54%
ใช้เทคนิคป่ าไม้ตดั สินใจ (Random Forest) โดยผูศ้ กึ ษาวิจยั ปรับค่าจานวนของ tree ที่นามาใช้ใน
การสร้างตัวแบบการทานายที่ 100 ต้น และกาหนดค่า maximal depth ของแต่ละ tree ที่ 15
พบว่าค่าความถูกต้องของการพยากรณ์ (accuracy) เท่ากับ 100 % ซึ่งเป็ นค่าที่ดีท่ีสุด การใช้
เทคนิคการเรียนรู เ้ บย์ (Naïve-Bayes) โดยผูว้ ิจยั ได้นาข้อมูลเข้าสู่ตวั แบบทานายเข้าสู่ซอฟต์แวร์
Rapid Miner ซึ่ ง ไม่ มี ก ารปรับ ค่ า parameter ใด พบว่ า ค่ า ความถู ก ต้อ งของการพยากรณ์
(accuracy) เท่ากับ 68.46% ซึ่งเป็ นค่าที่ดีท่ีนอ้ ยที่สดุ การใช้เทคนิคเทคนิคเพื่อนบ้านใกล้ท่ีสดุ (K-
Nearest Neighbors) โดยผูว้ ิจยั ได้นาข้อมูลเข้าสู่ตวั แบบทานาย กาหนดค่า “k” เท่ากับ 5 ที่ทา
53
ให้ค่า ความถูก ต้อ งดี ท่ี สุด และพบว่า ค่า ความถูก ต้อ งของการพยากรณ์ (accuracy) เท่า กับ
82.31%
จะเห็นได้ว่า ผลการศึกษาการสร้างตัวแบบทานายการพยากรณ์ โดยใช้ เทคนิคต้น ไม้
ตัดสินใจ (Decision Tree) เทคนิคป่ าแห่งการทานาย (Random Forest) และเทคนิคเพื่อนบ้าน
ใกล้ท่ี สุด (K-NN) ให้ค่าความถูกต้อง (accuracy) อยู่ในระดับมาก ส่วนเทคนิคการเรียนรู เ้ บย์
(Naïve-Bayes) ให้คา่ ความถูกต้อง (accuracy) อยู่ในระดับน้อยที่สุด ซึ่งมีความเป็ นไปได้ว่า การ
สร้า งตัว แบบท านายโดยซอฟต์แ วร์ Rapid Miner ใน 3 เทคนิ ค ที่ ใ ห้ค่า สูง สามารถปรับ แต่ง
ค่าพารามิเตอร์ในแต่ละตัวแบบทานาย เพื่อให้ได้ตวั แบบทานายที่เหมาะสมที่สดุ ในขณะที่เทคนิค
การเรียนรูเ้ บย์ (Naïve-Bayes) ไม่สามารถปรับแต่งค่าใดได้
2. การวิเคราะห์องค์ประกอบหลักของข้อมูลที่ส่งผลต่อประสิทธิภาพของตัวแบบทานาย
เมื่อข้อมูลได้ผ่านขัน้ ตอนการเตรียมข้อมูลแล้ว ทาให้จานวนตัวแปรที่ใช้มีจานวนเพิ่มขึน้ เท่ากับ 42
ตัวแปร โดยผูศ้ ึกษาวิจัยจึงได้นาเทคนิคการวิเคราะห์องค์ประกอบหลัก (Principal Component
Analysis : PCA) เพื่ อทาการวิเ คราะห์และคัดเลื อกตัวแปรเพื่ อน าไปสร้างตัวแบบท านายการ
พยากรณ์อี ก ครั้ง ซึ่ง ท าให้มี ตัว แปรลดลงเท่า กับ 22 ตัว แปร ซึ่ง พบว่า กระบวนการวิ เ คราะห์
องค์ประกอบหลักของข้อมูล (PCA) ที่เลือกใช้นนั้ ส่งผลทาให้ค่าความถูกต้อง (accuracy) ของ
เทคนิคต้นไม้ตดั สินใจ (Decision Tree) และเทคนิคการเรียนรูเ้ บย์ (Naïve-Bayes) เพิ่มขึน้ ในขณะ
ที่เทคนิคเพื่อนบ้านใกล้ท่ีสุด (K-NN) เท่าเดิม และ เทคนิคป่ าแห่งการทานาย (Random Forest)
ลดลง
จะเห็นได้ว่าเทคนิคการวิเคราะห์องค์ประกอบหลักของข้อมูล ส่งผลต่อค่าความถูกต้อง
(accuracy) ของตัวแบบทานาย ซึ่งส่งผลให้ตวั แบบทานายมีประสิทธิภาพเพิ่มขึน้ แค่เฉพาะบาง
เทคนิค และบางเทคนิคกลับมีประสิทธิ ภาพลดลง นั่นหมายความว่า เทคนิคการสร้างตัวแบบ
ทานายที่เลือกใช้นนั้ บางเทคนิคอาจจะเหมาะสมกับการใช้ตวั แปรที่ มีจานวนมาก และมี ความ
ซับซ้อน เมื่ อผู้วิ จัยทาการลดจ านวน และขนาดความซับซ้อนลง จึง ส่ง ผลต่อ ค่าความถูก ต้อ ง
(accuracy) ให้ลดลงด้วย
3. การวิเ คราะห์ความแม่น ตรงของโมเดล K-fold Cross Validation เพื่ อตรวจสอบค่า
ความผิดพลาดในการพยากรณ์ของตัวแบบทานาย โดยผูศ้ กึ ษาวิจยั กาหนดให้คา่ k เท่ากับ 10 และ
ท าการสร้า งตัว แบบท านาย ซึ่ง จะใช้ข้อ มูล ทั้ง ที่ ไ ม่ผ่า น (Ori) และผ่า น (PCA) การวิ เ คราะห์
องค์ประกอบหลักของข้อมูล พบว่าค่าความถูกต้อง(accuracy) โดยรวมของการทานายเมื่อเทียบ
กับข้อมูลที่เ ราใช้ในการทานายนักเรียนที่ มีผลการเรียนในเทอมที่ 3 เป็ น pass และ fail พบว่า
54
5.2 ข้อเสนอแนะ
การเตรียมข้อมูลก่อนการทาการวิเคราะห์และสร้างแบบทานายนัน้ มีความสาคัญเป็ น
อย่างมาก เพราะหากทาการแปลงข้อมูลผิดพลาด อาจส่งผลต่อตัวแบบทานาย รวมทัง้ เมื่อทาการ
แปลงข้อมูลแล้วส่งผลทาให้ได้ขอ้ มูลที่มีจานวนมากขึน้ สาหรับงานวิจยั นีใ้ นอนาคต อาจใช้วิธีการ
คัดเลือกคุณลักษณะของข้อมูลวิธีอ่ืน ๆ ที่จะสามารถลดมิติของข้อมูล หรือลดจานวนของข้อมูลลง
ได้ เช่น การคัดเลือกคุณลักษณะแบบแรปเปอร์ ซึ่ง Ferda Ünal ได้ใช้ในการทานายผลการเรียน
ของเด็กนักเรียน รัชพล กลัดชื่น และ จรัญ แสนราช (2561) ก็ยงั ใช้การคัดเลือกคุณลักษณะแบบ
ฟิ ลเตอร์ และการคัดเลือกคุณลักษณะแบบฝั งตัว ซึ่งช่วยลดมิติของข้อมูลเพื่อใช้ในการทานาย
ผลสัมฤทธิ์ทางการเรียนของนักศึกษาระดับอาชี วศึกษา และเห็นถึงความแตกต่างของค่าความ
ถูกต้องในการสร้างตัวแบบทานายอย่างชัดเจนมากขึน้ อีกทัง้ การแบ่งข้อมูลในการสร้างตัวแบบ
ทานาย
ทัง้ นีก้ ารสุ่มหรือแบ่งข้อมูลก่อนการสร้างตัวแบบทานายก็มีความสาคัญที่จะทาให้ขอ้ มูล
ของเราไม่มีความโอนเอียงไปข้างใดข้างหนึ่งจนเกินไป ดังนัน้ ขัน้ ตอนการแบ่งข้อมูลเพื่อใช้เป็ นกลุ่ม
ข้อมูลสอน (Training Data) และกลุ่มข้อมูลทดสอบ (Test Data) ควรต้องคานึงถึงข้อมูลโดยต้อง
กาหนดให้ขอ้ มูลของเด็กที่สอบผ่านและสอบตก อยู่ในจานวนที่เหมาะสม เพื่อไม่ให้โมเดลมีขอ้ มูล
ใดข้อมูลหนึ่งมากเกินไป และทานายได้ถกู ต้องมากยิ่งขึน้ และนอกจากนีย้ งั มีเทคนิคเหมืองข้อมูล
อื่น ๆ ที่สามารถสร้างตัวแบบทานายเพื่อพยากรณ์ผลการเรียนของนักเรียนจาก Data set นีไ้ ด้
บรรณานุกรม
บรรณานุกรม
ประวัตผิ ู้เขียน