Professional Documents
Culture Documents
แบบจำลองการทำนายผลการรักษาผู้ป่วยมะเร็งปากมดลูก
แบบจำลองการทำนายผลการรักษาผู้ป่วยมะเร็งปากมดลูก
แบบจ�ำลองการท�ำนายผลการรักษาผู้ป่วยมะเร็งปากมดลูก
ด้วยโครงข่ายประสาทเทียม
Model for Cervical Cancer Result Prediction
Using Artificial Neural Network
เชาวนันท์ โสโท (Chaowanan Soto)* ดร.พุธษดี ศิริแสงตระกูล (Dr.Pusadee Seresangtakul)1**
วรชัย ตั้งวรพงศ์ชัย (Vorachai Tangvoraphonkchai)***
บทคัดย่อ
งานวิ จั ย นี้ น� ำ เสนอแบบจ� ำ ลองเพื่ อ ท� ำ นายผลการรั ก ษาผู ้ ป ่ ว ยมะเร็ ง ปากมดลู ก ที่ เ ข้ า รั บ การรั ก ษา
ด้วยวิธีการฉายรังสี โดยการประยุกต์ใช้โครงข่ายประสาทเทียมแบบแพร่ย้อนกลับ ในการศึกษาผู้วิจัยได้
รวบรวมปัจจัยต่างๆ ที่มีความสัมพันธ์ต่อผลการรักษาจากงานวิจัยทางการแพทย์ที่เกี่ยวข้อง และได้ท�ำการ
วิเคราะห์ความสัมพันธ์ของปัจจัยด้วยวิธีแบบล�ำดับขั้น ผลการศึกษาพบว่าปัจจัยที่มีความสัมพันธ์ต่อผลการรักษา
ประกอบด้วย ระยะของโรค อายุ ขนาดของก้อนเนื้อ ประเภทของเซลล์มะเร็ง และน�้ำหนักตัว จากการศึกษา
งานวิจัยที่เกี่ยวข้องพบว่าระดับฮีโมโกลบินมีผลตอบสนองต่อการรักษา ดังนั้นจึงได้เพิ่มระดับฮีโมโกลบิน
รวมกับปัจจัยที่ได้จากการวิเคราะห์รวมเป็น 6 ปัจจัย ในการสร้างแบบจ�ำลองด้วยตัวแบบโครงข่ายประสาทเทียม
ผลการศึกษาพบว่าตัวแบบจ�ำลองที่น�ำเสนอถึงแม้จะมีประสิทธิภาพสูง แต่ค่าความจ�ำเพาะมีค่าเป็น 0% ซึ่งจาก
การวิเคราะห์พบว่าปัญหาเกิดจากความไม่สมดุลของข้อมูลซึ่งมีข้อมูลกลุ่มหนึ่งมากกว่าอีกกลุ่มเป็นจ�ำนวนมาก
ดังนั้นผู้วิจัยจึงได้ท�ำการแก้ปัญหาปรับความไม่สมดุลของข้อมูลด้วยวิธี Cost-Sensitive Learning: CSL
และวิธี Synthetic Minority Over-sampling Technique: SMOTE และท�ำการสร้างแบบจ�ำลองข้อมูล
โครงข่ายประสาทเทียมและแบบจ�ำลองด้วยการถดถอยแบบลอจิสติก เมื่อเปรียบเทียบประสิทธิภาพการท�ำนาย
พบว่าโครงข่ายประสาทเทียมที่มีการแก้ปัญหาความไม่สมดุลของข้อมูลด้วยวิธีการสุ่มเพิ่มชุดข้อมูลตัวอย่าง
มีประสิทธิภาพการท�ำนายที่ ด้วยค่าความถูกต้อง 81.71% ค่าความไว 94.47% และค่าความจ�ำเพาะ 55.47%
สูงกว่าวิธีการถดถอยแบบลอจิสติกที่มีการแก้ปัญหาความไม่สมดุลของข้อมูลด้วยวิธี CSL ซึ่งมีค่าความถูกต้อง
81.00% ค่าความไว 84.52% และค่าความจ�ำเพาะ 30.66%
ABSTRACT
This paper presents models to predict the result of cervical cancer treatment by
radiotherapy using Back Propagation Artificial Neural Network (BPANN). In order to select
appropriate input factors for the model, the researchers studied factors that had an effect on
1
Correspondent author: pusadee@kku.ac.th
* นักศึกษา หลักสูตรวิทยาศาสตรมหาบัณฑิต สาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น
** ผู้ช่วยศาสตราจารย์ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น
*** รองศาสตราจารย์ นพ. ภาควิชารังสีวิทยา คณะแพทยศาสตร์ มหาวิทยาลัยขอนแก่น
40 วารสารวิจัย มข. (บศ.) 13 (1) : ม.ค. - มี.ค. 2556
cervical cancer. Stepwise factor analysis was used to analyze the relationship between the
factors and the result of cervical cancer treatment. The results show that there are five factors
that are significant in the result of cervical cancer treatment by radiotherapy; these include
the cancer stage, age, tumor size, type of cancer cell, and body weight. Medical research
has shown that hemoglobin is also related to the treatment of cervical cancer. Therefore,
hemoglobin was also used as an additional input factor of the prediction model. The artificial neural
network (ANN) and logistic regression models were constructed and used to predict the results
of cervical cancer treatment. In order to analyze for the appropriate models, the factors data
from 1994 to 1998 were used in the study. The results showed that the accuracy was very
high but the models could not identify the specificity rate. The analysis results showed that
the problem came from imbalanced data sets. In order to improve the efficiency of the models,
Cost Sensitive Learning (CSL) and Synthetic Minority Over-sampling Techniques (SMOTE)
were addressed to resolve the imbalance in the data sets. The output data sets were used
to construct the artificial neural network and logistic regression models. The experimental
results show that the accuracy, sensitivity and specificity of the ANN with SMOTE are 81.71%,
94.47% and 55.47% compared to the Logistic Regression with CSL are 81.00%, 84.52% and
30.66%, respectively. The results showed that the ANN with imbalanced data by SMOTE
was more accurate than the logistic regression with imbalanced data by CSL.
บทน�ำ รอดของผู้ป่วยภายหลังการรักษาจนกระทั่งผู้ป่วยเสีย
ปัจจุบนั โรคมะเร็งปากมดลูกเป็นมะเร็งทีพ่ บ ชีวิต แต่การศึกษาต้องใช้ระยะเวลานานและยังไม่อาจ
มากทีส่ ดุ เป็นอันดับสองของโลกทีพ่ บในเพศหญิง รอง สรุปได้ว่าผู้ป่วยเสียชีวิตด้วยสาเหตุใด และการศึกษา
ลงมาจากมะเร็งเต้านม พบประมาณ 500,000 รายต่อปี อัตราการหายของโรค (Disease free rate) ซึ่ง
และมีอัตราการเสียชีวิตประมาณ 250,000 รายต่อปี จะตรวจการหายของโรค ณ เวลาต่างๆ ที่ก�ำหนด
โดยจะพบในประเทศที่ก�ำลังพัฒนามากกว่าประเทศ การประเมิ น แบบหลั ง นี้ เ ป็ น ดั ช นี ท างอ้ อ มในการ
ที่พัฒนาแล้ว [1] ท�ำนายถึงการรอดชีพของผู้ป่วยในอนาคตได้
เนื่องจากผู้ป่วยมะเร็งปากมดลูกจะเข้ารับ ดังนั้นหากมีระบบที่ใช้ปัจจัยที่เกี่ยวข้องกับ
การรักษาเมื่อมีระยะของโรคเป็นมากแล้ว ตั้งแต่ระยะ ผู้ป่วยช่วยคาดการแนวโน้มว่าผู้ป่วยมีโอกาสที่จะกลับ
ที่ 2 ขึ้นไป ส่วนใหญ่จึงเข้ารับการรักษาด้วยรังสีรักษา มาเป็นซ�้ำหรือมีการแพร่กระจายของมะเร็ง ก็จะเป็น
[12] การรักษาโรคมะเร็งปากมดลูกด้วยวิธีการฉาย ข้อมูลช่วยแพทย์ในการวางแผนการรักษาที่เหมาะสม
รังสี สามารถรักษาได้ทกุ ช่วงระยะของโรค การประเมิน กับผู้ป่วยแต่ละรายได้
ผลการรักษาแบ่งเป็น 2 รูปแบบคือ การศึกษาอัตรา การวิเคราะห์โรคหรือจ�ำแนกข้อมูลทางการ
การรอดชีพ (Survival rate) หมายถึง อัตราการอยู่ แพทย์ ส่วนใหญ่แล้วนิยมใช้โครงข่ายประสาทเทียม
1. โครงข่ำยประสำทเทียมแบบเพอร์เซปตรอนหลำยชั้น (Multilayer Perceptron Artificial Neural
โครงข่ายประสาทเทียมแบบเพอร์เซปตรอนหลายชั้น [9] ประกอบด้วยชั้นอินพุต (Input Laye
ชั้นเอาท์พุต (Output Layer) แสดงตามภาพที่ 1 ในแต่ละชั้นของโครงข่ายประสาทจะประกอบด้วยห
KKU Res J (GS) 13 (1) : January ขั้นตอนวิธ-ีแMarch บบแพร่ย2013 ้อนกลับ (back propagation algorithm) [19] เป็นขั้นตอนวิ 41 ธีที่ใช้ในการฝึกส
เพอร์เซปตรอนหลายชั้น ใช้สาหรับปรับค่าน้าหนักเส้นเชื่อมโยงของโหนดต่างๆ ให้มีค่าที่เหมาะส
[2, 16] เนื่องจากมีความสามารถในการจ� ป้อนไปข้ำแนกข้ างหน้าอ(Feed มูล forward) ไปจะมีกเริารค� ่มต้นำจากข้ นวณค่อมูาเอาท์ ลจะถูพกุตส่ทีงไปยั ่ได้จงากชั ชั้นถั้นดก่ไปของโครงข่ อนหน้า ายประสาท โ
ทฤษฎีและงำนวิจัยที่เกี่ยวข้อง
อยูใ่ นระดับทีด่ ี เช่น Yan et al. [25] มีการค วินจิ านวณค่
ฉัยโรคหั าเอาท์ วใจ พุตทีตามสมการที ่ได้จากชั้นก่อ่ นหน้ (1) า ตามสมการที่ (1)
โดยใช้โครงข่ายประสาทเทียมแบบเพอร์เซปตรอน 1. โครงข่ ำ ยประสำทเที ย มแบบเพอร์ เซปตรอนหลำยชั้น (Multilayer Perceptron Artificial Neu
p
หลายชั้น พบว่าผลการวินิจฉัยมีความถูทฤษฎี กต้โครงข่
องมากกว่ และงำนวิ
ายประสาทเที า จัยที ่เกีย่ มแบบเพอร์ วข้อง u jlเซปตรอนหลายชั
wji yi ้น [9] (1)
l l 1
ประกอบด้วยชั้นอินพุต (Input L
ร้อยละ 90 งานวิจัยของ Botoa et ชัal. ้น1.เอาท์ โครงข่
[2] พท�ุตำำ(Outputยประสำทเที
นาย Layer)
ยมแบบเพอร์ แสดงตามภาพที เซปตรอนหลำยชั ่ 1 ในแต่ละชั้น้น(Multilayer
i 0
ของโครงข่าPerceptron ยประสาทจะประกอบด Artificial N
(l-1)
มะเร็งต่อมลู
ทฤษฎี กหมาก โดยใช้
และงำนวิ จัยทีโครงข่
่เกี่ยวข้าอขัยประสาทเที
ง้นตอนวิ โดยที
โครงข่ ธีแ่ บบแพร่ มyi คืย ้ออนกลั
ายยประสาทเที ค่าเอาท์ บ (back
ยมแบบเพอร์ พุตโหนดที
โดยที ่ propagation
yiเซปตรอนหลายชั
(l-1) ่ i ในชัคือ ้นค่algorithm) ก่าเอาท์ อนหน้้พนาุต[9] (l-1)
โหนดที
[19]ประกอบด้ เป็่ นiขัใน ้นตอนวิ วยชั้นธอิีทนี่ใพุช้ตในการ (Inpu
(l)
แบบ MLP, RBF-MLP
1. โครงข่ำยประสำทเทียมแบบเพอร์ และ RNN เพอร์ เปรี
ชั้นเเอาท์ ย บเที
ซปตรอนหลายชั ย
พุต (Output
เซปตรอนหลำยชั บ W ji คื ชั อ น
้
้นLayer) ค่
ก่ า
อ ถ่
นหน้ ว งน้
ใช้้นส(Multilayer
าหรั าหนั
า (l-1) ก
บปรับค่Perceptron
แสดงตามภาพที ที เ
่ ชื อ
่
าน้าหนั มโยงระหว่
่ 1 ในแต่ กเส้นArtificial า
ลเชืะชั งโหนดที
่อมโยงของโหนดต่
้นของโครงข่ ่ j
Neural Network: ชั น
้ ที ่ l กั
ายประสาทจะประกอบบ โหนดที
างๆ ANN) ให้มีค่าที้น่เหม
่ i ชั ที่
กับการถดถอยแบบโลจิสติก พบว่าโครงข่ ้นาตอนวิ
ป้อขันไปข้ ยประสาท าเงหน้ าp (Feed คื อยforward) ้อจนกลั
านวนโหนดชั Wเริji ่มต้คืนpropagation
(l)
อ้นจากข้
ทีค่่ (l-1)
าถ่อวมูงน� ้ำหนั กที่เชื่อมโยงระหว่ นาขัชัง้นตอนวิ
โครงข่ายประสาทเทียมแบบเพอร์ ธีแบบแพร่
ซปตรอนหลายชั ้น บ[9](back ประกอบด้ วยชัล้นจะถู นกพุส่ตงไปยั
อิalgorithm) (Input ง[19]
ชั้นLayer) ถัดเป็ไปของโครงข่ ซ่อน (Hidden ธีทายประสา
ี่ใช้ในกา La
เทียมให้ผลการท�ำนายดีกว่าการถดถอยแบบโลลจิสติกu (l) โหนดที คื อ ค่ า ่
ผลลัj ชั น
้ พ ทีธ์่ ท l ่ ี กั
ไ บ
ด้ จ โหนดที
ากการค ่ iานวณชั น
้ ที ่ (l-1)
และจะต้ อ งน าค่ า ดั ง กล่
ชั้นเอาท์พุตet(Output มีแสดงตามภาพที
กเพอร์
ารคานวณค่ เซปตรอนหลายชั าเอาท์ พุตที้นล่ไะชั ด้จ้นสากชั
ใช้ าหรั้นบก่ปรั อนหน้ าาน้ตามสมการที
บค่ายประสาทจะประกอบด้ าหนักเส้นเชื่ อ(1)มโยงของโหนดต่ างๆ ให้มีค่าทีอ่เงโห
า วไปผ่ า นฟั
และ Chowdhury al. [4]Layer) ใช้
ต้องการโ ครงข่ า ยประสาท
(l)
่ j1 ในแต่ ของโครงข่
p คื อ จ� ำ นวนโหนดชั น
้ ที ่ (l-1) วยหน่วยประมวลผลหรื
ขั้นตอนวิเ ซปตรอนเพื
เที ย มแบบเพอร์ ธีแบบแพร่ย้อ่ อนกลั วิ นิ จบป้ฉั(back อยyนไปข้
j propagation
โรคที า่ เงหน้
กิ ด า (Feed algorithm) forward) uj(l)[19]เริ
ค่มอื ต้เป็ นค่นจากข้ ขั้นตอนวิ
lาผลลัพธ์ทไ
อpมูลจะถู ี่ ธlด้ีทจกyี่ใากการค� ช้ส่l ใง1นการฝึ
ไปยั
ำนวณ และ
งชั้นกสอนโครงข่ถัดไปของโครงข่ ายประสาทเท ายประส
เพอร์เซปตรอนหลายชั
ในเด็ ก ทารกแรกเกิ ดผลการศึก้นษาใช้สมีาหรั
สมการฟั
มีคกวามถู
ารค ง
บปรัานวณค่ก์ ช ั น
กบต้ค่อาน้ง าาหนั
กระตุ ้
เอาท์จะต้น (Activation
กพเสุ้ตนอทีงน� เชื่ได้่อำจมโยงของโหนดต่
ค่ากชั
Function)
าดัง้นกล่ ก่อานหน้
u
วไปผ่าiาตามสมการที
j
[11]
0างๆ
นฟั
wจะแสดงค
งก์ให้
ji
ชันมกระตุ
i าตอบอยู
ีค่า่ที(1)่เหมาะสม
้นเพื่อให้ไโดยแบ่
่ ใ นช่ ว ง -1
ด้ งเป็น 2 ส่วน
ถึ ง 1 ได้แก่ ฟ
ในการวินิจป้ฉัอยนไปข้ างหน้า (Feed forward) เป็นฟังก์ชเริัน่มเชิต้งนตรรกศาสตร์ จากข้ ที่จพกะให้ ค่ต่า้อเป็งการ
งพชันุต้นจริ ถัyงดหรื (l) อเท็จpเท่านั้น ฟังก์ชันซิกมอยด์ แบ่งเป็น 2 ประเภ
ถึง 75% โดยที ่ อมูyiล(l-1) จะถู
เอาท์ คือ ส่คุ่ตางทีเอาท์ ไปยั โหนดที ไปของโครงข่l อายประสาท
j l ่ i ในชั้นก่ นหน้ l 1า (l-1)
โหนดแต่ละโหนดในชั้น
ดัมีกง นัารค
้ น งานวิ
านวณค่จั ยานีเอาท์ พุตในช่
้ จึ ง ได้ ด้วจงากชั
นที� ำ่ไเอาวิ 0ธถึี โ้นงครงข่
ก่1อตามสมการที
นหน้ า ย า ตามสมการที ่ (2) และสมการฟั Tan-sigmoid uง ก์j ชค่ั นา ที่ได้จjiะอยู
กระตุ w y
้ น ่ใ(Activation i นช่วง -1 ถึง 1 ตามสมการที่ (3)
Wji(l) คือ ค่าถ่่ (1) วงน้าหนักที่เชื่อมโยงระหว่ i 0 างโหนดที่ j ชั้นที่ l กับโหนดที่ i ชั้น
ประสาทเทียมมาประยุกต์ใช้ในการท�ำนายผลการรักษา pFunction) [11] จะแสดงค� 1 ำตอบอยู่ในช่วง -1 ถึง
l ่ p yi คื lอคือ จานวนโหนดชั ้นที่ (l-1)
(l-1)
โดยที ค่ yพ
l า1เอาท์ ุตโหนดที ่ i ในชั้นก่function) อนหน้า (l-1)เป็น (1)
ผู้ป่วยมะเร็งปากมดลูกที่เข้ารับการรักษาด้วยวิธuีกjาร (l)1 wได้ji แก่yi ฟังก์ชันไบนารี 1 exp (binary v
ฉายรังสี พร้อมทั้งได้น�ำวิธีการถดถอยโลจิสติกเข้ามา iuj0ฟัWงji ก์คืชคือันอเชิค่างผลลั วงน้พาหนั ธ์ที่ไกด้ทีจ่เากการค ะให้คานวณ ่าเป็นาและจะต้ งหรืออเท็ ่ งน
j ชัจาค่ ้นทีา่ ดัl งกักล่ าวไปผ่า่ iน
(l)
ถ่ตรรกศาสตร์ ทชื่อี่จมโยงระหว่ งโหนดที
จริ บโหนดที
(l) 1 exp v
เปรียบเทียบประสิทโดยที ่ yi(l-1) คืำนาย
ธิภาพในการท� อต้ค่อางการ
เอาท์พyุตj โหนดที่ i เท่ p านั้นคื้นก่ออฟัจนหน้
ในชั านวนโหนดชั
งก์ชyาัน(l-1) ซิกมอยด์
1 exp แบ่
้นที่ (l-1) v งเป็น 2 ประเภทคือ
Wji(l) คือ ค่าถ่สมการฟั วงน้าหนังกก์ทีช่เันชืกระตุ uj ้น (Activation าผลลัค่พFunction) ่ l[11] จะแสดงค ชังาตอบอยู ่ในช่ าค่วางดั-1งกล่ถึงาวไปผ 1 ได
(l)
Log-sigmoid
่อมโยงระหว่ คือ าค่งโหนดที าธ์ที่ ทj่ไชัี่ได้้นด้จจทีะอยู
ากการค กั่ใบนช่ โหนดที านวณ
วง 0 ่ iถึและจะต้ ้นที1่ (l-1)ตาม องน
คงก์านวณค่ (l) าความผิ ดพลาดระหว่ (2)คาและ ่างเอาท์ พงุตหรื ที่ตอ้อเท็งการ จเท่า(desire นัค่้นาทีฟั่ไงoutput) ันซิก่ใและเอาท์ น แบ่พงุตเป็ที่ชนั่น2เอา
ทฤษฎีและงานวิจัยที่เกีp ่ยวข้คืออเป็จงต้านวนโหนดชั นอฟังการ ชันyเชิ j งตรรกศาสตร์ ้นที่ (l-1) สมการที ที่จ่ ะให้ เป็นจริ Tan-sigmoid ด้ก์จชะอยู มอยด์ ปร
1. โครงข่ า ยประสาทเทียมแบบเพอร์ uj(l) คือในช่ค่าวเผลลั งสมการฟั
0 ถึพงธ์1ทตามสมการที
ซปตรอน ี่ไงก์ด้ชจากการค ช่วง -1
ันกระตุ ่ (2)
้นานวณ ถึงและ
(Activation 1และจะต้
ตามสมการที
e Tan-sigmoid dFunction)
อj งน าค่ y่ j(3) L
าค่ดัา[11] งทีกล่ ่ได้าจะแสดงคจวไปผ่ะอยู่ในช่ านฟัวาตอบอยู งงก์-1ชถึันงกระตุ ่ใ1นช่
ตามสมการที
้นวงเพื-1่อให้ ถึงไ1ด้่ (3ไเ
j
หลายชัน้ ต้(Multilayer
องการ yj(l) Perceptronเป็Artificial นฟังก์ชันเชิงตรรกศาสตร์ที่จะให้ค่าเป็นจริงหรื1 อเท็จเท่านั้น ฟังก์ชันซิกมอยด์ แบ่งเป็น 2
โดยที่ ej คือค่ าความผิด พลาด และ y dj คือเอาท์ พุตที่ต (2) ้องการ (desire output)
Neural Network: สมการฟังANN) ก์ชันกระตุ้น (Activation ในช่วง 0 ถึFunction) ง 1 ตามสมการที [11] จะแสดงค่ (2) และาตอบอยู Tan-sigmoid 1 ่ใexp นช่ วค่งาv-1 ที ่ไถึด้งจะอยู 1 ได้่ใแนช่ ก่าวฟัความชังงก์-1ชถึันงไบนารี 1 ตามสมการท
โครงข่ายประสาทเทียมแบบเพอร์ส่เซปตรอน วนแพร่ย้อนกลั บ (Back Propagation) เริ่มจากการคานวณหาค่ นเฉพาะที(binary ่
เป็นฟังก์ชันเชิงตรรกศาสตร์้นทก่ี่จอะให้ ค่าาเป็ตามสมการที
นจริงหรือเท็จเท่านั้น ฟังก์ช ันซิ1กมอยด์ exp 1แบ่ v งเป็น (3) 2 ประเภทคือ Log-sigmoid ค่าท
หลายชั้น [9] ประกอบด้วยชั้นอินพุยังตชั(Input นหน้ Layer) ่ (5) y y
ในช่วง 0Layer) ถึง 1 ตามสมการที ่ (2)พตุ และ Tan-sigmoid ค่าที่ได้จะอยู่ในช่วง -11 1ถึexp ง exp vv
1 ตามสมการที ่ (3)
ชัน้ ซ่อน (Hidden และชัน้ เอาท์ (Output
1 ดพลาดระหว่
ค�ำนวณค่
l
j าความผิ l
y j1 1exp ดทีพลาดระหว่ yjv างเอาท์
l l 1 l 1
wkjพุต
Layer) แสดงตามภาพที่ 1 ในแต่ละชั้นของโครง คานวณค่าความผิ างเอาท์
y
พ ต
ุ ต
่ อ
้ งการ (desire k
output) และเอาท์
(2) พุตที่ชั่น
y k
1 v
ที ่ ต ้ อ งการ (desire output)
1 exp v
และเอาท์ พ ุ ต ที ่ ช ่ ั น
ข่ายประสาทจะประกอบด้วยหน่วยประมวลผลหรื โดยที่ อ1 kl exp คือค่าความชั(L)นเฉพาะที e ่โdหนดที j y
่ kjLชั ้นที่ l+1
โหนด [8] ขั้ น ตอนวิ ธี แ บบแพร่ ย ้ อ นกลั บ (back เอาท์ พ ต
ุ (y ) ตามสมการที j ่ (4)
คyานวณค่ 1 (l+1)
wkj
exp าความผิ
คือ ค่vาถ่ ดวพลาดระหว่ งน้jาหนักที่เชืางเอาท์ ่อมโยงระหว่ พุตที่ต้อางโหนดที งการ (desire ่ k ชั ้นoutput)
ที่ l+1 และเอาท์ กั(3)
บโหนดที พุต่ jทีช่ช
propagation algorithm) [19] เป็นขั้นตอนวิ โดยที ธีท่ 1ี่ eexp j คือค่าvความผิ ดพลาด และ dj คือเอาท์ พ ต
ุ ที ต
่ อ
้ งการ (desire output)
หลังจากคานวณค่ าความชั นเฉพาะที e่แล้ว คdานวณปรั y jLบค่ (4)
าถ่วงน้าหนัก ตามสมการที่ (6)
ใช้ในการฝึกสอนโครงข่ายประสาทเทียมแบบเพอร์ ส่วนแพร่ย้อนกลับ (Back Propagation) เริ่มจากการคานวณหาค่าความชั j j นเฉพาะที่
คานวณค่าความผิดพลาดระหว่างเอาท์พ ุตที่ต้องการ (desire output) และเอาท์พุตที่ชั่นเอาท์พุต (yj(L)) ตามสมการท
เซปตรอนหลายชั้ น ใช้ ส� ำ หรั บ ปรั บยัค่งาชัน�้น้ ำก่หนั อนหน้ ก เส้
โดยที น
า ตามสมการที่ ej คือค่า่ ความผิ (5) ดพลาด และ dj คือเอาท์พุตที่ต้องการ (desire output)
เชื่อมโยงของโหนดต่างๆ ให้มีค่าที่เหมาะสม ส่eโดย
d j ย้อนกลั L โดยที่ ej คือค่าความผิดพลาด และ dj คือ (4)
y j บ (Back Propagation)
วj นแพร่ l l เริ่มจากการค
1 y jl kl 1 wkjl 1
านวณหาค่าความชันเฉพาะที่
แบ่งเป็น 2 ส่วน คือ ส่วนป้อนไปข้างหน้า (Feed เอาท์พุตที่ต้องการ (desirej y j output) k
forward) เริ่มต้นจากข้ โดยทีอ่ มูลeจะถู j คือก ค่ส่าความผิ ยังชัง้นดชัก่พลาด
งไปยั ้นอถันหน้ ดไปและ า ตามสมการที dj คือเอาท์่ ส่(5) พวุตนแพร่
ที่ต้องการ ย้อนกลั (desire บ (Back output)Propagation)
l 1
โดยที
้นถัด่
เริ คือค่าความชั นเฉพาะที ่โหนดที ่ k ชั้นทีl ่ ่ l+1
ของโครงข่ายประสาท ส่วนแพร่โหนดแต่ ย้อนกลัละโหนดในชับ (Back Propagation) kเริม
(l+1)
จากการค
่ จากการค� ำานวณหาค่
นวณหาค่
l าความชั
y l นเฉพาะที
j y j k 1 ย้อl นหลั น1 งl จากชั
wkj
1 ้นปัจจุบัน
ยังชั้นก่อนหน้า ตามสมการที่ (5) wkj คือค่าถ่วงน้าหนักที่เชื่อมโยงระหว่างโหนดที j
k ่ k ชั้นที่ l+1 กับโหนดท
หลัโดยที งจากค ่ านวณค่ l 1าความชั คือค่l าความชั นเฉพาะที นlเฉพาะที ่แล้ว ค่โานวณปรั หนดที่ k ชับ้นค่ทีาถ่่ l+1 วงน้าหนัก ตามสมการที่ (6
wkj คือค่j าถ่ว
l l k 1 l 1
j y j (l+1) 1 y w (5)
งน้ k าหนักที่เชื่อมโยงระหว่างโหนดที่ k ชั้นที่ l+1 กับโหนด
k kj
การคัเพิ
ดเลืม่ อจ�กตั
ำนวนชุ ดตัวอย่าดัางเพิ
วแปรแบบล บขัข้้นอม่ มูมากขึ
ลด้วยวิ
[18] น้ ธน[15]
เป็ ีกเทคนิ
ารทางสถิ ได้คนทางสถิ ำ� 5.ตเสนอวิ
ิ เนื ต่อิเงจากวิ
พืดธ่อเลื ธกตัีด ังวกล่
ี วิอเคราะห์ คาวเหมาะส
วามสั เลืมำดั พัอกตั นาหรั ธ์ขัวร้นn บแปรแบบล
ะหว่ ชุ(Stepwise
ดคืข้าองตั อจ�มูวำลนวนข้ ทีาดัSelection)
แปรตามและตั ่มบีคขั่าอต่้นมูอเนื r
ล[18]
่องและข้
ของแต่ วเป็แปรอิ นลเทคนิ x
อะตั2มูสวลระแปร
ทีค ่มทางสถิ x
ีค่าแบบจั
xy x 2
n วิเ่มคราะห์
ดx่อกลุ y [6]
กำรคั แปรแบบล
การคั ด บ ต ิ เ พื 2y /ค
่ม งเคราะห์
สุ ดนธ์2rคระหว่
โดยที่ x คือ ตัวแปรอิสระ และ y คือ ตัวแปรตาม rระที x n y
หลายตัวSynthetic
แปร วิธีการเริMinority่มจากคานวณค่ Over-Sampling
5.ากำรคัสัมประสิ ดเลือทกตั ธิ์สวหสั Technique
แปรแบบลมพันธ์ การคั rำดัระหว่
บขัด้นเลื างตั
(Stepwise
อกตั วหลายตั
แปรตามและตั
ว แปรแบบล ว วิาดั
โดยที
Selection)
แปร ่ธวีกแปรอิ บ x ขั้นคื่มสเลื
ารเริ อ[18] จากค ตัอวกตั
ระแต่ แปรอิ ลวะตั
านวณค่
เป็ น แปรอิ สวระ
เทคนิ ดัางสัสแสดงตามสมการ
และ
ค ม ประสิ
ทางสถิ y คืีคทอต่าธิิเxตัพื์สr2ว่อหสั สูแปรตาม
วิ ม พั วามสั ามงตั พัyนว2แปร ธ์ระ
n คือ จานวนข้อมูลของแต่ละตัวแปร
โดยที ่ x คื อ ตั ว แปรอิ ส ระ และ y
คื อ ตั ว
แปรตาม
x n
ที่ (10) (SMOTE) เพื่อเพิ่มชุดข้การคั อมูลดเลืโดยวิ อกตัวแปรแบบลธ ี น ้ ี จ ะสุ ่ ม เพิ ่ ม ทีีก่ ารเริ(10)
n คืาสัอมตจประสิ เข้ า สมการ
ิเานวนข้ ตามสมการที
ธิอ์สมูหสั ลของแต่ พันธ์ลมะตั ่ นวแปร(11)
อกตัวาดัวแปรอิ
หลายตั บขั้นสวิธระที
แปร [18] ่มเป็ ีค่ม่านจากค r เทคนิ
สูงสุานวณค่ ดค่ เข้ทางสถิ พืตามสมการที
่อวิเทคราะห์ คม่ วามสั rพัระหว่ ธ์ระหว่ างตัวาแปรตามและตั งตัวแปรตามและตั วแปรว
ชุดข้อมูลของคลาสที่มีจ�ำหลายตั นวนน้วอแปร ย มีวิวธิธีกีการเริ ารดั่มเลืงจากค นี ้ โดยที าสมการ x
n คื อ ตัจ ว แปรอิ
านวนข้ ส
อ ระ
มู ล และ
ของแต่
(11) y ล คื อ
ะตั ตั
ว ว
แปร แปรตาม
xyที่ (10) านวณค่ x าสัมy ประสิ เลื/ nอกตัทธิว์สแปรอิ หสัมสพัระที นธ์ ่มr ีคระหว่
n
Yระที คื
อ จ
่า r สูางงตั
านวนข้
สุดวเข้แปรตามและตั
(10) X อ มู
าสมการ ตามสมการที
ล ของแต่ ล ะตั
วแปรอิxy
ว แปร
สระแต่ ่ (11) ละตัว ดังแสดง
x y /
1) ค� ำ นวณหาผลต่ ที่ (10)
r า งระหว่ า งชุ ด ข้ อ มู ล ที่ เลื อ กตั ว แปรอิ ส ม
่ ค
ี 0า
่ (11)
r สู ง สุ
p ด เข้
p r า สมการ ตามสมการที ่ (11)
x x n y y n 2xp p y /2 n
2 2
2 2
เข้
Y
าสมการ
xy x X
x่ (11) n y2
พิจารณาและชุดข้อมูลที่ใกล้เคียง โดยที่ X p เลืคืออกตัตัววแปรอิ สสระที ่มr่ถีคูก่าเลืrอสูกเข้ งสุาดสมการ ตามสมการที
0
แปรอิxy ระที Y X
โดยที่ 2) x คือ ค�ตัวำแปรอิ
นวณหาค่ สระ และ าข้อyมูลคือใหม่ ด้วยการคูณ r คือ ค่โดยที
ตัวแปรตาม โดยที ่ ่ Xp คื คืออxตัตัวแปรอิ แปรอิ
ว xy2 ส/ระที สn ่ถxูกเลื
ระที ถ
่
0 2
ก
ู อnกเข้
เลื อ
p
า
กเข้ สมการ yา y(10)
p 2
2
n
โดยที
าโดยที
คงที ่ ่ (Constant) x คื2อ ตัวของสมการถดถอย แปรอิส2 ระ Yและ y20คือ ตัวpแปรตาม Xp
ตัวเลขที่อยู่ใน โดยที ่ x คือ ตั xวแปรอิ ่ X x p คืnคืออค่ตั าวคงที แปรอิ ส ระทีy่ถูกเลื nอกเข้าสมการ
0 2
ลัพธ์จากข้nอ คื1อ จด้านวนข้ วยค่าอทีมู่ไลด้ของแต่ จากการสุ ละตั่มวแปร สมการ y ่ (Constant) ของสมการถดถอย
p คือ ค่โดยที าสัมประสิ ่ X0p คืคือ ค่ ส n ระ
ท 0คือ
ธิ ก
์ และ จ
ารถดถอย านวนข้ yตัาวคงที คื อ
แปรอิ อตั มู ว
(Regression ล ของแต่
แปรตาม
ส่ ระที ล
่ถูกเลืของสมการถดถอย ะตั
อวกเข้ แปร
Coefficient) าสมการของตัวแปรอิสระต
ช่ ว ง 0 ถึ ง 1 อ ค่ค่ า สั า ม คงทีประสิ ่ (Constant) ท (Constant)
ธิ ก
์ ารถดถอย (Regression
เลือกตัวแปรอิสระที่มีค่า r สูงสุดเข้าสมการโดยที ตามสมการที
่ x คือ ่ ตั(11) วแปรอิสระ และเลื y อ กตั
คื
คืn อคืค่อาจความคลาดเคลื อ ว แปรอิ
ตั ว แปรตาม
านวนข้อมูลของแต่ ส ระที p ม
่ อ
่ ค
ี า
่
นระหว่ r สู ง สุ
ละตัาวงค่แปร ด เข้ าา สมการ
จริ ง y ตามสมการที
และค่ า ที ไ
่ ด้ จ ่ (11) Coefficient)
ากสมการ ŷ
0p คื อ ค่ า คงที
สัมประสิทธิ์ก่อารถดถอย
ของสมการถดถอย ่ (Constant) ของสมการถดถอย (Regression Coefficient
n pคือ จานวนข้ เลือกตัวอแปรอิ มูลของแต่ สระทีล่มะตัีคว่า แปร r สูงสุดเข้าสมการ ตามสมการที คื อ ค่ า ความคลาดเคลื นระหว่
่ (11) X า งค่ า จริ ง y และค่ าที่ได้จา
4. การจัดการค่าข้อมูลทีข่ าดหาย
Y 0 p X
(Missing Value) p คื คคือืออค่ค่าค่ความคลาดเคลื
าาสัสั(11) มมประสิ ประสิ Yท ทธิ์กธิ่อารถดถอย ์ ก 0 ารถดถอย
นระหว่ p างค่ (Regression
p าจริง y และค่ Coefficient าที่ได้าจค
เลือกตัวแปรอิสระทีน่มาตั ีค่าวrแปรที สูงสุด่ไเข้ ม่ไาด้สมการ ถูกเลือตามสมการที กเข้าสมการหาค่ ่ (11) Y
า F-test หรือ t-test แล้วนาค่าที่มากที่สุดมาพิจารณาค่
X
โดยที่ ในการวิ X p คือเคราะห์
ตัวแปรอิขอ้ สมูระที ่ถูกเลือกเข้กว่ าสมการ นาตัวแปรที โดยที่ไง่ ม่กล่ได้าXวเข้ ถูกเลืคือคือกเข้ ค่าตัความคลาดเคลืว0าสมการหาค่ า่ถ่อCoefficient)
ูกF-test
นระหว่ หรือสมการ t-test
าจริงดแล้ y วและค่ นาค่าทีาที่ม่ไากท
ล การขาดหายของข้ าหรือเท่ อมูากัลบ 0.05 (Regression ให้นาตัวแปรดั p าสมการ แปรอิ
แต่ถp้าสมีระที คp่ามากกว่ เลือา กเข้ 0.05างค่ จะหยุ การค านวณและ ด้จ
Y่ นา
กว่ น าตั
หรืXอ0เท่คืา กัอบpตัX ว แปรที 0.05 ไ
่ ม่p
ไ ด้
ให้ ถ ก
ู
าตัวแปรดั เลื อ กเข้ า สมการหาค่ า F-test หรื อ t-test แล้ ว น
(11)าค่ า ที ่ ม าก
จะส่งผลต่อการประสิ 0 คือ ค่าคงที ทธิภ่ (Constant)
าพในการจ�ของสมการถดถอย ำแนกข้ อิสระตั อมูล้งแต่ [20] ตัวโดยที ที่ 2 เป็ ต้นนาตัไปถู กเลือว่ไกเข้ แปรอิ าสู0สน ่สระที มการ คือ่ถค่ของตั ูกาจะมี เลื
คงที องกเข้ กล่แปรอิ
กว่ (Constant)
าาวเข้
สมการ
ารตรวจสอบตั
าสสมการ ระตั ววทีแต่
ของสมการถดถอย ่ ถ้ามี่อคยู่ามากกว่
แปรที ่ในสมการว่
า 0.05 จะห
อิกว่ าหรื้งอของตั
p
ว แปรที
เท่ตากััววบทีแปรอิ 0.05 ม่ ไ ด้ ถ
ให้ ก
ู นนาตั เลื อ กเข้
ว่ แปรดั า สมการหาค่ งกเข้ กล่าาวเข้ า
าสมการ F-test หรื อ
แต่กถารตรวจสอบตั ้ามีค่ามากกว่าาค่ว0.05
t-test แล้ ว น าทีาตั่มวจะ แป
าก
วิธีการที่ใช้ใpนการจั คือ ค่าดสัการกั มประสิบทปัธิญ ์กโดยที หาดั่ งกล่
ารถดถอย X
สมการ า
(Regression
p
ว คื ได้ อ แ
ตั ว ก่ Coefficient)
แปรอิ ส
สระตั
ระที ถ
่ ก
ู แต่
เลื
0 คือ ค่ คงที่ (Constant) อ กเข้ ่
า 2 สมการ เป็ ส น ระตั ต้ วไปถู ที
p คือ ค่าสัมประสิทธิ์การถดถอย (Regression Coefficient
pก เลื อ
X
ของสมการถดถอย p สู ่ ส มการ จะมี แปรที ่อ
กว่
อิ ส า หรื
ระตั อ
ง
้ เท่
แต่ าต กั ว
ั บ ที 0.05
่ 2 เป็ ให้น น
ต้ น าตั ไปถู ว แปรดั ก เลื อ ง กล่
กเข้ า วเข้
า สู ่ ส ามการ สมการ จะมี แต่ ก ถ า
้ มี ค
ารตรวจสอบตั า
่ มากกว่ า 0.05
ว แปรที จะ ่
การตั ด กลุ ่ ม คืข้ออค่มูาความคลาดเคลื
มชุดข้อมูลตัวอย่ำง (Over-Sampling) ล ที่ สู ญ หายทิ่อ้ งนระหว่ ไป (ignoring างค่0าจริคืงอ ค่yาคงที และค่่ (Constant)าสมการ
ที่ได้จากสมการ ของสมการถดถอย
p คือ ค่าสัมประสิ
ŷ คืคืท อ อ ธิค่ ์กาค่ารถดถอย
ความคลาดเคลืา ความคลาดเคลื (Regression อ
่ นระหว่ Coefficient)
า ่ งค่
อ น า จริ ง y ของตั
และค่ วแปรอิ า ที ไ
่ ด้ ส
จ
อิสมการ สระตั้งแต่ตัวที่ 2 เป็นต้นไปถูกเลือกเข้าสู่สมการ จะมีการตรวจสอบตัวแปรที่
ความสมดุลของข้อมูand ลด้วยวิdiscarding
ธีการสุ่มเพิ่มชุดข้data) อมูลตัวอย่การแทนที าง จะสุ่มเพิ่ ค่ม่ ชุาpทีดข้่ หคือายไป อมูค่ลาทีสั่มมีคประสิ ลาสน้ ทอธิยจนกว่
์การถดถอย คือ าค่จะได้ าความคลาดเคลื จ านวน Coefficient)
(Regression ่อระหว่ นระหว่ างค่างค่ าจริ ของตั
าจริง ง วyแปรอิ และค่
และ สระตั าที่ไวด้ทีจ่ ากสมการ p X p ŷ
นาตัว(imputation)
แปรที่ไม่ได้ถูกเลือกเข้ า สมการหาค่ า F-test หรื อ t-test แล้ ว น าค่ า ทีสมการ ่ ม ากที ่ ส ุ ด มาพิ จ ารณาค่ า ความมี น ั ย ทางสถิ ต ิ ถ้ า มี ค ่ า น้ อ ย
นวนใกล้เคียงหรือเท่ากับชุดข้อมูลอื่น ข้ด้อวเสียกระบวนการประมาณค่ ยคือใช้เวลาในการฝึกสอนเพิ คือ ่มค่มากขึ
า [20] าความคลาดเคลื ้นกว่ าเดิมนาตั ่อเนืนระหว่ ว่อแปรทีงจากมี
าานวณและได้
่ไงค่ม่กาไารเพิ ด้ถูกเลือกเข้าสมการหาค่
จริง่ม y และค่ ค่มการที าทีา่ไทีด้่ไจ่เด้หมาะสม จากสมการ
ากสมการ
า F-test หรือ t-test แล้วนาค่าที่มาก
ŷ
กว่าหรือวิเท่ธาีกกัารทางสถิ
บ 0.05 ให้นตาตั ิ ว
วิ ธแปรดั
ี ก ารเรี ง กล่ย า
นรูวเข้
้ ข า
องเครื สมการ ่ อ แต่
ง ถ
(machineา
้ มี ค า
่ มากกว่
น าตั ว า
แปรที 0.05 กว่
ไ
่ ม่จะหยุ
า
ไ หรื
ด้ ถ อ ก
ู ด เท่ การค
เลื า
อ กักเข้ บ 0.05า สมการหาค่ ให้ น าตั ว ส
า แปรดั F-test ง กล่
หรื า อวเข้ t-test า สมการ ตัววแปร
แล้ นแต่าค่ถา้าทีมี่มคากที ่ามากกว่ ่สุดมาพิ า 0.05 จารณ จะ
เพิ่มมากขึ้น [15] ได้นาเสนอวิธี Synthetic Minority Over-Sampling Technique (SMOTE) เพื่อเพิ่มชุดข้อมูล โดย
อิสระตั้งlearning)
แต่ตัวที่ 2 เป็น[6] ต้นไปถู ก เลื อ กเข้ า สู ่ ส มการ จะมี ก ารตรวจสอบตั ว แปรที ่ อ ยู ่ ใ นสมการว่ า ตั ว แปรอิ ส ระใดควรถู ก คั ด เลื อ กเข้ า
ข้อมูลของคลาสที่มีจานวนน้อย มีวิธีการดัซึงนี่งในงานวิ ้ นาตั จัยวนีแปรที ้เลือ่ไกใช้ ม่ได้กถารเติ ูกกว่
เลือาหรื มกเข้ค่อาเท่สมการหาค่
ากับ อิ0.05
สระตั า F-test
ให้ ้งนแต่าตัตวัวหรื
น� ำ ตัที่ อ2 t-test
แปรดั
ว แปรที เป็งกล่ นต้าแล้
่ ไ นวเข้ไปถู
ม่ วานสมการ
ไ ด้ าค่กเลื
ถ ู ก าทีอ่มกเข้
เลื อ ากทีถาสู้า่สมี่สุดคมการ
แต่
กเข้ า มาพิ
สมการหาค่ ่ามากกว่ จจะมีารณาค่ า ก0.05 ารตรวจสอบตั
าาความมี จะหยุนดการค ัยทางสถิวแปรที านวณ ติ ่
สมการ
วณหาผลต่างระหว่างชุข้ดอข้มูอลมูด้ลวทียวิ ่พิจธารณาและชุ
ีการทางสถิดข้กว่ ตอิ ามูเนืลที่ออ่ใงจากวิ
หรื กล้าเกัคีบยธง0.05
เท่ ีดังกล่ ให้านอิวเหมาะ สาตัระตั วแปรดั้งแต่ตงกล่ ัวทีสมการ า่ 2วเข้เป็าสมการ
F-test นต้นไปถู
หรือแต่t-test กถเลื้ามีอคกเข้ ่ามากกว่
แล้าสูว่สน�มการ ำาค่0.05 าทีจะมี ่มจะหยุ ากที ่สดุดการค
การตรวจสอบตั
มาพิานวณและได้ จารณา วแปรที่อสยูมการที ่ในสมการว่ ่เหมาะาต
วณหาค่าข้อมูลใหม่ด้วส�ยการคู ำหรับณชุลัดพข้ธ์อจมูากข้ลทีอ่ม1ีคด้่าวต่อิยค่อสเนื ที่อ่ได้้งงและข้
าระตั แต่
จากการสุ ตัวทีอ่ 2มู่มลเป็ตัทีวนเลขที ่มต้สมการ
ีคน่าไปถู แบบ
่อยู่ใกนช่ เลือวงกเข้ 0ค่ถึาาสูความมี ง ่ส1มการนจะมี ยั ทางสถิ การตรวจสอบตัวแปรที่อยู่ในสมการว่าตัวแปรอิสระใดควรถูกค
ติ ถ้ามีคา่ น้อยกว่าหรือเท่ากับ 0.05
จัดกลุ่ม [6] สมการ
อมูลที่ขำดหำย (Missing Value) ให้น�ำตัวแปรดังกล่าวเข้าสมการ แต่ถ้ามีค่ามากกว่า
ห์ข้อมูล การขาดหายของข้ 5. การคั อมูลดจะส่เลืองผลต่
กตัวอแปรแบบล�
การประสิทธิำภดัาพในการจ บขั้น (Stepwise าแนกข้อมูล [20]0.05 วิธีการที จะหยุ ่ใช้ในการจั ดการค�ดการ ำนวณและได้สมการที่เหมาะสม
มูลที่สูญหายทิ้งไป(ignoring and discarding data)การแทนที่ค่าทีตั่หวายไป
ได้แก่ การตัดกลุ่มข้อSelection) แปรอิ(imputation) สระตั้งแต่ตด้ัววทีย ่ 2 เป็นต้นไปถูกเลือกเข้าสู่
มาณค่า [20] วิธีการทางสถิ สมการ จะมีการตรวจสอบตัวแปรที่อยู่ในสมการว่า
ติ วิธการคั ีการเรีดยเลื
นรูอ้ขกตั องเครื ่อง (machine
วแปรแบบล� ำดับlearning)
ขั้น [18][6]เป็ซึน่งในงานวิจัยนี้เลือกใช้การเติมค่า
างสถิติ เนื่องจากวิธีดเทคนิ
ังกล่าวเหมาะส
คทางสถิาหรั ติเบพืชุ่อดวิข้เอคราะห์
มูลที่มีคค่าวามสั ต่อเนื่อมงและข้ พันธ์อรมูะหว่ ลที่มาีคง่าแบบจัตัวดแปรอิ กลุ่ม [6]สระใดควรถูกคัดเลือกเข้าสมการ
แปรแบบลำดับขั้น (Stepwise Selection) ว แปรอิ ส ระหลายตั ว แปร วิ ธี ก าร
ตัวแปรตามและตั
6. การวัดประสิทธิภาพ
วแปรแบบลาดับขั้น เริ
[18] ่มจากค� ำนวณค่
เป็นเทคนิ าสัมประสิ
คทางสถิ ติเพื่อวิทเคราะห์
ธิ์สหสัมความสั
พันธ์มrพันระหว่ างางตัวแปรตามและตัวแปรอิสระ
ธ์ระหว่
6.1 ครอสวาลิเดชัน่ (Cross Validation)
ารเริ่มจากคานวณค่าสัตัมวประสิ
แปรตามและตั
ทธิ์สหสัมพันธ์ว แปรอิ
r ระหว่าสงตัระแต่ ล ะตั ว ดัวงแปรอิ
วแปรตามและตั แสดงสระแต่ละตัว ดังแสดงตามสมการ
ครอสวาลิเดชัน่ [8] เป็นการวัดประสิทธิภาพ
ตามสมการที่ (10)
ตัวแบบในการจ�ำแนก โดยการแบ่งข้อมูลออกเป็น
xy x y / n กลุ(10)
่มย่อยขนาดเท่ากัน (folds) จ�ำนวน k กลุ่ม เพื่อ
r 2 2 2 (10)
x x n y y
2
n ให้ข้อมูลทุกตัวมีโอกาสเป็นชุดทดสอบและชุดสอน
เพื่อป้องกันปัญหาการเลือกข้อมูลที่ดีและง่ายมาเป็น
x คือ ตัวแปรอิสระ และ y คือ ตัวแปรตาม
n คือ จานวนข้อมูลของแต่ละตัวแปร
สระที่มีค่า r สูงสุดเข้าสมการ ตามสมการที่ (11)
(11)
44 วารสารวิจัย มข. (บศ.) 13 (1) : ม.ค. - มี.ค. 2556
uj
w ji uj Preprocessing
w kj Preprocessing
w ji w kj uk u Data Collection
k
Data Collection
ภาพที่ 2 วิธีกภาพที
ารด�ำ่ เนิ ธีกEfficiency
2 นวิการารดาเนินการEvaluation
ภาพที่ 2 วิธีการดาเนินการ
ตารางที
ตารางที่ 1่ 1ตาราง
ตารางConfusion MatrixMatrix
Confusion
ตารางที่ 1 ตาราง Confusion Matrix
ค่าทานาย (Predicted)
ค่าความจริง (Actual)
ค่าความจริง (Actual) บวก (Positive) ค่าทานาย (Predicted) ลบ (Negative)
บวก (Positive) บวก (Positive)
True positive (TP) ลบ (Negative)
False negative (FN)
บวก(Negative)
ลบ (Positive) True positive (TP)
False positive (FP) True negative (TN) (FN)
False negative
ลบ (Negative) False positive (FP) True negative (TN)
ตารางที่ 2 ปัจจัยที่เกี่ยวข้องกับป่วยมะเร็งปากมดลูก
ตารางที ่ 2 ปัจจัยที่เกี่ยวข้จอจังกั
ลาดับ ่ 2 ปัจจัยที่เกี่ยวข้อปังกั
บป่วตยมะเร็งปากมดลูก ลาดับ
ตารางที บยอิป่นวพุยมะเร็งปากมดลูก ปัจจัยอินพุต
1 บ อายุ (Age)
ลาดั ปัจจัยอินพุต 10ลาดับจานวนการแท้งบุตร (Abortion) ปัจจัยอินพุต
21 แพทย์ ผู้ทาการรักษา (Doctor)
อายุ (Age) 11 10 ระดัจบานวนการแท้
ค่าเฉลี่ยของฮีงโบุมโกลบิ น (Hbaverage)
ตร (Abortion)
32 กลุ ่มเซลล์
แพทย์ ผู้ทมาการรั
ะเร็งปากมดลู
กษา (Doctor)ก (PathoGroup) 12 11 กลุ่มระดั
จังหวับค่ดาภูเฉลี
มิลาเนา (Provice_Grouping)
่ยของฮี โมโกลบิน (Hbaverage)
43 เซลล์มะเร็งกลุ่มย่อย (M_code) 13 12 ขนาดของเซลล์มะเร็ง (Tumor_Size)
กลุ่มเซลล์มะเร็งปากมดลูก (PathoGroup) กลุ่มจังหวัดภูมิลาเนา (Provice_Grouping)
54 เซลล์ประเภท (Squamous cell carcinoma:SCC) 14 13 นาหนักของผูป ้ ่วย (Body_Weigh)
เซลล์มะเร็งกลุ่มย่อย (M_code) ขนาดของเซลล์ มะเร็ง (Tumor_Size)
5 ระดั บ ความดุ ข องเซลล์ ม ะเร็ ง (Grade_DIS)
6 15 ช่วงอายุที่เป็นมะเร็งปากมดลูก (Mentru)
เซลล์ประเภท (Squamous cell carcinoma:SCC) 14 นาหนักของผูป้ ่วย (Body_Weigh)
6 ระยะของโรค (StagingGrouping)
7 16 เป้าหมายการรักษา (Aim_Treat)
ระดับความดุของเซลล์มะเร็ง (Grade_DIS) 15 ช่วงอายุที่เป็นมะเร็งปากมดลูก (Mentru)
8 จานวนการตังครรภ์ (Gravidity) 17 ลักษณะการลุกลามของเซลล์มะเร็ง (Center)
7 ระยะของโรค (StagingGrouping) 16 เป้าหมายการรักษา (Aim_Treat)
9 จานวนของการคลอดบุตร (Parity)
8 จานวนการตังครรภ์ (Gravidity) 17 ลักษณะการลุกลามของเซลล์มะเร็ง (Center)
9 จานวนของการคลอดบุตร (Parity)
ตารางที่ 3 ผลการวิเคราะห์โดยการคัดเลือกตัวแปรแบบลาดับขัน ตารางที่ 4 ค่าพารามิเตอร์ที่มีความผิดพลาดน้อยที่สุด
ลาดับ ปัจจัย การกาหนดค่าพารามิเตอร์ ANN+CSL ANN+SMOT
ตารางที ่ 3
1 อายุ (Age)ผลการวิ เ คราะห์ โ ดยการคั ด เลื อ กตั ว แปรแบบล าดั บขั น ตารางที
จานวน Input ่ 4 ค่ า พารามิ เ ตอร์ ที่มีความผิ
6 ดพลาดน้6 อยที่สุด
ลาดั
2 บ ระยะของโรค (StagingGrouping) ปัจจัย จานวนการกOutputาหนดค่าพารามิเตอร์ 1ANN+CSL 1ANN+SMOT
1 อายุ (Age) จานวน
จานวนชั นซ่อInput
น 7 6 7 6
3 กลุ่มเซลล์มะเร็งปากมดลูก (PathoGroup) 12 กลุ่มจังหวัดภูมิลาเนา (Provice_Grouping)
5 4 เซลล์เซลล์
ประเภท ะเร็(Squamous cell carcinoma:SCC)
มมะเร็ งงกลุ 14 13นาหนั กของผูป้ ่วย (Body_Weigh)
4 เซลล์ กลุ่ม่มย่ย่ออยย (M_code)
(M_code) 13 ขนาดของเซลล์
ขนาดของเซลล์ มมะเร็
ะเร็งง (Tumor_Size)
(Tumor_Size)
6 5 ระดับเซลล์
ความดุ ของเซลล์
ปประเภท (Squamous มะเร็ง (Grade_DIS)
cell 15 14ช่วงอายุ ทเ
่ ี ป็
น มะเร็ ง ปากมดลู ก (Mentru)
5 เซลล์ ระเภท (Squamous cell carcinoma:SCC)
carcinoma:SCC) น าหนั
14 นาหนักของผูป ก ของผู ป
้ ว
่ ย (Body_Weigh)
้ ่วย (Body_Weigh)
7 6 ระยะของโรค (StagingGrouping) 16 15เป้าหมายการรั
6 ระดั บ ความดุ ข องเซลล์ ม ะเร็
ระดับความดุของเซลล์มะเร็ง (Grade_DIS) ง (Grade_DIS) งอายุทที่เี่เกป็ป็ษา
15 ช่ช่ววงอายุ นนมะเร็
มะเร็(Aim_Treat)
งงปากมดลู
ปากมดลูกก (Mentru)
(Mentru)
850 7 จานวนการตั 17 วารสารวิ
งครรภ์(StagingGrouping)
(Gravidity) 16 เป้าหมายการรักษา (Aim_Treat) - มี.ค. 2556
จ ย
ั มข. (บศ.) 13 (1) : ม.ค.
ระยะของโรค 16ลักษณะการลุ
เป้ า หมายการรัก ลามของเซลล์
ก ษา มะเร็
(Aim_Treat)ง (Center)
7 ระยะของโรค (StagingGrouping)
9 8 จานวนของการคลอดบุ
จจานวนการตั
านวนการตังครรภ์งครรภ์ตร(Gravidity)
(Parity) 17 ลักษณะการลุกลามของเซลล์มะเร็ง (Center)
8 (Gravidity) 17 ลักษณะการลุกลามของเซลล์มะเร็ง (Center)
9 ่ จจ3านวนของการคลอดบุ ตรร (Parity)
9
ตารางที านวนของการคลอดบุ
ผลการวิเคราะห์โตดยการคั (Parity)
ดเลือกตัวแปร ตารางที่ 4 ค่าพารามิเตอร์ทมี่ คี วามผิดพลาดน้อยทีส่ ดุ
ตารางที่ 3 ผลการวิเคราะห์โดยการคัดเลือกตัวแปรแบบลาดับขัน ตารางที่ 4 ค่าพารามิเตอร์ที่มีความผิดพลาดน้อยที่สุด
แบบล�ำดับขั้น
ลาดัตารางที
บ ่ 3
ตารางที่ 3 ผลการวิเเคราะห์
ผลการวิ คราะห์ ปัจโโดยการคั
จัย ดดเลื
ดยการคั เลืออกตั
กตัววแปรแบบล าดับบขัขันน ตารางที
แปรแบบลาดั ตารางที่่ 44 ค่ค่าาพารามิ
การกาหนดค่
พารามิเเตอร์
าพารามิเตอร์
ตอร์ทที่มี่มีคีความผิ
ANN+CSLดพลาดน้
วามผิดพลาดน้ออยที
ยที่ส่สุดุด
ANN+SMOT
1 ลลาดั จานวนการก Inputาหนดค่าพารามิเตอร์ 6ANN+CSL
าดับบอายุ (Age) ปัปัจจจัจัยย 6
ANN+SMOT
การกาหนดค่าพารามิเตอร์ ANN+CSL ANN+SMOT
2 11 ระยะของโรคอายุ (StagingGrouping) จานวน จจานวน Output Input 1 6 1 6
อายุ (Age)
(Age) านวน Input 6 6
3 22 ขนาดของเซลล์
ระยะของโรค ม ะเร็ ง (Tumor_Size)
(StagingGrouping) จานวนชั จจานวน นซ่ อ
านวน Output น
Output 7 1
1
7 1
1
ระยะของโรค (StagingGrouping)
4 33 กลุ่มขนาดของเซลล์
เซลล์ มะเร็ ง ปากมดลู มะเร็ ง ก (PathoGroup)
(Tumor_Size) ค่าอัตจจานวนชั
ราการเรี
านวนชันซ่อน ย
นซ่นรู
อน ้ 0.1 7
7
0.1 7
7
ขนาดของเซลล์มะเร็ง (Tumor_Size)
5 44 นาหนักลุ กม
่ ของผู
เซลล์ ป
้ มว
่ ย
ะเร็ (Body_Weigh)
ง ปากมดลู ก (PathoGroup) ค่าโมเมนตั ม
ค่ค่าาอัอัตตราการเรี ย
ราการเรียนรู้ นรู ้ 0.2 0.1
0.1
0.1 0.1
0.1
กลุ่มเซลล์มะเร็งปากมดลูก (PathoGroup)
6 55 ระดับนนค่าหนั
า เฉลี
ก ย
่ ของฮี
ของผู ป
้ โ
ว
่ มโกลบิ
ย น
(Body_Weigh) (Hbaverage) จานวนรอบ ค่ค่าาโมเมนตั
โมเมนตัม ม 2500 0.2
0.2
5000 0.1
0.1
าหนักของผูป้ ่วย (Body_Weigh)
66 ระดั บ ค่ า เฉลี ย
่ ของฮี โ มโกลบิ น (Hbaverage) จจานวนรอบ
านวนรอบ 2500
2500
5000
5000
ระดับค่าเฉลี่ยของฮีโมโกลบิน (Hbaverage)
ตารางที่ 5 ประสิทธิภาพการทานายด้วยโครงข่ายประสาทเทียม (ANN) และวิธีถดถอยโลจิสติก (Logistic)
ตารางที
ตารางที ่55ประสิ
ประสิทธิภ(%) าพการท� TN ำ(%) นายด้ วยโครงข่ ายประสาทเที ยม (ANN) และวิธีถดถอยโลจิสติก (Logistic)
ตารางที่่ K-Fold
Method 5 ประสิททธิธิTPภภาพการท
าพการทานายด้ านายด้ ววยโครงข่ าายประสาทเที
Accuracy
ยโครงข่ (%)
ยประสาทเที ยยมม (ANN)
(ANN) และวิ และวิธธีถีถดถอยโลจิ
ดถอยโลจิสสติติกก (Logistic)
(Logistic)
ANNMethod K-Fold TP (%) 0.00
Method ทุก KK-Fold100.00
TN (%)
TP (%) TN (%)
Accuracy (%)
93.50
Accuracy (%)
LogisticANN ทุก K 100.00 0.000.00
ANN ทุก Kทุก K 100.00
100.00 0.00
93.50
93.5093.50
Logistic ทุก K 100.00 0.00 93.50
Logistic ทุก K 100.00 0.00 93.50