You are on page 1of 12

KKU Res J (GS) 13 (1) : January - March 2013 39

แบบจ�ำลองการท�ำนายผลการรักษาผู้ป่วยมะเร็งปากมดลูก
ด้วยโครงข่ายประสาทเทียม
Model for Cervical Cancer Result Prediction
Using Artificial Neural Network
เชาวนันท์ โสโท (Chaowanan Soto)* ดร.พุธษดี ศิริแสงตระกูล (Dr.Pusadee Seresangtakul)1**
วรชัย ตั้งวรพงศ์ชัย (Vorachai Tangvoraphonkchai)***

บทคัดย่อ
งานวิ จั ย นี้ น� ำ เสนอแบบจ� ำ ลองเพื่ อ ท� ำ นายผลการรั ก ษาผู ้ ป ่ ว ยมะเร็ ง ปากมดลู ก ที่ เ ข้ า รั บ การรั ก ษา
ด้วยวิธีการฉายรังสี โดยการประยุกต์ใช้โครงข่ายประสาทเทียมแบบแพร่ย้อนกลับ ในการศึกษาผู้วิจัยได้
รวบรวมปัจจัยต่างๆ ที่มีความสัมพันธ์ต่อผลการรักษาจากงานวิจัยทางการแพทย์ที่เกี่ยวข้อง และได้ท�ำการ
วิเคราะห์ความสัมพันธ์ของปัจจัยด้วยวิธีแบบล�ำดับขั้น ผลการศึกษาพบว่าปัจจัยที่มีความสัมพันธ์ต่อผลการรักษา
ประกอบด้วย ระยะของโรค อายุ ขนาดของก้อนเนื้อ ประเภทของเซลล์มะเร็ง และน�้ำหนักตัว จากการศึกษา
งานวิจัยที่เกี่ยวข้องพบว่าระดับฮีโมโกลบินมีผลตอบสนองต่อการรักษา ดังนั้นจึงได้เพิ่มระดับฮีโมโกลบิน
รวมกับปัจจัยที่ได้จากการวิเคราะห์รวมเป็น 6 ปัจจัย ในการสร้างแบบจ�ำลองด้วยตัวแบบโครงข่ายประสาทเทียม
ผลการศึกษาพบว่าตัวแบบจ�ำลองที่น�ำเสนอถึงแม้จะมีประสิทธิภาพสูง แต่ค่าความจ�ำเพาะมีค่าเป็น 0% ซึ่งจาก
การวิเคราะห์พบว่าปัญหาเกิดจากความไม่สมดุลของข้อมูลซึ่งมีข้อมูลกลุ่มหนึ่งมากกว่าอีกกลุ่มเป็นจ�ำนวนมาก
ดังนั้นผู้วิจัยจึงได้ท�ำการแก้ปัญหาปรับความไม่สมดุลของข้อมูลด้วยวิธี Cost-Sensitive Learning: CSL
และวิธี Synthetic Minority Over-sampling Technique: SMOTE และท�ำการสร้างแบบจ�ำลองข้อมูล
โครงข่ายประสาทเทียมและแบบจ�ำลองด้วยการถดถอยแบบลอจิสติก เมื่อเปรียบเทียบประสิทธิภาพการท�ำนาย
พบว่าโครงข่ายประสาทเทียมที่มีการแก้ปัญหาความไม่สมดุลของข้อมูลด้วยวิธีการสุ่มเพิ่มชุดข้อมูลตัวอย่าง
มีประสิทธิภาพการท�ำนายที่ ด้วยค่าความถูกต้อง 81.71% ค่าความไว 94.47% และค่าความจ�ำเพาะ 55.47%
สูงกว่าวิธีการถดถอยแบบลอจิสติกที่มีการแก้ปัญหาความไม่สมดุลของข้อมูลด้วยวิธี CSL ซึ่งมีค่าความถูกต้อง
81.00% ค่าความไว 84.52% และค่าความจ�ำเพาะ 30.66%

ABSTRACT
This paper presents models to predict the result of cervical cancer treatment by
radiotherapy using Back Propagation Artificial Neural Network (BPANN). In order to select
appropriate input factors for the model, the researchers studied factors that had an effect on
1
Correspondent author: pusadee@kku.ac.th
* นักศึกษา หลักสูตรวิทยาศาสตรมหาบัณฑิต สาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น
** ผู้ช่วยศาสตราจารย์ ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น
*** รองศาสตราจารย์ นพ. ภาควิชารังสีวิทยา คณะแพทยศาสตร์ มหาวิทยาลัยขอนแก่น
40 วารสารวิจัย มข. (บศ.) 13 (1) : ม.ค. - มี.ค. 2556

cervical cancer. Stepwise factor analysis was used to analyze the relationship between the
factors and the result of cervical cancer treatment. The results show that there are five factors
that are significant in the result of cervical cancer treatment by radiotherapy; these include
the cancer stage, age, tumor size, type of cancer cell, and body weight. Medical research
has shown that hemoglobin is also related to the treatment of cervical cancer. Therefore,
hemoglobin was also used as an additional input factor of the prediction model. The artificial neural
network (ANN) and logistic regression models were constructed and used to predict the results
of cervical cancer treatment. In order to analyze for the appropriate models, the factors data
from 1994 to 1998 were used in the study. The results showed that the accuracy was very
high but the models could not identify the specificity rate. The analysis results showed that
the problem came from imbalanced data sets. In order to improve the efficiency of the models,
Cost Sensitive Learning (CSL) and Synthetic Minority Over-sampling Techniques (SMOTE)
were addressed to resolve the imbalance in the data sets. The output data sets were used
to construct the artificial neural network and logistic regression models. The experimental
results show that the accuracy, sensitivity and specificity of the ANN with SMOTE are 81.71%,
94.47% and 55.47% compared to the Logistic Regression with CSL are 81.00%, 84.52% and
30.66%, respectively. The results showed that the ANN with imbalanced data by SMOTE
was more accurate than the logistic regression with imbalanced data by CSL.

ค�ำส�ำคัญ: การท�ำนายผลการรักษามะเร็งปากมดลูก โครงข่ายประสาทเทียม ความไม่สมดุลข้อมูล


Key Words: Cervical cancer result prediction, Artificial neural network, Imbalance data

บทน�ำ รอดของผู้ป่วยภายหลังการรักษาจนกระทั่งผู้ป่วยเสีย
ปัจจุบนั โรคมะเร็งปากมดลูกเป็นมะเร็งทีพ่ บ ชีวิต แต่การศึกษาต้องใช้ระยะเวลานานและยังไม่อาจ
มากทีส่ ดุ เป็นอันดับสองของโลกทีพ่ บในเพศหญิง รอง สรุปได้ว่าผู้ป่วยเสียชีวิตด้วยสาเหตุใด และการศึกษา
ลงมาจากมะเร็งเต้านม พบประมาณ 500,000 รายต่อปี อัตราการหายของโรค (Disease free rate) ซึ่ง
และมีอัตราการเสียชีวิตประมาณ 250,000 รายต่อปี จะตรวจการหายของโรค ณ เวลาต่างๆ ที่ก�ำหนด
โดยจะพบในประเทศที่ก�ำลังพัฒนามากกว่าประเทศ การประเมิ น แบบหลั ง นี้ เ ป็ น ดั ช นี ท างอ้ อ มในการ
ที่พัฒนาแล้ว [1] ท�ำนายถึงการรอดชีพของผู้ป่วยในอนาคตได้
เนื่องจากผู้ป่วยมะเร็งปากมดลูกจะเข้ารับ ดังนั้นหากมีระบบที่ใช้ปัจจัยที่เกี่ยวข้องกับ
การรักษาเมื่อมีระยะของโรคเป็นมากแล้ว ตั้งแต่ระยะ ผู้ป่วยช่วยคาดการแนวโน้มว่าผู้ป่วยมีโอกาสที่จะกลับ
ที่ 2 ขึ้นไป ส่วนใหญ่จึงเข้ารับการรักษาด้วยรังสีรักษา มาเป็นซ�้ำหรือมีการแพร่กระจายของมะเร็ง ก็จะเป็น
[12] การรักษาโรคมะเร็งปากมดลูกด้วยวิธีการฉาย ข้อมูลช่วยแพทย์ในการวางแผนการรักษาที่เหมาะสม
รังสี สามารถรักษาได้ทกุ ช่วงระยะของโรค การประเมิน กับผู้ป่วยแต่ละรายได้
ผลการรักษาแบ่งเป็น 2 รูปแบบคือ การศึกษาอัตรา การวิเคราะห์โรคหรือจ�ำแนกข้อมูลทางการ
การรอดชีพ (Survival rate) หมายถึง อัตราการอยู่ แพทย์ ส่วนใหญ่แล้วนิยมใช้โครงข่ายประสาทเทียม
1. โครงข่ำยประสำทเทียมแบบเพอร์เซปตรอนหลำยชั้น (Multilayer Perceptron Artificial Neural
โครงข่ายประสาทเทียมแบบเพอร์เซปตรอนหลายชั้น [9] ประกอบด้วยชั้นอินพุต (Input Laye
ชั้นเอาท์พุต (Output Layer) แสดงตามภาพที่ 1 ในแต่ละชั้นของโครงข่ายประสาทจะประกอบด้วยห
KKU Res J (GS) 13 (1) : January ขั้นตอนวิธ-ีแMarch บบแพร่ย2013 ้อนกลับ (back propagation algorithm) [19] เป็นขั้นตอนวิ 41 ธีที่ใช้ในการฝึกส
เพอร์เซปตรอนหลายชั้น ใช้สาหรับปรับค่าน้าหนักเส้นเชื่อมโยงของโหนดต่างๆ ให้มีค่าที่เหมาะส
[2, 16] เนื่องจากมีความสามารถในการจ� ป้อนไปข้ำแนกข้ างหน้าอ(Feed มูล forward) ไปจะมีกเริารค� ่มต้นำจากข้ นวณค่อมูาเอาท์ ลจะถูพกุตส่ทีงไปยั ่ได้จงากชั ชั้นถั้นดก่ไปของโครงข่ อนหน้า ายประสาท โ
ทฤษฎีและงำนวิจัยที่เกี่ยวข้อง
อยูใ่ นระดับทีด่ ี เช่น Yan et al. [25] มีการค วินจิ านวณค่
ฉัยโรคหั าเอาท์ วใจ พุตทีตามสมการที ่ได้จากชั้นก่อ่ นหน้ (1) า ตามสมการที่ (1)
โดยใช้โครงข่ายประสาทเทียมแบบเพอร์เซปตรอน 1. โครงข่ ำ ยประสำทเที ย มแบบเพอร์ เซปตรอนหลำยชั้น (Multilayer Perceptron Artificial Neu
p
หลายชั้น พบว่าผลการวินิจฉัยมีความถูทฤษฎี กต้โครงข่
องมากกว่ และงำนวิ
ายประสาทเที า จัยที ่เกีย่ มแบบเพอร์ วข้อง u jlเซปตรอนหลายชั 
  wji  yi ้น [9] (1)
l l 1
ประกอบด้วยชั้นอินพุต (Input L
ร้อยละ 90 งานวิจัยของ Botoa et ชัal. ้น1.เอาท์ โครงข่
[2] พท�ุตำำ(Outputยประสำทเที
นาย Layer)
ยมแบบเพอร์ แสดงตามภาพที เซปตรอนหลำยชั ่ 1 ในแต่ละชั้น้น(Multilayer
i 0
ของโครงข่าPerceptron ยประสาทจะประกอบด Artificial N
(l-1)
มะเร็งต่อมลู
ทฤษฎี กหมาก โดยใช้
และงำนวิ จัยทีโครงข่
่เกี่ยวข้าอขัยประสาทเที
ง้นตอนวิ โดยที
โครงข่ ธีแ่ บบแพร่ มyi คืย ้ออนกลั
ายยประสาทเที ค่าเอาท์ บ (back
ยมแบบเพอร์ พุตโหนดที
โดยที ่ propagation
yiเซปตรอนหลายชั
(l-1) ่ i ในชัคือ ้นค่algorithm) ก่าเอาท์ อนหน้้พนาุต[9] (l-1)
โหนดที
[19]ประกอบด้ เป็่ นiขัใน ้นตอนวิ วยชั้นธอิีทนี่ใพุช้ตในการ (Inpu
(l)
แบบ MLP, RBF-MLP
1. โครงข่ำยประสำทเทียมแบบเพอร์ และ RNN เพอร์ เปรี
ชั้นเเอาท์ ย บเที
ซปตรอนหลายชั ย
พุต (Output
เซปตรอนหลำยชั บ W ji คื ชั อ น

้นLayer) ค่
ก่ า
อ ถ่
นหน้ ว งน้
ใช้้นส(Multilayer
าหรั าหนั
า (l-1) ก
บปรับค่Perceptron
แสดงตามภาพที ที เ
่ ชื อ

าน้าหนั มโยงระหว่
่ 1 ในแต่ กเส้นArtificial า
ลเชืะชั งโหนดที
่อมโยงของโหนดต่
้นของโครงข่ ่ j
Neural Network: ชั น
้ ที ่ l กั
ายประสาทจะประกอบบ โหนดที
างๆ ANN) ให้มีค่าที้น่เหม
่ i ชั ที่
กับการถดถอยแบบโลจิสติก พบว่าโครงข่ ้นาตอนวิ
ป้อขันไปข้ ยประสาท าเงหน้ าp (Feed คื อยforward) ้อจนกลั
านวนโหนดชั Wเริji ่มต้คืนpropagation
(l)
อ้นจากข้
ทีค่่ (l-1)
าถ่อวมูงน� ้ำหนั กที่เชื่อมโยงระหว่ นาขัชัง้นตอนวิ
โครงข่ายประสาทเทียมแบบเพอร์ ธีแบบแพร่
ซปตรอนหลายชั ้น บ[9](back ประกอบด้ วยชัล้นจะถู นกพุส่ตงไปยั
อิalgorithm) (Input ง[19]
ชั้นLayer) ถัดเป็ไปของโครงข่ ซ่อน (Hidden ธีทายประสา
ี่ใช้ในกา La
เทียมให้ผลการท�ำนายดีกว่าการถดถอยแบบโลลจิสติกu (l) โหนดที คื อ ค่ า ่
ผลลัj ชั น
้ พ ทีธ์่ ท l ่ ี กั
ไ บ
ด้ จ โหนดที
ากการค ่ iานวณชั น
้ ที ่ (l-1)
และจะต้ อ งน าค่ า ดั ง กล่
ชั้นเอาท์พุตet(Output มีแสดงตามภาพที
กเพอร์
ารคานวณค่ เซปตรอนหลายชั าเอาท์ พุตที้นล่ไะชั ด้จ้นสากชั
ใช้ าหรั้นบก่ปรั อนหน้ าาน้ตามสมการที
บค่ายประสาทจะประกอบด้ าหนักเส้นเชื่ อ(1)มโยงของโหนดต่ างๆ ให้มีค่าทีอ่เงโห
า วไปผ่ า นฟั
และ Chowdhury al. [4]Layer) ใช้
ต้องการโ ครงข่ า ยประสาท
(l)
่ j1 ในแต่ ของโครงข่
p คื อ จ� ำ นวนโหนดชั น
้ ที ่ (l-1) วยหน่วยประมวลผลหรื
ขั้นตอนวิเ ซปตรอนเพื
เที ย มแบบเพอร์ ธีแบบแพร่ย้อ่ อนกลั วิ นิ จบป้ฉั(back อยyนไปข้
j propagation
โรคที า่ เงหน้
กิ ด า (Feed algorithm) forward) uj(l)[19]เริ
ค่มอื ต้เป็ นค่นจากข้ ขั้นตอนวิ
lาผลลัพธ์ทไ
อpมูลจะถู ี่ ธlด้ีทจกyี่ใากการค� ช้ส่l ใง1นการฝึ
ไปยั
 ำนวณ และ
งชั้นกสอนโครงข่ถัดไปของโครงข่ ายประสาทเท ายประส
เพอร์เซปตรอนหลายชั
ในเด็ ก ทารกแรกเกิ ดผลการศึก้นษาใช้สมีาหรั
สมการฟั
มีคกวามถู
ารค ง
บปรัานวณค่ก์ ช ั น
กบต้ค่อาน้ง าาหนั
กระตุ ้
เอาท์จะต้น (Activation
กพเสุ้ตนอทีงน� เชื่ได้่อำจมโยงของโหนดต่
ค่ากชั
Function)
าดัง้นกล่ ก่อานหน้
u 
วไปผ่าiาตามสมการที
j 
[11]
0างๆ
นฟั
wจะแสดงค
งก์ให้
ji
ชันมกระตุ
i าตอบอยู
ีค่า่ที(1)่เหมาะสม
้นเพื่อให้ไโดยแบ่
่ ใ นช่ ว ง -1
ด้ งเป็น 2 ส่วน
ถึ ง 1 ได้แก่ ฟ
ในการวินิจป้ฉัอยนไปข้ างหน้า (Feed forward) เป็นฟังก์ชเริัน่มเชิต้งนตรรกศาสตร์ จากข้ ที่จพกะให้ ค่ต่า้อเป็งการ
งพชันุต้นจริ ถัyงดหรื (l) อเท็จpเท่านั้น ฟังก์ชันซิกมอยด์ แบ่งเป็น 2 ประเภ
ถึง 75% โดยที ่ อมูyiล(l-1) จะถู
เอาท์ คือ ส่คุ่ตางทีเอาท์ ไปยั โหนดที ไปของโครงข่l  อายประสาท
j  l  ่ i ในชั้นก่ นหน้  l 1า (l-1)
โหนดแต่ละโหนดในชั้น
ดัมีกง นัารค
้ น งานวิ
านวณค่จั ยานีเอาท์ พุตในช่
้ จึ ง ได้ ด้วจงากชั
นที� ำ่ไเอาวิ 0ธถึี โ้นงครงข่
ก่1อตามสมการที
นหน้ า ย า ตามสมการที ่ (2) และสมการฟั Tan-sigmoid uง ก์j ชค่ั นา  ที่ได้จjiะอยู
กระตุ w y
้ น ่ใ(Activation i นช่วง -1 ถึง 1 ตามสมการที่ (3)
Wji(l) คือ ค่าถ่่ (1) วงน้าหนักที่เชื่อมโยงระหว่ i 0 างโหนดที่ j ชั้นที่ l กับโหนดที่ i ชั้น
ประสาทเทียมมาประยุกต์ใช้ในการท�ำนายผลการรักษา pFunction) [11] จะแสดงค� 1 ำตอบอยู่ในช่วง -1 ถึง
 l  ่ p yi คื lอคือ จานวนโหนดชั ้นที่ (l-1)
(l-1)
โดยที ค่  yพ
 l า1เอาท์  ุตโหนดที ่ i ในชั้นก่function) อนหน้า (l-1)เป็น (1)
ผู้ป่วยมะเร็งปากมดลูกที่เข้ารับการรักษาด้วยวิธuีกjาร  (l)1 wได้ji แก่yi ฟังก์ชันไบนารี 1  exp (binary  v 
ฉายรังสี พร้อมทั้งได้น�ำวิธีการถดถอยโลจิสติกเข้ามา iuj0ฟัWงji ก์คืชคือันอเชิค่างผลลั วงน้พาหนั ธ์ที่ไกด้ทีจ่เากการค ะให้คานวณ ่าเป็นาและจะต้ งหรืออเท็ ่ งน
j ชัจาค่ ้นทีา่ ดัl งกักล่ าวไปผ่า่ iน
(l)
ถ่ตรรกศาสตร์ ทชื่อี่จมโยงระหว่ งโหนดที
จริ บโหนดที
(l) 1  exp  v 
เปรียบเทียบประสิทโดยที ่ yi(l-1) คืำนาย
ธิภาพในการท� อต้ค่อางการ
เอาท์พyุตj โหนดที่ i เท่ p านั้นคื้นก่ออฟัจนหน้
ในชั านวนโหนดชั
งก์ชyาัน(l-1) ซิกมอยด์
1  exp  แบ่
้นที่ (l-1) v  งเป็น 2 ประเภทคือ
Wji(l) คือ ค่าถ่สมการฟั วงน้าหนังกก์ทีช่เันชืกระตุ uj ้น (Activation าผลลัค่พFunction) ่ l[11] จะแสดงค ชังาตอบอยู ่ในช่ าค่วางดั-1งกล่ถึงาวไปผ 1 ได
(l)
Log-sigmoid
่อมโยงระหว่ คือ าค่งโหนดที าธ์ที่ ทj่ไชัี่ได้้นด้จจทีะอยู
ากการค กั่ใบนช่ โหนดที านวณ
วง 0 ่ iถึและจะต้ ้นที1่ (l-1)ตาม องน
คงก์านวณค่ (l) าความผิ ดพลาดระหว่ (2)คาและ ่างเอาท์ พงุตหรื ที่ตอ้อเท็งการ จเท่า(desire นัค่้นาทีฟั่ไงoutput) ันซิก่ใและเอาท์ น แบ่พงุตเป็ที่ชนั่น2เอา
ทฤษฎีและงานวิจัยที่เกีp ่ยวข้คืออเป็จงต้านวนโหนดชั นอฟังการ ชันyเชิ j งตรรกศาสตร์ ้นที่ (l-1) สมการที ที่จ่ ะให้ เป็นจริ Tan-sigmoid ด้ก์จชะอยู มอยด์ ปร
1. โครงข่ า ยประสาทเทียมแบบเพอร์ uj(l) คือในช่ค่าวเผลลั งสมการฟั
0 ถึพงธ์1ทตามสมการที
ซปตรอน ี่ไงก์ด้ชจากการค ช่วง -1
ันกระตุ ่ (2)
้นานวณ ถึงและ
(Activation 1และจะต้
ตามสมการที
e Tan-sigmoid dFunction)
อj งน  าค่ y่ j(3) L
าค่ดัา[11] งทีกล่ ่ได้าจะแสดงคจวไปผ่ะอยู่ในช่ านฟัวาตอบอยู งงก์-1ชถึันงกระตุ ่ใ1นช่
ตามสมการที
้นวงเพื-1่อให้ ถึงไ1ด้่ (3ไเ
j

หลายชัน้ ต้(Multilayer
องการ yj(l) Perceptronเป็Artificial นฟังก์ชันเชิงตรรกศาสตร์ที่จะให้ค่าเป็นจริงหรื1 อเท็จเท่านั้น ฟังก์ชันซิกมอยด์ แบ่งเป็น 2
โดยที่ ej คือค่ าความผิด พลาด และ y  dj คือเอาท์ พุตที่ต (2) ้องการ (desire output)
Neural Network: สมการฟังANN) ก์ชันกระตุ้น (Activation ในช่วง 0 ถึFunction) ง 1 ตามสมการที [11] จะแสดงค่ (2) และาตอบอยู Tan-sigmoid 1  ่ใexp นช่ วค่งาv-1 ที ่ไถึด้งจะอยู 1 ได้่ใแนช่ ก่าวฟัความชังงก์-1ชถึันงไบนารี 1 ตามสมการท
โครงข่ายประสาทเทียมแบบเพอร์ส่เซปตรอน วนแพร่ย้อนกลั บ (Back Propagation) เริ่มจากการคานวณหาค่ นเฉพาะที(binary ่  
เป็นฟังก์ชันเชิงตรรกศาสตร์้นทก่ี่จอะให้ ค่าาเป็ตามสมการที
นจริงหรือเท็จเท่านั้น ฟังก์ช ันซิ1กมอยด์ exp 1แบ่ v งเป็น (3) 2 ประเภทคือ Log-sigmoid ค่าท
หลายชั้น [9] ประกอบด้วยชั้นอินพุยังตชั(Input นหน้ Layer) ่ (5) y y 
ในช่วง 0Layer) ถึง 1 ตามสมการที ่ (2)พตุ และ Tan-sigmoid ค่าที่ได้จะอยู่ในช่วง -11 1ถึexp ง exp  vv 
1 ตามสมการที ่ (3)
ชัน้ ซ่อน (Hidden และชัน้ เอาท์ (Output
1 ดพลาดระหว่ 
ค�ำนวณค่
l 
 j าความผิ l  
y j1 1exp ดทีพลาดระหว่ yjv   างเอาท์
l   l 1 l 1
wkjพุต
Layer) แสดงตามภาพที่ 1 ในแต่ละชั้นของโครง คานวณค่าความผิ างเอาท์
y 
พ ต
ุ ต
่  อ
้ งการ  (desire k
output) และเอาท์
(2) พุตที่ชั่น
y k
1  v 
ที ่ ต ้ อ งการ (desire output)
1  exp   v 
และเอาท์ พ ุ ต ที ่ ช ่ ั น
ข่ายประสาทจะประกอบด้วยหน่วยประมวลผลหรื โดยที่ อ1 kl exp คือค่าความชั(L)นเฉพาะที e ่โdหนดที j  y
่ kjLชั ้นที่ l+1
โหนด [8] ขั้ น ตอนวิ ธี แ บบแพร่ ย ้ อ นกลั บ (back เอาท์ พ ต
ุ (y ) ตามสมการที j ่ (4)
คyานวณค่ 1 (l+1)
wkj
exp าความผิ
คือ ค่vาถ่ ดวพลาดระหว่ งน้jาหนักที่เชืางเอาท์ ่อมโยงระหว่ พุตที่ต้อางโหนดที งการ (desire ่ k ชั ้นoutput)
ที่ l+1 และเอาท์ กั(3)
บโหนดที พุต่ jทีช่ช
propagation algorithm) [19] เป็นขั้นตอนวิ โดยที ธีท่ 1ี่  eexp j คือค่าvความผิ  ดพลาด และ dj คือเอาท์ พ ต
ุ ที ต
่ อ
้ งการ (desire output)
หลังจากคานวณค่ าความชั นเฉพาะที e่แล้ว คdานวณปรั  y jLบค่ (4)
าถ่วงน้าหนัก ตามสมการที่ (6)
ใช้ในการฝึกสอนโครงข่ายประสาทเทียมแบบเพอร์ ส่วนแพร่ย้อนกลับ (Back Propagation) เริ่มจากการคานวณหาค่าความชั j j นเฉพาะที่ 
คานวณค่าความผิดพลาดระหว่างเอาท์พ ุตที่ต้องการ (desire output) และเอาท์พุตที่ชั่นเอาท์พุต (yj(L)) ตามสมการท
เซปตรอนหลายชั้ น ใช้ ส� ำ หรั บ ปรั บยัค่งาชัน�้น้ ำก่หนั อนหน้ ก เส้
โดยที น
า ตามสมการที่ ej คือค่า่ ความผิ (5) ดพลาด และ dj คือเอาท์พุตที่ต้องการ (desire output)
เชื่อมโยงของโหนดต่างๆ ให้มีค่าที่เหมาะสม ส่eโดย 

d j ย้อนกลั  L โดยที่ ej คือค่าความผิดพลาด และ dj คือ (4)
y j บ (Back Propagation)
วj นแพร่ l  l  เริ่มจากการค
1  y jl     kl 1 wkjl 1
านวณหาค่าความชันเฉพาะที่
แบ่งเป็น 2 ส่วน คือ ส่วนป้อนไปข้างหน้า (Feed เอาท์พุตที่ต้องการ  (desirej y j output)   k
forward) เริ่มต้นจากข้ โดยทีอ่ มูลeจะถู j คือก ค่ส่าความผิ ยังชัง้นดชัก่พลาด
งไปยั ้นอถันหน้ ดไปและ า ตามสมการที dj คือเอาท์่ ส่(5) พวุตนแพร่
ที่ต้องการ ย้อนกลั (desire บ (Back output)Propagation)
 l 1
โดยที
้นถัด่
เริ คือค่าความชั นเฉพาะที ่โหนดที ่ k ชั้นทีl  ่ ่ l+1
ของโครงข่ายประสาท ส่วนแพร่โหนดแต่ ย้อนกลัละโหนดในชับ (Back Propagation) kเริม
(l+1)
จากการค
่ จากการค� ำานวณหาค่
นวณหาค่
   l าความชั
y l นเฉพาะที
j   y j   k 1   ย้อl นหลั น1 งl จากชั
wkj 
1 ้นปัจจุบัน
ยังชั้นก่อนหน้า ตามสมการที่ (5) wkj คือค่าถ่วงน้าหนักที่เชื่อมโยงระหว่างโหนดที j
k ่ k ชั้นที่ l+1 กับโหนดท
หลัโดยที งจากค ่ านวณค่  l 1าความชั คือค่l าความชั นเฉพาะที นlเฉพาะที ่แล้ว ค่โานวณปรั หนดที่ k ชับ้นค่ทีาถ่่ l+1 วงน้าหนัก ตามสมการที่ (6
wkj  คือค่j าถ่ว
l l k  1  l 1
 j y j (l+1) 1  y  w (5)
งน้ k าหนักที่เชื่อมโยงระหว่างโหนดที่ k ชั้นที่ l+1 กับโหนด
k kj

 l 1 หลังจากคานวณค่าความชันเฉพาะที่แล้ว คานวณปรับค่าถ่วงน้าหนัก ตามสมการที่


พยากรณ์
y
  เมื2.2่อมีMultinomial
ตัวแปรตาม y การกาหนดค่ าตั(3)
วแปรอิ
Logistic สระ การวิ
ใช้ในกรณี ที่ตัวเแปรตามเป็
คราะห์การถดถอยแบบโลจิ
นตัวแปรที สติาก2แบ่
(3) ่มีค่ามากกว่ ค่างออกเป็น
1  exp  v 
1  exp   v  ตั ว แบบการวิ เ คราะห์ ก ารถดถอยโลจิ
2.1 Binary Logistic ใช้ในกรณีที่ตัวแปรตามเป็นตัวแปร 2 ค่าเท่านั้นส ติ ก สามารถเขี ย นได้ ต ามสมการที ่ (7)
ณค่าความผิดพลาดระหว่างเอาท์
คานวณค่พุตทีาความผิ
่ต้องการดพลาดระหว่
(desire output)
2.2และเอาท์
างเอาท์ พุตที่ตพ้องการ
Multinomial ุตทีLogistic
่ชั่น(desire (yj(L))ทและเอาท์
เอาท์ใช้พใoutput)
ุตนกรณี ตามสมการที ุตทีน่ event
ี่ตัวแปรตามเป็
พP( (4)
่ชตัวั่นแปรที
เอาท์ ่มีคe่าzมากกว่
(L) า 2 ค่า
)  พุต (yzj ) ตามสมการที่ (4)
ตัวแบบการวิเคราะห์การถดถอยโลจิสติก สามารถเขียนได้ตามสมการที 1  e ่ (7)
42 ej d j  yjL e d  y  L วารสารวิ จ ย
ั มข.(4) (บศ.) 13 (1) : ม.ค. - มี.ค.(4)2556
j j j โดยที่ z  0  1 X1  2 zX 2  ...   p X p
e
ej คือค่าความผิดพลาดโดยที และ ่ dj คืeอคืเอาท์ พุตที่ต้องการ (desire output)  คืP( อ event
ค่าสัมประสิ )  ทธิ์ที่ปzระมาณได้จากข้อมูล
j อค่าความผิดพลาด และ dj คือเอาท์พุตที่ต้องการ (desire output)1  e
พร่ย้อนกลับ (BackหลัPropagation) งจากชัน้ ปัจจุเริบ่มนั จากการค
ส่วนแพร่ย้อนกลับ (Back
กลับไปยัานวณหาค่ งชัน้ ก่อนหน้
Propagation) าความชั า ตามสมการ
โดยที นเริเฉพาะที ่ z ่ านวณหาค่
่มจากการค
 ย้อนหลั
0  1 X 1 
X งคืจากชั

ออค่ ค่
2 X 2้น
ความชั
าตัาวตัแปรอิ
น ปั
วแปรอิ สระ สระ
...จจุบันpกลั
เฉพาะที ่ Xpบไป  ย้อนหลั งจากชั้นปัจจุบันกลับไป
ที่ (5) e คือคื ค่อาล็อค่กธรรมชาติ า ล็ อ กธรรมชาติ (natural logarithm) (natural
มีค่าประมาณ 2.718
ตามสมการที่ (5)ยังชั้นก่อนหน้า ตามสมการที่ (5) โอกาสทีคือ ค่า่จสัะไม่ มประสิ ท ธิ ท
์ ป
่ ี ระมาณได้ จ ากข้ อ มู ล
เกิ logarithm)
ดเหตุการณ์สามารถประมาณได้ มีค่าจประมาณ ากสมการ (8) 2.718
X คือ ค่าตัวแปรอิสระ

y j 1  y j    k 
l  l  l  l 1  l 1
  j (5) 1 (5)
y j  1 eyคืj อ ค่ l โอกาสที l 1จ ่ ะไม่เกิดP( เหตุ การณ์ส)ามารถประมาณ
w  l kj
j
l l
า ล็ อ กธรรมชาติ k wkj (natural noevent
logarithm) มีค่าประมาณ(5)
 1  P(event )
2.718
k
3. กำรจั
ได้ด
จkากสมการ
กำรควำมไม่ ส มดุ
(8) ล ของข้ อ มู ล (Imbalance Data)
 k  คือค่าความชั
l 1
นเฉพาะที โดยที โดยที ่ ่โ่ หนดที  kl ่1k ชัคื้นอทีค่่าl+1 ความชั
ความชันนเฉพาะที โอกาสที่จะไม่เกิดเหตุ
เฉพาะที ่โหนดที
โ่ หนด ่ kการจ ชั้นทีกาแนกข้ ารณ์สามารถประมาณได้จากสมการ (8)
่ l+1 อมูลที่มีข้อมูลคลาสหนึ่งมากกว่าอีกคลาสหนึ่งมาก
(l+1) จะนามาสู่ปัญหาความไม่ส
wkj คือค่าถ่วทีงน้่ kาหนั ชั้นทีกที่ l+1 ่เชื่อมโยงระหว่ (l+1)
wkj คือค่าถ่วงน้าหนักที่เชื่อมโยงระหว่ า งโหนดที ่ k ชั น
้ ที ่ l+1 กั บ โหนดที
ทาให้ผาลลั ่
งโหนดที j ชั น

พธ์ที่ได้จ่ ากการจ
ที ่ l P(
k ชั้นทีาแนกข้ noevent
่ l+1 กัอบมูลโหนดที )  1  P( event
มีความโน้่ jมชัเอี้นยทีงไปทางคลาสที ่l ) (8) ่มีจานวนมาก [7] วิธีการแ
ากคานวณค่าความชั นเฉพาะที w
หลังจากค แ
่ kj
ล้ ว
(l+1)
ค านวณปรั คื อ
านวณค่าความชันเฉพาะที ค่ า บถ่ ค่ ว า งน� ถ่ ว้ งน้
ำ หนั าหนั ก
3. กำรจั่แดล้กำรควำมไม่ ก
ที ่ เ ตามสมการที
ชื ่ อ มโยง
ว คานวณปรั หลายวิ ่
สมดุ(6)
ธบี เช่ ลค่ของข้
นาถ่วิวธงน้ อมูาหนั
ี Cost-Sensitive
ล (Imbalance ก ตามสมการที Learning Data)[10, ่ (6)14] และการสุ่มเพิ่มชุดข้อมูลตัวอย่าง [27]
ระหว่างโหนดที่ k ชั้นที่ l+1 กับโหนดที่ การจ j ชั้นาแนกข้ ที่ l อมูลที3.1่ม3. ้อมูการจั
ีขCost-Sensitive ลคลาสหนึ ดการความไม่ ่งมากกว่าอีกสคลาสหนึ
Learning
มดุลของข้ ่งมาก อมูจะน ล (Imbal-
ามาสู่ปัญหาความไม่สมดุลของ
หลั ง จากค� ำ นวณค่ า ความชัทาให้ น เฉพาะที ผลลัพธ์ที่ได้จากการจการปรั ่ แ ล้ ว ance าแนกข้บอความสมดุ Data) มูลมีความโน้ ลของข้มอเอีมูยลงไปทางคลาสที
ด้วย Cost-Sensitive ่มีจานวนมาก
Learning [10, [7]14]
วิธีกวัารแก้ ปัญหาค
ตถุประสงค์ ขอ
ค�ำนวณปรับค่าถ่วงน�้ำหนัก ตามสมการที ่
หลายวิธี เช่น วิธี Cost-Sensitive (6)
จาแนกผิด (misclassification การจ�
Learning [10,cost) ำ แนกข้14]คืและการสุ อ มู ล
อ ฟังก์ชัน่มระหว่ ที ่ ม ี ข ้ อ มู
เพิ่มชุางคลาสค่ ล คลาสหนึ
ดข้อมูลาตัความจริ ่ ง
วอย่าง [27]ง (actual class) และคล
มากกว่ า อี ก คลาสหนึ
ด้วย cost(actual class, predicted class) หรือเรียกว่า cost matrix [13] โดยที่ค่าใช้จ่าย (cost) ไม่ไ ่ ง มาก จะน� ำ มาสู ่ ป ั ญ หาความ
l  3.1 Cost-Sensitive Learning
wjil   new  w ji  n     w ji  n    j  n  yi
l 
 l 
 (6) l 1
ใช้ไป [5] ไม่ค่(6) สาทีมดุ ่ได้ลจากการสร้ ของข้อามูงลcost(Imbalanced matrix จะใช้ในกระบวนการเรี data) ท�ยนรู ำให้้ของตัวแบบการทานาย เ
้ (Learning Rate) w ji  new 
l  การปรั l  บความสมดุ
w ji  nข้ อมูลให้w ผลลั ล
ดji ีขึ้นnพ[26]
 l
ของข้ อ
ธ์ที่ได้จj ากการจ� มู ล
 l
ด้ ว ย Cost-Sensitive
 n  yi ำแนกข้อมูลมีค(6)
 l 1
Learning [10,
วามโน้มเอียงไป 14] วั ตถุประสงค์ของวิธีการจะ
 คืออัตราการเรียนรู
 คือค่าโมเมนตัม (Momentum) โดยที โดยที ่ ่  คื คือออัอัตราการเรี ตราการเรี ยนรูwย้ จนรู
l 
าแนกผิ
ji(Learning  new ้ (Learning ด wji   n    ทางคลาสที
(misclassification
Rate)
l
wji  cost)
l
n  คื อ่มฟัีจjlง�ำก์นวนมาก
nชันyระหว่ l 1
i
า[7]
งคลาสค่
วิธีการแก้ าความจริ (6)ปัญงหาความไม่(actual class) และคลาสค่าทาน
่  คืRate)
โดยที ออัค่ตาโมเมนตั ราการเรีมยนรู ด้้ (Learning วย cost(actual Rate)class, predicted สมดุลของข้ class)อหรื มูลอมีเรีหยลายวิ กว่า cost ธี เช่matrix
น วิธ[13] โดยที่ค่าใช้จ่าย (cost) ไม่ได้หมายคว
ี Cost-Sensitive
n คือจานวนรอบ (Momentum)
n คื คื คืออจอค่านวนรอบ
ค่าโมเมนตั
าโมเมนตั ม ม(Momentum) ใช้(Momentum) ไป [5] ค่าที่ได้จากการสร้ Learning าง cost matrix [10,จะใช้ 14] และการสุ ในกระบวนการเรี ม่ เพิม่ ชุยดนรูข้้ขอองตั มูลตัววแบบการท
อย่าง านาย เพื่อปรับค่า
สติก (Logistic Regression) n คืคืออจจ�านวนรอบ ำนวนรอบ ข้อมูลให้ดีขึ้น [26] [27]
2. กำรถดถอยโลจิสติก (Logistic Regression) 3.1 Cost-Sensitive Learning
จิสติก มีวัตถุประสงค์ 2.2.เกำรถดถอยโลจิ
พืการถดถอยโลจิ
่อ ศึกษาความสั l ม พัติ
wสjiติ กสnew
นกธ์ ร(Logistic ะหว่ lา
 งตั ว แปรตามและตั  wjil   n  ว แปรอิ l  ส ระ l และน าสมการที
การปรั่ไ(6) บด้ไความสมดุ

(Logistic  wjiRegression)  n   Regression) ่อ ศึกษาความสั  j  n  yi
1 ล ของข้ อ มู ล ด้ ว ย
การถดถอยโลจิ
ม เมื่อมีการกาหนดค่า ตัวแปรอิสการถดถอยโลจิ ส
ระ การวิเคราะห์การถดถอยแบบโลจิ ติ ก มี ว ั ต ถุ ป ระสงค์
สติl  ก มี วl ั ต ถุlป ระสงค์ เ พื สติกแบ่เงพืออกเป็ ม พั น ธ์
่ อ นCost-Sensitive ร ะหว่ า
2 ประเภทคือ [23] Learning [10, งตั ว แปรตามและตั ว แปรอิ ส ระ 14] และน วัตาสมการที
ถุประสงค์่ได้ไป
โดยที่ พยากรณ์ คือการถดถอยโลจิ
อัตราการเรี ย นรู ้ (Learning Rate) วเwพืnew nก ji การวิ jiเnคราะห์
l   l   l  l 
กรnjะหว่ nธ วแปรตามและตั
ll 1
n  yi สติกแบ่
l 1
jiประสงค์
wาjiตั สษาความสั มพัwนji
gistic ใช้ในกรณีที่ตัวแปรตามเป็
ศึกษาความสั ตัวแปรตาม
นตัวมแปร พันสเมื2ธ์ติ่อค่รกมีาะหว่ กมีารก
เท่ วาันัตwาถุ้นาหนดค่
งตั วnew แปรตามและตั แปรอิ ji่ อ ศึ wระ
วwnแปร ธ์ของวิ ารถดถอยแบบโลจิ าyี กงตัi jารจะพิ จ ารณาค่ (6)วงาแปรอิ
ใช้ จ(6)่ าสยในการจ�
ออกเป็ นระ2 และน ประเภทคื าสมการที
อ [23] ด่ได้ไ ป
ำ แนกผิ
คืโดยที
พยากรณ์ อ2.1 ค่าโมเมนตัตโดยที
ัวแปรตาม ม (Momentum)
al Logistic ใช้ในกรณีอิทสี่ตระ Binary
่ และน�
ัวแปรตามเป็ คืLogistic
่ ำอนสมการที วเมืแปรที
อัตตัราการเรี คื่ออใช้ มีอักตใ่ยนกรณี
ารก ด้ีค่าไ้าหนดค่
ไราการเรี
มนรู (Learning
มากกว่
ปพยากรณ์ า้า(Learning
ทยี่ตนรูัวแปรตามเป็ ตั2Rate) วค่แปรอิ า ตั วสแปรตาม นระตัวการวิ
Rate) แปร เ2คราะห์ ากนัารถดถอยแบบโลจิ
ค่าเท่(misclassification ้น สติcost) กแบ่งออกเป็ คือ ฟันงก์2ชประเภทคื ันระหว่าองคลาส [23]
n คือ2.2 จ2.1านวนรอบBinary คืLogistic
ราะห์การถดถอยโลจิเมื สติ่อกมีสามารถเขี ารก�ำหนดค่
กMultinomial ค่าโมเมนตั
ยอนได้ Logistic ตัอใช้ค่วาแปรอิ
ตาคืามสมการที ใโมเมนตั
มนกรณี (Momentum)
ใช้ ในกรณี สท่ มระ(7)ี่ต(Momentum)
ัวแปรตามเป็
ทการวิ ี่ตัวแปรตามเป็ เคราะห์ นตัวแปร กนาร ตัว2แปรที ค่าเท่ค่่มาาีคนัความจริ ่า้นมากกว่าง2 (actual ค่า class) และคลาสค่าท�ำนาย
ตั 2.2 ว แบบการวิ n
Multinomial คื อ
เ จ านวนรอบ
คราะห์ n คื
Logistic อก จ านวนรอบ
ารถดถอยโลจิ ใช้ ใ นกรณี ส ท
ติ ต
่ ี ก ว
ั แปรตามเป็
สามารถเขี ย น
นได้ ตั ว แปรที
ต ามสมการที ม
่ ค
ี า
่ มากกว่ ่ (7) า 2 ค่ า
ถดถอยแบบโลจิe zสติกแบ่งออกเป็น 2 ประเภทคือ [23] (predicted class) แทนด้วย cost(actual class,
กำรถดถอยโลจิสติกP((Logistic ตัวแบบการวิ Regression)
 เคราะห์ การถดถอยโลจิ (7) ่ (7) class) หรือเรียกว่า cost matrix [13]
event )2.1 Binary
สeติzก (Logistic Logistic ใช้สติในกรณี ก สามารถเขี ที่ตัวแปร ยนได้
ez
ตามสมการทีpredicted
2. กำรถดถอยโลจิ
2. กำรถดถอยโลจิ สติก1(Logistic Regression) Regression) P(event )  (7)
การถดถอยโลจิ ส ตามเป็
ติ ก มี ว ั ต นถุตัปวระสงค์ แปร 2เพืค่่อาศึเท่กษาความสั านั้น มพันธ์ระหว่างตั1 วeแปรตามและตั ez z โดยที่ควแปรอิ ่าใช้จ่าสยระ(cost) และน ไม่ได้หมายความถึ
าสมการที ่ ไ ด้ ไ ป งค่าเงินแต่
z  0  1 X1  2 X 2  ...   p X p P(event )  (7)
ยากรณ์ การถดถอยโลจิ
การถดถอยโลจิ 2.2 Multinomial
สติ่ ก ามีตัวzสวัตแปรอิ ติถุกประสงค์ มีวัตถุปเพืระสงค์ X่อ1Logisticศึกเคราะห์ เพื2่อXศึ2กกษาความสั
ษาความสั ใช้ม...ใพันกรณี นธ์1รpะหว่ มX วสเป็
พัeทนี่ าธ์งตัระหว่
z
ตินากงตั
แปรตามและตั เวลาที
แบ่วงแปรตามและตั ใ่ ช้ไวปนแปรอิ [5] สค่วระาทีและน
แปรอิ ไ่ ด้สจอระากการสร้และนาสมการที
าสมการที า่ไงด้costไ ป ่ไmatrix
ด้ไ ป
 คือตค่ัวาแปรตาม
สัมประสิเมืท่อธิมี์ทกี่ปารก าหนดค่
โดยที
ระมาณได้ จากข้อมูล0 สระ1การวิ ารถดถอยแบบโลจิ
 p
ออกเป็ 2 ประเภทคื [23]
พยากรณ์ตัพยากรณ์
ตวัวแปรตามเป็
แปรตาม ตโดยที ทเมืี่ต่อ่ ัวนมีแปรตามเป็
ัวแปรตาม กตัารกวเมืแปรที ่อาหนดค่
มีการก ่มาีคาหนดค่ ตั่าวมากกว่ แปรอิ ทธิาแปรอิ
า2ตัสวค่ระ 2การวิ า2ค่นัสา้นระ ...การวิ
เคราะห์  จกเากข้ คราะห์
ารถดถอยแบบโลจิ จะใช้ในกระบวนการเรี
การถดถอยแบบโลจิ สติกแบ่งสออกเป็ ติกแบ่นงออกเป็ 2 ยประเภทคื
นรูน้ข2องตั ประเภทคื
อ [23] วแบบการท� อ [23] ำ นาย
X2.1คืBinary
อ ค่าตัวLogistic
แปรอิสระใช้ในกรณี z คือค่0 านสัตัมวประสิ 1แปร ์ทา2เท่
X1  ี่ปX ระมาณได้ pXอ p มูล
2.1Logistic 2.1
Binary Logistic Binary Logistic
ใช้ใทนกรณี ใช้ ใ นกรณี ท ต
่ ี ว
ั แปรตามเป็ น ตั ว แปร 2 ค่ า เท่ า นั น

e2.2คือMultinomial
ค่าล็อกธรรมชาติ (natural ใช้ใตันกรณี วแบบการวิ
logarithm) Xี่ตัวแปรตามเป็คืมีอคทเค่่าี่ตคราะห์
าัวสัตัแปรตามเป็
ประมาณ วมแปรอิ ประสิ นตักวารถดถอยโลจิสทแปรที
2.718
นตัวแปร
ระ ธิ์ที่ป่มระมาณได้ ีค่า2มากกว่ ค่าเท่สาานัติ2้นกค่า เพื่ อ ปรั บ ค่ า threshold ในการจ� ำ แนกข้ อ มู ล
จากข้อมูล
2.2 สามารถเขี
Multinomial 2.2 Multinomial ย Logistic
นได้ ต Logistic
ใช้
ามสมการที ใ นกรณี ใช้ ทใ ต
่ ี นกรณี
่ ว

(7) แปรตามเป็ ท ต
่ ี ว
ั แปรตามเป็ น ตั ว แปรที นตั่มวีคแปรที ่ามากกว่ ่มีคให้า่ มากกว่ 2 ดค่าีขึ้นา [26] 2 ค่า
กิดตัเหตุ
วแบบการวิ เคราะห์การถดถอยโลจิ
การณ์สามารถประมาณได้
ตัวแบบการวิ ตัวแบบการวิ จ ากสมการ
เคราะห์กเคราะห์
สeติXกคืสามารถเขี
ารถดถอยโลจิ
อคื(8)อค่าค่ล็าอตักธรรมชาติ
การถดถอยโลจิ
วแปรอิ
สติก สามารถเขี
ยนได้สตระ
สติก สามารถเขี
ามสมการที (natural logarithm)
ยนได้ตามสมการที
่ (7)
ยนได้ ตามสมการที
มีค่าประมาณ 2.718
่ (7) ่ (7) 3.2 การสุ ่ ม เพิ่ ม ชุ ด ข้ อ มู ล ตั ว อย่ า ง
โอกาสที่จะไม่เกิดeเหตุ คือกค่ารณ์ าล็อสกธรรมชาติ ามารถประมาณได้z (natural จ logarithm)
ากสมการ มีค่าประมาณ 2.718
(8)
e (8)
noevent
P(
โอกาสที่จะไม่เกิดเหตุการณ์
)  1P(event
P(event )
)  สามารถประมาณได้ z event )  จากสมการ (8)
e z
e (7)
z
(Over-Sampling) (7)
P(1event  e P( )
P( noevent )  1z  P(event )
(7) (7) (8)
1  e z
1  e การปรั บ ความสมดุ ลของข้อมูลด้วยวิธีการ
ไม่สมดุลของข้อมูล (Imbalance Data)
โดยที่ z  โดยที
มูลที่มีข้อมูลคลาสหนึ3.่งกำรจั
0 ่ โดยที
มากกว่
X
1โดยที
ดกำรควำมไม่
าอีzกคลาสหนึ
1 
 ่ ่ 0   X
zสมดุ
2 2 
Xล01ของข้
่ง1มาก
... 
12XอX1มู2ล(Imbalance
จะนามาสู...
 p X p
P(
่ป2 ัXญหาความไม่
noevent
2p... X p Data)
)
p X p  1  P(
สมดุลของข้สุอ่ มมูเพิ
event ) ่ ม ชุ ด ข้ อ มู ล ตัdata)
ล (Imbalanced ว อย่ า ง จะสุ ่ ม เพิ(8) ่ ม ชุ ด ข้ อ มู ล ที่ มี
3. คืกำรจั
อการจ ค่าสัดาแนกข้
มกำรควำมไม่
ประสิ ท ธิ ท
์ ป
่ ี
คือคือมูอค่ลาทีสัสค่่มมคืมดุ ระมาณได้
ีขอสั้อค่ลมมูาของข้ จ ากข้ อ มู ล
ากการจาแนกข้อมูลมีความโน้มเอียงไปทางคลาสที าประสิ สัประสิ
ลทมคลาสหนึ ีจ์ทอานวนมาก
่มธิประสิ ี่ปมูระมาณได้
ทลทธิธิ(Imbalance
์ท่ง์ทมากกว่ี่ปี่ประมาณได้ ระมาณได้จากข้
[7] วิาอีธอกีกมูData)
จลากข้
คลาสหนึ
ารแก้ จาก ่งมากคลาสน้
ปอมูัญลหาความไม่ จะนามาสู สอมดุยจนกว่ ล่ปของข้
ัญหาความไม่ าอจะได้ มูลมี จส�ำนวนของชุ มดุลของข้อดมูข้ลอ(Imbalanced มูลมีจ�ำนวนdata)
Xท าให้คือการจ ค่ า ตั ว แปรอิ ส
ธ์Xที่ไคืด้ออจมูากการจ
พ และการสุ ระ
ค่ลXาทีตัข้ว่มคือแปรอิ อ ค่ลมูาตัลสวคลาสหนึ แปรอิสระ วามโน้มาอีเอีกยคลาสหนึ
ระ
ost-Sensitive Learning [10,ผลลั 14]าแนกข้ ่มเพิีข่มมู้อาแนกข้ ชุดข้อมูอลมูตัลวมีอย่ค่งมากกว่ าง [27] งไปทางคลาสที ่งมาก จะน ่มีจานวนมาก ามาสู่ปัญหาความไม่ [7] วิธีการแก้ สมดุ ปัญลหาความไม่
ของข้อมูล ส(Imbalanced มดุลของข้อมูdata) ลมี
ทคืาให้
อ ค่ผาธล็ลลั
eหลายวิ ี อเช่กธรรมชาติ eล็อ(natural
พนธ์eวิทธคืี่ไีอด้Cost-Sensitive
ค่จาากการจ ล็อlogarithm)
คืกธรรมชาติ
อ ค่าาแนกข้
กธรรมชาติ
(natural มี(natural
ค่าประมาณ
14]มlogarithm)
logarithm)
อมูลมีค[10,
Learning วามโน้ ่า2.718มี่มคเพิ่าประมาณ
เอีมียคงไปทางคลาสที
และการสุ ประมาณ ชุดข้่มอีจมู2.718
่ม2.718 านวนมาก [7] วิธีการแก้ปัญหาความไม่สมดุลของข้อมูลมี
ลตัวอย่าง [27]
itive Learning เหตุกโอกาสที
โอกาสที่จะไม่เกิโอกาสที
ดหลายวิ่จารณ์
ะไม่ ส เ กิ จ

ด ะไม่
เหตุ
ามารถประมาณได้ เ
ก กิ ด
ารณ์ เหตุ
ส ก ารณ์ ส ามารถประมาณได้
ามารถประมาณได้
จ ากสมการ จ
(8)ากสมการ จ ากสมการ
(8) (8)
ธี เช่น วิธี Cost-Sensitive Learning [10, 14] และการสุ่มเพิ่มชุดข้อมูลตัวอย่าง [27]
ความสมดุลของข้อมูลด้ว3.1 Cost-SensitiveLearning
ย Cost-Sensitive Learning [10,
P(
14]P(วัnoevent
noevent
ต)ถุ ประสงค์ ข1องวิ
)  event
1 )P(
ธีการจะพิจารณาค่าใช้จ่ายในการ (8) (8)
 P() event )
3.1 Cost-Sensitive Learning P( noevent )  1  P( event (8)
2) คานวณหาค่าข้อมูลใหม่ ะสุ่มเพิณ่มลัชุพดธ์ข้จอข้ากข้
วิธดีน้วี้จยการคู มูอลมูอของคลาสที
ลด้1วด้ยวิวยค่ ธีกา1)ารทางสถิ
ที่ม่ไคีจด้านวณหาผลต่
จกัากการสุ
านวนน้ ติ เนืย่อ่ม2)งจากวิ
อบมูปัลญด้อวหาดั
ข้กระบวนการประมาณค่
ตัวิธคงระหว่
ยวิมีธงวีกากล่
เลขที
ีกานวณหาค่
ารทางสถิ าารดั ธวีดได้ ่อังงยูากล่แ่ใ้ นช่
นีงชุ ก่ตาาดวเหมาะส ิ าการตั
เนืข้วข้[20]
องอ่อมูมู0งจากวิ ลดลถึวิทีกลุ าหรัารณาและชุ
ธง่พีก1่ิจมารทางสถิ
ใหม่ บชุมูดลข้ทีอ่สมูณูญลดลัหายทิ
ธดข้ีด้วอังยการคู กล่าวเหมาะส
ที่มีคมูจ่าลากข้
ติ วิธข้พีกอธ์ารเรี าหรั ้งต่ทีไป(ignoring
อเนื
ย่ใบนรู อชุ่อ1ด้ขเงและข้
กล้ ด้ยอวงมูยค่ลาที่ออand
คีข้องเครื ที่มงมู่ไีคล(machi
ทีจ่มากก
ด้่าdiscar
ต่อเน
ีค่า

4. กำรจัดกำรค่ำข้อมูลที่ขำดหำย (Missing Value) 1) คานวณหาผลต่ 5. กำรคัดาเลืงระหว่ อกตั2)วาแปรแบบล คงชุานวณหาค่ มูอลมูด้ลวดำดั


ข้กระบวนการประมาณค่
ดอข้กำรจั ทียวิ า่พบข้ธิจอขัารณาและชุ
ีกมู้นารทางสถิ
ล(Stepwise อมูลดที้ว่ขาตยการคู
ใหม่ ดำดหำย [20]
ิ ข้เนื Selection)
อ่อมูงจากวิ ลณวิทีธลั่ใีกพกล้ ารทางสถิ ธ์ธจเีดคีากข้
ังยกล่ ง Value)
อาวเหมาะส 1ติ ด้วิวธยค่ ีการเรี
าทีาหรั ่ไยด้นรู ชุ้ขดองเครื
จบากการสุ ข้อมูล่ม่อทีตังว่ม(machi เลขที
ีค่าต่อ่อเนย
5.4.กำรคั ดเลืกำรค่ อกตัำวข้แปรแบบล ำดับขั(Missing ้น (Stepwise Selection)
ในการวิเคราะห์ข้อมูล การขาดหายของข้อ2)มูลคจะส่ านวณหาค่ งผลต่การคั 4.อาการประสิ อดมูเลืลดอใหม่
ข้กำรจั กำรค่กตัทดวธิแปรแบบล
้วำข้ภข้ยการคู
ออมูมูในการวิ
5.าพในการจ
ลลด้ทีณว่ขยวิ ลัาดั
ดดเลืำดหำย
พธธ์บาแนกข้ีกจขัารทางสถิ
ากข้ ้น [18] อขอ้อ1มูมูด้ลตลเป็ วิ [20] เนื
ยค่ นValue)
่อเทคนิ
าทีงจากวิ ่ได้คจากการสุ
ำดัาดับวิบธขัีกขั้นารที
ทางสถิ
ธีด่ใังช้กล่ในการจั ตา่มวเหมาะส
ิเพืตัว่อลเลขที วิจะส่เดคราะห์
การ ง่อคาหรั ยู่ในช่ คบอวามสั ดงข้0อมมูถึพังลนที1ธ์่มทรีคธิะหว่
ชุวการประสิ ่าภต่าพใอาเนง
กำรคั
การคั เลือเอคราะห์กตั กตัวว(Missing แปรแบบล
แปรแบบล การขาดหายของข้ ้น(Stepwise [18] เป็อมูนSelection) เทคนิ ผลต่
ทางสถิ
43 ต ิ เ พื ่ อ วิ เ คราะห์ คว
กับปัญหาดั KKU งกล่าRes ว ได้แJก่ (GS)
การตัดกลุ 134.่ม(1) อมูล:ดทีJanuary
ข้กำรจั ่สูญหายทิ
กำรค่ ำข้อมูหลายตั -ที่ขMarch
้งลไป(ignoring ำดหำย วแปร (Missing
ในการวิ2013
วิธand ีการเริ
เคราะห์ discarding
5.
กั บ่มกำรคั
จากค
Value)
ปั ข
การคั ญอ
้ หาดั
มู ด ล
านวณค่
เลื
ด data)การแทนที

ง กล่กตั
การขาดหายของข้
เลื อ กตั
หลายตัวแปร วิธีการเริ่มจากคานวณค่าสัมประสิทธิ์สหสัมพันธ์ r ระหว่างตัวแปรต า ว าแปรแบบล
ว ว
สัได้ มประสิ
แปรแบบล แ ก่ การตั ่คท่าำดั ทีธิอาดั์ส่หบดหสั
มู ายไป
ขั
กลุ
ล บ น

จะส่ ขั่ มม(Stepwise
้ น
พัข้(imputation)


นมูธ์ลrทีระหว่
ผลต่
[18] อ ่
เป็ ส การประสิู ญ

างตั
Selection)
หายทิ
เทคนิ ด้ววยค้งแปรตามและตัไป(ignoring
ท ธิ
ทางสถิ ภ าพในการจ ต ิ เ พื ่ อ
วแปรอิ
and
วิ เ าแนกข้
คราะห์ discar สร
คอ
กระบวนการประมาณค่า [20] วิธีการทางสถิ ต ิ วิ ธ ี ก ที
ารเรี ่ (10)
ย นรู ้ ข องเครื ่ อ ง (machine การคั learning)
ดการตั
เลือวิงกตั [6]
วารเริ แปรแบบล ซึ ่ ง ในงานวิ ่สาดัูญวิทธบหายทิ จ ั ย นี
ธิีกขัภารทางสถิ ้
้นาพในการจเ ลื อ กใช้ ก ารเติ ม ค่ า
ในการวิเคราะห์ข้อมูกัลบการขาดหายของข้ ปัญหาดังกล่ทีหลายตั กระบวนการประมาณค่
า่ ว(10) ได้ อแมูวก่ลแปร จะส่ ธดผลต่ ีกกลุ ่มอข้การประสิ
่มอจากค ามูล[20] ทีานวณค่ าสั้ง[18]มไป(ignoring
ประสิ เป็ติ นทวิาแนกข้ เทคนิ
ธิธ์สีการเรี
หสัand คอมทางสถิยมูพันรูลนธ์[20]
discarding rตระหว่
้ของเครื ิเพืวิธ่อีก่อdata)การแ
วิาารที
งเงตั
คราะห์(machi
ว่ใแปร ช้ในค
ข้อมูลด้วใกล้
ยวิธีกเคีารทางสถิ
ยงหรือตเท่ิ เนืา่อกังจากวิ
บชุดกัข้บธอีดปัมูังญกล่ ลหาดั อืาวเหมาะส
่นงกล่ ข้อาเสี าหรั
ว ได้ยคืแอก่บกระบวนการประมาณค่
ชุการตั
ใช้ ดเข้วลาอดมูกลุ ลที่ม่มข้ีคอ ่าทีหลายตั
ข้มูต่อ่ (10)
อลมูเนื
ทีล่สด้่อวูญวงและข้ าแปร ยวิ
หายทิ ธีกวิารทางสถิ
[20]
โดยที อธ้งวิมูีก่ไป(ignoringลีกxทีารทางสถิ
ธ ารเริ ่ม คื ่มีคจากค ต่าอแบบจั ิ เนืตั่อานวณค่ วิ ดแปรอิ
งจากวิ
ตand วิ กลุ ีก่มารเรี
ธdiscarding าีดสั[6]ังสมกล่
ธxy นรู
ยประสิ
ระและ าวเหมาะส data)การแทนที
้ขxองเครื ทธิ์ส yหสั
่อาหรั yงคืม(machine
พัอ/บนnชุธ์่คด่าrข้ทีระหว่ ลทีา่มงตัีค(impu
อ่หมูlearning)
ายไป ว่าแปร
ต่[6]อเน
ที5.่ (10)
r  xy    x   y / n
5. กำรคัดในการฝึ กสอนเพิำดั่มบมากขึ
เลือกตัวแปรแบบล ขั้นกระบวนการประมาณค่
้นกว่าเดิSelection)
(Stepwise ม เนื่องจากมี ข้า อ[20] มูลกด้าร วิวธยวิีกธารทางสถิ
ีการทางสถิ กำรคัติ ดวิตเลืธิ เนืีกอารเรี ่อกตังจากวิ วยแปรแบบล นรู
ธ้ขีดตัองเครื ังวกล่ แปรตาม ่อxบง ขั(machine
าวเหมาะส ้น  าหรั
rx บ learning)ชุnดSelection) ข้ อมูลy[6] ที่มซึีค่ง่า ในงานวิ
ต่อเนื y ่องและข้ จnัยนี้เลืออมูกใช ลท
2 2
ำดั 2
(Stepwise 2  xy 2  x  2 y  /
2

การคัเพิ
ดเลืม่ อจ�กตั
ำนวนชุ ดตัวอย่าดัางเพิ
วแปรแบบล บขัข้้นอม่ มูมากขึ
ลด้วยวิ
[18] น้ ธน[15]
เป็ ีกเทคนิ
ารทางสถิ ได้คนทางสถิ ำ� 5.ตเสนอวิ
ิ เนื ต่อิเงจากวิ
พืดธ่อเลื ธกตัีด ังวกล่
ี วิอเคราะห์ คาวเหมาะส
วามสั เลืมำดั พัอกตั นาหรั ธ์ขัวร้นn บแปรแบบล
ะหว่ ชุ(Stepwise
ดคืข้าองตั อจ�มูวำลนวนข้ ทีาดัSelection)
แปรตามและตั ่มบีคขั่าอต่้นมูอเนื r
ล[18] 
่องและข้
ของแต่ วเป็แปรอิ นลเทคนิ x 
อะตั2มูสวลระแปร 
ทีค ่มทางสถิ x
ีค่าแบบจั
xy x 2
 n วิเ่มคราะห์
ดx่อกลุ y [6]  
กำรคั แปรแบบล
การคั ด บ  ต ิ เ พื   2y  /ค
 ่ม งเคราะห์
สุ ดนธ์2rคระหว่  
โดยที่ x คือ ตัวแปรอิสระ และ y คือ ตัวแปรตาม rระที x  n y 
หลายตัวSynthetic
แปร วิธีการเริMinority่มจากคานวณค่ Over-Sampling
5.ากำรคัสัมประสิ ดเลือทกตั ธิ์สวหสั Technique
แปรแบบลมพันธ์ การคั rำดัระหว่
บขัด้นเลื างตั
(Stepwise
อกตั วหลายตั
แปรตามและตั
ว แปรแบบล ว วิาดั
โดยที
Selection)
แปร ่ธวีกแปรอิ บ x ขั้นคื่มสเลื
ารเริ อ[18] จากค ตัอวกตั
ระแต่ แปรอิ ลวะตั
านวณค่
เป็ น แปรอิ สวระ
เทคนิ ดัางสัสแสดงตามสมการ
และ
ค ม ประสิ
ทางสถิ y คืีคทอต่าธิิเxตัพื์สr2ว่อหสั สูแปรตาม
วิ ม พั วามสั ามงตั พัyนว2แปร ธ์ระ
n คือ จานวนข้อมูลของแต่ละตัวแปร
โดยที ่ x คื อ ตั ว แปรอิ ส ระ และ y
 คื อ ตั ว

แปรตาม
  x  n 
ที่ (10) (SMOTE) เพื่อเพิ่มชุดข้การคั อมูลดเลืโดยวิ อกตัวแปรแบบลธ ี น ้ ี จ ะสุ ่ ม เพิ ่ ม ทีีก่ ารเริ(10)
n คืาสัอมตจประสิ เข้ า สมการ
ิเานวนข้ ตามสมการที
ธิอ์สมูหสั ลของแต่ พันธ์ลมะตั ่ นวแปร(11)
อกตัวาดัวแปรอิ
หลายตั บขั้นสวิธระที
แปร [18] ่มเป็ ีค่ม่านจากค r เทคนิ
สูงสุานวณค่ ดค่ เข้ทางสถิ พืตามสมการที
่อวิเทคราะห์ คม่ วามสั rพัระหว่ ธ์ระหว่ างตัวาแปรตามและตั งตัวแปรตามและตั วแปรว
ชุดข้อมูลของคลาสที่มีจ�ำหลายตั นวนน้วอแปร ย มีวิวธิธีกีการเริ ารดั่มเลืงจากค นี ้ โดยที าสมการ x
n คื อ ตัจ ว แปรอิ
านวนข้ ส
อ ระ
มู ล และ
ของแต่
(11) y ล คื อ
ะตั ตั
ว ว
แปร แปรตาม
 xyที่ (10)  านวณค่ x   าสัมy ประสิ เลื/ nอกตัทธิว์สแปรอิ หสัมสพัระที นธ์ ่มr ีคระหว่
n
Yระที คื
 อ  จ
่า r สูางงตั
านวนข้ 
สุดวเข้แปรตามและตั
(10) X อ มู
าสมการ ตามสมการที
ล  ของแต่ ล ะตั
วแปรอิxy
ว แปร
สระแต่ ่ (11) ละตัว ดังแสดง
   x   y  /
1) ค� ำ นวณหาผลต่ ที่ (10)
r า งระหว่ า งชุ ด ข้ อ มู ล ที่ เลื อ กตั ว แปรอิ ส ม
่ ค
ี 0า
่ (11)
r สู ง สุ
p ด เข้
p r า สมการ ตามสมการที ่ (11)
x   x n  y   y n    2xp p y /2 n
2 2
 2 2
เข้
Y
าสมการ

xy  x   X 
x่ (11)  n  y2  
พิจารณาและชุดข้อมูลที่ใกล้เคียง โดยที่ X p เลืคืออกตัตัววแปรอิ สสระที ่มr่ถีคูก่าเลืrอสูกเข้ งสุาดสมการ ตามสมการที
0
แปรอิxy ระที Y    X 
โดยที่ 2) x คือ ค�ตัวำแปรอิ
นวณหาค่ สระ และ าข้อyมูลคือใหม่ ด้วยการคูณ r  คือ ค่โดยที
ตัวแปรตาม โดยที ่ ่ Xp คื คืออxตัตัวแปรอิ แปรอิ
ว xy2  ส/ระที สn ่ถxูกเลื
 ระที ถ

0 2

ู อnกเข้
เลื อ
p


กเข้ สมการ yา    y(10)
p 2

2
n
โดยที
าโดยที
คงที ่ ่ (Constant) x คื2อ ตัวของสมการถดถอย แปรอิส2 ระ Yและ y20คือ ตัวpแปรตาม Xp 
ตัวเลขที่อยู่ใน โดยที ่ x คือ ตั xวแปรอิ  ่  X x p คืnคืออค่ตั าวคงที แปรอิ ส  ระทีy่ถูกเลื nอกเข้าสมการ
0 2
ลัพธ์จากข้nอ คื1อ จด้านวนข้ วยค่าอทีมู่ไลด้ของแต่ จากการสุ ละตั่มวแปร สมการ y ่ (Constant) ของสมการถดถอย
 p คือ ค่โดยที าสัมประสิ ่ X0p คืคือ ค่ ส n ระ
ท 0คือ
ธิ ก
์ และ จ
ารถดถอย านวนข้ yตัาวคงที คื อ
แปรอิ อตั มู ว
(Regression ล ของแต่
แปรตาม
ส่ ระที ล
่ถูกเลืของสมการถดถอย ะตั
อวกเข้ แปร
Coefficient) าสมการของตัวแปรอิสระต
ช่ ว ง 0 ถึ ง 1 อ ค่ค่ า สั า ม คงทีประสิ ่ (Constant) ท (Constant)
ธิ ก
์ ารถดถอย (Regression
เลือกตัวแปรอิสระที่มีค่า r สูงสุดเข้าสมการโดยที ตามสมการที
่ x คือ ่ ตั(11) วแปรอิสระ และเลื y อ กตั
คื
คืn อคืค่อาจความคลาดเคลื อ ว แปรอิ
ตั ว แปรตาม
านวนข้อมูลของแต่ ส ระที p ม
่ อ
่ ค
ี า

นระหว่ r สู ง สุ
ละตัาวงค่แปร ด เข้ าา สมการ
จริ ง y ตามสมการที
และค่ า ที ไ
่ ด้ จ ่ (11) Coefficient)
ากสมการ ŷ
 0p คื อ ค่ า คงที
สัมประสิทธิ์ก่อารถดถอย
ของสมการถดถอย ่ (Constant) ของสมการถดถอย (Regression Coefficient
n pคือ จานวนข้ เลือกตัวอแปรอิ มูลของแต่ สระทีล่มะตัีคว่า แปร r สูงสุดเข้าสมการ ตามสมการที  คื อ ค่ า ความคลาดเคลื นระหว่
่ (11)  X   า งค่ า จริ ง y และค่ าที่ได้จา
4. การจัดการค่าข้อมูลทีข่ าดหาย
Y  0  p X
(Missing Value)  p คื คคือืออค่ค่าค่ความคลาดเคลื
 าาสัสั(11) มมประสิ ประสิ Yท ทธิ์กธิ่อารถดถอย ์ ก 0 ารถดถอย
นระหว่ p างค่ (Regression
p าจริง y และค่ Coefficient าที่ได้าจค
เลือกตัวแปรอิสระทีน่มาตั ีค่าวrแปรที สูงสุด่ไเข้ ม่ไาด้สมการ ถูกเลือตามสมการที กเข้าสมการหาค่ ่ (11) Y
า F-test หรือ t-test แล้วนาค่าที่มากที่สุดมาพิจารณาค่
   X  
โดยที่ ในการวิ X p คือเคราะห์
ตัวแปรอิขอ้ สมูระที ่ถูกเลือกเข้กว่ าสมการ นาตัวแปรที โดยที่ไง่ ม่กล่ได้าXวเข้ ถูกเลืคือคือกเข้ ค่าตัความคลาดเคลืว0าสมการหาค่ า่ถ่อCoefficient)
ูกF-test
นระหว่ หรือสมการ t-test
าจริงดแล้ y วและค่ นาค่าทีาที่ม่ไากท
ล การขาดหายของข้ าหรือเท่ อมูากัลบ 0.05 (Regression ให้นาตัวแปรดั p าสมการ แปรอิ
แต่ถp้าสมีระที คp่ามากกว่ เลือา กเข้ 0.05างค่ จะหยุ การค านวณและ ด้จ
Y่ นา
กว่ น าตั
หรืXอ0เท่คืา กัอบpตัX ว แปรที 0.05 ไ
่ ม่p 
ไ ด้
ให้ ถ ก

 าตัวแปรดั เลื อ กเข้ า สมการหาค่ า F-test หรื อ t-test แล้ ว น
(11)าค่ า ที ่ ม าก
จะส่งผลต่อการประสิ 0 คือ ค่าคงที ทธิภ่ (Constant)
าพในการจ�ของสมการถดถอย ำแนกข้ อิสระตั อมูล้งแต่ [20] ตัวโดยที ที่ 2 เป็ ต้นนาตัไปถู กเลือว่ไกเข้ แปรอิ าสู0สน ่สระที มการ คือ่ถค่ของตั ูกาจะมี เลื
คงที องกเข้ กล่แปรอิ
กว่ (Constant)
าาวเข้
สมการ
ารตรวจสอบตั
าสสมการ ระตั ววทีแต่
ของสมการถดถอย ่ ถ้ามี่อคยู่ามากกว่
แปรที ่ในสมการว่
า 0.05 จะห
อิกว่ าหรื้งอของตั
p
ว แปรที
เท่ตากััววบทีแปรอิ 0.05 ม่ ไ ด้ ถ
ให้ ก
ู นนาตั เลื อ กเข้
ว่ แปรดั า สมการหาค่ งกเข้ กล่าาวเข้ า
าสมการ F-test หรื อ
แต่กถารตรวจสอบตั ้ามีค่ามากกว่าาค่ว0.05
t-test แล้ ว น าทีาตั่มวจะ แป
าก
วิธีการที่ใช้ใpนการจั คือ ค่าดสัการกั มประสิบทปัธิญ ์กโดยที หาดั่ งกล่
ารถดถอย X
สมการ า
(Regression
p
ว คื ได้ อ แ
ตั ว ก่ Coefficient)
แปรอิ ส
สระตั
ระที ถ
่ ก
ู แต่
เลื
 0 คือ ค่ คงที่ (Constant) อ กเข้ ่
า 2 สมการ เป็ ส น ระตั ต้ วไปถู ที
p คือ ค่าสัมประสิทธิ์การถดถอย (Regression Coefficient
pก เลื  อ
X
ของสมการถดถอย p  สู ่ ส มการ จะมี แปรที ่อ
กว่
อิ ส า หรื
ระตั อ

้ เท่
แต่ าต กั ว
ั บ ที 0.05
่ 2 เป็ ให้น น
ต้ น าตั ไปถู ว แปรดั ก เลื อ ง กล่
กเข้ า วเข้
า สู ่ ส ามการ สมการ จะมี แต่ ก ถ า
้ มี ค
ารตรวจสอบตั า
่ มากกว่ า 0.05
ว แปรที จะ ่
การตั ด กลุ ่ ม คืข้ออค่มูาความคลาดเคลื
มชุดข้อมูลตัวอย่ำง (Over-Sampling) ล ที่ สู ญ หายทิ่อ้ งนระหว่ ไป (ignoring างค่0าจริคืงอ ค่yาคงที และค่่ (Constant)าสมการ
ที่ได้จากสมการ ของสมการถดถอย
p คือ ค่าสัมประสิ
ŷ  คืคืท อ อ ธิค่ ์กาค่ารถดถอย
ความคลาดเคลืา ความคลาดเคลื (Regression อ
่ นระหว่ Coefficient)
า ่ งค่
อ น า จริ ง y ของตั
และค่ วแปรอิ า ที ไ
่ ด้ ส

อิสมการ สระตั้งแต่ตัวที่ 2 เป็นต้นไปถูกเลือกเข้าสู่สมการ จะมีการตรวจสอบตัวแปรที่
ความสมดุลของข้อมูand ลด้วยวิdiscarding
ธีการสุ่มเพิ่มชุดข้data) อมูลตัวอย่การแทนที าง จะสุ่มเพิ่ ค่ม่ ชุาpทีดข้่ หคือายไป อมูค่ลาทีสั่มมีคประสิ ลาสน้ ทอธิยจนกว่
์การถดถอย คือ าค่จะได้ าความคลาดเคลื จ านวน Coefficient)
(Regression ่อระหว่ นระหว่ างค่างค่ าจริ ของตั
าจริง ง วyแปรอิ และค่
และ สระตั าที่ไวด้ทีจ่ ากสมการ p  X p  ŷ
นาตัว(imputation)
แปรที่ไม่ได้ถูกเลือกเข้ า สมการหาค่ า F-test หรื อ t-test แล้ ว น าค่ า ทีสมการ ่ ม ากที ่ ส ุ ด มาพิ จ ารณาค่ า ความมี น ั ย ทางสถิ ต ิ ถ้ า มี ค ่ า น้ อ ย
นวนใกล้เคียงหรือเท่ากับชุดข้อมูลอื่น ข้ด้อวเสียกระบวนการประมาณค่ ยคือใช้เวลาในการฝึกสอนเพิ  คือ ่มค่มากขึ
า [20] าความคลาดเคลื ้นกว่ าเดิมนาตั ่อเนืนระหว่ ว่อแปรทีงจากมี
าานวณและได้
่ไงค่ม่กาไารเพิ ด้ถูกเลือกเข้าสมการหาค่
จริง่ม y และค่ ค่มการที าทีา่ไทีด้่ไจ่เด้หมาะสม จากสมการ
ากสมการ
า F-test หรือ t-test แล้วนาค่าที่มาก

กว่าหรือวิเท่ธาีกกัารทางสถิ
บ 0.05 ให้นตาตั ิ ว
วิ ธแปรดั
ี ก ารเรี ง กล่ย า
นรูวเข้
้ ข า
องเครื สมการ ่ อ แต่
ง ถ
(machineา
้ มี ค า
่ มากกว่
น าตั ว า
แปรที 0.05 กว่

่ ม่จะหยุ

ไ หรื
ด้ ถ อ ก
ู ด เท่ การค
เลื า
อ กักเข้ บ 0.05า สมการหาค่ ให้ น าตั ว ส
า แปรดั F-test ง กล่
หรื า อวเข้ t-test า สมการ ตัววแปร
แล้ นแต่าค่ถา้าทีมี่มคากที ่ามากกว่ ่สุดมาพิ า 0.05 จารณ จะ
เพิ่มมากขึ้น [15] ได้นาเสนอวิธี Synthetic Minority Over-Sampling Technique (SMOTE) เพื่อเพิ่มชุดข้อมูล โดย
อิสระตั้งlearning)
แต่ตัวที่ 2 เป็น[6] ต้นไปถู ก เลื อ กเข้ า สู ่ ส มการ จะมี ก ารตรวจสอบตั ว แปรที ่ อ ยู ่ ใ นสมการว่ า ตั ว แปรอิ ส ระใดควรถู ก คั ด เลื อ กเข้ า
ข้อมูลของคลาสที่มีจานวนน้อย มีวิธีการดัซึงนี่งในงานวิ ้ นาตั จัยวนีแปรที ้เลือ่ไกใช้ ม่ได้กถารเติ ูกกว่
เลือาหรื มกเข้ค่อาเท่สมการหาค่
ากับ อิ0.05
สระตั า F-test
ให้ ้งนแต่าตัตวัวหรื
น� ำ ตัที่ อ2 t-test
แปรดั
ว แปรที เป็งกล่ นต้าแล้
่ ไ นวเข้ไปถู
ม่ วานสมการ
ไ ด้ าค่กเลื
ถ ู ก าทีอ่มกเข้
เลื อ ากทีถาสู้า่สมี่สุดคมการ
แต่
กเข้ า มาพิ
สมการหาค่ ่ามากกว่ จจะมีารณาค่ า ก0.05 ารตรวจสอบตั
าาความมี จะหยุนดการค ัยทางสถิวแปรที านวณ ติ ่
สมการ
วณหาผลต่างระหว่างชุข้ดอข้มูอลมูด้ลวทียวิ ่พิจธารณาและชุ
ีการทางสถิดข้กว่ ตอิ ามูเนืลที่ออ่ใงจากวิ
หรื กล้าเกัคีบยธง0.05
เท่ ีดังกล่ ให้านอิวเหมาะ สาตัระตั วแปรดั้งแต่ตงกล่ ัวทีสมการ า่ 2วเข้เป็าสมการ
F-test นต้นไปถู
หรือแต่t-test กถเลื้ามีอคกเข้ ่ามากกว่
แล้าสูว่สน�มการ ำาค่0.05 าทีจะมี ่มจะหยุ ากที ่สดุดการค
การตรวจสอบตั
มาพิานวณและได้ จารณา วแปรที่อสยูมการที ่ในสมการว่ ่เหมาะาต
วณหาค่าข้อมูลใหม่ด้วส�ยการคู ำหรับณชุลัดพข้ธ์อจมูากข้ลทีอ่ม1ีคด้่าวต่อิยค่อสเนื ที่อ่ได้้งงและข้
าระตั แต่
จากการสุ ตัวทีอ่ 2มู่มลเป็ตัทีวนเลขที ่มต้สมการ
ีคน่าไปถู แบบ
่อยู่ใกนช่ เลือวงกเข้ 0ค่ถึาาสูความมี ง ่ส1มการนจะมี ยั ทางสถิ การตรวจสอบตัวแปรที่อยู่ในสมการว่าตัวแปรอิสระใดควรถูกค
ติ ถ้ามีคา่ น้อยกว่าหรือเท่ากับ 0.05
จัดกลุ่ม [6] สมการ
อมูลที่ขำดหำย (Missing Value) ให้น�ำตัวแปรดังกล่าวเข้าสมการ แต่ถ้ามีค่ามากกว่า
ห์ข้อมูล การขาดหายของข้ 5. การคั อมูลดจะส่เลืองผลต่
กตัวอแปรแบบล�
การประสิทธิำภดัาพในการจ บขั้น (Stepwise าแนกข้อมูล [20]0.05 วิธีการที จะหยุ ่ใช้ในการจั ดการค�ดการ ำนวณและได้สมการที่เหมาะสม
มูลที่สูญหายทิ้งไป(ignoring and discarding data)การแทนที่ค่าทีตั่หวายไป
ได้แก่ การตัดกลุ่มข้อSelection) แปรอิ(imputation) สระตั้งแต่ตด้ัววทีย ่ 2 เป็นต้นไปถูกเลือกเข้าสู่
มาณค่า [20] วิธีการทางสถิ สมการ จะมีการตรวจสอบตัวแปรที่อยู่ในสมการว่า
ติ วิธการคั ีการเรีดยเลื
นรูอ้ขกตั องเครื ่อง (machine
วแปรแบบล� ำดับlearning)
ขั้น [18][6]เป็ซึน่งในงานวิจัยนี้เลือกใช้การเติมค่า
างสถิติ เนื่องจากวิธีดเทคนิ
ังกล่าวเหมาะส
คทางสถิาหรั ติเบพืชุ่อดวิข้เอคราะห์
มูลที่มีคค่าวามสั ต่อเนื่อมงและข้ พันธ์อรมูะหว่ ลที่มาีคง่าแบบจัตัวดแปรอิ กลุ่ม [6]สระใดควรถูกคัดเลือกเข้าสมการ
แปรแบบลำดับขั้น (Stepwise Selection) ว แปรอิ ส ระหลายตั ว แปร วิ ธี ก าร
ตัวแปรตามและตั
6. การวัดประสิทธิภาพ
วแปรแบบลาดับขั้น เริ
[18] ่มจากค� ำนวณค่
เป็นเทคนิ าสัมประสิ
คทางสถิ ติเพื่อวิทเคราะห์
ธิ์สหสัมความสั
พันธ์มrพันระหว่ างางตัวแปรตามและตัวแปรอิสระ
ธ์ระหว่
6.1 ครอสวาลิเดชัน่ (Cross Validation)
ารเริ่มจากคานวณค่าสัตัมวประสิ
แปรตามและตั
ทธิ์สหสัมพันธ์ว แปรอิ
r ระหว่าสงตัระแต่ ล ะตั ว ดัวงแปรอิ
วแปรตามและตั แสดงสระแต่ละตัว ดังแสดงตามสมการ
ครอสวาลิเดชัน่ [8] เป็นการวัดประสิทธิภาพ
ตามสมการที่ (10)
ตัวแบบในการจ�ำแนก โดยการแบ่งข้อมูลออกเป็น

 xy    x   y  / n กลุ(10)
่มย่อยขนาดเท่ากัน (folds) จ�ำนวน k กลุ่ม เพื่อ
r  2 2 2 (10)
 x   x n  y   y
2
n ให้ข้อมูลทุกตัวมีโอกาสเป็นชุดทดสอบและชุดสอน
เพื่อป้องกันปัญหาการเลือกข้อมูลที่ดีและง่ายมาเป็น
x คือ ตัวแปรอิสระ และ y คือ ตัวแปรตาม
n คือ จานวนข้อมูลของแต่ละตัวแปร
สระที่มีค่า r สูงสุดเข้าสมการ ตามสมการที่ (11)
(11)
44 วารสารวิจัย มข. (บศ.) 13 (1) : ม.ค. - มี.ค. 2556

ข้อมูลชุดทดสอบ การฝึกสอนและทดสอบตัวแบบ ที่โรงพยาบาลศรีนครินทร์ โดยใช้เทคนิคทางสถิติ


จะท�ำทั้งหมด k รอบ โดยรอบแรกใช้ข้อมูลชุดที่ 1 วิ เ คราะห์ ก ารถดถอยพหุ คู ณ โลจิ ส ติ ก (Multiple
เป็นข้อมูลทดสอบ ส่วนข้อมูลชุดที่เหลือเป็นข้อมูล logistic regressions) ผลการวิจัยพบว่าโมเดล
ชุดฝึกสอน จากนั้นจะสลับข้อมูลชุด 2 มาเป็นชุด สามารถท�ำนายการหายได้ถูกต้องร้อยละ 78.6 และ
ทดสอบและข้ อ มู ล กลุ ่ ม อื่ น ๆที่ เ หลื อ เป็ น ชุ ด สอน ท�ำนายการไม่หายได้ถูกต้อง ร้อยละ 43.2
สลับอย่างนี้ไปเรื่อยๆจนครบ k ชุด และค�ำนวณหา วรชัย [22] ศึกษาปัจจัยที่เกี่ยวข้องกับการ
ะสิทธิภำพ ประสิทธิภาพเฉลี่ย ตอบสนองต่ อ การรั ก ษามะเร็ ง ปากมดลู ก ด้ ว ยรั ง สี
สวำลิเดชั่น (Cross Validation)
6.2 Confusion Matrix พบว่าปัจจัยที่มีส่วนสัมพันธ์กับการตอบสนองของ
สวาลิเดชั่น [8] เป็นการวั
ดประสิConfusion ทธิภาพตัวแบบในการจ Matrix าแนก [21] โดยการแบ่
คือตารางสรุ งข้อปมูลออกเป็
มะเร็นกลุ ่มย่อยขนาดเท่
งปากมดลู ากัน (folds)
กต่อการรั กษาด้วยรังสี ดังนี้ ระยะของ
ลุ่ม เพื่อให้ข้อมูลทุกตัจ�วมีำ นวนข้
โอกาสเป็ น ชุ ด ทดสอบและชุ ด สอนเพื ่ อ ป้ อ งกั น ปั ญ หาการเลื อ กข้
อมูลที่ตัวแบบมีการจ�ำแนกได้ถูกต้องและ โรค ปริมาณรังสีที่ใช้ ขนาดของเนื อ มู ล ที ด
่ แ
ี ละง่ า ยมาเป็ น ข้ อ มูลชุด ้องอก และภาวะ
รฝึกสอนและทดสอบตั ไม่วถแบบจะท
ู ก ต้ อ ง าทัดั ง้งหมด k รอบ โดยรอบแรกใช้
แสดงในตารางที ข้อมูลชุดที่่ 11เป็นข้อโลหิ
่ 1 จากตารางที มูลทดสอบ
ตจาง ส่วนข้อมูลชุดที่เหลือ
ดฝึกสอน จากนั้นจะสลั บข้อมูลชุำดข้อ2มูมาเป็
สามารถน� นชุดทดสอบและข้
ลในตารางมาใช้ อมูลำกลุ
ในการค� ่มอื่นๆที่เหลื
นวณการวั ด อเป็น Winter
ชุดสอน สลับอย่างนี้ไetปเรืal. ่อยๆจน
[24] ศึกษาปัจจัยที่มีผล
ละคานวณหาประสิทประสิ ธิภาพเฉลี
ทธิภ่ยาพของตัวแบบการท�ำนาย ด้วยวิธีการหา ต่อการอยู่รอดของผู้ป่วยมะเร็งปากมดลูกระยะที่ II
usion Matrix ค่าความแม่นย�ำ (Accuracy) อัตราความถูกต้องเชิง III และIV ที่รับการรักษาด้วยวิธีการฉายรังสีพร้อม
fusion Matrix [21] คืบวก (TrueปจPositive
อตารางสรุ านวนข้อมูRate: TP) กหรื
ลที่ตัวแบบมี ารจอค่าแนกได้
าความอ่ ถูกอต้นองและไม่
เคมีถบูก�ำต้บัอดง ดัพบว่ า ปัจจัยที่มีผ่ 1ลต่อการอยู่รอด ได้แก่
งแสดงในตารางที
1 สามารถนาข้อมูลไหว (Sensitivity)
ในตารางมาใช้ ในการคหรืานวณการวั
อค่าความระลึ
ดประสิ ก (Recall)
ทธิภาพของตั และวแบบการทอายุ านายเชื้อชาติ ด้วยวิความสมบู
ธีการหาค่ราณ์ ของร่างกาย ระยะของโรค
ความ
อัตราความถูกต้องเชิงลบ (True Negative Rate: ขนาดของเซลล์มะเร็ง ชนิดเซลล์มะเร็ง ระยะเวลาใน
curacy) อัตราความถูกต้องเชิงบวก (True Positive Rate: TP) หรือค่าความอ่อนไหว (Sensitivity) หรือค่าความระลึก
TN) หรือค่าความจ�ำเพาะ (Specificity) การรักษา และระดับฮีโมโกลบินเฉลี่ย
ะอัตราความถูกต้องเชิงลบ (True Negative Rate: TN) หรือค่าความจาเพาะ (Specificity)
Chang et al. [3] ศึกษาวิธีการคัดเลือก
TP  TN
Accuracy  (12) ปั จ จั ย ที่ เหมาะส� (12) ำ หรั บ การพยากรณ์ ม ะเร็ ง ช่ อ งปาก
TP  FP  FN  TN
เปรี ย บเที ย บกั บ ใช้ ป ั จ จั ย ทั้ ง หมดในการพยากรณ์
 TP (13) พบว่าการพยากรณ์ ร่วมกับวิธีการคัดเลือกปัจจัยนั้น
Sensitivity (13)
TP  FN
มี ป ระสิ ท ธิ ภ าพสู ง กว่ า การใช้ ป ั จ จั ย ทั้ ง หมดในการ
 TN (14) พยากรณ์ (14)
Specificity
TN  FP

ที่เกี่ยวข้อง 7. งานวิจัยที่เกี่ยวข้อง วิธีการด�ำเนินการวิจัย


Padmavathi [17]
athi [17] ศึกษาเปรียบเทียบประสิทธิภาพการทานายมะเร็งเต้านมโดยใช้ตัวแบบที ศึ ก ษาเปรี ย บเที ย บ ่ใช้ในการท านายคื
งานวิ จั ยอนี้ มโครงข่ าย
ี ขั้ น ตอนในการด� ำ เนิ น การ
ประสิ ท ธิ ภ าพการท� ำ นายมะเร็ ง
ยมเพอร์เซปตรอนหลายชั้น (MLP) โครงข่ายประสาทเทียมเรเดียลเบสิสฟังก์ชัน (RBF)เต้ า นมโดยใช้ ต ั ว แบบ ประกอบด้ และวิวธยีโลจิ สติกรีเกรสชัอนมูล การวิเคราะห์ปัจจัย
การรวบรวมข้
MLP, RBF, วิธีโลจิสติทีก่ใรีช้เกรสชั
ในการท� ำนายคืานายว่
นสามารถท อ โครงข่ าเป็นาโรคได้
ยประสาทเที
ถูกต้อง ย92.1%,
มเพอร์97.3% เพื
และ่อหาปั
75.5% จจัยตามล าดับอการท�ำนายผลการรักษาผู้ป่วย
ที่มีผลต่
เซปตรอนหลายชั ้ น (MLP) โครงข่
ละคณะ [12] ได้ศึกษาหาโมเดลทานายการหายจากการรักษาผู้ป่วยมะเร็งปากมดลูกทีมะเร็ า ยประสาทเที ย ม ่ได้รับงการรั
ปากมดลู กษาโดยวิ ธีรังสีรักษา างตัวแบบการท�ำนาย
ก และการสร้
เรเดี ย ลเบสิ สฟั งก์ช น
ั (RBF) และวิ
รรักษาที่โรงพยาบาลศรีนครินทร์ โดยใช้เ ทคนิคทางสถิติวิเคราะห์การถดถอยพหุด้คูวณยวิธ โ
ี ลจิ สติ
ก รีเกรสชั น โลจิธี กสติารโครงข่
ก (Multipleา ยประสาทเที
logistic ย ม และโลจิ ส ติ ก
พบว่ า วิ ธ ี MLP, RBF, วิ ธ โ
ี ลจิ ส
ผลการวิจัยพบว่าโมเดลสามารถทานายการหายได้ถูกต้องร้อยละ 78.6 และทานายการไม่ ติ ก รี เ กรสชั น สามารถ ดังปรากฏในภาพที
หายได้ถูกต้อง ร้อ่ ยละ 2 43.2
ท� ำ นายว่ า เป็ น โรคได้ ถ ู ก ต้ อ ง 92.1%,
2] ศึกษาปัจจัยที่เกี่ยวข้องกับการตอบสนองต่อการรักษามะเร็งปากมดลูกด้วยรังสี พบว่ 97.3% และ 1. าปักระบวนการเตรี
จจัยที่มีส่วนสัมพันยธ์มข้ กับอการ
มูลก่อนการประมวลผล
75.5% ตามล� ำ ดั บ
องมะเร็งปากมดลูกต่อการรักษาด้วยรังสี ดังนี้ ระยะของโรค ปริมาณรังสีที่ใช้ ขนาดของเนื (Pre-processing)
้องอก และภาวะโลหิตจาง
สุพจน์ และคณะ [12] ได้ศึกษาหาโมเดล 1.1 กการรวบรวมข้ อมูล (Data collection)
et al. [24] ศึกษาปัจจัยที่มีผลต่อการอยู่รอดของผู้ป่วยมะเร็งปากมดลูกระยะที่ II III และIV ที่รับการรั ษาด้วยวิธีการฉาย
ท�ำนายการหายจากการรักษาผู้ป่วยมะเร็งปากมดลูก ในงานวิจัยนีขนาดของ
้ ใช้ข้อมูลที่ท�ำการเก็บรวบรวม
คมีบาบัด พบว่า ปัจจัยที่มีผลต่อการอยู่รอด ได้แก่ อายุ เชื้อชาติ ความสมบูรณ์ของร่างกาย ระยะของโรค
ที่ได้รับการรักษาโดยวิธีรังสีรักษา ที่เข้ารับการรักษา ข้อมูลแบบย้อนกลับจากฐานข้อมูลผู้ป่วยมะเร็งปาก
ชนิดเซลล์มะเร็ง ระยะเวลาในการรักษา และระดับฮีโมโกลบินเฉลี่ย
t al. [3] ศึกษาวิธีการคัดเลือกปัจจัยที่เหมาะสาหรับการพยากรณ์มะเร็งช่องปาก เปรียบเทียบกับใช้ปัจจัยทั้งหมดในการ
บว่าการพยากรณ์ร่วมกับวิธีการคัดเลือกปัจจัยนั้นมีประสิทธิภาพสูงกว่าการใช้ปัจจัยทั้งหมดในการพยากรณ์
KKU Res J (GS) 13 (1) : January - March 2013 45

มดลูก หน่วยรังสีรักษา โรงพยาบาลศรีนครินทร์ คณะ เป็นปัจจัยหนึ่งที่มีผลต่อการรักษาผู้ป่วยมะเร็งปาก


แพทยศาสตร์ มหาวิทยาลัยขอนแก่น ระหว่างวันที่ มดลูกที่เข้ารับการรักษาโดยการฉายรังสี ดังนั้นในงาน
1 มกราคม พ.ศ. 2537 ถึงวันที่ 31 ธันวาคม พ.ศ. วิจัยนี้จึงได้เพิ่มปัจจัยดังกล่าวเป็นปัจจัยน�ำเข้าตัวแบบ
2552 ซึ่งมีปัจจัยที่รวบรวมได้ทั้งสิ้น 17 ปัจจัยดังแสดง ดังปรากฏในตารางที่ 3
ในตารางที่ 2 3. การสร้างตัวแบบโครงข่ายประสาทเทียม
1.2 การตรวจสอบความถูกต้องของข้อมูล ในงานวิจัยนี้ใช้โครงข่ายประสาทเทียมแบบ
(Data cleaning) เพอร์เซปตรอนหลายชั้น มีอินพุต 6 ปัจจัย ทดลอง
การตรวจสอบความถู ก ต้ อ งของข้ อ มู ล ด้วยวิธี K-Fold Cross Validation ปรับค่าตั้งแต่
เป็นการท�ำให้ข้อมูลมีคุณภาพในการน�ำไปวิเคราะห์ 3K ถึง 10K ปรับค่าโมเมนตัม (Momentum) ค่า
ซึ่งมีขั้นตอนดังนี้ อัตราการเรียนรู้ (Learning Rate) ตั้งแต่ 0.1–0.9
(1) ข้อมูลที่ไม่สมบูรณ์ (Missing value) ปรับเวลาฝึกสอน (Training Time) และ Hidden
ในงานวิจยั นีจ้ ะท�ำการเติมค่าข้อมูลทีข่ าดหาย ซึง่ ข้อมูล node จนกระทั่งได้ค่าพารามิเตอร์ที่ให้ค่าของการ
ที่มีค่าเป็นค่าต่อเนื่อง (Continuous Data) จะใช้วิธี พยากรณ์ที่แม่นย�ำโดยมีค่าความผิดพลาดน้อยที่สุด
ค�ำนวณค่าเฉลี่ย (Mean) และข้อมูลที่มีค่าแบบจัด ในการพิจารณาจ�ำนวนโหนดในชั้นซ่อน [16] มีดังนี้
1) จ�ำนวนโหนดในชัน้ ซ่อนควรจะมีคา่ ในช่วง
กลุม่ จะใช้วธิ แี ทนค่าด้วยการค�ำนวณฐานนิยม (Mode)
จ�ำนวนโหนดชั้นอินพุตและจ�ำนวนโหนดชั้นเอาท์พุต
(2) จะท�ำการตัดข้อมูลของผูป้ ว่ ยทิง้ ในกรณี
2) จ�ำนวนโหนดในชั้นซ่อนควรจะมีจ�ำนวน
ที่ผู้ป่วยคนนั้นได้รับการผ่าตัดมาก่อนที่จะเข้ารับการ
สองในสาม (2/3) ของจ�ำนวนโหนดชั้นอินพุตรวมกับ
รักษาด้วยรังสีรักษาเนื่องจากไม่สามารถติดตามผลชิ้น
จ�ำนวนโหนดชั้นเอาท์พุต
เนื้อที่มดลูกได้
3) จ�ำนวนโหนดในชั้นซ่อนควรจะมีจ�ำนวน
หลังจากที่ผ่านกระบวนการตรวจสอบความ ไม่เกินสองเท่าของจ�ำนวนโหนดในชั้นอินพุต
ถูกต้องของข้อมูลแล้วมีจำ� นวนข้อมูลทัง้ สิน้ 2,236 ชุด จากการทดลองพบว่าค่าพารามิเตอร์ทเี่ หมาะ
ข้อมูล ในการสร้างตัวแบบผู้วิจัยได้ท�ำการแบ่งข้อมูล สมสามารถแสดงในตารางที่ 4
โดยใช้ข้อมูลผู้ป่วยระหว่างปี 2537 ถึง 2551 จ�ำนวน 4. สร้ า งตั ว แบบการท� ำ นายด้ ว ยวิ ธี ก ารถดถอย
2,107 ชุด เพื่อใช้สร้างตัวแบบและใช้ข้อมูลผู้ป่วยปี โลจิสติก
2552 จ�ำนวน 129 ชุดเพือ่ ใช้ทดสอบความถูกต้องตาม การสร้างตัวแบบการท�ำนายด้วยวิธีการถด
ล�ำดับ ถอยโลจิสติก ก�ำหนดตัวแปรดังต่อไปนี้ ระยะของโรค
2. การวิเคราะห์และคัดเลือกปัจจัย อายุ กลุม่ เซลล์มะเร็ง น�ำ้ หนักตัว ขนาดเซลล์มะเร็ง และ
จากข้อมูลปัจจัยทีม่ กี ารรวบรวมในฐานข้อมูล ระดับฮีโมโกลบิน เป็นตัวแปรอิสระ (Independent)
ทั้ง 17 ปัจจัยผู้วิจัยได้ท�ำการคัดเลือกปัจจัยที่เกี่ยวข้อง และก�ำหนดตัวแปรผลการท�ำนาย (overall) เป็น
กั บ ทางการแพทย์ ม าท� ำ การวิ เ คราะห์ โ ดยวิ ธี ก าร ตัวแปรตาม (Dependent) สร้างสมการโลจิสติก
คัดเลือกตัวแปรแบบล�ำดับขั้นผลการทดลองพบว่า ตรวจสอบเงื่อนไขการวิเคราะห์ความถดถอยโลจิสติก
ปัจจัยที่มีนัยส�ำคัญทางสถิติได้แก่ อายุ ระยะของโรค โดยพิจารณาค่าความน่าจะเป็นที่ใช้เป็น Cutting
ขนาดเซลล์มะเร็ง กลุ่มเซลล์มะเร็ง และน�้ำหนักของ Score เท่ากับ 0.5 พิจารณาดังนี้
ผู ้ ป ่ ว ย ซึ่ ง สอดคล้ อ งกั บ งานวิ จั ย ของ สุ พ จน์ แ ละ - P(เกิดเหตุการณ์) < 0.5 จะได้ Y = 0 หรือ
คณะ [12] และงานวิจัยของวรชัย [22] นอกจากนี้ ไม่เกิดเหตุการณ์
จากงานวิจัยของวรชัย [22] พบว่า ภาวะโลหิตจาง - P(เกิดเหตุการณ์) ≥ 0.5 จะได้ Y = 1 หรือ
หรือระดับค่าเฉลี่ยของฮีโมโกลบิน (Hbaverage) เกืดเหตุการณ์
46 วารสารวิจัย มข. (บศ.) 13 (1) : ม.ค. - มี.ค. 2556

ผลการทดสอบประสิ ท ธิ ภ าพของตั ว แบบ ผลการทดลองพบว่ า โครงข่ า ยประสาท


โครงข่ า ยประสาทเที ย มและวิ ธี ถ ดถอยโลจิ ส ติ ก เทียมที่มีการปรับความสมดุลของข้อมูลด้วยวิธีการ
สามารถแสดงในตารางที่ 5 ซึ่งพบว่าผลการท�ำนาย SMOTE มีประสิทธิภาพในการท�ำนายที่ดีกว่าวิธีอื่น
ของแบบจ�ำลองโครงข่ายประสาทเทียม และวิธีการ โดย มีคา่ ความถูกต้องสูงทีส่ ดุ อยูท่ ี่ 5K เท่ากับ 81.70%
ถดถอยแบบลอจิสติก อยู่ในระดับที่สูงมาก แต่เมื่อ ค่าความไว หรือTrue Positive Rate เท่ากับ 94.47%
พิจารณาค่าความจ�ำเพาะ พบว่ามีค่าที่ต�่ำมาก (0.0%) และ ค่าความจ�ำเพาะ หรือ True Negative Rate
เหมื อ นกันทั้ ง 2 ตัวแบบ กล่า วคือตัว แบบทั้งสอง เท่ากับ 55.47% จากตัวแบบที่ได้ในตารางที่ 6 ผู้วิจัย
ไม่ ส ามารถท� ำ นายคลาสที่ เ ป็ น ลบได้ ถู ก ต้ อ งเลย ได้น�ำตัวแบบมาท�ำนายผู้ป่วยที่เข้ารับการรักษาในปี
ซึ่ ง จากการวิ เ คราะห์ ข ้ อ มู ล พบว่ า ปั ญ หาเกิ ด จาก พ.ศ. 2552 จ�ำนวน 129 คน พบว่า โครงข่ายประสาท
ความไม่สมดุลของข้อมูล (Imbalance data) โดย เทียมที่ปรับความไม่สมดุลด้วยวิธี SMOTE มีค่า
มี ข ้ อ มู ล ในคลาสหนึ่ ง มากกว่ า อี ก คลาสมาก ดั ง นั้ น ความถูกต้องสูงที่สุดเท่ากับ 96.12% ค่าความไวและ
ผู้วิจัยจึงได้ศึกษาและท�ำการปรับความไม่สมดุลของ ค่ า ความจ� ำ เพาะเท่ า กั บ 97.62% และ 33.33%
ข้อมูลก่อนน�ำมาท�ำการสร้างโมเดลใหม่ ตามล�ำดับ ดังแสดงในตารางที่ 7 ส่วนของตัวแบบ
5. การปรับความไม่สมดุลของข้อมูล โลจิสติกที่ปรับความไม่สมดุลด้วยวิธี SMOTE มี
ในงานวิจยั นีไ้ ด้ทำ� การปรับความไม่สมดุลของ ค่ า ความถู ก ต้ อ งอยู ่ ใ นระดั บ ที่ สู ง เมื่ อ เที ย บกั บ วิ ธี
ข้อมูลด้วยวิธี CSL และวิธี SMOTE โครงข่ า ยประสาทเที ย มก็ ยั ง ถื อ ว่ า มี ป ระสิ ท ธิ ภ าพ
การปรับความไม่สมดุลด้วยวิธี SMOTE การท� ำ นายต�่ ำ กว่ า ซึ่ ง สอดคล้ อ งกั บ งานวิ จั ย ของ
ผู้วิจัยได้ปรับหาค่าการเพิ่มจ�ำนวนชุดข้อมูลที่มีจ�ำนวน Padmavathi [17]
คลาสน้อย โดยท�ำการก�ำหนดค่าพารามิเตอร์ของตัว
แบบให้คงที่ และเริ่มเพิ่มขนาดของข้อมูลไปจนกว่า สรุปผลการวิจัย
จะได้ค่าประสิทธิภาพที่ดีที่สุด ผลการทดลองพบว่า ในงานวิ จั ย นี้ ไ ด้ ศึ ก ษามี วั ต ถุ ป ระสงค์ เ พื่ อ
ขนาดชุดข้อมูลที่เหมาะสมคือ 600% สร้างตัวแบบในการท�ำนายผลการรักษาผู้ป่วยมะเร็ง
การปรับความไม่สมดุลของข้อ มูลด้วยวิ ธี ปากมดลู ก ที่ เ ข้ า รั บ การรั ก ษาด้ ว ยวิ ธี ก ารฉายรั ง สี
CSL จะท�ำการก�ำหนดค่าพารามิเตอร์ของตัวแบบ จากผลการวิจัยสามารถสรุปได้ว่า ตัวแบบโครงข่าย
การท�ำนายให้คงที่ การทดลองนี้จะสร้างตาราง Cost ประสาทเที ย มที่ ส ร้ า งจากข้ อ มู ล ผู ้ ป ่ ว ยที่ ไ ด้ ท� ำ การ
matrix โดยการสุ่มปรับค่า False Negative (FN) ปรับความไม่สมดุลของข้อมูล (Imbalance Data)
และค่า False Positive (FP) ค่าที่สุ่มจะอยู่ระหว่าง ด้วยวิธี SMOTE มีตัวแปรอินพุตได้จากการวิเคราะห์
1.0 ถึง 10.0 จะปรับค่าจนกว่าค่าใช้จ่าย (cost) ลดลง คั ด เลื อ กตั ว แปรแบบล� ำ ดั บ ขั้ น และศึ ก ษาจากงาน
วิจัยทางการแพทย์ มีทั้งหมด 6 ตัวแปรได้แก่ อายุ
ผลการวิจัยและการอภิปรายผล ระยะของโรค ขนาดของเซลล์มะเร็ง กลุ่มเซลล์มะเร็ง
ในงานวิ จั ย นี้ จึ ง ได้ น� ำ วิ ธี ก าร CSL และ ปากมดลู ก น�้ ำ หนั ก ของผู ้ ป ่ ว ย และระดั บ ค่ า เฉลี่ ย
SMOTE มาท� ำ การปรั บ สมดุ ล ของข้ อ มู ล แล้ ว ของฮี โ มโกลบิ น จะมี ป ระสิ ท ธิ ภ าพในการท� ำ นาย
ท�ำการสร้างแบบจ�ำลองด้วยโครงข่ายประสาทเทียม ดีกว่าวิธีอื่น โดยมีค่าความถูกต้องเท่ากับ 81.70%
เปรียบเทียบกับวิธีถดถอยโลจิสติก และทดลองด้วย เมื่อน�ำมาทดสอบกับชุดข้อมูลทดสอบจ�ำนวน 129 ชุด
วิธี K-Fold Cross Validation สามารถสรุปผลได้ ข้อมูล พบว่ามีค่าความถูกต้อง 96.12% ค่าความไว
ดังตารางที่ 6 เท่ากับ 97.62% และค่าความจ�ำเพาะเท่ากับ 33.33%
KKU Res J (GS) 13 (1) : January - March 2013 47

กิตติกรรมประกาศ 5. Elkan C. The foundation of cost-sensitive


งานวิจัยฉบับนี้ส�ำเร็จลุล่วงไปได้ด้วยความ learning. Proceedings of IJCAI. 2011; 17:
กรุณาอย่างยิ่งจาก หน่วยรังสีรักษา ภาควิชารังสีวิทยา 973-978.
คณะแพทยศาสตร์ โรงพยาบาลศรีนรินทร์ มหาวิทยาลัย 6. Farhangfar A, Kurgan LA, Pedryez
ขอนแก่น ที่ให้อนุเคราะห์ข้อมูลส� ำหรับการท�ำวิจัย W. A Novel Framework for imputation
of missing values in databases. IEEE
ในครั้ ง นี้ และสนั บ สนุ น และส่ ง เสริ ม งานวิ จั ย นี้ ใ ห้
Tansactions on systems, Man, and
ส�ำเร็จลุล่วงได้ตามวัตถุประสงค์ รวมทั้งค�ำแนะน�ำ
Cybernetics-Part A: Systems and
ที่เป็นประโยชน์ในการท�ำวิจัย Humans. 2007; 37(5): 692-709.
7. Fernandez A, Garcia S, Herrera F.
เอกสารอ้างอิง Addressing the classification with
1. Asakit T. The preliminary results of imbalanced data: Open problem and
High-Dose-Rate intracavitary brachy- new challenges on class distribution.
therapy with small-sized cobalt-60 HAIS’11 Proceedings of the 6th
radioisotope in carcinoma of cervix international conference on Hybrid
uteri: The first results of Thailand from artificial intelligent systems. 2011;
Lampang regional cancer center. Journal 1: 1-10.
of Thai Society of Therapeutic Radiology 8. Han J, Kamber M. Data mining concepts
and Oncology. 2011; 17(1): 13-24. Thai. and techniques. 2nd ed. United States of
2. Botoa C, Bardan R, Botoca M, Alexz America: Morgan Kaufmann Publishers.
2006.
F. Prostate cancer prognosis evaluation
9. Haykin S. Neural networks. 2nd ed.
assisted by neural networks. WSEAS
United States of America: United States
Transactions on Computers. 2010; 2(9): of America. 1999.
164-173. 10. He H, Garcia EA. Learning from
3. Chang SW, Kareem SA, Kallarakkal Imbalanced data. IEEE Transactions
TG, Merican AF, Abraham MT, Zain RB. on Knowledge and Data Engineering.
Feature selection methods for 2009; 21(9):1263-1284.
optimizing clinicopathologic input 11. Jarunratanakul C. Prediction of
variables in oral cancer prognosis. compressor performance map by using
Asian Pacific Journal of Cancer neural network and beta line [M Eng
Prevention. 2011; 12(10):2659-2664. thesis]. Bangkok: Kasetsart University;
4. Chowdhury DR, Chatterjee M, 2009. Thai.
Samanta RK. An artificial neural 12. Kamsaard S, Tangvorapongchai V,
network model for neonatal disease Krusun S, Sriamporn S, Suwanrungruang
diagnosis. International Journal of K. A prognostic model for prediction
Artificial Intelligence and Expert the immediate result in cervical cancer
Systems (IJAE). 2011; 2(3): 96-106. by radiotherapy; 2007. Thai.
48 วารสารวิจัย มข. (บศ.) 13 (1) : ม.ค. - มี.ค. 2556

13. Kukar M, Kononenko I. Cost-sensitive 20. Su X, Khoshgoftaar TM, Greiner R.


learning with neural networks. Using imputation techniques to help
Proceedings of the 13th European learn accurate classifiers. International
Conference on Artificial Intelligence. Conference on Tools with Artificial
1998; 445-449. Intelligence. 2008; 20: 437-444.
14. Nguyen GH, Bouzerdoum A, Phung SL. 21. Suwanarattaphoom P. An approach for
Learning pattern classification tasks improving associative classification in
with imbalance data sets. In: Pattern imbalanced datasets [M Eng Thesis].
recognition, Yin, P.Y., editors. 2009. Bangkok: Kasetsart University; 2010.Thai.
22. Tangvorapongchai V. Factor influencing
p.193-207.
the responsiveness in radiotherapy of
15. Nitesh VC, Kevin WB, Lawrence OH,
cervical cancer. Thai Cancer Journal.
W PK. SMOTE: Synthetic minority
1987; 13(1): 11-15. Thai.
over-sampling technique. Journal of 23. Vanichbuncha K. Advanced analysis
Artificial Intelligence Research. 2006; using SPSS for Windows. 5th ed. Bangkok:
16: 321-357. Thammasarn co.,Ltd Publisher. 2006. Thai.
16. Panchal G, Ganatra A, Kosta YP, 24. Winter WE III, Maxwell GL, Tian C,
Panchal D. Behaviour analysis of Sobel E, Rose GS, Thomas G, et al.
multilayer perceptrons with multiple Association of hemoglobin level with
hidden neurons and hidden layers. survival in cervical carcinoma patients
International Journals of Computer treated with concurrent cisplatin and
Theory and Engineering. 2011; 3(2): radiotherapy: a gynecologic oncology
332-337. group study. Gynecologic Oncology. 2004;
17. Padmavathi J. A comparative study 94(2): 495-501.
on breast cancer prediction using RBF 25. Yan H, Jiang Y, Zheng J, Peng C, Li Q.
and MLP. International Journal of A multilayer perceptron-based medical
Scientific & Engineering Research. 2011; decision support system for heart
2(1): 1-5. disease diagnosis. Expert Systems with
18. Pongwichai S. Statical analysis of Applications. 2006; 30(2): 272-281.
data by computer. 16th ed. Bangkok: V. 26. Zhao H. Instance weighting versus
threshold adjusting for cost-sensitive
Print Publisher. 2009. Thai.
classification. Knowledge and Information
19. Sandberg IW, Lo JT, Fancourt CL,
Systems. 2008; 15(3): 321-324.
Principe JC, Katagiri S, et al. Nonlinear
27. Zhou ZH, Liu XY. Training Cost-Sen-
Dynamical systems feedforward sitive Neural networks with methods
neural network perspectives. United addressing the class imbalance
Kingdom:Canada. 2001. problem. IEEE Transactions on
Knowledge and Data Engineering. 2006;
18(1): 63-77.
KKU Res J (GS) 13 (1) : January - March 2013 49

uj
w ji uj Preprocessing
w kj Preprocessing
w ji w kj uk u Data Collection
k
Data Collection

Data Cleaning and Formatting


Output Layer Data Cleaning and Formatting
Input Layer Output Layer
Hidden Layer Stepwise
xInput
i
Layer y
j Layer y k
Hidden d
k
Target Stepwise
x ่ 1 สถาปัตยกรรมโครงข่
ภาพที
i y j ายประสาทเที d Target
y ยม [2]
k k Imbalance Techniques
ANN Model
ภาพที่ 1 สถาปัตยกรรมโครงข่ายประสาทเทียม [2] Over Cost-Sensitive
ภาพที่ 1 สถาปัตยกรรมโครงข่ายประสาทเทียม [2] ANN Model Sampling Imbalance
Learning Techniques
Logistic Regression
Model Over Cost-Sensitive
Sampling Learning
Logistic Regression
ModelANN Model Logistic Regression
Model

ANN Model Logistic Regression


Model
Efficiency Evaluation

ภาพที่ 2 วิธีกภาพที
ารด�ำ่ เนิ ธีกEfficiency
2 นวิการารดาเนินการEvaluation

ภาพที่ 2 วิธีการดาเนินการ
ตารางที
ตารางที่ 1่ 1ตาราง
ตารางConfusion MatrixMatrix
Confusion
ตารางที่ 1 ตาราง Confusion Matrix
ค่าทานาย (Predicted)
ค่าความจริง (Actual)
ค่าความจริง (Actual) บวก (Positive) ค่าทานาย (Predicted) ลบ (Negative)
บวก (Positive) บวก (Positive)
True positive (TP) ลบ (Negative)
False negative (FN)
บวก(Negative)
ลบ (Positive) True positive (TP)
False positive (FP) True negative (TN) (FN)
False negative
ลบ (Negative) False positive (FP) True negative (TN)
ตารางที่ 2 ปัจจัยที่เกี่ยวข้องกับป่วยมะเร็งปากมดลูก
ตารางที ่ 2 ปัจจัยที่เกี่ยวข้จอจังกั
ลาดับ ่ 2 ปัจจัยที่เกี่ยวข้อปังกั
บป่วตยมะเร็งปากมดลูก ลาดับ
ตารางที บยอิป่นวพุยมะเร็งปากมดลูก ปัจจัยอินพุต
1 บ อายุ (Age)
ลาดั ปัจจัยอินพุต 10ลาดับจานวนการแท้งบุตร (Abortion) ปัจจัยอินพุต
21 แพทย์ ผู้ทาการรักษา (Doctor)
อายุ (Age) 11 10 ระดัจบานวนการแท้
ค่าเฉลี่ยของฮีงโบุมโกลบิ น (Hbaverage)
ตร (Abortion)
32 กลุ ่มเซลล์
แพทย์ ผู้ทมาการรั
ะเร็งปากมดลู
กษา (Doctor)ก (PathoGroup) 12 11 กลุ่มระดั
จังหวับค่ดาภูเฉลี
มิลาเนา (Provice_Grouping)
่ยของฮี โมโกลบิน (Hbaverage)
43 เซลล์มะเร็งกลุ่มย่อย (M_code) 13 12 ขนาดของเซลล์มะเร็ง (Tumor_Size)
กลุ่มเซลล์มะเร็งปากมดลูก (PathoGroup) กลุ่มจังหวัดภูมิลาเนา (Provice_Grouping)
54 เซลล์ประเภท (Squamous cell carcinoma:SCC) 14 13 นาหนักของผูป ้ ่วย (Body_Weigh)
เซลล์มะเร็งกลุ่มย่อย (M_code) ขนาดของเซลล์ มะเร็ง (Tumor_Size)
5 ระดั บ ความดุ ข องเซลล์ ม ะเร็ ง (Grade_DIS)
6 15 ช่วงอายุที่เป็นมะเร็งปากมดลูก (Mentru)
เซลล์ประเภท (Squamous cell carcinoma:SCC) 14 นาหนักของผูป้ ่วย (Body_Weigh)
6 ระยะของโรค (StagingGrouping)
7 16 เป้าหมายการรักษา (Aim_Treat)
ระดับความดุของเซลล์มะเร็ง (Grade_DIS) 15 ช่วงอายุที่เป็นมะเร็งปากมดลูก (Mentru)
8 จานวนการตังครรภ์ (Gravidity) 17 ลักษณะการลุกลามของเซลล์มะเร็ง (Center)
7 ระยะของโรค (StagingGrouping) 16 เป้าหมายการรักษา (Aim_Treat)
9 จานวนของการคลอดบุตร (Parity)
8 จานวนการตังครรภ์ (Gravidity) 17 ลักษณะการลุกลามของเซลล์มะเร็ง (Center)
9 จานวนของการคลอดบุตร (Parity)
ตารางที่ 3 ผลการวิเคราะห์โดยการคัดเลือกตัวแปรแบบลาดับขัน ตารางที่ 4 ค่าพารามิเตอร์ที่มีความผิดพลาดน้อยที่สุด
ลาดับ ปัจจัย การกาหนดค่าพารามิเตอร์ ANN+CSL ANN+SMOT
ตารางที ่ 3
1 อายุ (Age)ผลการวิ เ คราะห์ โ ดยการคั ด เลื อ กตั ว แปรแบบล าดั บขั น ตารางที
จานวน Input ่ 4 ค่ า พารามิ เ ตอร์ ที่มีความผิ
6 ดพลาดน้6 อยที่สุด
ลาดั
2 บ ระยะของโรค (StagingGrouping) ปัจจัย จานวนการกOutputาหนดค่าพารามิเตอร์ 1ANN+CSL 1ANN+SMOT
1 อายุ (Age) จานวน
จานวนชั นซ่อInput
น 7 6 7 6
3 กลุ่มเซลล์มะเร็งปากมดลูก (PathoGroup) 12 กลุ่มจังหวัดภูมิลาเนา (Provice_Grouping)
5 4 เซลล์เซลล์
ประเภท ะเร็(Squamous cell carcinoma:SCC)
มมะเร็ งงกลุ 14 13นาหนั กของผูป้ ่วย (Body_Weigh)
4 เซลล์ กลุ่ม่มย่ย่ออยย (M_code)
(M_code) 13 ขนาดของเซลล์
ขนาดของเซลล์ มมะเร็
ะเร็งง (Tumor_Size)
(Tumor_Size)
6 5 ระดับเซลล์
ความดุ ของเซลล์
ปประเภท (Squamous มะเร็ง (Grade_DIS)
cell 15 14ช่วงอายุ ทเ
่ ี ป็
น มะเร็ ง ปากมดลู ก (Mentru)
5 เซลล์ ระเภท (Squamous cell carcinoma:SCC)
carcinoma:SCC) น าหนั
14 นาหนักของผูป ก ของผู ป
้ ว
่ ย (Body_Weigh)
้ ่วย (Body_Weigh)
7 6 ระยะของโรค (StagingGrouping) 16 15เป้าหมายการรั
6 ระดั บ ความดุ ข องเซลล์ ม ะเร็
ระดับความดุของเซลล์มะเร็ง (Grade_DIS) ง (Grade_DIS) งอายุทที่เี่เกป็ป็ษา
15 ช่ช่ววงอายุ นนมะเร็
มะเร็(Aim_Treat)
งงปากมดลู
ปากมดลูกก (Mentru)
(Mentru)
850 7 จานวนการตั 17 วารสารวิ
งครรภ์(StagingGrouping)
(Gravidity) 16 เป้าหมายการรักษา (Aim_Treat) - มี.ค. 2556
จ ย
ั มข. (บศ.) 13 (1) : ม.ค.
ระยะของโรค 16ลักษณะการลุ
เป้ า หมายการรัก ลามของเซลล์
ก ษา มะเร็
(Aim_Treat)ง (Center)
7 ระยะของโรค (StagingGrouping)
9 8 จานวนของการคลอดบุ
จจานวนการตั
านวนการตังครรภ์งครรภ์ตร(Gravidity)
(Parity) 17 ลักษณะการลุกลามของเซลล์มะเร็ง (Center)
8 (Gravidity) 17 ลักษณะการลุกลามของเซลล์มะเร็ง (Center)
9 ่ จจ3านวนของการคลอดบุ ตรร (Parity)
9
ตารางที านวนของการคลอดบุ
ผลการวิเคราะห์โตดยการคั (Parity)
ดเลือกตัวแปร ตารางที่ 4 ค่าพารามิเตอร์ทมี่ คี วามผิดพลาดน้อยทีส่ ดุ
ตารางที่ 3 ผลการวิเคราะห์โดยการคัดเลือกตัวแปรแบบลาดับขัน ตารางที่ 4 ค่าพารามิเตอร์ที่มีความผิดพลาดน้อยที่สุด
แบบล�ำดับขั้น
ลาดัตารางที
บ ่ 3
ตารางที่ 3 ผลการวิเเคราะห์
ผลการวิ คราะห์ ปัจโโดยการคั
จัย ดดเลื
ดยการคั เลืออกตั
กตัววแปรแบบล าดับบขัขันน ตารางที
แปรแบบลาดั ตารางที่่ 44 ค่ค่าาพารามิ
การกาหนดค่
พารามิเเตอร์
าพารามิเตอร์
ตอร์ทที่มี่มีคีความผิ
ANN+CSLดพลาดน้
วามผิดพลาดน้ออยที
ยที่ส่สุดุด
ANN+SMOT
1 ลลาดั จานวนการก Inputาหนดค่าพารามิเตอร์ 6ANN+CSL
าดับบอายุ (Age) ปัปัจจจัจัยย 6
ANN+SMOT
การกาหนดค่าพารามิเตอร์ ANN+CSL ANN+SMOT
2 11 ระยะของโรคอายุ (StagingGrouping) จานวน จจานวน Output Input 1 6 1 6
อายุ (Age)
(Age) านวน Input 6 6
3 22 ขนาดของเซลล์
ระยะของโรค ม ะเร็ ง (Tumor_Size)
(StagingGrouping) จานวนชั จจานวน นซ่ อ
านวน Output น
Output 7 1
1
7 1
1
ระยะของโรค (StagingGrouping)
4 33 กลุ่มขนาดของเซลล์
เซลล์ มะเร็ ง ปากมดลู มะเร็ ง ก (PathoGroup)
(Tumor_Size) ค่าอัตจจานวนชั
ราการเรี
านวนชันซ่อน ย
นซ่นรู
อน ้ 0.1 7
7
0.1 7
7
ขนาดของเซลล์มะเร็ง (Tumor_Size)
5 44 นาหนักลุ กม
่ ของผู
เซลล์ ป
้ มว
่ ย
ะเร็ (Body_Weigh)
ง ปากมดลู ก (PathoGroup) ค่าโมเมนตั ม
ค่ค่าาอัอัตตราการเรี ย
ราการเรียนรู้ นรู ้ 0.2 0.1
0.1
0.1 0.1
0.1
กลุ่มเซลล์มะเร็งปากมดลูก (PathoGroup)
6 55 ระดับนนค่าหนั
า เฉลี
ก ย
่ ของฮี
ของผู ป
้ โ

่ มโกลบิ
ย น
(Body_Weigh) (Hbaverage) จานวนรอบ ค่ค่าาโมเมนตั
โมเมนตัม ม 2500 0.2
0.2
5000 0.1
0.1
าหนักของผูป้ ่วย (Body_Weigh)
66 ระดั บ ค่ า เฉลี ย
่ ของฮี โ มโกลบิ น (Hbaverage) จจานวนรอบ
านวนรอบ 2500
2500
5000
5000
ระดับค่าเฉลี่ยของฮีโมโกลบิน (Hbaverage)
ตารางที่ 5 ประสิทธิภาพการทานายด้วยโครงข่ายประสาทเทียม (ANN) และวิธีถดถอยโลจิสติก (Logistic)
ตารางที
ตารางที ่55ประสิ
ประสิทธิภ(%) าพการท� TN ำ(%) นายด้ วยโครงข่ ายประสาทเที ยม (ANN) และวิธีถดถอยโลจิสติก (Logistic)
ตารางที่่ K-Fold
Method 5 ประสิททธิธิTPภภาพการท
าพการทานายด้ านายด้ ววยโครงข่ าายประสาทเที
Accuracy
ยโครงข่ (%)
ยประสาทเที ยยมม (ANN)
(ANN) และวิ และวิธธีถีถดถอยโลจิ
ดถอยโลจิสสติติกก (Logistic)
(Logistic)
ANNMethod K-Fold TP (%) 0.00
Method ทุก KK-Fold100.00
TN (%)
TP (%) TN (%)
Accuracy (%)
93.50
Accuracy (%)
LogisticANN ทุก K 100.00 0.000.00
ANN ทุก Kทุก K 100.00
100.00 0.00
93.50
93.5093.50
Logistic ทุก K 100.00 0.00 93.50
Logistic ทุก K 100.00 0.00 93.50

ตารางที่ 6 ประสิทธิภาพการท�ำนายด้วยโครงข่ายประสาทเทียม (ANN) เปรียบเทียบกับวิธีถดถอยโลจิสติก


ตารางที่ 6 ประสิทธิภาพการทานายด้วยโครงข่ายประสาทเทียม (ANN) เปรียบเทียบกับวิธีถดถอยโลจิสติก (Logistic) หลังจาก
(Logistic) หลังจากปรับความไม่สมดุลของข้อมูลด้วยวิธี CSL และ SMOTE
ตารางที่ 6ปรัประสิ
บความไม่ สมดุลของข้
ทธิภาพการท อมูวลยโครงข่
านายด้ ด้วยวิธาี CSL และ SMOTE
ยประสาทเที ยม (ANN) เปรียบเทียบกับวิธีถดถอยโลจิสติก (Logistic) หลังจาก
ปรับความไม่สมดุลของข้
Method K-Foldอมูลด้วยวิธTPี CSL และ SMOTE
(%) TN (%) Accuracy (%)
ANN Method
+ CSL K-Fold
4K TP76.70
(%) TN40.88
(%) Accuracy
74.37(%)
ANN++SMOTE
ANN CSL 4K
5K 76.70
94.47 40.88
55.47 74.37
81.70
ANN + SMOTE
Logistic + CSL 5K
4K 94.47
84.52 55.47
30.66 81.70
81.02
Logistic+ +SMOTE
Logistic CSL 4K
5K 84.52
90.71 30.66
16.27 81.02
66.34
Logistic + SMOTE 5K 90.71 16.27 66.34
ตารางที่ 7 ประสิทธิภาพการทานายผลการรักษา
ตารางที่ 7 ประสิทธิภาพการท�ำนายผลการรักษา
ตารางที่ 7Method
ประสิทธิภาพการทTP
านายผลการรั
(%) กษา
TN (%) Accuracy (%)
Method
ANN + CSL TP98.41
(%) TN0.00
(%) Accuracy
96.12(%)
ANN+ SMOTE
ANN + CSL 98.41
97.62 0.00
33.33 96.12
ANN + SMOTE
Logistic + CSL 97.62
87.30 33.33
66.67 96.12
86.82
Logistic
Logistic + CSL
+ SMOTE 87.30
93.65 66.67
33.33 86.82
92.25
Logistic + SMOTE 93.65 33.33 92.25

You might also like