You are on page 1of 277

บทที$ 2

การจัดเตรียมข้ อมูล

1
การเตรียมข้ อมูล
(Data Preprocessing)

2
ความหมาย
การปรับเปลี*ยนข้อมูลดิบ (raw data) ให้อยูใ่ นรู ปแบบที*เหมาะสมพร้อมที*จะนําไปใช้งานต่อไปได้
เพื*อที*จะนําเข้าฐานข้อมูล หรื อนําไปวิเคราะห์ต่อไป

ข้อมูลดิบ การเตรี ยมข้อมูล ข้อมูลสะอาด

3
ขั)นตอนการจัดการข้ อมูล
• การทําความสะอาดข้อมูล (Data Cleaning)
• การแปลงข้อมูล (Data transformation)
• การผสานข้อมูล (Data integration)
• การลดขนาดข้อมูล (Data reduction : Data Selection/data extraction)

4
การทําความสะอาดข้ อมูล (Data Cleaning)
การทํา ความสะอาดข้อ มู ล เป็ นกระบวนการตรวจสอบและการแก้ไ ข (หรื อ ลบ) รายการข้อ มู ล
ที*ไม่ถูกต้องออกไปจากชุดข้อมูล ประกอบด้วย
1. การแจกแจงข้อมูล (Parsing)
2. การแก้ไขข้อมูล (Correcting) : ข้อมูลผิด ข้อมูลไม่ครบถ้วน ข้อมูลผิดปกติ
3. การทําข้อมูลให้เป็ นรู ปแบบเดียวกัน (Standardizing)
4. การลบชุดข้อความซํLาซ้อนทิLง (Duplicate Elimination)

5
ตัวอย่ างข้ อมูลไม่ สมบูรณ์

org_indiv first_plus first_name last_name city state category cash other total
3-D MEDICAL SERVICES LLC STEVEN BRUCE STEVEN DEITELZWEIG NEW ORLEANS LA Professional Advising 2625 0 2625
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising 1800 0 1800

Formats Missing values Invalid values

6
การผสานข้ อมูล (Data integration)
การรวบรวมข้อมูลทัLงหมดจากแหล่งต่าง ๆ มาเก็บไว้ในพืLนที*ปลายทางที*รวบรวมข้อมูลทัLงหมด
เพื*อความสะดวกในการค้นหาและการนําไปใช้งานได้ต่อ โดยพืLนที*ปลายทางนีLอาจจะเป็ นฐานข้อมูล หรื อ
แพลตฟอร์มจัดการข้อมูล ประกอบด้วย
• ย้ายข้อมูล
• แปลงข้อมูล
• ทําสารบัญข้อมูล
• จัดการพืLนที*ขอ้ มูลกลาง

7
การแปลงข้ อมูล (Data transformation)
การเปลี*ยนสภาพของข้อมูลให้มีความพร้ อมใช้งานข้อมูลและง่ายต่อการวิเคราะห์ เช่ น ข้อมูลเพศ
ชาย/หญิง แปลงเป็ นตัวเลข 0/1
หรื อการเปลี*ยนสภาพของข้อมูลที*เราศึกษาให้มีการแจกแจงแบบปกติหรื อทําให้ความแปรปรวนมีค่า
เท่ากัน เนื*องจากข้อตกลงเบืLองต้นของการทดสอบสถิติบางตัวได้กาํ หนดไว้
• การแปลงค่าแบบต่อเนื*องให้เป็ นแบบเต็มหน่วย (Discretization)
• การรวมข้อมูล (Aggregation)
• การทําข้อมูลให้อยูใ่ นรู ปมาตรฐาน (Normalization)

8
การลดขนาดข้ อมูล (Data reduction)
การลดมิติขอ้ มูล เพื*อเป็ นตัวแทนข้อมูลทัLงหมด ประกอบด้วย
• การรวมข้อมูล (Data Aggregation)
• การลดมิติขอ้ มูล (Dimensionality Reduction) : Feature Selection และ Feature Extraction
• การลดรู ปข้อมูล (Numerosity Reduction)
• การทําให้ขอ้ มูลเป็ นแบบไม่ต่อเนื*อง (Discretization)

9
การทําความสะอาดข้ อมูล
Data cleaning

10
การทําความสะอาดข้ อมูล (Data Cleaning)
การทําความสะอาดข้อมูล เป็ นกระบวนการตรวจสอบและการแก้ไข (หรื อลบ) รายการข้อมูลที*
ไม่ถูกต้องออกไปจากชุดข้อมูล ประกอบด้วย
1. การแจกแจงข้อมูล (Parsing)
2. การแก้ไขข้อมูล (Correcting) : ข้อมูลผิด ข้อมูลไม่ครบถ้วน ข้อมูลผิดปกติ
3. การทําข้อมูลให้เป็ นรู ปแบบเดียวกัน (Standardizing)
4. การลบชุดข้อความซํLาซ้อนทิLง (Duplicate Elimination)
org_indiv first_plus first_name last_name city state category cash other total
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising 1800 0 1800

Formats Missing values Invalid values


11
การแจกแจงข้ อมูล (Parsing)
การทําความเข้าใจกับข้อมู ลที4 ได้มานั8นว่าประกอบด้วยข้อมู ลอะไรบ้าง แต่ ละ ข้อมู ลมี ชนิ ดเป็ นอะไร เป็ นข้อมู ล
ประเภทไหน มี การกระจายตัวอย่างไร และมี ขอ้ ผิดพลาดอะไรเกิ ดขึ8 นกับข้อมู ล เป็ นการสํารวจในเบื8 องต้น อาจใช้วิธีกราฟ
(Data Visualization) เช่น Boxplot, Line chart, Scatter และ Histogram หรื อ สถิติพรรณนา

รหัส อายุงาน อายุงาน อายุตวั อายุตวั


ตําแหน่ ง ระดับการศึกษา การศึกษา
พนักงาน (ปี ) (เดือน) (ปี ) (เดือน)
550055 เจ้ าหน้ าทีอ? าวุโส 6 0 28 0 ปริญญาตรี วท.บ.
570018 ผู้จดั การส่ วน 4 5 45 4 ปริญญาตรี บธ.บ
550058 เจ้ าหน้ าทีผ? ู้ชํานาญการ 6 0 33 3 ปริญญาตรี วท.ม
610019 เจ้ าหน้ าทีว? ชิ ีพ 0 5 18 3 ปริญญาโท MS
610005 เจ้ าหน้ าที? 8 7 23 10 ปริญญาตรี วทบ.

12
การแก้ ไขข้ อมูล (Correcting)
การปรับปรุ งหรื อแก้ไขข้อผิดพลาด เช่ น ข้อมูลที*ไม่ถูกต้อง ข้อมูลล้าสมัย ข้อมูลที*มีค่าสู ญหายใน
บางส่ วน หรื อมีค่าข้อมูลผิดปกติเกิดขึLน ก่อนที*จะนําไปประมวลผลหรื อวิเคราะห์ต่อ โดยวิธีต่อไปนีL
• ปรั บปรุ งข้อมูลให้เป็ นค่าที* ถูกต้อง (Correction) ซึ* งวิธีการนีL นักวิเคราะห์จะต้องรู ้ มาก่อนหน้าว่า
ค่าที*ถูกต้องของข้อมูลคืออะไร ถึงจะทําการแก้ไขให้เป็ นข้อมูลที*ถูกต้องได้
• การแทนค่า (Replacement) โดยวิธีของการแทนค่านัLนมีดว้ ยกันหลายวิธี เช่น
• แทนค่าด้วยเครื* องหมาย ? เพื*อบอกว่าเป็ นค่าที*หายไป
• แทนค่าด้วยค่าที*มีความถี*สูงสุ ด (Mode) หรื อค่าเฉลี*ย (Mean) ของแอตทริ บิวต์นL นั โดยค่าที*มี
ความถี*สูงสุ ดจะใช้แทนค่าแอตทริ บิวต์ชนิดข้อมูลเชิงคุณภาพ (Categorical data) ส่ วนค่าเฉลี*ย
จะใช้แทนค่าแอตทริ บิวต์ชนิดข้อมูลเชิงปริ มาณ (Numerical data)
• แทนค่าด้วยค่าใหม่ที*ได้จากเทคนิ คการประมาณการ เช่น การหาความน่าจะเป็ น หรื อใช้วิธีจดั
กลุ่มข้อมูล (Clustering algorithm) เป็ นต้น
13
การทําข้ อมูลให้ เป็ นรูปแบบเดียวกัน (Standardizing)
• การทําข้อมูลให้เป็ นรู ปแบบเดียวกัน
เช่น จังหวัด กรุ งเทพฯ ที*มีรูปแบบ กทม. กรุ งเทพฯ และ กรุ งเทพมหานคร
• การทําข้อมูลให้มีหน่วยเดียวกัน โดยการทํา Z-score standardization เพื*อแปลงข้อมูลที*มีการกระจายตัวข้อมูล
ที*ไม่ปกติให้เป็ นการแจกแจงแบบปกติ (Normal distribution)

ข้ อมูลประชากร ข้ อมูลตัวอย่ าง
𝑥−𝜇 𝑥 − 𝑥̅
𝑧= ~𝑁(0,1) 𝑧= ~𝑁(0,1)
𝜎 𝑠

14
การลบชุดข้ อความซํ)าซ้ อนทิง) (Duplicate Elimination)
• การลบข้อมูลออกไปจากชุดข้อมูล (Removal) ซึ*งเป็ นการลบทัLงแถวเหมาะสมกับชุดข้อมูลที*มีจาํ นวนข้อมูล
มากเพียงพอต่อการนําไปวิเคราะห์
รหัส อายุงาน อายุงาน อายุตวั อายุตวั
ตําแหน่ ง ระดับการศึกษา การศึกษา
พนักงาน (ปี ) (เดือน) (ปี ) (เดือน)
550055 เจ้ าหน้ าทีอ? าวุโส 6 0 28 0 ปริญญาตรี วท.บ.
570018 ผู้จดั การส่ วน 4 5 45 4 ปริญญาตรี บธ.บ
550058 เจ้ าหน้ าทีผ? ู้ชํานาญการ 6 0 33 3 ปริญญาตรี วท.ม

รหัส อายุงาน อายุงาน อายุตัว อายุตัว


ตำแหน-ง ระดับการศึกษา การศึกษา
พนักงาน (ป3) (เดือน) (ป3) (เดือน)
550058 เจBาหนBาที่ผูBชำนาญการ 6 0 33 3 ปริญญาตรี วท.ม
610019 เจBาหนBาทีว่ ิชาชีพ 0 5 18 3 ปริญญาโท MS
610005 เจBาหนBาที่ 8 7 23 10 ปริญญาตรี วทบ.
15
คุณภาพของข้ อมูล (Data Quality)
• ความถูกต้อง (Accuracy)
• มีความเป็ นปัจจุบนั (Update)
• ตรงตามความต้องการ (Relevance)
• ความสมบูรณ์ (Complete)
Inaccurately recorded datum
• สามารถตรวจสอบได้ (Verifiable)
รหัส อายุงาน อายุงาน อายุตวั อายุตวั
ตําแหน่ ง ระดับการศึกษา การศึกษา
พนักงาน (ปี ) (เดือน) (ปี ) (เดือน)
550055 เจ้ าหน้ าทีอ? าวุโส 6 0 28 0 ปริญญาตรี วท.บ.
570018 ผู้จดั การส่ วน 4 5 45 4 ปริญญาตรี บธ.บ
580015 เจ้ าหน้ าที? 3 6 26 0 ปริญญาตรี วท.บ.
560124 เจ้ าหน้ าทีผ? ู้ชํานาญการ 5 1 34 2 ปริญญาตรี วทบ.
550058 เจ้ าหน้ าทีผ? ู้ชํานาญการ 6 0 33 3 ปริญญาตรี วท.ม
610019 เจ้ าหน้ าทีว? ชิ ีพ 0 5 18 3 ปริญญาโท MS
610005 เจ้ าหน้ าที? 8 7 23 10 ปริญญาตรี วทบ.
16
การทำความสะอาดข.อมูล
Data cleaning

17
การทําความสะอาดข้ อมูล (Data Cleaning)
การทําความสะอาดข้อมูล เป็ นกระบวนการตรวจสอบและการแก้ไข (หรื อลบ) รายการข้อมูลที*ไม่
ถูกต้องออกไปจากชุดข้อมูล ประกอบด้วย
1. การแจกแจงข้อมูล (Parsing)
2. การแก้ไขข้อมูล (Correcting) : ข้อมูลผิด ข้อมูลไม่ครบถ้วน ข้อมูลผิดปกติ
3. การทําข้อมูลให้เป็ นรู ปแบบเดียวกัน (Standardizing)
4. การลบชุดข้อความซํLาซ้อนทิLง (Duplicate Elimination)
org_indiv first_plus first_name last_name city state category cash other total
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising 1800 0 1800

Formats Missing values Invalid values


18
การแจกแจงข้ อมูล (Parsing)
การทําความเข้าใจกับข้อมูลที4ได้มานั8นว่าประกอบด้วยข้อมูลอะไรบ้าง แต่ละ ข้อมูลมีชนิดเป็ นอะไร เป็ นข้อมูล
ประเภทไหน มีการกระจายตัวอย่างไร และมีขอ้ ผิดพลาดอะไรเกิดขึ8นกับข้อมูล เป็ นการสํารวจในเบื8องต้น อาจใช้วธิ ีกราฟ (Data
Visualization) เช่น Boxplot, Line chart, Scatter และ Histogram หรื อ สถิติพรรณนา

รหัส อายุงาน อายุงาน อายุตัว อายุตัว


ตำแหน-ง ระดับการศึกษา การศึกษา
พนักงาน (ป3) (เดือน) (ป3) (เดือน)
550055 เจBาหนBาที่อาวุโส 6 0 28 0 ปริญญาตรี วท.บ.
570018 ผูBจัดการส-วน 4 5 45 4 ปริญญาตรี บธ.บ
550058 เจBาหนBาที่ผูBชำนาญการ 6 0 33 3 ปริญญาตรี วท.ม
610019 เจBาหนBาที่วิชีพ 0 5 18 3 ปริญญาโท MS
610005 เจBาหนBาที่ 8 7 23 10 ปริญญาตรี วทบ.

19
การแก้ ไขข้ อมูล (Correcting)
การปรับปรุ งหรื อแก้ไขข้อผิดพลาด เช่ น ข้อมูลที*ไม่ถูกต้อง ข้อมูลล้าสมัย ข้อมูลที*มีค่าสู ญหายใน
บางส่ วน หรื อมีค่าข้อมูลผิดปกติเกิดขึLน ก่อนที*จะนําไปประมวลผลหรื อวิเคราะห์ต่อ โดยวิธีต่อไปนีL
• ปรับปรุ งข้อมูลให้เป็ นค่าที*ถูกต้อง (Correction) ซึ* งวิธีการนีLนกั วิเคราะห์จะต้องรู ้มาก่อนหน้าว่า
ค่าที* ถูกต้องของข้อมูลคืออะไรถึงจะทําการแก้ไขให้เป็ นข้อมูลที*ถูกต้องได้
• การแทนค่า (Replacement) โดยวิธีของการแทนค่านัLนมีดว้ ยกันหลายวิธี เช่น
• แทนค่าด้วยเครื* องหมาย ? เพื*อบอกว่าเป็ นค่าที*หายไป
• แทนค่าด้วยค่าที*มีความถี*สูงสุ ด (Mode) หรื อค่าเฉลี*ย (Mean) ของแอตทริ บิวต์นL นั โดยค่าที*มี
ความถี*สูงสุ ดจะใช้แทนค่าแอตทริ บิวต์ชนิดข้อมูลเชิงคุณภาพ (Categorical data) ส่ วนค่าเฉลี*ย
จะใช้แทนค่าแอตทริ บิวต์ชนิดข้อมูลเชิงปริ มาณ (Numerical data)
• แทนค่าด้วยค่าใหม่ที*ได้จากเทคนิ คการประมาณการ เช่น การหาความน่าจะเป็ น หรื อใช้วิธีจดั
กลุ่มข้อมูล (Clustering algorithm) เป็ นต้น
20
การทําข้ อมูลให้ เป็ นรูปแบบเดียวกัน (Standardizing)
• การทําข้อมูลให้เป็ นรู ปแบบเดียวกัน
เช่น จังหวัด กรุ งเทพฯ ที*มีรูปแบบ กทม. กรุ งเทพฯ และ กรุ งเทพมหานคร
• การทําข้อมูลให้มีหน่วยเดียวกัน โดยการทํา Z-score standardization เพื*อแปลงข้อมูลที*มีการกระจายตัวข้อมูล
ที*ไม่ปกติให้เป็ นการแจกแจงแบบปกติ (Normal distribution)

ข้ อมูลประชากร ข้ อมูลตัวอย่ าง
𝑥−𝜇 𝑥 − 𝑥̅
𝑧= ~𝑁(0,1) 𝑧= ~𝑁(0,1)
𝜎 𝑠

21
การลบชุดข*อความซ้ำซ*อนทิ้ง (Duplicate Elimination)
• การลบข'อมูลออกไปจากชุดข'อมูล (Removal) ซึ่งเป@นการลบทั้งแถวเหมาะสมกับชุดข'อมูลที่มีจำนวนข'อมูลมาก
เพียงพอตPอการนำไปวิเคราะหS
รหัส อายุงาน อายุงาน อายุตวั อายุตวั
ตําแหน่ ง ระดับการศึกษา การศึกษา
พนักงาน (ปี ) (เดือน) (ปี ) (เดือน)
550055 เจ้ าหน้ าทีอ? าวุโส 6 0 28 0 ปริญญาตรี วท.บ.
570018 ผู้จดั การส่ วน 4 5 45 4 ปริญญาตรี บธ.บ
550058 เจ้ าหน้ าทีผ? ู้ชํานาญการ 6 0 33 3 ปริญญาตรี วท.ม

รหัส อายุงาน อายุงาน อายุตวั อายุตวั


ตําแหน่ ง ระดับการศึกษา การศึกษา
พนักงาน (ปี ) (เดือน) (ปี ) (เดือน)
550058 เจ้ าหน้ าทีผ? ู้ชํานาญการ 6 0 33 3 ปริญญาตรี วท.ม
610019 เจ้ าหน้ าทีว? ชิ าชีพ 0 5 18 3 ปริญญาโท MS
610005 เจ้ าหน้ าที? 8 7 23 10 ปริญญาตรี วทบ.
22
คุณภาพของข้ อมูล (Data Quality)
• ความถูกต้อง (Accuracy)
• มีความเป็ นปัจจุบนั (Update)
• ตรงตามความต้องการ (Relevance)
• ความสมบูรณ์ (Complete) Inaccurately recorded datum

• สามารถตรวจสอบได้ (Verifiable) รหัส


ตำแหน-ง
อายุงาน อายุงาน อายุตัว อายุตัว
ระดับการศึกษา การศึกษา
พนักงาน (ป3) (เดือน) (ป3) (เดือน)
550055 เจBาหนBาที่อาวุโส 6 0 28 0 ปริญญาตรี วท.บ.
570018 ผูBจัดการส-วน 4 5 45 4 ปริญญาตรี บธ.บ
580015 เจBาหนBาที่ 3 6 26 0 ปริญญาตรี วท.บ.
560124 เจBาหนBาที่ผูBชำนาญการ 5 1 34 2 ปริญญาตรี วทบ.
550058 เจBาหนBาที่ผูBชำนาญการ 6 0 33 3 ปริญญาตรี วท.ม
610019 เจBาหนBาที่วิชีพ 0 5 18 3 ปริญญาโท MS
610005 เจBาหนBาที่ 8 7 23 10 ปริญญาตรี วทบ.
23
การทําความสะอาดข้ อมูล :
การแจกแจงข้ อมูล (การสํ ารวจข้ อมูล)
Data cleaning: Parsing (Explore data)

24
การแจกแจงข้ อมูล (Parsing)
การทําความเข้าใจกับข้อมูลที*ได้มานัLนว่าประกอบด้วยข้อมูลอะไรบ้าง แต่ละข้อมูลมีชนิ ดเป็ นอะไร
เป็ นข้อมูลประเภทไหน มีการกระจายตัวอย่างไร และมีขอ้ ผิดพลาดอะไรเกิดขึLนกับข้อมูล เป็ นการตรวจสอบ
ข้อมูลเบืLองต้น (Explore data) ด้วยสถิติพรรณนา เช่น ค่าสู งสุ ด ค่าตํ*าสุ ด ค่ากลาง ค่าการกระจายข้อมูล หรื อ
การนําเสนอด้วยภาพ (Data Visualization) เช่น Boxplot, Scatter และ Histogram
Mean 2441.62963 14000 25
Histogram
Standard Error 258.075055 80
12000
Median 750 20 70
Mode 1000 10000 60
Standard Deviation 8156.96826 15
50
8000 40
Sample Variance 66536131.2
30
Kurtosis 109.509823 6000
10 20
Skewness 9.60015581
10
Range 116668 4000
0
Minimum 25 5

[27, 1727]

(10227, 11927]

(11927, 13627]
(1727, 3427]

(3427, 5127]

(5127, 6827]

(6827, 8527]

(8527, 10227]
2000
Maximum 116693
Sum 2439188 0 0
Count 999 1 0 5 10 15 20 25

25
วิธีการทางสถิตพิ รรณนา ได้แก่
การแจกแจงความถี, (Frequencies) คือ การจัดข้อมูลเป็ นกลุ่ม โดยการทําตารางแจกแจงความถี,
ค่าพารามิเตอร์ ค่าสถิติ
การวัดแนวโน้มสู่ ส่วนกลาง (Measure Central of Tendency) คุณลักษณะ
(Parameter) (Statistics)
• การหาค่าเฉลีย+ (Mean) เป็ นค่าที+เกิดจากการนําเอาค่าของหน่วยข้ อมูลทุก ๆ หน่วยที+เก็บรวบรวมได้ มา
บวกกัน แล้ วหารด้ วยจํานวนหน่วย ข้ อมูลทังหมด
C จํานวน
• การหาค่าฐานนิยม (Mode) ค่าของหน่วยข้ อมูลที+มีอตั รา ความถี+สงู สุด หรื อมีอตั ราการซํ Cากันมากที+สดุ ค่าเฉลี;ย
• การหาค่าแสดงตําแหน่งข้ อมูล (Median (ค่าตัวเลขที+อยูต่ รงกลางของจํานวนเลขทุก ๆ หน่วย เมื+อเรี ยง
กันตามลําดับ), Quartiles , Decile , Percentiles , N-tiles)
ค่าเบี;ยงเบน
มาตรฐาน
การหาค่าการกระจาย (Dispersion) ค่าความ
แปรปรวน
การหาค่ าสั มประสิ ทธิ/สหสั มพันธ์ (Correlation coefficient)
• เป็ นการหาความสัมพันธ์ของตัวแปรว่ามีความสัมพันธ์กนั หรื อไม่ มากน้ อยเพียงใดและสัมพันธ์กนั ในเชิงบวก ค่าสัมประสิ ทธิD
หรื อลบ ( -R < r < +1 ) สหสัมพันธ์

26
Box and whisker plot
• เป็ นการแสดงข้อมูลแบบรู ปภาพ (Data Visualization) เพื*อตรวจสอบค่าผิดปกติ โดยใช้ ค่าสถิติ 5 ค่า ดังนีL
• ค่าตํ*าสุ ดของข้อมูลที*ยงั ไม่ผดิ ปกติ 25

• ค่าควอไทล์ที* 1 (Q1) 20

• ค่ามัธยฐาน หรื อ ค่าควอไทล์ที* 2 (Q2) Q3


15
Q2
• ค่าควอไทล์ที* 3 (Q3) 10
Q1

• ค่าสู งสุ ดของข้อมูลที*ยงั ไม่ผดิ ปกติ 5

0
1

27
Line chart
• เป็ นการแสดงข้อมูลแบบรู ปภาพ (Data Visualization) โดยแสดงการเคลื*อนไหว (fluctuation) หรื อแนวโน้ม
(trend) ของข้อมูล มักจะนิยมใช้กบั ข้อมูลอนุกรมเวลา

25

20

15

10

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

x1 x2

28
Scatter plot
เป็ นการแสดงข้อมูลแบบรู ปภาพ (Data Visualization) โดยแสดงความสัมพันธ์ระหว่างข้อมูล 2 ชุด
โดยนําค่าของข้อมูลทัLงสองมาเขียนลงจุดในแผนภาพการกระจาย คือ ค่าข้อมูลชุดที* 1 และ ชุดที* 2 เป็ นคู่ ๆ
ลักษณะความสัมพันธ์
• ไม่มีความสัมพันธ์กนั
25

• ความสัมพันธ์เชิงเส้นตรงทางบวก 20

• ความสัมพันธ์เชิงเส้นตรงทางลบ 15

10

0
0 5 10 15 20 25

29
Histogram
เป็ นการแสดงข้อมูลแบบรู ปภาพ (Data Visualization) ที*แสดงความผันแปรของข้อมูล ด้วยการเรี ยงลําดับ
ความถี*ตามปริ มาณที*เกิ ดขึLน และจัดกลุ่มข้อมูลเข้าด้วยกันเพื*อให้เห็ นช่ วงของข้อมูลที*ชดั เจน โดยแกนนอน (x)
แสดงประเภทของข้อมูลที* ตอ้ งการแสดง และแกนตัLง (y) แสดงตัวเลขเป็ นความถี* จะช่ วยให้เข้าใจถึ งภาพรวม
การแจกแจงข้อมูลว่ามีลกั ษณะการกระจายเป็ นอย่างไร

25

20

15

10

0
[2, 4.8] (4.8, 7.6] (7.6, 10.4] (10.4, 13.2] (13.2, 16] (16, 18.8] (18.8, 21.6]

30
การทําความสะอาดข้ อมูล : การแจกแจง
ข้ อมูล (การสํ ารวจข้ อมูล) : แผนภาพกล่ อง
Data cleaning: Parsing (Explore data) : Box plot

31
Box and whisker plot หรื อ Box plot
• เป็ นการแสดงข้อมูลแบบรู ปภาพ (Data Visualization) เพื*อตรวจสอบค่าผิดปกติ โดยใช้ ค่าสถิติ 5 ค่า ดังนีL
• ค่าตํ*าสุ ดของข้อมูลที*ยงั ไม่ผดิ ปกติ 25

• ค่าควอไทล์ที* 1 (Q1) 20

• ค่ามัธยฐาน หรื อ ค่าควอไทล์ที* 2 (Q2) Q3


15
Q2
• ค่าควอไทล์ที* 3 (Q3) 10
Q1

• ค่าสู งสุ ดของข้อมูลที*ยงั ไม่ผดิ ปกติ 5

0
1

32
การสร้ าง Box plot
1. เรี ยงข้อมูลจากน้อยไปมาก
2. หาค่า Q1, Q2 (มัธยฐาน) , Q3
3. หาค่าพิสยั ควอไทล์ (IQR) = Q3-Q1
4. หาขอบเขตของค่าที4ยงั ไม่ผดิ ปกติ คือ
• f1 = Q1 − 1.5(IQR)
• f2 = Q3 + 1.5(IQR)
5. สร้างกล่อง โดยขอบสองด้านของกล่อง คือ ควอไทล์ที4 1 และ 3
6. สร้างขอบเขตของค่าที4ยงั ไม่ผดิ ปกติ (whisker) ทั8ง 2 ด้าน
- ลากเส้นจากขอบกล่องด้าน Q1 ไปยังค่าตํ4าสุ ดในกรณี ที4ไม่มีค่าผิดปกติหรื อให้
ลากไปยังค่าตํ4าสุ ดที4สูงกว่า f1 ถ้ามีค่าผิดปกติ
- ลากเส้นจากขอบกล่องด้าน Q3 ไปยังค่าสู งสุ ดในกรณี ที4ไม่มีค่าผิดปกติหรื อให้
ลากไปยังค่าสู งสุ ดที4ต4าํ กว่า f2 ถ้ามีค่าผิดปกติ
6. ระบุค่าที4อยูน่ อกเหนือ f1 และ f2 ในแผนภาพ ซึ4งคือ ค่าผิดปกติ
33
ลักษณะของข้ อมูล

Negatively-Skewed Symmetrical Positively-Skewed

Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

34
การเปรียบเทียบข้ อมูลหลายชุด

25 25

20 20

15 15

10 10

5 5

0 0
1 1

การเปรี ยบเทียบข้อมูลหลายชุด ควรทําให้เป็ นหน่วยเดียวกัน

35
DT34 หญง ิ 49
DT35 หญง ิ 50
DT36 หญง ิ 44
DT37 หญง ิ 80

ตัวอย่ าง การตรวจสอบข้ อมูลด้ วยแผนภูมกิ ล่ อง


DT38
DT39
DT40
หญง
หญง
หญง



30
33
46
DT41 หญง ิ 57
id เพศ จ นวนนาท
ํา ี DT29 หญง ิ 50 DT42 หญง ิ 68
DT1 ชาย 62 DT30 หญง ิ 25 DT43 หญง ิ 74
DT2 75 DT44 หญง ิ 140
DT31 40
DT3 ชาย 58 DT45 หญง ิ 10
DT4 ชาย 85 DT32 หญง ิ 38 DT46 หญง ิ 90
DT5 ชาย 60 DT33 หญง ิ 75 DT47 หญง ิ 110
DT6 ชาย 86 DT34 หญง ิ 49 DT48 หญง ิ 170 ข้อมูลที;ไม่มีประเภทกําหนด (ชาย/หญิง)
DT7 ชาย 75 DT35 หญง ิ 50 DT49 หญง ิ 25
DT8 ชาย 90 DT36 หญง ิ 44 DT50 หญง ิ 40
DT9 ชาย 67 DT51 หญง ิ 38 กรณี : ลบข้ อมูลทีส? ู ญหายไป
DT37 หญง ิ 80
DT10 ชาย 45 DT52 หญง ิ 75
DT11 ชาย 100 DT38 หญง ิ 30
DT53 หญง ิ 49
DT12 ชาย 120 DT39 หญง ิ 33 DT54 หญง ิ 50
DT13 ชาย 150 DT40 หญง ิ 46 DT55 หญง ิ 44
DT14 ชาย 80 DT41 หญง ิ 57 DT56 หญง ิ 80
DT15 ชาย 60 DT42 หญง ิ 68
DT16 ชาย 50
DT43 หญง ิ 74
DT17 ชาย 40
DT18 ชาย 180 DT44 หญง ิ 140
DT19 ชาย 170 DT45 หญง ิ 10
DT20 ชาย 62 DT46 หญง ิ 90
DT21 ชาย DT47 หญง ิ 110 36
ข้อมูลต่อไปนีD คือ คะแนนวิชาคณิ ตศาสตร์ของนิสิตจํานวน 30 คน
ตัวอย่ าง 15
17
17
17
15
15
13
18
20
18
15
15
15
18
13
10
14
18
17
18
1. เรี ยงข้อมูลจากน้อยไปมาก 13 16 11 16 16 18 16 15 18 18

10 11 13 13 13 14 15 15 15 15
2. หาค่า Q1=15, Q2 (มัธยฐาน) =16 , Q3 =18 15 15 15 16 16 16 16 17 17 17
17 18 18 18 18 18 18 18 18 20
3. หาค่าพิสยั ควอไทล์ (IQR) = Q3-Q1=18-15=3
4. หาขอบเขตของค่าที4ยงั ไม่ผดิ ปกติ คือ 25

• f1 = Q1 − 1.5(IQR) = 15 - 1.5(3) = 10.5 20

• f2 = Q3 + 1.5(IQR) = 18 + 1.5(3) = 22.5


15

5. สร้างกล่อง โดยขอบสองด้านของกล่องคือควอไทล์ที4 1 และ 3


10

6. สร้างขอบเขตของค่าที4ยงั ไม่ผดิ ปกติ (whisker) ทั8ง 2 ด้าน


-ลากเส้นจากขอบกล่องด้าน Q1 ไปยังค่าตํ4าสุ ดในกรณี ที4ไม่มีค่าผิดปกติหรื อ
5

ให้ลากไปยังค่าตํ4าสุ ดที4สูงกว่า f1 ถ้ามีค่าผิดปกติ 0


1

-ลากเส้นจากขอบกล่องด้าน Q3 ไปยังค่าสู งสุ ดในกรณี ที4ไม่มีค่าผิดปกติหรื อ จะเห็นได้วา่ ข้อมูลชุดนีDมีค่าผิดปกติ 1 ค่า คือ 10


ให้ลากไปยังค่าสู งสุ ดที4ต4าํ กว่า f2 ถ้ามีค่าผิดปกติ และหากไม่พิจารณาค่าผิดปกติ จะได้ว่าข้อมูลมีการกระจาย
ค่อนข้างเบ้ขวา
6. ระบุค่าที4อยูน่ อกเหนือ f1 และ f2 ในแผนภาพ ซึ4งคือ ค่าผิดปกติ
37
การสร้ างแผนภาพกล่ อง (Box plot) ด้ วย Excel
1. เลือกข้อมูลในเวิร์กบุก๊ Excel ไม่วา่ จะเป็ นชุดข้อมูลเดียวหรื อหลายชุด
2. บนแถบเมนู
คลิก Insert > Chart > Box and Whisker

25

20

15

10

0
จะเห็นได้วา่ ข้อมูลชุดนีDมีค่าผิดปกติ 1 ค่า คือ 10
และหากไม่
1 พิจารณาค่าผิดปกติ จะได้ว่าข้อมูลมีการกระจาย
ค่อนข้างเบ้ขวา
38
การสร้ างแผนภาพกล่ อง (Box plot) ด้ วย Excel
1. เลือกข้อมูลในเวิร์กบุก๊ Excel ไม่วา่ จะเป็ นชุดข้อมูลเดียวหรื อหลายชุด

39
สาธิตการสร้ างแผนภาพกล่ อง (Box plot) ด้ วย Excel

40
การทําความสะอาดข้ อมูล : การแจกแจงข้ อมูล
(การสํ ารวจข้ อมูล) : แผนภาพแท่ งความถี;
Data cleaning: Parsing (Explore data) : histogram

41
แผนภาพแท่ งความถีO
Score Score

12 12

10 10

8 8
y y
c c
n n
e e
u u
q6 q6
e
r re
F F

4 4

2 2

Mean = 5.8333 Mean = 5.8333


Std. Dev. = 2.2335 Std. Dev. = 2.2335
N = 30 0 N = 30
0
2.00 4.00 6.00 8.00 10.00 2.00 4.00 6.00 8.00 10.00
score1 score1

กราฟแท่งที*แสดงความสัมพันธ์ระหว่างชัLนข้อมูลกับความถี*ของข้อมูล เพื*อดูการกระจายของข้อมูล
ลักษณะของข้อมูลที*เป็ นหมวดหมู่จะเรี ยงลําดับจากน้อยไปหามากโดยจํานวนหมวดหมู่ของข้อมูลจะจัดตาม
ความเหมาะสม โดยแกนตัLงจะเป็ นตัวเลขแสดง “ ความถี* ” และแกนนอนจะเป็ นข้อมู ลคุ ณสมบัติที*สนใจ
แท่งกราฟแต่ละแท่งจะมีความกว้างเท่ากันซึ* งเท่ากับกว้างของชัLนข้อมูล ส่ วนความสู งของกราฟแต่ละแท่งนัLนจะ
สู งเท่ากับจํานวนความถี*ของแต่ละชัLนข้อมูล
• รู ปหลายเหลี*ยมของความถี* : กราฟเส้นที*เกิดจาการลากจุดเชื*อมต่อระหว่างจุดกึ*งกลางของ
ยอดแท่งอิสโตแกรมทําให้เกิดเป็ นพืLนที*ภายในรู ปหลายเหลี*ยมของความถี*กบั แกนนอน (ลากเส้น
ตรงไปบรรจบ 0 ที*จุดกึ*งกลางชัLนก่อนหน้าและหลังสุ ดของอันตรภาคชัLนสุ ดท้าย)
• รู ปเส้นโค้งของความถี* : เส้นโค้งที*เกิดจากการปรับเส้นตรงในรู ปหลายเหลี*ยมของความถี*ให้เรี ยบ
(smooth curve) โดยพยายามให้มีพLืนที*ใกล้เคียงรู ปหลายเหลี*ยมของความถี*ที*สุด
42
การสร้ างแผนภาพแท่ งความถีO
1. สร้ างตารางแจกแจงความถี9
1. หาค่าพิสยั ของข้อมูล จากสู ตร พิสยั = ข้อมูลที*มีค่ามากที*สุด - ข้อมูลที*มีค่าน้อยที*สุด
2. กําหนดจํานวนชัLนที*เหมาะสม
3. กําหนดขนาดอันตรภาคชัLน (Class Interval) จากสู ตร อันตรภาคชัLน = พิสยั / จํานวนชัLน
4. ทําการสร้างตารางแจกแจงความถี*
2. สร้ างแผนภาพแท่ งความถี9 จากตารางแจกแจงความถี*
1. กําหนดให้แกนนอน (X) แทนข้อมูล และแกนตัLง (Y) แทนความถี*ในแต่ละชัLนของข้อมูล
2. หาตําแหน่งจุดกึ*งกลางของแต่ละอันตรภาคชัLนบนแกนนอน
3. ลากเส้นจากจุดกึ*งกลางของแต่ละอันตรภาคชัLนให้เท่ากับความถี*ของอันตรภาคชัLน
4. สร้างรู ปสี* เหลี*ยมมุมฉากตัLงบนแต่ละอันตรภาคชัLนโดยมีความกว้างของรู ปเท่ากับความกว้างของ
อันตรภาคชัLนและมีความสู งเท่ากับความถี*
43
ลักษณะต่ าง ๆ ของเส้ นโค้ งของความถีO

44
h010 148
h011 146

ตัวอย่ างการตรวจสอบข้ อมูลด้ วยแผนภาพแท่ งความถีO


h012
h013
147
149
h014 151
id สวนสง่ ู h015 156
h001 135 h016 152
h002 146 h017 158
h003 153 h018 157
h004 166 h019 85
h005 178 h020 153
h006 185 h021 154
h007 285 h022 168
h008 138 h023 169
h009 139 h024 164
h010 148 h025 165
h011 146 h026 163
h012 147 h027 167
h013 149 h028 169
h014 151 h029 178
h015 156 h030 176
h016 152
h017 158 45
ข้อมูลต่อไปนีD คือ คะแนนวิชาคณิ ตศาสตร์ของนิสิตจํานวน 30 คน
ตัวอย่าง 15
17
17
17
15
15
13
18
20
18
15
15
15
18
13
10
14
18
17
18
13 16 11 16 16 18 16 15 18 18

สร้ างตารางแจกแจงความถี9 สร้ างแผนภาพแท่ งความถีจ9 ากตารางแจกแจงความถี*


1. กําหนดให้แกนนอน (X) แทนข้อมูล และแกนตัOง (Y) แทนความถี;ในแต่ละชัOน
1. หาค่าพิสยั ของข้อมูล = 20 – 10 = 10 ของข้อมูล
2. กําหนดจํานวนชัLนที*เหมาะสม = 4 2. หาตําแหน่งจุดกึ;งกลางของแต่ละอันตรภาคชัOนบนแกนนอน
3. ลากเส้นจากจุดกึ;งกลางของแต่ละอันตรภาคชัOนให้เท่ากับความถี;ของอันตรภาค
3. กําหนดขนาดอันตรภาคชัLน (Class Interval) จาก ชัOน
สู ตร อันตรภาคชัLน = 10 / 4 = 2.5 4. สร้างรู ปสี; เหลี;ยมมุมฉากตัOงบนแต่ละอันตรภาคชัOนโดยมีความกว้างของรู ป
4. ทําการสร้างตารางแจกแจงความถี* เท่ากับความกว้างของอันตรภาคชัOนและมีความสู งเท่ากับความถี;
คะแนน จํานวน 12

10 - 12.5 2 10

12.51 - 15 11 8

6
15.51 - 17.5 8 4 จะเห็นได้วา่ ข้อมูลชุดนีDมีค่าผิดปกติในแท่งแรก
17.51 - 20 9 2 จึงทําให้ขอ้ มูลชุดนีDมีลกั ษณะการกระจายที,ไม่สมมาตร
รวม 30 0
[10, 12.5] (12.5, 15] (15, 17.5] (17.5, 20]
46
การสร้ างแผนภาพแท่ งความถีO ด้ วย Excel
1. เลือกข้อมูลในเวิร์กบุก๊ Excel ไม่วา่ จะเป็ นชุดข้อมูลเดียวหรื อหลายชุด
2. บนแถบเมนู
คลิก Insert > Chart > Histogram
12
11

10
9

8
8

2
2

0
[10, 12.6] (12.6, 15.2] (15.2, 17.8] (17.8, 20.4]

47
การสร้ างแผนภาพแท่ งความถีO ด้ วย Excel
เลือกข้อมูลในเวิร์กบุก๊ Excel ไม่วา่ จะเป็ นชุดข้อมูลเดียวหรื อหลายชุด

48
การสร้ างแผนภาพแท่ งความถีO ด้ วย Excel
การปรับช่วงของแท่ งความถี9 การปรับช่วงของแท่ งความถี9
Window MAC
คลิกขวาที*แกนนอน คลิกขวาที*แท่งความถี*

49
การสร้ างแผนภาพแทJงความถี่ ด้ วย Excel

50
สาธิตการสร้ างแผนภาพแท่ งความถีO ด้ วย Excel

51
การทำความสะอาดข.อมูล : การแจกแจงข.อมูล
(การสำรวจข.อมูล) : แผนภาพการกระจาย
Data cleaning: Parsing (Explore data) : scatter plot

52
แผนภาพการกระจาย
แผนภาพแสดงการกระจาย แสดงความสัมพันธ์ระหว่างตัวแปร 2 ตัว ว่าสัมพันธ์กนั ในลักษณะใด
มีลกั ษณะเป็ นแผนภาพแบบจุด ซึ* งเป็ นจุดตัดกันของสองข้อมูลแสดงในแนวแกน X และแกน Y แต่ละจุดจะ
แทนข้อมูลตัวอย่างแต่ละตัว จึ งเหมาะกับงานที* ตอ้ งการวิเคราะห์ความสัมพันธ์ระหว่างข้อมูล โดยลักษณะ
ความสัมพันธ์จะมีทL งั ทางบวก ทางลบ และไม่มีความสัมพันธ์เลย

53
ตัวอย่ างการตรวจสอบข้ อมูลด้ วยแผนภาพการกระจาย
Height Weight
73.84702 241.8936
68.7819 162.3105
74.11011 212.7409
ค่ าผิดปกติ
71.73098 60
69.8818 206.3498
0 152.2122 ข้ อมูล X สู ญหาย
68.78508 183.9279
68.34852 167.9711
67.01895 175.9294
63.45649 0 ค่ าผิดปกติ
71.19538 186.6049
10 213.7412
ข้ อมูล X และ Y สู ญหาย ข้ อมูล Y สู ญหาย
64.76633 167.1275
69.28307 189.4462
69.24373 186.4342

54
ตัวอย่ างการตรวจสอบข้ อมูลด้ วยแผนภาพการกระจาย
Height Weight Height Weight จัดการข้ อมูลโดยใช้ ค่าเฉลีย? ของข้ อมูลแทนข้ อมูลทีห? ายไป และลบข้ อมูลทีผ? ดิ ปกติออก
73.84702 241.893673.84702 241.8936
68.7819 162.3105 68.7819 162.3105
74.11011 212.740974.11011 212.7409
71.73098 60
71.73098 185.8662
69.8818 206.3498 69.8818 206.3498
0 152.2122
69.18842 152.2122
68.78508 183.9279
68.78508 183.9279
68.34852 167.9711
68.34852 167.9711
67.01895 175.9294
67.01895 175.9294
63.45649 0
71.19538 186.604963.45649 185.8662
10 213.741271.19538 186.6049
64.76633 167.127569.18842 213.7412
69.28307 189.446264.76633 167.1275
69.24373 186.434269.28307 189.4462
avg.Height 69.24373
avg.Weight 186.4342
67.64562
69.18841701 185.8662157 172.1869 55
การสร้างแผนภาพการกระจายด้วย Excel
1. เลือกข้อมูลในเวิร์กบุก๊ Excel ไม่วา่ จะเป็ นชุดข้อมูลเดียวหรื อหลายชุด
2. บนแถบเมนู
คลิก Insert > Chart > X Y (Scatter)
25

20

15

10

0
0 50 100 150 200

ข้อมูลสองชุดมีความสัมพันธ์ในทิศทางบวก และมี,ค่าผิดปกติ

56
การสร้างแผนภาพการกระจายด้วย Excel
เลือกข้อมูลในเวิร์กบุก๊ Excel ไม่วา่ จะเป็ นชุดข้อมูลเดียวหรื อหลายชุด

25

20

15

10

0
0 5 10 15 20 25

57
สาธิตการสร้ างแผนภาพแท่ งความถีO ด้ วย Excel

58
การทำความสะอาดข.อมูล : การแจกแจงข.อมูล
(การสำรวจข.อมูล) : การแจกแจงความถี่
Data cleaning: Parsing (Explore data) : frequency table

59
การแจกแจงความถี5
การนําข้อมูลที4เก็บรวบรวมมาจัดให้เป็ นระเบียบเพื4อแสดงจํานวนของข้อมูล โดยเรี ยงลําดับข้อมูลที4มีค่าน้อยไปข้อมูลที4
มีค่ามากหรื อจากข้อมูลที4มีค่ามากไปข้อมูลที4มีค่าน้อย แล้วนําข้อมูลมาจัดกลุ่ม เพื4อนับจํานวนในแต่ละกลุ่ม ซึ4 งเรี ยกว่าความถี4
(frequency) มี 2 วิธี คือ
• การแจกแจงความถี4แบบไม่จดั เป็ นอันตรภาคชั8น เหมาะสําหรับข้อมูลจํานวนไม่มาก และมีจาํ นวนข้อมูลซํ8ากันอยู่
• การแจกแจงความถี4แบบจัดเป็ นอันตรภาคชั8น เหมาะสําหรับข้อมูลจํานวนมาก จึงทําการจัดข้อมูลเป็ นช่วงข้อมูล
การแจกแจงความถี4ยงั เป็ นการจัดเตรี ยมข้อมูลเพื4อความสะดวกในการวิเคราะห์ขอ้ มูลขั8นต่อไป

60
การสร้ างตารางแจกแจงความถีO
1. เรี ยงข้อมูลตามลําดับจากมากไปหาน้อย
2. คํานวณค่าพิสยั (range) จากสู ตร
พิสยั = ค่าสู งสุ ด – ค่าตํ;าสุ ด
3. คํานวณจํานวนชัOนของตาราง ส่ วนใหญ่ประมาณ 5 – 10 ชัOน แต่ถา้ ไม่สามารถที;จะกําหนดจํานวนชัOนได้ สามารถหาได้จากสู ตร
จํานวนชัOน = 1+3.3 log N
4. คํานวณความกว้างของอันตรภาคชัOน จากสู ตร
ความกว้างของอันตรภาคชัOน = พิสยั /จํานวนชัOน
ถ้าค่าความกว้างของอันตรภาคชัOนเป็ นทศนิยมให้ปัดขึOนเป็ นจํานวนเต็ม เพื;อป้องกันการกําหนดจํานวนชัOนไม่ครอบคลุมกับข้อมูลที;มีทO งั หมด
5. หาค่าขีดจํากัดของแต่ละชัOน โดยกําหนดค่าเริ; มต้นของอันตรภาคชัOนที; 1 ซึ;งมักเริ; มต้นจากค่าข้อมูลตํ;าสุ ด
6. อ่านค่าข้อมูลแต่ละตัวว่าอยูใ่ นอันตรภาคชัOนใด โดยใส่ เป็ นรอยขีดคะแนนไว้
7. นับรอยขีดคะแนนว่าแต่ละชัOนมีเท่าใด ซึ;งนัน; ก็คือ ค่าความถี;ของชัOนนัOน

61
ตัวอย่างการตรวจสอบข้ อมูลด้ วยการแจกแจงความถี5
ตารางแจกแจงทางเดียว
Gender น หนกกระเป
ํ# า ั า ๋ Row Labels Count of Gender
ชาย 8
ชาย 8 7 12
หญง ิ 150
ชาย 7 8 13
ชาย 7
หญง ิ 10 9 4
ชาย 7 10 9
ชาย 9 หญง ิ 8 11 10
ชาย 11 NA 9 150 1
ชาย 7 ชาย 11 NA 1
ชาย 8 หญง ิ 11 Grand Total 50
หญง ิ 10 หญง ิ 10 ตารางแจกแจงสองทาง
หญง ิ 11 หญง ิ 8
ชาย 7 ชาย 7
ชาย 8
หญง ิ 8
หญง ิ 10
หญง ิ 9
ชาย 7
ชาย 11 ชาย NA
หญง ิ 11 ชาย 11
หญง ิ 10 ชาย 7

62
จากการเก็บรวบรวมคะแนนสอบของนักศึกษาที;สอบวิชาสถิติจาํ นวน 30 คนเป็ นดังนีO
ตัวอย่ าง 8 9 10 7 6 5 2 2 4 5
5 6 6 7 7 8 9 5 5 6
3 3 3 4 4 5 5 10 8 8

คะแนนสอบ รอยขีดคะแนน ความถี; (คน) ความถี;สะสม (คน) ความถี;สมั พัทธ์ ร้อยละ


2 // 2 2 2/30=0.07 7
3 /// 3 5 3/30=0.10 10
การแจกแจงความถี4
4 /// 3 8 3/30=0.10 10
แบบไม่จดั เป็ นอันตรภาคชั8น
5 ///// // 7 15 7/30=0.23 23
6 //// 4 19 4/30=0.13 13
7 /// 3 22 3/30=0.10 10
8 //// 4 26 4/30=0.13 13
9 // 2 28 2/30=0.07 7
10 // 2 30 2/30=0.07 7
รวม 30 1 100
63
ตัวอย่ าง การแจกแจงความถี5แบบจัดเป็ นอันตรภาคชั=น
ขัLนตอนการสร้างตารางแจกแจงความถี* คะแนน รอยขีด ความถี; ความถี;สะสม ความถี;
ร้อยละ
1. หาค่าพิสยั = ค่าสู งสุ ด – ค่าตํ*าสุ ด= 10 - 2 = 8 สอบ คะแนน (คน) (คน) สัมพัทธ์
2. หาจํานวนชัLน กําหนดให้มีจาํ นวน 5 ชัLน 1-2 // 2 2 2/30=0.07 7
3. หาความกว้างของอันตรภาคชัLน = พิสยั /จํานวน 3-4 //// / 6 8 6/30=0.2 20
ชัLน= 8/5 =1.6 » 2 5-6 //// //// / 11 19 11/30=0.37 37
4. เรี ยงคะแนนจากน้อยไปมาก 7-8 //// // 7 26 7/30=0.23 23

5. กําหนดค่าเริ* มต้นของตาราง ซึ*งจะเริ* มที* 1 - 2 และ 9 - 10 //// 4 30 4/30=0.13 13


ทําเหมือนกันทุกชัLน รวม 30 1 100
6. นับรอยขีดคะแนนว่าแต่ละชัLนมีเท่าใด ซึ*งนัน* ก็คือ
ค่าความถี*ของชัLนนัLน คะแนนสอบของนักเรี ยน ส่ วนใหญ่อยูท่ ี4 5 - 6 คะแนน

64
ผลการสอบวิชาคณิ ตศาสตร์ คะแนนเต็ม 100 ของนักเรี ยนกลุ่มตัวอย่างมีดงั นีO
ตัวอย่าง 68 84 75 82 68 91 61 89 75 93 73 79 87 77 60 92 70 58 82 75 61 65 74 86 82
62 90 78 61 72 96 78 89 61 75 95 60 79 85 71 65 80 73 57 88 63 62 76 54 74

ช่ วงคะแนน รอยขีด ความถี2


ขัLนตอนการสร้างตารางแจกแจงความถี*
51 - 60 ///// 5
1. ค่าสู งสุ ดคือ 96 ค่าตํ*าสุ ด คือ 54
61 - 70 ///// ///// // 12
2. ค่าพิสยั = ค่าสู งสุ ด- ค่าตํ*าสุ ด = 96 – 54 = 42
71 - 80 ///// ///// ///// /// 18
3. กําหนดจํานวนชัLน คือ 5 ชัLน
81 - 91 ///// ///// 10
4. หา ความกว้างอัตราภาคชัLน คือ 42/5 = 8.4 = 9
91 - 100 ///// 5
5. เรี ยงคะแนนจากน้อยไปมาก
6. หาค่าขีดจํากัดของแต่ละชัLน โดยกําหนดค่าเริ* มต้นของอันตรภาคชัLนที* 1 ซึ*งมักเริ* มต้นจากค่าข้อมูลตํ*าสุ ด
7. อ่านค่าข้อมูลแต่ละตัวว่าอยูใ่ นอันตรภาคชัLนใด โดยใส่ เป็ นรอยขีดคะแนนไว้
8. นับรอยขีดคะแนนว่าแต่ละชัLนมีเท่าใด ซึ*งนัน* ก็คือ ค่าความถี*ของชัLนนัLน
65
การสร้ างการแจกแจงความถีดO ้ วย Excel
1. นํา mouse ไปในตารางที4มีขอ้ มูล โดยต้องไม่มีคอลัมน์ที4ผสานเซลล์
2. คลิก “แทรก”
3. คลิก “PivotTable”
4. ใช้ขอบเขตข้อมูลที4ระบบเลือกให้อตั โนมัติ หรื อเลือกขอบเขตข้อมูลใหม่
5. เลือกตําแหน่งที4ตอ้ งการวางรายงาน โดยเลือกแสดงผลใน เวิร์กชีทที4มีอยู่ เพื4อให้ง่ายต่อการดูขอ้ มูล
6. คลิก"ตกลง"

66
การสร้างการแจกแจงความถี5ดว้ ย Excel
ตัวแปรทัDงหมด

พืDนที,สาํ หรับ ฟิ ลเตอร์ตวั แปร

พืDนที,สาํ หรับกําหนดตัวแปรให้เป็ นคอลัมน์

พืDนที,สาํ หรับกําหนดตัวแปรให้เป็ นแถว

พืDนที,สาํ หรับ กําหนดตัวแปรให้เป็ นค่าข้อมูลในตาราง เช่นการแจกแจงความถี,


ใช้เป็ นจํานวนนับของข้อมูล หรื อเป็ นค่าผลรวม ค่าความแปรปรวน

67
การสร้ างการแจกแจงความถีดO ้ วย Excel

Count of Bag Count of


Row Labels Weight Gender Column Labels
7 8 Grand
8 7 Row Labels female male NA Total
9 3 7 8 8
10 5 8 3 4 7
11 7 9 1 1 1 3
150 1 10 5 5
NA 1 11 3 4 7
Grand Total 32 150 1 1
NA 1 1
Grand Total 13 18 1 32

68
สาธิตการสร้ างการแจกแจงความถีO ด้ วย Excel

69
การทําความสะอาดข้ อมูล : การแจกแจงข้ อมูล
(การสํ ารวจข้ อมูล) : การวัดตําแหน่ งทีข; องข้ อมูล
Data cleaning: Parsing (Explore data) : Measures of Relative Standing

70
วิธีการทางสถิตพิ รรณนา
การวัดตําแหน่งที,ขอ้ มูล (Max, Min, Quartiles, Decile , Percentiles , N-tiles)

การวัดแนวโน้มสู่ ส่วนกลาง (Measure Central of Tendency)

• การหาค่าเฉลี,ย (Mean) เป็ นค่าที,เกิดจากการนําเอาค่าของหน่วยข้อมูลทุก ๆ หน่วยที,เก็บรวบรวมได้มาบวกกัน แล้วหารด้วยจํานวนหน่วย


ข้อมูลทัDงหมด
• การหาค่าฐานนิยม (Mode) ค่าของหน่วยข้อมูลที,มีอตั รา ความถี,สูงสุ ด หรื อมีอตั ราการซํDากันมากที,สุด
• การหาค่ามัธยฐาน (Median) ค่าตัวเลขที,อยูต่ รงกลางของจํานวนเลขทุก ๆ หน่วย เมื,อเรี ยงกันตามลําดับ

การหาค่าการกระจาย (Dispersion)

71
ค่ าวัดตําแหน่ งทีขO ้ อมูล
• ควอร์ไทล์ (Quartiles) เป็ นการแบ่งจํานวนข้อมูลออกเป็ น 4 ส่ วน ประมาณเท่า ๆ กัน
• ควอร์ไทล์ที* 1 (Q1) เป็ นตัวเลขตรงกลางระหว่างจํานวนที*นอ้ ยที*สุด และมัธยฐานของชุดข้อมูล 25% ของ
ข้อมูลทัLงหมดอยูไ่ ต้จุดนีL
• ควอร์ไทล์ที* 2 (Q2) เป็ นมัธยฐานของชุดข้อมูล ดังนัLน 50% ของข้อมูลอยูใ่ ต้จุดนีL
• ควอร์ไทล์ที* 3 (Q3) เป็ นตัวเลขตรงกลางระหว่างมัธยฐานและจํานวนที*มากที*สุด 75% ของข้อมูลทัLงหมด
อยูไ่ ต้จุดนีL
• ค่าตํ*าสุ ด (Max) คือ ค่าที*เล็กที*สุดในชุดข้อมูล
• ค่าสู งสุ ด (Min) คือ ค่าที*ใหญ่ที*สุดในชุดข้อมูล

Max Q1 Q2 Q3 Max

72
การหาค่ าควอร์ ไทล์
• เรี ยงลําดับข้อมูลจากน้อยไปหามาก
• หาตําแหน่งที4ตอ้ งการ
• ข้อมูลที4ไม่ได้จดั กลุ่ม (Ungrouped Data)
!(#$%)
• 𝑄! = ค่าที&ตําแหน่ง สําหรับ 𝑁 เป็ นจํานวนคี4, 𝑖 =1,2,3
'
% !# !#
• 𝑄! = ค่าที&ตําแหน่ง 𝑡ℎ + + 1 𝑡ℎ สําหรับ 𝑁 เป็ นจํานวนคู่, 𝑖 =1,2,3
( ' '
• ข้อมูลที;จดั กลุ่ม ( Grouped Data)
𝑖𝑁
− 𝐹!
𝑄! = 𝐿 + 4 ×𝐶
𝑓)
เมื4อ 𝐿= ขอบล่างของชั8นที4ค่าควอร์ไทล์อยู่ 𝑁= จํานวนรวม 𝐹! = ความถี4สะสมของชั8นถัดไปจากชั8นที4ค่าควอร์ไทล์อยู่
𝑓) = ความถี4ช8 นั ที4ค่าควอร์ไทล์อยู่ 𝐶 = ความกว้างของชั8นที4ค่าควอร์ไทล์อยูอ่ นั ตรภาค, 𝑖 = 1, 2, 3
!#
• ชั8นที4ค่าควอร์ไทล์อยู่ คือ ชั8นที4ความถี4สะสม ≥ '
73
ตัวอย่ าง

74
คะแนนสอบวิชาคณิ ตศาสตร์ (เต็ม 100)

ตัวอย่ าง 44 56 58 62 64 64 70 72 72 72
74 74 75 78 78 79 80 82 82 84
86 87 88 90 92 95 96 96 98 100

• เรี ยงลําดับจากน้อยไปมาก
44 56 58 62 64 64 70 72 72 72 74 74
75 78 78 79 80 82 82 84 86 87 88 90
92 95 96 96 98 100
% %(*+) %(*+) %
• 𝑄% = ค่าของตําแหน่งที& ( '
𝑡ℎ + '
+1 = ( 72 + 72 =72 25% of the scores were below 72.
% ((*+) ((*+) %
• 𝑄( = ค่าของตําแหน่งที& ( '
𝑡ℎ + '
+1 = ( 78 + 79 =78.5 50% of the scores were below 78.5.
% *(*+) *(*+) %
• 𝑄* = ค่าของตําแหน่งที& ( '
𝑡ℎ + ' + 1 𝑡ℎ = (
88 + 90 =89 25% of the scores were higher 89.
• Min = 44
• Max = 100
75
การวัดตําแหน่ งทีขO ้ อมูลด้ วย Excel
• การหาควอร์ไทล์ : QUARTILE(array,quart)
• อาร์เรย์ (array) ช่วงเซลล์ของค่าตัวเลขที*ตอ้ งการหาค่าควอร์ไทล์
• ควอร์ท (Quart) ระบุค่าควอร์ไทล์ที*จะส่ งกลับ
• ค่าตํ*าสุ ด (Max) : MAX(ระบุช่วง)
• ค่าสู งสุ ด (Min) : MIN(ระบุช่วง)

76
ตัวอย่ าง

77
สาธิตการวัดตําแหน่ งทีขO ้ อมูลด้ วย Excel

78
การทําความสะอาดข้ อมูล : การแจกแจงข้ อมูล
(การสํ ารวจข้ อมูล) :การวัดแนวโน้ มสู่ ส่วนกลาง
Data cleaning: Parsing (Explore data) : Measure Central of Tendency

79
วิธีการทางสถิตพิ รรณนา
การวัดตําแหน่ งทีข; ้ อมูล (Max, Min, Quartiles, Decile , Percentiles , N-tiles)

การวัดแนวโน้ มสู่ ส่วนกลาง (Measure Central of Tendency)

• การหาค&าเฉลี่ย (Mean) เป5นค&าที่เกิดจากการนำเอาค&าของหน&วยข@อมูลทุก ๆ หน&วยที่เก็บรวบรวมได@มาบวกกัน แล@วหารด@วยจำนวน


หน&วย ข@อมูลทั้งหมด
• การหาค&าฐานนิยม (Mode) ค&าของหน&วยข@อมูลที่มีอัตรา ความถี่สูงสุด หรือมีอัตราการซ้ำกันมากที่สุด
• การหาค&ามัธยฐาน (Median) ค&าตัวเลขที่อยู&ตรงกลางของจำนวนเลขทุก ๆ หน&วย เมื่อเรียงกันตามลำดับ

การหาค่ าการกระจาย (Dispersion)

80
การวัดแนวโน้ มสู่ ส่วนกลาง
ค่ากลางของข้อมูลเป็ นตัวแทนของข้อมูลทัLงหมด ทําให้สะดวกในการสรุ ปเรื* องราวเกี*ยวกับข้อมูล
นัLน ๆ และจะช่วยทําให้เกิดการวิเคราะห์ขอ้ มูลถูกต้องดีขL ึน
การหาค่ากลางของข้อมูลมีหลายวิธี ซึ*งมีขอ้ ดีและข้อเสี ย และมีความเหมาะสมในการนําไปใช้
ไม่เหมือนกัน ขึLนอยูก่ บั ลักษณะข้อมูลและวัตถุประสงค์ของผูใ้ ช้ขอ้ มูลนัLน ๆ
ค่ากลางของข้อมูลที*สาํ คัญ มี 3 ชนิด คือ
1. ค่าเฉลี*ยเลขคณิ ต (Arithmetic mean)
2. ค่ามัธยฐาน (Median)
3. ค่าฐานนิยม (Mode)

81
ค่ าเฉลียO เลขคณิต (Arithmetic mean)
การหารผลรวมของข้อมูลทั8งหมดด้วยจํานวนข้อมูลทั8งหมด
ค่ากลาง เป็ นค่าที4ไม่เอนเอียง มีความคงเส้นคงวา มีความแปรปรวนตํ4าที4สุด มีประสิ ทธิภาพสู งสุ ด
แต่มีความอ่อนไหวสําหรับข้อมูลที4มีการกระจายมาก
ค่ าพารามิเตอร์ ค่ าสถิติ

N n

åx i åx i

µ= i =1 x= i =1

N n

• ตัวอย่าง ชุดข้อมูล 10 ค่า ประกอบด้วย 5 6 9 5 7 3 4 6 5 1


∑ 𝑋 (5 + 6 + 9 + 5 + 7 + 3 + 4 + 6 + 5 + 1)
𝑋6 = = = 5.10
𝑁 10
• ค่าเฉลี4ยของข้อมูลนี8 คือ 5.10
82
ค่ ามัธยฐาน (Median)
ค่าที4 มีตาํ แหน่ งอยู่ก4 ึ งกลางของข้อมูลทั8งหมด เมื4 อเรี ยบเรี ยงข้อมูลจากน้อยที4 สุดไปหาค่าที4 มากที4 สุด หรื อจากค่าที4
มากที4สุดไปหาค่าที4นอ้ ยที4สุด
กรณี จาํ นวนข้อมูลเป็ นเลขคี4 ตําแหน่งตรงกลาง = (n + 1) / 2 จะได้ค่ามัธยฐานคือค่าตําแหน่งตรงกลาง
กรณี จาํ นวนข้อมูลเป็ นเลขคู่ ตําแหน่งตรงกลาง = n/2 และ (n/2) + 1 จะได้ค่ามัธยฐานคือค่าเฉลี4ยของค่าสองตําแหน่ง
ตรงกลาง
ตัวอย่าง ชุดข้อมูล 10 ค่า ประกอบด้วย 5 6 9 5 7 3 4 6 5 1
1. ข้อมูลเป็ นเลขคู่ ตําแหน่งตรงกลาง = n/2=10/2=5 และ (n/2) + 1 =(10 /2)+1=6
2. เรี ยงลําดับ 1 3 4 5 5 5 6 6 7 9
3. จะได้ค่ามัธยฐานคือค่าเฉลี4ยของค่าสองตําแหน่งตรงกลาง คือ (5+5)/2 = 5
ค่ามัธยฐาน คือ 5

83
ค่ าฐานนิยม
ค่าที*ซL าํ กันมากที*สุด
ตัวอย่าง ชุดข้อมูล 10 ค่า ประกอบด้วย 5 6 9 5 7 3 4 6 5 1
จะเห็นว่า “5” มีจาํ นวนซํLากันมากที*สุด
ค่าฐานนิยม คือ 5

84
ความสั มพันธ์ ระหว่ างค่ ากลางทั)งสาม

85
สรุป
Mean: Mode:
Median:
Arithmetic Most
Middle value
average frequency
Nominal O P O
Ordinal O P P
Interval P P P
Ratio P P P
Extreme value O P P

86
การทําความสะอาดข้ อมูล : การแจกแจงข้ อมูล
(การสํ ารวจข้ อมูล) : การหาค่ าการกระจาย
Data cleaning: Parsing (Explore data) : Dispersion

87
การหาค่ าการกระจาย (Dispersion)
สถิติที4ใช้อธิบายลักษณะการกระจายของข้อมูล ว่าข้อมูลกระจายออกจากกัน หรื ออยูห่ ่างกันมากน้อยเพียงใด
ชุดที4 1 160, 55, 80, 355, 200, 170 มีค่าเฉลี4ยเลขคณิ ต = 170
ชุดที4 2 157, 151, 170, 175, 170, 197 มีค่าเฉลี4ยเลขคณิ ต = 170
จะเห็นได้ว่าข้อมูลทั8ง 2 ชุด มีค่าเฉลี4ยเลขคณิ ตเท่ากัน คือ 170 แต่การเกิดขึ8นของข้อมูลแต่ละชุดแตกต่างกัน คือ ข้อมูล
ชุดที4 1 มีค่าของข้อมูลการกระจัดกระจายแตกต่างกันมาก แต่ขอ้ มูลชุดที4 2 การเกิดขึ8นของข้อมูลมีค่าใกล้เคียงหรื อเกาะกลุ่มกัน
ลักษณะการเกิ ดขึ8 นของข้อมู ลที4 มีค่าแตกต่ างกันนี8 เรี ยกว่า การกระจายของข้ อมู ล ซึ4 งถ้าข้อมู ลชุ ดใดมี ค่าของข้อมู ล
แตกต่างกันมาก ก็เรี ยกว่าข้อมูลชุดนั8นมีการกระจายมาก แต่ถา้ ข้อมูลชุดใดมีค่าของข้อมูลแตกต่างกันน้อย ก็เรี ยกว่า ข้อมูลชุดนั8น
มีการกระจายน้อย ส่ วนข้อมูลที4ไม่มีการกระจาย เกิดขึ8นเมื4อค่าของข้อมูลในชุด ค่าเท่ากันหมด
การวัดการกระจายนิยมใช้ควบคู่กบั การวัดแนวโน้มเข้าสู่ ส่วนกลาง เพราะจะช่วยอธิบายลักษณะของข้อมูลได้ชดั เจนขึ8น

88
ค่ าพิสัย

ค่าการกระจายข้อมูล ส่ วนเบี$ยงเบนมาตรฐาน

ค่ าแปรปรวน
89
ค่ าพิสัย (Range:R)
• คํานวณได้จากผลต่างระหว่างข้อมูลที:มีค่าสู งสุ ดกับข้อมูลที:มีค่าตํ:าสุ ดวิธีการวัดการกระจาย
โดยใช้พิสยั เป็ นวิธีคาํ นวณได้ง่ายและรวดเร็ วที:สุด
• ข้อมูลที*ไม่ได้แจกแจงความถี* (ungrouped data)
พิสยั = ข้อมูลที*มีค่าสู งสุ ด – ข้อมูลที*มีค่าตํ*าสุ ด
• ข้อมูลที*แจกแจงความถี* (grouped data)
พิสยั = ขอบเขตบนของชัJนสู งสุ ด - ขอบเขตล่างของชัJนตํ:าสุ ด
• ในกรณี ที:ตารางแจกแจงความถี:มีลกั ษณะเป็ นแบบอันตรภาคชัJนเปิ ด ไม่สามารถหาค่า

90
ตัวอย่ าง ราคาปิ ดของหุน้ AAA
10.6 10.9 11 11.5 11.5 11.8 12.5 12.5 12.6
12.6 12.6 12.6 12.8 12.9 13.1 13.2 13.3 13.8

ค่าพิสยั = ข้อมูลที:มีค่าสู งสุ ด – ข้อมูลที:มีค่าตํ:าสุ ด


= 13.8-10.6= 3.2

91
ตัวอย่ าง ราคาปิ ดของหุน้ AAA
ตารางแจกแจงความถี:แบบเป็ นอันตรภาคชัJน
ราคาปิ ด ขีดจํากัดล่าง (L) ขีดจํากัดบน จํานวน (f)
10.6 - 11.4 10.55 11.45 3
11.5 - 12.3 11.45 12.35 3
12.4 - 13.2 12.35 13.25 10
13.3 - 14.1 13.25 14.15 2
รวม 18
พิสยั = ขอบเขตบนของชัJนสู งสุ ด – ขอบเขตล่างของชัJนตํ:าสุ ด
= 14.15-10.55=3.6 92
ค่ าแปรปรวน
ค่าเฉลี*ยกําลังสองของความแตกต่างของข้อมูลแต่ละตัวกับค่ากลางของข้อมูลชุดนัLน
ข้ อมูล ประชากร ตัวอย่ าง
ไม#แจกแจงความถี่ ∑ #
(𝑥 − 𝜇) ( ∑ -
(𝑥 − 𝑥)
̅ (
!,% ! !,% !
𝜎( = 𝑠( =
𝑁 𝑛−1
แจกแจงความถี่ ∑ .
𝑓 (𝑥 − 𝜇) ( ∑ .
𝑓 (𝑥 − 𝑥)
̅ (
!,% ! ! !,% ! !
𝜎( = 𝑠( =
∑.!,% 𝑓! ∑.!,% 𝑓! − 1
เมื*อ 𝑥" แทน ข้อมูลแต่ละค่า หรื อ จุดกึ*งกลางชัLนของข้อมูลในแต่ละชัLน ในกรณี ขอ้ มูลแจกแจง
ความถี*
𝑓" แทน ความถี*ของข้อมูลในแต่ละชัLน ตามลําดับ
𝜇 , 𝑥̅ แทน ค่าเฉลี*ยของข้อมูลประชากร กลุ่มตัวอย่าง
N, n แทน จํานวนข้อมูลประชากร กลุ่มตัวอย่าง 93
ค่ าเบีOยงเบนมาตรฐาน (Standard Deviation)
• เป็ นรากที*สองของค่าเฉลี*ยกําลังสองของความแตกต่างของข้อมูลแต่ละตัวกับค่ากลางของข้อมูลชุดนัLน

ข้ อมูล ประชากร ตัวอย่ าง


ไม่แจกแจงความถี4
∑#
!,% 𝑓! (𝑥! − 𝜇)
( ∑-!,%(𝑥! − 𝑥)̅ (
𝜎= s=
𝑁 𝑛−1
แจกแจงความถี4
∑.!,% 𝑓! (𝑥! − 𝜇)( ∑.!,% 𝑓! (𝑥! − 𝑥)̅ (
𝜎= s=
∑.!,% 𝑓! ∑.!,% 𝑓! − 1

94
ตัวอย่ าง ราคาปิ ดของหุน้ AAA
10.6 10.9 11 11.5 11.5 11.8 12.5 12.5 12.6
12.6 12.6 12.6 12.8 12.9 13.1 13.2 13.3 13.8
n

åx i
(10.6 + 10.9 + ... + 13.8) 221.8
x= i =1
= = = 12.32
n 18 18
# ∑$ ̅ %
!"#(&! '&) (+,..'+#./#)% 0(+,.1'+#./#)% 0 ⋯0(+/.3'+#./#)%
ค่ าแปรปรวน = 𝑠 = = = 0.81
*'+ +3'+
∑$ ̅ %
!"#(&! '&)
ค่ าเบี9ยงเบนมาตรฐาน = S = = 𝑠 # = 0.81 = 0.90
*'+

95
ตัวอย่ าง ราคาปิ ดของหุน้ AAA
ตารางแจกแจงความถี:แบบเป็ นอันตรภาคชัJน
ราคาปิ ด 𝑓! 𝑥! (𝑥! − 𝑥)̅ (𝑥! − 𝜇)( 𝑓! (𝑥! − 𝜇)(
2
10.6 - 11.4 3 11 11-12.45=-1.45 1.45 =2.1025 3x2.1025=6.3075
2
11.5 - 12.3 3 11.9 11.9-12.45=-0.55 0.55 =0.3025 0.9075
2
12.4 - 1 3.2 10 12.8 12.8-12.45=0.35 0.35 =0.1225 1.225
2
13.3 - 14.1 2 13.7 13.7-12.45=1.25 1.25 =1.5625 3.125
รวม 18 11.565
∑$ ̅ %
!"# 0! (1! 21) 11.565
• ค่ าแปรปรวน = 𝑠 ( = -2%
= %42%
= 0.8953
∑$ ̅ %
!"# 0! (1! 21)
• ค่ าเบี2ยงเบนมาตรฐาน = S = -2%
= 𝑠 ( = 0.8953 = 0.8016 96
การทําความสะอาดข้ อมูล : การแจกแจงข้ อมูล
(การสํ ารวจข้ อมูล) : สถิตพิ รรณนา (Excel)
Data cleaning: Parsing (Explore data) : Descriptive statistics (Excel)

97
การวัดแนวโน้ มสู่ ส่วนกลาง (Measure Central of Tendency)
การหาค่ าเฉลีย2 (Mean) เป็ นค่ าทีเ2 กิดจากการนําเอาค่ าของหน่ วยข้ อมูลทุก ๆ หน่ วยทีเ2 ก็บรวบรวมได้ มาบวกกัน
แล้ วหารด้ วยจํานวนหน่ วย ข้ อมูลทัGงหมด

การหาค่ าฐานนิยม (Mode) ค่ าของหน่ วยข้ อมูลทีม2 อี ตั รา ความถีส2 ู งสุ ด หรื อมีอตั ราการซํGากันมากทีส2 ุ ด

การหาค่ ามัธยฐาน (Median) ค่ าตัวเลขทีอ2 ยู่ตรงกลางของจํานวนเลขทุก ๆ หน่ วย เมื2อเรียงกันตามลําดับ

98
การวัดแนวโน้ มสู่ ส่วนกลาง ด้ วยฟังก์ ชันใน Excel
การวัดแนวโน้ มสู่ ส่วนกลาง ฟังก์ ชันใน Excel
= AVERAGE(data)
ค่าเฉลี*ยเลขคณิ ต
= SUM(data)/COUNT(data)
ค่ามัธยฐาน = MEDIAN(data)
= MODE(data)
ค่าฐานนิยม = MODE.SNGL(data)
= MODE.MULT(data)

99
การหาค่ าการกระจาย (Dispersion)
สถิติที*ใช้อธิบายลักษณะการกระจายของข้อมูล ว่าข้อมูลกระจายออกจากกัน หรื ออยูห่ ่างกันมากน้อย
เพียงใด
• ค่าพิสยั
• ส่ วนเบี*ยงเบนมาตรฐาน
• ค่าแปรปรวน
การวัดการกระจายนิยมใช้ควบคู่กบั การวัดแนวโน้มเข้าสู่ ส่วนกลาง เพราะจะช่วยอธิบายลักษณะของ
ข้อมูลได้ชดั เจนขึLน

100
การหาค่ าการกระจาย ด้ วยฟังก์ ชันใน Excel

การหาค่าการกระจาย ฟังก์ชนั ใน Excel


ค่าพิสยั =MAX(data) - MIN(data)
ค่าแปรปรวน =VAR (data)
=VARP(data)
=STDEV(data)
ส่ วนเบี*ยงเบนมาตรฐาน
=STDEVP (data)

101
ฟังก์ ชันทีใO ช้ บ่อย

102
สาธิตการหาค่ ากลางและค่ าการกระจายโดยใช้ ฟังก์ ชันใน Excel

103
การทำความสะอาดข.อมูล : การแจกแจงข.อมูล
(การสำรวจข.อมูล) : สถิติพรรณนา
(Excel: Analysis ToolPak)
Data cleaning: Parsing (Explore data) : Descriptive statistics (Excel: Analysis ToolPak)

104
การแจกแจงข้ อมูล (Parsing)
การตรวจสอบข้อมูลเบืLองต้น (Explore data) ด้วยสถิติพรรณนา เช่น ค่าสู งสุ ด ค่าตํ*าสุ ด ค่ากลาง
ค่าการกระจายข้อมูล หรื อการนําเสนอด้วยภาพ (Data Visualization) เช่น Boxplot Scatter และ Histogram
14000
Mean 2441.62963 25
Histogram
Standard Error 258.075055 80
12000
Median 750 20 70
Mode 1000 10000 60
Standard Deviation 8156.96826 15
50
8000 40
Sample Variance 66536131.2
30
Kurtosis 109.509823 6000
10 20
Skewness 9.60015581
10
Range 116668 4000
0
Minimum 25 5

[27, 1727]

(10227, 11927]

(11927, 13627]
(1727, 3427]

(3427, 5127]

(5127, 6827]

(6827, 8527]

(8527, 10227]
2000
Maximum 116693
Sum 2439188 0 0
Count 999 1 0 5 10 15 20 25

105
การวิเคราะห์ สถิตพิ รรณนาด้ วย Analysis ToolPak
การโหลดและการเปิ ดใช้งาน Analysis ToolPak
• Windows • MAC
• คลิกแท็บ file> Options> Add-in • คลิกแท็บ Tools> Excel Add-in

106
การวิเคราะห์ สถิตพิ รรณนา • หาค่ า Descriptive Statistics
ด้ วย Analysis ToolPak • คลิกเมนู Data> Data Analysis จะปรากฏจอภาพ Analysis Toolpak ดังภาพ
• คลิกเลือก Descriptive Statistics แล้ วคลิกปุ่ ม OK
• คลิกเลือกตัวเลือกต่ าง ๆ แล้ วคลิกปุ่ ม OK จะได้ ผลลัพธ์

107
การวิเคราะห์ สถิตพิ รรณนาด้ วย Analysis ToolPak
• การหาค่ า Histogram
• สร้างพืLนที* Bin หรื อระยะห่างของข้อมูลเพิ*ม

108
การหาค่ า Histogram
แบบสอบถามตัวอย่ าง
Q1 Q2 Q3 Q4 Q5 bin
4 3 3 3 5 Q1 1 2 3 4 5
2 3 3 3 1 Q2 1 2 3 4 5
4 4 4 4 5
Q3 1 2 3 4 5
5 4 4 4 3
Q4 1 2 3 4 5
4 4 4 5 3
4 4 4 3 1 Q5 1 2 3 4 5
5 3 4 4 1
5 4 4 4 5
3 3 3 3 5
5 4 4 5 4
5 5 4 4 4
3 2 2 3 1
4 4 3 4 1
4 3 3 3 3
4 3 3 3 3
3 3 1 3 1
4 4 4 2 2
5 5 4 4 5
3 3 3 3 3
3 3 2 3 3
5 4 4 4 5
5 3 3 4 4
4 4 3 3 4

109
การหาค่ า Histogram

110
สาธิตการวิเคราะห์ สถิตพิ รรณนาด้ วย Analysis ToolPak

111
สาธิตการวิเคราะห์ สถิตพิ รรณนาด้ วย Analysis ToolPak
แบบสอบถามตัวอย่ าง
Q1 Q2 Q3 Q4 Q5
4 3 3 3 5
2 3 3 3 1
4 4 4 4 5
5 4 4 4 3
4 4 4 5 3
4 4 4 3 1
5 3 4 4 1
5 4 4 4 5
3 3 3 3 5
5 4 4 5 4
5 5 4 4 4
3 2 2 3 1
4 4 3 4 1
4 3 3 3 3
4 3 3 3 3
3 3 1 3 1
4 4 4 2 2
5 5 4 4 5
3 3 3 3 3
3 3 2 3 3
5 4 4 4 5
5 3 3 4 4
4 4 3 3 4
112
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล
Data cleaning: Correcting

113
การทําความสะอาดข้ อมูล (Data Cleaning)
การทําความสะอาดข้อมูล เป็ นกระบวนการตรวจสอบและการแก้ไข (หรื อลบ) รายการข้อมูลที*
ไม่ถูกต้องออกไปจากชุดข้อมูล ประกอบด้วย
1. การแจกแจงข้อมูล (Parsing)
2. การแก้ไขข้อมูล (Correcting) : ข้อมูลผิด ข้อมูลไม่ครบถ้วน ข้อมูลผิดปกติ
3. การทําข้อมูลให้เป็ นรู ปแบบเดียวกัน (Standardizing)
4. การลบชุดข้อความซํLาซ้อนทิLง (Duplicate Elimination)

114
การแก้ ไขข้ อมูล (Correcting)
วิธีการปรับปรุ งหรื อแก้ไขข้อผิดพลาด (ข้ อมูลไม่ สมบูรณ์ ข้ อมูลรบกวน ข้ อมูลไม่ สอดคล้ อง)
• ลบข้อมูลออกไปจากชุดข้อมูล (Removal)
• ปรับปรุ งข้อมูลให้เป็ นค่าที*ถูกต้อง (Correction)
• การแทนค่า (Replacement) เช่น
• แทนค่าด้วยเครื* องหมาย ? เพื*อบอกว่าเป็ นค่าที*หายไป
• แทนค่าด้วยค่าสถิติ เช่น ความถี*สูงสุ ด (Mode) หรื อค่าเฉลี*ย (Mean)
• แทนค่าด้วยค่าใหม่ที*ได้จากเทคนิคการประมาณการ เช่น การหาความน่าจะเป็ น หรื อใช้วธิ ีจดั กลุ่มข้อมูล
(Clustering algorithm) เป็ นต้น

115
ตัวอย่ างข้ อมูลไม่ สมบูรณ์

org_indiv first_plus first_name last_name city state category cash other total
3-D MEDICAL SERVICES LLC STEVEN BRUCE STEVEN DEITELZWEIG NEW ORLEANS LA Professional Advising 2625 0 2625
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising 1800 0 1800

Formats Missing values Invalid values


รู ปแบบข้ อมูล ข้ อผิดพลาดจากการเก็บข้ อมูล
แต่ ต่างกัน

116
ขั)นตอนการแก้ ไข
• ลบข้อมูลที*ซL าํ กัน
• แก้ไขโครงสร้างข้อมูล
• กรองข้อมูลที*ผดิ ปกติ
• จัดการข้อมูลที*ขาดหาย
• ตรวจสอบความถูกต้อง

117
ลบข้ อมูลทีซO ํ)ากัน

org_indiv first_plus first_name last_name city state category cash other total
3-D MEDICAL SERVICES LLC STEVEN BRUCE STEVEN DEITELZWEIG NEW ORLEANS LA Professional Advising 2625 0 2625
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising 1800 0 1800
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119

118
แก้ ไขโครงสร้ างข้ อมูล

org_indiv first_plus first_name last_name city state category cash other total
3-D MEDICAL SERVICES LLC STEVEN BRUCE STEVEN DEITELZWEIG NEW ORLEANS LA Professional Advising USD$2625 0 2625
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising CAD$1800 0 1800
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119

119
กรองข้ อมูลทีผO ดิ ปกติ

org_indiv first_plus first_name last_name city state category cash other total
3-D MEDICAL SERVICES LLC STEVEN BRUCE STEVEN DEITELZWEIG NEW ORLEANS LA Professional Advising USD$2625 0 2625
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising CAD$1800 0 1800
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119

120
จัดการข้ อมูลทีขO าดหาย

org_indiv first_plus first_name last_name city state category cash other total
3-D MEDICAL SERVICES LLC STEVEN BRUCE STEVEN DEITELZWEIG NEW ORLEANS LA Professional Advising USD$2625 0 2625
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising CAD$1800 0 1800
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119

121
ตรวจสอบความถูกต้ อง

122
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล
: การเปลีย$ นค่ าข้ อมูลใหม่
Data cleaning: Correcting : remapping data values

123
แก้ ไขโครงสร้ างข้ อมูล: การเปลียO นค่ าข้ อมูลใหม่

การเปลี*ยนค่าข้อมูลใหม่ คือ การแปลงค่าที*มีความหมายเดียวกันให้เหมือนกัน


org_indiv first_plus first_name last_name city state category cash other total
3-D MEDICAL SERVICES LLC STEVEN BRUCE STEVEN DEITELZWEIG NEW ORLEANS LA Professional Advising USD$2625 0 2625
AA DOCTORS, INC. AAKASH MOHAN AAKASH AHUJA PASO ROBLES Expert-Led Forums -100 0 1000
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO miami FL Business Related Travel 0 448 448
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Professional Advising CAD$1800 0 1800
ABBO, LILIAN MARGARITA LILIAN MARGARITA LILIAN ABBO MIAMI FL Meals 0 119 119

124
แก้ ไขโครงสร้ างข้ อมูล: การเปลียO นค่ าข้ อมูลใหม่
การเปลี*ยนค่าข้อมูลใหม่ คือ การแปลงค่าที*มีความหมายเดียวกันให้เหมือนกัน
name gender New Value name hometown New Value
STEVEN F F STEVEN กรุ งเทพ ฯ กรุ งเทพมหานคร
AAKASH ญ F AAKASH กรุ งเทพมหานคร กรุ งเทพมหานคร
LILIAN F F LILIAN กรุ งเทพ กรุ งเทพมหานคร
DEITELZWEI DEITELZWEI
ช กรุ งเทพ ฯ กรุ งเทพมหานคร
G M G
AHUJA ญ F AHUJA กรุ งเทพ ฯ กรุ งเทพมหานคร
ABBO F F ABBO กรุ งเทพมหานคร กรุ งเทพมหานคร
ADDONA 1 F ADDONA กรุ งเทพ ฯ กรุ งเทพมหานคร
ADLER F F ADLER กรุ งเทพฯ กรุ งเทพมหานคร
ADMANI 1 F ADMANI กรุ งเทพ ฯ กรุ งเทพมหานคร
ADSON ญ F ADSON กทม กรุ งเทพมหานคร
MENCIA 1 F MENCIA กทม กรุ งเทพมหานคร
125
แก้ ไขโครงสร้ างข้ อมูล: การเปลียO นค่ าข้ อมูลใหม่ ด้ วย Excel
• จัดข้อมูลที*ตอ้ งการตรวจสอบให้อยูใ่ นรู ปแบบของตารางด้วยคําสั*ง Table หรื อคลุมข้อมูล CTRL+T
เพื*อความง่ายสามารถตัLงชื*อตาราง (Table Design > Table name)
• สร้างตารางสําหรับข้อมูลที*แตกต่างกัน อาจใช้การคัดลอกและวาง โดยใช้คาํ สัง* (Data > Data Tool >
Remove Duplicates)
• กําหนดรหัสให้กบั ข้อมูลที*มีความหมายเหมือนกันให้ มีขอ้ มูลเหมือนกันพร้อมกับจัดข้อมูลที*ตอ้ งการ
เปลี*ยนให้เป็ นตารางและตัLงชื*อ
• ใช้คาํ สัง* VLOOKUPเพื*อค้นหาและแทนค่าตัวแปรที*ถูกต้อง ตามที*กาํ หนดไว้
• =VLOOKUP (value, table_array, col_index, [range_lookup])
• ในกรณี ที*มีค่าสู ญหายควรจัดการข้อมูลสู ญหายก่อน

126
แก้ ไขโครงสร้ างข้ อมูล: การเปลียO นค่ าข้ อมูลใหม่ ด้ วย Excel

127
สาธิตแก้ ไขโครงสร้ างข้ อมูล: การเปลียO นค่ าข้ อมูลใหม่ ด้ วย Excel

128
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล :
ลบข้ อมูลทีซ$ ํGากัน
Data cleaning: Correcting : removing duplicate data

129
ขั)นตอนการแก้ ไข
• ลบข้อมูลที*ซL าํ กัน
• แก้ไขโครงสร้างข้อมูล
• กรองข้อมูลที*ผดิ ปกติ
• จัดการข้อมูลที*ขาดหาย
• ตรวจสอบความถูกต้อง

130
การลบข้ อมูลทีซO ํ)ากัน
ID Sales Name Company
การลบข้อมูลที:ซJ าํ กัน ซึ:งจะแสดงค่าที:มีความซํJาซ้อนเพียง 1101 Job AA

ครัJงเดียว (unique values) มีดงั นีJคือ 1102


1103
Yayee
Aom
BB
CC
• Remove Duplicates 1104 Taw CC
• Advanced Filter 1104 Taw CC
1105 Pin CC
1106 Korn AA
1106 Korn AA
1107 Oak BB
1108 TK CC
1109 Earn BB
1110 Richmond BB

131
การลบข้ อมูลทีซO ํ)ากัน ด้ วย Excel : วิธี Remove Duplicates
1. เลือกช่วงคอลัมน์ขอ้ มูลที*ตอ้ งการลบข้อมูลซํLาออก
2. เลือกคําสัง* ที*แท็บเครื* องมือ (data > TableTools > Remove Duplicates)
3. เลือกฟิ ลด์ที*ตอ้ งการลบข้อมูลซํLา
4. เลือกที* My data has headers (ถ้ามี) แล้วคลิกปุ่ ม OK

132
การลบข้อมูลที5ซ= าํ กัน ด้วย Excel : วิธี Remove Duplicates
Customer Key Shop Type Shop Size Segment Brand Distance Mueang Count Buy 2018 Sale Value 2018
100000014 Retail/Wholesale Large Standard A 26 107 4568506.73
100000019 Retail Large Standard A 21 52 1115227.1
100000039 Modern Trade Modern Trade Standard A 10 13 16084.224
100000053 MT Modern Trade Standard A 10 6 3374.0928
100000076 R/W Large Economy C 9 13 383551.264
100000161 MT Modern Trade Standard A 10 101 1993482.21
100000175 Vet Small Standard A 9 15 30371.3696
100000187 Retail/Wholesale Large Standard A 0 146 10170566
100000188 Modern Trade Modern Trade Standard A 10 132 17111851.7
100000190 Vet Small Standard A 3 17 120454.358
100000251 Retail Large Standard A 18 12 108639.434
100000272 R/W Large Standard A 25 105 9834020.17
100000278 MT Modern Trade Standard A 10 141 2616726.36
100000297 Retail/Wholesale Large Standard A 15 6 270215.91
100000314 Retail Large Standard A 10 69 1934785.21
100000325 Vet Small Standard A 25 5 11431.68
100000382 Retail/Wholesale Large Standard AB 32 5 146924.107
100000502 Retail/Wholesale Large Economy C 0 31 1816978.18
100000514 Retail Small Standard A 17 32 36795.2624
100000540 Vet Small Standard A 0 23 80986.1684
100000561 Retail/Wholesale Large Standard A 22 44 1685287.2
100000624 Other Medium Standard B 45 3 19560.32
100000657 Retail/Wholesale Medium Standard/Economy BC 0 50 2621332.16
100000661 Retail/Wholesale Large Economy C 35 27 3719538.56
100000676 Retail/Wholesale Large Economy C 0 15 3929552.64
100000698 Retail/Wholesale Medium Economy C 54 16 1415297.92

133
การลบข้อมูลที5ซ= าํ กัน ด้วย Excel : วิธี Advanced Filter
• เลือกช่วงคอลัมน์ขอ้ มูลที*ตอ้ งการลบข้อมูลซํLาออก เลือกคําสัง* ที*แท็บเครื* องมือ (data > Sort & Filter >
Filter Advanced)
• กําหนดค่าสําหรับการลบข้อมูลที*ซL าํ
• เลือก Copy to another location
• List range : ระบุ cell ที4ตอ้ งการคัดลอก
• Copy to : ระบุพ8ืนที4ที4ตอ้ งการวางใหม่
• เลือก Unique records only เพื4อเลือกเฉพาะข้อมูลที4ไม่ซ8 าํ กัน

134
การลบข้อมูลที่ซ้ำกัน ดวย Excel : วิธี Advanced Filter

135
สาธิตการลบข้ อมูลทีซO ํ)ากัน ด้ วย Excel
• วิธี Remove Duplicates
• วิธี Advanced Filter

136
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล
:การจัดการช่ องว่ าง
Data cleaning: Correcting : removing spaces

137
ขั)นตอนการแก้ ไข
• ลบข้อมูลที*ซL าํ กัน
• แก้ไขโครงสร้างข้อมูล
• กรองข้อมูลที*ผดิ ปกติ
• จัดการข้อมูลที*ขาดหาย
• ตรวจสอบความถูกต้อง

138
การจัดการช่องวาง
การลบช่ องว่ าง สามารถทําได้ ดงั นี6 example data
• ตัดแถวว่างส่ วนเกินออก
example data
• ตัดช่องว่างส่ วนเกินออก
• ตัดตัวประหลาดและการขึJนบรรทัดใหม่ดว้ ย CLEAN example data
example
• เอาอักขระออกแบบเจาะจงด้วย SUBSTITUTE data
example data

139
การจัดการช่ องว่ าง ด้ วย Excel
• ลบช่องว่างทัLงหมดในสตริ งข้อความและเว้นช่องว่างระหว่างแต่ละคําไว้เพียงช่องเดียว
• รู ปแบบคําสัง*
• TRIM(text)
• text - สตริ งหรื อการอ้างอิงไปยังเซลล์ที4มีสตริ งที4จะถูกตัดทอน

example data =TRIM(N5)


example data example data

140
การจัดการช่ องว่ าง ด้ วย Excel
• ลบอักขระที*ไม่สามารถพิมพ์ได้ทL งั หมดออกจากข้อความ
• =CLEAN(text)
• text คือ ข้อมูลเวิร์กชีตที*ตอ้ งการเอาอักขระที*ไม่สามารถพิมพ์ได้ออก

=CHAR(9)&"รายงาน"&CHAR(10) =clean(N6)
=CHAR(9)&"รายงาน"&CHAR(10) รายงาน

141
การจัดการช่องว่าง ด้วย Excel
• แทนที*ขอ้ ความหรื ออักขระภายในสตริ งข้อความด้วยข้อความหรื ออักขระอื*น
• SUBSTITUTE(text, old_text, new_text, [instance_num])
• text คือ ข้อความหรื อการอ้างอิงไปยังเซลล์ที*มีขอ้ ความที*ตอ้ งการแทนที*อกั ขระ
• Old_text คือ ข้อความที*ตอ้ งการแทนที*
• New_text คือ ข้อความที*ตอ้ งการแทนที* old_text ด้วย
• Instance_num คือ ระบุการเกิดขึLน old_text ที*ตอ้ งการแทนที*ดว้ ย new_text ถ้าระบุ instance_num เฉพาะ
อินสแตนซ์ของ old_text เท่านัLนที*จะถูกแทนที* มิฉะนัLน ทุกการปรากฏ old_text ในข้อความจะถูกเปลี*ยนเป็ น
new_text
fe male =SUBSTITUTE(N8," ","")
fe male female
142
การจัดการช่ องว่ าง ด้ วย Excel

143
ขัKนตอน
–>
สาธิตการใช้ excel เพืOอ ลบช่ องว่ าง

144
สาธิตการจัดการช่ องว่ าง ด้ วย Excel

145
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล
: การจัดการค่ ารบกวน
Data cleaning: Correcting : removing noisy values

146
ข้ อมูลรบกวน
ข้อ มู ล ที: มี ค วามผิ ด พลาดแบบสุ่ ม หรื อ คลาดเคลื: อ นจากการวัด เช่ น ข้อ มู ล มี ค่ า
ผิดพลาด (error) หรื อมี ค่าผิดปกติ (Outliers)

147
การตรวจสอบค่าผิดปกติดว้ ย
Boxplot

148
การจัดการข้ อมูลรบกวน
• Binning Method
• Regression Method
• Clustering Method

149
Binning Methods
การปรั บข้อมู ลให้เรี ยบด้วยวิธีการแบบ binning ทําโดยเรี ยงลําดับข้อมู ล แล้วใช้หลักการตัดแบ่ ง
(Partition) เพื*อแบ่งข้อมูลออกเป็ นส่ วนแต่ละส่ วนเรี ยกว่า bin แล้วทําการปรับเรี ยบข้อมูลในแต่ละ bin โดยใช้
การปรับเรี ยบข้อมูลแบบท้องถิ*น (Local Smoothing) โดยใช้ค่าที* ได้จากเพื*อนบ้านใกล้เคียง (Neighborhood)
ใน bin เดียวกัน เช่ น ค่ าเฉลีย9 ของ bin (bin means) ค่ ากลางของ bin (bin medians) หรื อค่ าขอบของ bin
(bin boundaries)
ข้ อมูล 8 16, 9, 15, 21, 21, 24, 30, 26, 27, 30, 34
เรี ยงข้อมูล 8, 9, 15, 16, 21, 21, 24, 26, 27, 30, 30, 34
BINNING BIN1 BIN2 BIN3
8, 9, 15, 16 21, 21, 24, 26 27, 30, 30, 34
ค่ าเฉลีย2 ของ bin (8+ 9 + 15 +16 / 4) = 12 (21 + 21 + 24 + 26 / 4) = 23 (27 + 30 + 30 + 34 / 4) = 30
New data 12, 12, 12, 12 23, 23, 23, 23 30, 30, 30, 30
150
Regression
การปรับให้เรี ยบโดยใช้ค่าทํานายจากสมการถดถอย ด้วยวิธีความผิดพลาดน้อยที*สุด (Least-square
error) จากชุดตัวอย่างตัวแปร โดยนิยมในข้อมูลที*ลกั ษณะเป็ นข้อมูลอนุกรมเวลา ที*อดีต ปั จจุบนั และอนาคตมี
ความสัมพันธ์ หรื อเป็ นสมการถดถอยจากความสัมพันธ์ของตัวแปร
• Prediction equation
𝑌5" = 𝑏, + 𝑏+ 𝑋"
• Sample slope ข้ อมูลมีค่าสู ง
: 𝑋" − 𝑋; 𝑌" − 𝑌; 𝑆𝑆&4 𝑆&4 ผิดปกติ
𝑏+ = = = #
: 𝑋" − 𝑋; # 𝑆𝑆&& 𝑆&
• Sample Y - intercept
𝑏5, = 𝑌; − 𝑏5+ 𝑋;

151
Sample slope

Regression 𝑏" =
C 𝑋! − 𝑋E 𝑌! − 𝑌E
C 𝑋! − 𝑋E #
Sample Y - intercept
𝑏5$ = 𝑌E − 𝑏5" 𝑋E

𝑌5! = 75788.01 + 40.46𝑋!

152
การวิเคราะห์ กลุ่ม (Clustering)
การปรับให้ เรียบจากการจัดกลุ่ม หากมีข้อมูลค่ าใดทีม9 คี ่ าอยู่นอกกลุ่ม อาจจะจัดได้ ว่าเป็ นข้ อมูลผิดปกติ

153
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล
: การจัดการค่ าสูญหาย
Data cleaning: Correcting : missing values

154
ข้ อมูลสูญหาย
ข้อมูลสู ญหาย คือ ค่าสังเกตที*ตอ้ งการทราบค่าแต่ไม่สามารถทราบค่าได้ โดยที*ค่านัLนควรจะสามารถทราบ
ค่าได้หากวิธีการที*ใช้ในการรวบรวมข้อมูลหรื อในการวัดค่ามีประสิ ทธิภาพดีขL ึนหรื อมีความเหมาะสมมากขึLน
ประเภทของข้อมูลสู ญหาย
1. ข้อมูลสู ญหายแบบสุ่ มสมบูรณ์ (Missing Completely at Random Data: MCAR)
2. ข้อมูลสู ญหายแบบสุ่ ม (Missing at Random: MAR)
3. ข้อมูลสู ญหายแบบไม่สุ่ม (Not Missing at Random: NMAR)
Height
74 67 NA 68 68 68 69
69 69 72 72 69 69 74
74 68 65 64 66 99 72
72 0 - 70 75 67 69
63 69 68 68 68 70
155
วิธีจดั การค่ าสูญหาย
• ลบข้อมูล (Listwise Deletion or Complete Case Analysis) ถ้าปริ มาณการสู ญหายไม่เกิน 5% ของข้อมูล
ทัLงหมด
• กรอกค่าที*หายไปด้วยตนเอง
• วิธีการประมาณค่าข้อมูลสู ญหาย (Imputation Methods)

156
วิธีการประมาณค่ าข้ อมูลสูญหาย (Imputation Methods)
วิธีการประมาณค่าสู ญหายโดยใช้หลักการทางคณิ ตศาสตร์ มีหลายวิธีดงั นีL
• วิธีการประมาณค่าด้วยค่าเฉลี*ย (Mean Imputation: MI)
• วิธีการประมาณข้อมูลสู ญหายด้วยค่าถดถอย (Regression imputation หรื อ RI)
• วิธีการขัLนสู ง (Advanced Methods) เช่น
• วิธีการประมาณค่าด้วยวิธีเอ็มไอ (Multiple Imputation)
• วิธีการประมาณค่าโดยวิธีอีเอ็ม (Expectation Maximization Algorithm: EM Algorithm)
• วิธีการประมาณค่าโดยวิธีเพื*อนบ้านใกล้เคียง (K-Nearest Neighbor: KNN)

157
วิธีการประมาณค่ าด้ วยค่ าเฉลียO (Mean Imputation: MI)
การคํานวณหาค่าเฉลี*ยของตัวแปรเพื*อเป็ นตัวแทน
∑*"5+ 𝑥"
𝑥̅ =
𝑛
• 𝑥̅ คือ ค่าประมาณของตัวแปร
• 𝑥" คือ ค่าสังเกตุของตัวแปรอิสระ หน่วยที* i โดยที* i = 1,2,..,r
• 𝑛 คือ จํานวนข้อมูลที*ไม่สูญหายของตัวแปรอิสระ

158
วิธีการประมาณข้ อมูลสูญหายด้ วยค่ าถดถอย
(Regression imputation หรื อ RI)
การประมาณค่ า สู ญ หายโดยใช้ค่ า ทํา นายจากสมการถดถอย ด้ว ยวิ ธี ค วามผิ ด พลาดน้ อ ยที* สุ ด
(Least- square error) จากชุดตัวอย่างตัวแปร โดยนิยมในข้อมูลที*ลกั ษณะเป็ นข้อมูลอนุกรมเวลา ที*อดีต ปั จจุบนั
และอนาคตมีความสัมพันธ์ หรื อเป็ นสมการถดถอยจากความสัมพันธ์ของตัวแปร
• Prediction equation
? 𝒊 = 𝒃𝟎 + 𝒃𝟏 𝑿𝒊
𝒀
• Sample slope
; 𝒀𝒊 '𝒀
9 𝑿𝒊 '𝑿 ; 𝑺𝑺𝒙𝒚 𝑺𝒙𝒚
𝒃𝟏 = 9 𝑿𝒊 '𝑿; 𝟐
= 𝑺𝑺 = 𝑺𝟐
𝒙𝒙 𝒙
• Sample Y - intercept
𝒃?𝟎 = 𝒀 C−𝒃 ?𝟏 𝑿
C

159
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล
:การจัดการค่ าสูญหายด้ วย Excel (1)
Data cleaning: Correcting : missing values with Excel (1)

160
Incomplete Data Incomplete Data
การจัดการค่ าสูญหายด้ วย Excel X1
42
X2
58
X3 X4
45
X1
FALSE
X2
FALSE TRUE
X3 X4
FALSE
68 29 53 TRUE FALSE FALSE FALSE
• การตรวจสอบค่ าสู ญหาย 80 53 15 FALSE TRUE FALSE FALSE
8 66 67 FALSE FALSE FALSE TRUE
• การนับจํานวน missing values 52 30 42 58 FALSE FALSE FALSE FALSE
52 55 60 15 FALSE FALSE FALSE FALSE
• =COUNTBLANK() 25 12 23 TRUE FALSE FALSE FALSE
• การตรวจสอบ cell ที*ตอ้ งการว่าเป็ นช่องว่างไหม 7 66 15 FALSE FALSE FALSE TRUE
27 41 37 47 FALSE FALSE FALSE FALSE
• =ISBLANK() 15 22 15 FALSE FALSE TRUE FALSE
22 15 18 50 FALSE FALSE FALSE FALSE
22 38 5 FALSE FALSE FALSE TRUE
43 35 38 15 FALSE FALSE FALSE FALSE
30 46 26 11 FALSE FALSE FALSE FALSE
Number of missing value Logic check using
=COUNTBLANK(D3:D16) =ISBLANK()
2 1 2 3
161
การจัดการค่ าสูญหายด้ วย Excel
• ใช้คาํ สัง* VLOOKUPเพื*อค้นหาและแทนค่าตัวแปรที*ถูกต้อง ตามที*กาํ หนดไว้
• =VLOOKUP (value, table_array, col_index, [range_lookup])
• ใช้ร่วมกับคําสัง* IFERROR เพื9อตรวจสอบข้ อความ #N/A, #VALUE!, #REF!, #DIV/0!, #NUM!,
#NAME?, #NULL!
• =IFERROR([FORMULA],[สิ* งที*จะใส่ แทนหากเกิดข้อความ error])

162
การจัดการค่ าสูญหายด้ วย Excel กรอกค่าที4หายไปด้วยตนเอง ด้วยค่าคงที4ค่าหนึ4ง เช่น ไม่รู้ค่า หรื อ unknown

=VLOOKUP(A2,A2:D15,1,FALSE) =IFERROR(F2,"999")
X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4
42 58 45 42 58 #N/A 45 42 58 999 45
68 29 53 #N/A 68 29 53 999 68 29 53
80 53 15 80 #N/A 53 15 80 999 53 15
8 66 67 8 66 67 #N/A 8 66 67 999
52 30 42 58 52 30 42 58 52 30 42 58
52 55 60 15 52 55 60 15 52 55 60 15
25 12 23 #N/A 25 12 23 999 25 12 23
7 66 15 7 66 15 #N/A 7 66 15 999
27 41 37 47 27 41 37 47 27 41 37 47
15 22 15 15 22 #N/A 15 15 22 999 15
22 15 18 50 22 15 18 50 22 15 18 50
22 38 5 22 38 5 #N/A 22 38 5 999
43 35 38 15 43 35 38 15 43 35 38 15
30 46 26 11 30 46 26 11 30 46 26 11 163
การจัดการค่ าสูญหายด้ วย Excel
• การประมาณค่าด้วยค่าเฉลี:ย (Mean Imputation: MI)
∑$!"# 𝑥!
𝑥̅ =
𝑛
• หาค่าเฉลี:ยของข้อมูลทัJงหมดที:ไม่ใช่ค่าสู ญหาย
1. ใช้คาํ สัง: IF() และ ISBLANK() ในการเติมช่องว่างด้วยค่าเฉลี:ย
2. ใช้คาํ สัง: VLOOKUP และ IFERROR ในการเติมช่องว่างด้วยค่าเฉลี:ย

164
การจัดการค่ าสูญหายด้ วย Excel
X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4 X1 X2 X3 X4
42 58 45 42 58 33.5 45 42 58 45 42 58 33.5 45
68 29 53 33.3333 68 29 53 68 29 53 33.333333 68 29 53
80 53 15 80 43.46 53 15 80 53 15 80 43.461538 53 15
8 66 67 8 66 67 31.55 8 66 67 8 66 67 31.545455
52 30 42 58 52 30 42 58 52 30 42 58 52 30 42 58
52 55 60 15 52 55 60 15 52 55 60 15 52 55 60 15
25 12 23 33.3333 25 12 23 25 12 23 33.333333 25 12 23
7 66 15 7 66 15 31.55 7 66 15 7 66 15 31.545455
27 41 37 47 27 41 37 47 27 41 37 47 27 41 37 47
15 22 15 15 22 33.5 15 15 22 15 15 22 33.5 15
22 15 18 50 22 15 18 50 22 15 18 50 22 15 18 50
22 38 5 22 38 5 31.55 22 38 5 22 38 5 31.545455
43 35 38 15 43 35 38 15 43 35 38 15 43 35 38 15
30 46 26 11 30 46 26 11 30 46 26 11 30 46 26 11
33.33 43.46 33.5 31.55 33.33 43.46 33.5 31.55
=IF(ISBLANK(A2),A$16,A2) =IFERROR(VLOOKUP(L2,L2:O15,1,FALSE),L$16)
Column Mean =AVERAGE(D3:D16) Column Mean =AVERAGE(D3:D16)

165
สาธิตการจัดการคJาสูญหายด*วย Excel
X1 X2 X3 X4
42 58 45
68 29 53
80 53 15
8 66 67
52 30 42 58
52 55 60 15
25 12 23
7 66 15
27 41 37 47
15 22 15
22 15 18 50
22 38 5
43 35 38 15
30 46 26 11

166
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล
:การจัดการค่ าสูญหายด้ วย Excel (2)
Data cleaning: Correcting : missing values with Excel (2)

167
ลักษณะข้ อมูล
• ข้อมูลภาคตัดขวาง (cross-sectional data)
ข้อมูลที*บอกลักษณะ สถานะ หรื อ สภาพของสิ* งที*สนใจ ซึ*งถูกเก็บ ณ เวลาใดเวลาหนึ*ง
เช่น จํานวนนักศึกษา ณ วันที* 20 มีนาคม พ.ศ. 2565
• ข้อมูลอนุกรมเวลา (time series data)
ข้อมูลที*ถูกจัดเก็บตามลําดับเวลาต่อเนื*องกันเป็ นช่วง ๆ เช่น ทุก 7 วัน ทุก 1 เดือน ทุก 1 ปี ฯลฯ ข้อมูล
ประเภทนีLช่วยแสดงให้เห็นการเปลี*ยนแปลงของข้อมูลที*สนใจในช่วงเวลาหนึ*งได้อย่างชัดเจน เช่น การเพิ*มขึLน
ของข้อมู ล การลดลงของข้อมู ล ค่าสู งสุ ด ค่าตํ*าสุ ด เช่ น จํานวนผูท้ ี* ใช้บริ การหอสมุ ดตัLงแต่ เดื อน มกราคม
พ.ศ. 2564 ถึงเดือนธันวาคม พ.ศ. 2564

168
วิธีการประมาณข้ อมูลสูญหายด้ วยค่ าถดถอย
(Regression imputation หรื อ RI)
การประมาณค่าสู ญหายโดยใช้ค่าทํานายจากสมการถดถอย ด้วยวิธีความผิดพลาดน้อยที*สุด (Least-
square error) จากชุดตัวอย่างตัวแปร โดยนิยมในข้อมูลที*ลกั ษณะเป็ นข้อมูลอนุกรมเวลา ที*อดีต ปั จจุบนั และ
อนาคตมีความสัมพันธ์ หรื อเป็ นสมการถดถอยจากความสัมพันธ์ของตัวแปร
• Prediction equation
𝒀? 𝒊 = 𝒃𝟎 + 𝒃𝟏 𝑿𝒊
• Sample slope
; 𝒀𝒊 '𝒀
9 𝑿𝒊 '𝑿 ; 𝑺𝑺𝒙𝒚 𝑺𝒙𝒚
𝒃𝟏 = 9 𝑿𝒊 '𝑿; 𝟐
= 𝑺𝑺 = 𝑺𝟐
𝒙𝒙 𝒙
• Sample Y - intercept
𝒃?𝟎 = 𝒀 C−𝒃 ?𝟏 𝑿
C
169
การจัดการค่ าสูญหายด้ วย Excel : ข้ อมูลภาคตัดขวาง
A B C E F G
วิธีการถดถอย 1 missing value missing value
2 ID Math Science ID Math Science
=FORECAST(x , know_ys , know_xs ) 3 1 15 29 1 15 29
4 2 16 27 2 16 27
5 3 19 18 3 19 18
x จุดข้อมูลทีตอ้ งการคาดการณ์ค่า 6 4 19 30 4 19 30
7 5 17 26 5 17 26
known_ys อาร์เรย์หรื อช่วงข้อมูลที*ไม่เป็ นอิสระ 8 6 23 19 6 23 19
known_xs อาร์เรย์หรื อช่วงของข้อมูลอิสระ 9 7 16 21 7 16 21
10 8 15 22 8 15 22
11 9 10 19 =FORECAST(B12,B3:B11,C3:C11)
9 10 19
12 10 22 x 10 22 16.69
13 11 13 x 11 13 16.32
14 12 21 x 12 21 16.88
15 13 26 x 13 26 17.39
16 14 18 x 14 18 16.04
17 15 12 x 15 12 19.67 170
การจัดการค่ าสูญหายด้ วย Excel : ข้ อมูลภาคตัดขวาง
Raw data missing value Regression Imputation
ID Math Science ID Math Science ID Math Science
1 15 29 1 15 29 1 15 29
2 16 27 2 16 27 2 16 27
3 19 18 3 19 18 3 19 18
4 19 30 4 19 30 4 19 30
5 17 26 5 17 26 5 17 26
6 23 19 6 23 19 6 23 19
7 16 21 7 16 21 7 16 21
8 15 22 8 15 22 8 15 22
9 10 19 9 10 19 9 10 19
10 22 29 10 22 x 10 22 23.30501
11 13 16 11 13 x 11 13 23.54031
12 21 23 12 21 x 12 21 23.33115
13 26 28 13 26 x 13 26 23.20044
14 18 19 14 18 x 14 18 23.40959
15 12 20 15 12 x 15 12 23.56645
mean 17.46667 23.06667 mean 17.46667 14.06667 mean 17.46667 23.42353
stdv 4.193116 4.523519 stdv 4.193116 4.348975 stdv 4.193116 3.369795 171
การจัดการค่ าสูญหายด้ วย Excel : ข้ อมูลอนุกรมเวลา time
1
data
3
time
1
data
3
2 5 2 5
3 8 3 8
4 10 4 10
วิธีการถดถอย 5 13 5 13
=FORECAST.LINEAR(J9,K$2:K$8,J$2:J$8)
6 15 6 15
=FORECAST(x , know_ys , know_xs ) 7
8
17 7
8
17
19.71
9 9 22.11

x จุดข้อมูลทีตอ้ งการคาดการณ์ค่า 10
11
10
11
24.50
26.89
12 12 29.29
known_ys อาร์เรย์หรื อช่วงข้อมูลที*ไม่เป็ นอิสระ 13 40 13 40
14 45 14 45
known_xs อาร์เรย์หรื อช่วงของข้อมูลอิสระ 15 47 15 47
16 51 16 51
17 52 17 52
18 59 18 59
19 60 19 60
20 63 20 63
21 71 21 71
22 75 22 75
23 80 23 80
24 86 24 86
172
สาธิตการจัดการค่ าสูญหายด้ วย Excel
• ข้อมูลภาคตัดขวาง
• วิธีการถดถอย : =FORECAST(x , know_ys , know_xs )
• ข้อมูลอนุกรมเวลา
• วิธีการถดถอย : =FORECAST(x , know_ys , know_xs )

173
การทําความสะอาดข้ อมูล : การแก้ ไขข้ อมูล
: การจัดการค่ าสูญหายด้ วย Excel (3)
Data cleaning: Correcting : missing values with Excel (3)

174
การจัดการคJาสูญหายด*วย Excel : ข*อมูลอนุกรมเวลา
• คำสั่ง Fill > Series (Home > Editing > Fill > Series Fill > Series )
• การระบุคPาขั้นตอน (Step value)
1. ปdอนตัวเลขสองตัวแรกในซีรสี่ กS ารเติบโต
2. ปdอนหมายเลขแรกในชุดการเติบโตและระบุคPาขั้นตอน
• การเลือกรูปแบบ
1. Linear
2. Growth

175
การจัดการคJาสูญหายด*วย Excel : ข*อมูลอนุกรมเวลา
1 2
time data time data time data

Linear Trend 1
2
3
5
1
2
3
5
1
2
3
5
3 8 3 8 3 8
4 10 4 10 4 10
5 13 5 13 5 13
6 15 6 15 6 15
1 7 17 7 17 7 17
8 8 20.83 8 20.83
9 9 24.67 9 24.67
10 10 28.50 10 28.50
11 11 32.33 11 32.33
12 12 36.17 12 36.17
13 40 13 40 13 40
14 45 14 45 14 45
15 47 15 47 15 47
16 51 16 51 16 51
17 52 17 52 17 52
2 18
19
59
60
18
19
59
60
18
19
59
60
20 63 20 63 20 63
21 71 21 71 21 71
22 75 22 75 22 75
23 80 23 80 23 80
24 86 24 86 24 86

176
การจัดการค่ าสูญหายด้ วย Excel : ข้ อมูลอนุกรมเวลา time
1
data
3
time
1
data
3
2 5 2 5
3 7 3 7

Growth Trend 4
5
10
13
4
5
10
13
6 16 6 16
7 21 7 21
8 24 8 24
9 28 9 28
10 33 10 33
11 11 37.80
12 12 42.60
13 13 47.40
14 14 52.20
15 57 15 57
16 65 16 65
17 71 17 71
18 80 18 80
19 90 19 90
20 105 20 105
21 119 21 119
22 136 22 136
23 149 23 149
24 165 24 165
177
การจัดการค่ าสูญหายด้ วย Excel : ข้ อมูลอนุกรมเวลา time
1
data
3
time
1
data
3
2 5 2 5
3 8 3 8
4 10 4 10
วิธีการปรับให้เรี ยบแบบ exponential (Exponential Smoothing (ETS)) 5 13 5 13
6 =FORECAST.ETS(M9,N$2:N$8,M$2:M$8)
15 6 15
=FORECAST.ETS (target_date, values, timeline) 7 17 7 17
8 8 19.36
• Target_date จุดข้อมูลที*ตอ้ งการพยากรณ์ 9
10
9
10
22.25
24.15

• Values ค่าคือค่าในอดีต 11
12
11
12
27.04
28.93
13 40 13 40
• timeline อาร์เรย์อิสระหรื อช่วงของข้อมูลตัวเลข 14 45 14 45
15 47 15 47
16 51 16 51
17 52 17 52
18 59 18 59
19 60 19 60
20 63 20 63
21 71 21 71
22 75 22 75
23 80 23 80
24 86 24 86
178
สาธิตการจัดการค่ าสูญหายด้ วย Excel
• ข้อมูลอนุกรมเวลา
• Fill > Series
• วิธีการปรับให้เรี ยบแบบ exponential : =FORECAST.ETS (target_date, values, timeline)

179
การทําความสะอาดข้ อมูล : การแปลงข้ อมูล
Data cleaning: Data transformation

180
การแปลงข้ อมูล (Data transformation)
การเปลี*ยนสภาพของข้อมูลให้มีความพร้อมใช้งานข้อมูลและง่ายต่อmin-maการวิเคราะห์ เช่น ข้อมูล
เพศ ชาย/หญิง แปลงเป็ นตัวเลข 0/1
การเปลี* ยนสภาพของข้อมูลที* เราศึ กษาให้มีการแจกแจงแบบปกติ หรื อทําให้ความแปรปรวนมี ค่า
เท่ากัน เนื*องจากข้อตกลงเบืLองต้นของการทดสอบสถิติบางตัวได้กาํ หนดไว้ โดยการทําข้อมูลให้อยูใ่ นรู ป
มาตรฐาน (Normalization) เช่น
• x normalization
• z-score normalization
• normalization by decimal scaling

181
การเปลียO นสภาพของข้ อมูลให้ มคี วามพร้ อมใช้ งาน
• การแปลงข้อมูลตามรหัสในคู่มือลงรหัส
• การเปลี*ยนแปลงค่ารหัสของข้อมูล เช่น เปลี*ยนจากข้อคําถามเจตคติจากเชิงลบ ; Negative item มาเป็ นเชิงบวก
; Positive Item)
• การแปลงตัวอักษรจําพวก “ข้อความ” เป็ นตัวเลข

182
org_indiv total Total_new

3-D MEDICAL SERVICES LLC 2625 0.59

min-max normalization AA DOCTORS, INC.


ABBO, LILIAN MARGARITA
1000
448
0.22
0.09
ABBO, LILIAN MARGARITA 119 0.02
ABBO, LILIAN MARGARITA 1800 0.40
ABDULLAH RAFFEE MD PC 750 0.16
ABEBE, SHEILA Y 47 0.00

เป็ นการแปลงข้ อมูลให้ อยู่ในช่ วงของค่ า [0,1] ดังนีK ABEBE, SHEILA Y 825 0.18

>
𝑥 − 𝑚𝑖𝑛 ABILENE FAMILY FOOT CENTER 3000 0.68

𝑥 = ABOLNIK, IGOR Z 396 0.08


𝑚𝑎𝑥 − 𝑚𝑖𝑛 ABOLNIK, IGOR Z
ABOLNIK, IGOR Z
1750
58
0.39
0.00
ABRAKSIA, SAMIR 88 0.01
ABRAKSIA, SAMIR 2000 0.45
ABRAKSIA, SAMIR 189 0.03
ABRAKSIA, SAMIR 2500 0.56
ABRAMSON, STEVEN BARRY 38 0.00
ABRAMSON, STEVEN BARRY 4400 1.00
ABUZZAHAB, FARUK S 2074 0.47
ABUZZAHAB, FARUK S 218 0.04
ABUZZAHAB, FARUK S 1750 0.39
ABUZZAHAB, MARY JENNIFER 154 0.03
ABUZZAHAB, MARY JENNIFER 1000 0.22
183
ACADIA WOMEN'S HEALTH 4000 0.91
org_indiv total Total_new

3-D MEDICAL SERVICES LLC 2625 1.03

z-score normalization
AA DOCTORS, INC. 1000 -0.23
ABBO, LILIAN MARGARITA 448 -0.66
ABBO, LILIAN MARGARITA 119 -0.92
ABBO, LILIAN MARGARITA 1800 0.39
เป็ นการปรับการกระจายของข้อมูลให้มีค่าเท่ากับ ABDULLAH RAFFEE MD PC 750 -0.43

0 และค่ า เบี* ย งเบนมาตรฐานเท่ า กั บ 1 โดยสามารถ ABEBE, SHEILA Y


ABEBE, SHEILA Y
47
825
-0.97
-0.37
คํานวณหาได้จากสมการ ABILENE FAMILY FOOT CENTER 3000 1.32
ABOLNIK, IGOR Z 396 -0.70
ABOLNIK, IGOR Z 1750 0.35
ข้ อมูลประชากร ABOLNIK, IGOR Z 58 -0.96
ABRAKSIA, SAMIR 88 -0.94
𝑥−𝜇 ABRAKSIA, SAMIR 2000 0.54
𝑧= ~𝑁(0,1) ABRAKSIA, SAMIR 189 -0.86
𝜎 ABRAKSIA, SAMIR 2500 0.93
ABRAMSON, STEVEN BARRY 38 -0.98
ข้ อมูลตัวอย่ าง ABRAMSON, STEVEN BARRY 4400 2.40

𝑥 − 𝑥̅ ABUZZAHAB, FARUK S
ABUZZAHAB, FARUK S
2074
218
0.60
-0.84
𝑧= ~𝑁(0,1) ABUZZAHAB, FARUK S 1750 0.35
𝑠 ABUZZAHAB, MARY JENNIFER 154 -0.89
ABUZZAHAB, MARY JENNIFER 1000 -0.23
184
ACADIA WOMEN'S HEALTH 4000 2.09
org_indiv total Total_new

3-D MEDICAL SERVICES LLC 2625 2.625

Decimal Scaling
AA DOCTORS, INC. 1000 1.000
ABBO, LILIAN MARGARITA 448 0.448
ABBO, LILIAN MARGARITA 119 0.119
ABBO, LILIAN MARGARITA 1800 1.800
ABDULLAH RAFFEE MD PC 750 0.750
เป็ นการแปลงค่าข้อมูลเดิ มให้เป็ นเลขทศนิ ยม ABEBE, SHEILA Y
ABEBE, SHEILA Y
47
825
0.047
0.825
ตําแหน่งทศนิยมจะกําหนดโดยค่าสัมบูรณ์ที*มีค่ามากที*สุด ABILENE FAMILY FOOT CENTER 3000 3.000
ABOLNIK, IGOR Z 396 0.396
ABOLNIK, IGOR Z 1750 1.750
ABOLNIK, IGOR Z 58 0.058
ABRAKSIA, SAMIR 88 0.088
ABRAKSIA, SAMIR 2000 2.000
ABRAKSIA, SAMIR 189 0.189
ABRAKSIA, SAMIR 2500 2.500
ABRAMSON, STEVEN BARRY 38 0.038
ABRAMSON, STEVEN BARRY 4400 4.400
ABUZZAHAB, FARUK S 2074 2.074
ABUZZAHAB, FARUK S 218 0.218
ABUZZAHAB, FARUK S 1750 1.750
ABUZZAHAB, MARY JENNIFER 154 0.154
ABUZZAHAB, MARY JENNIFER 1000 1.000
185
ACADIA WOMEN'S HEALTH 4000 4.000
การแปลงข้อมูลให้ความแปรปรวนมีค่าเท่ ากัน
วิธี ฟังก์ ชัน Excel
Square root ∗
𝑦"? = 𝑦"? =SQRT(value)
∗ =[value]^(1/3)
Cube root 𝑦"? = *
𝑦"?
Logarithmic ∗
𝑦"? = log(𝑦"? ) =log(value,base), =log10(number)
Arcsine ∗
𝑦"? = 2 arcsin 𝑒 𝑦"? =ASIN(SQRT([value]/MAX([data-set])))
∗ =[value]^(p)
Power 𝑦"? = (𝑦"? )A

𝑦l − 1
Box cox 𝑦l = S l ;l ≠ 0
log 𝑦 ; l = 0
186
การทําความสะอาดข้ อมูล :
การแปลงข้ อมูลด้ วย Excel
Data cleaning: Data transformation with Excel

187
การเปลียO นค่ าข้ อมูลใหม่ ตามคู่มือลงรหัส ด้ วย Excel
• จัดข้อมูลที*ตอ้ งการตรวจสอบให้อยู่ในรู ปแบบของตารางด้วยคําสั*ง Table หรื อคลุมข้อมูล CTRL+T
เพื*อความง่ายสามารถตัLงชื*อตาราง (Table Design > Table name)
• สร้างตารางสําหรับข้อมูลที*แตกต่างกัน อาจใช้การคัดลอกและวาง โดยใช้คาํ สัง* (Data > Data Tool >
Remove Duplicates)
• กําหนดรหัสให้กบั ข้อมูลที*มีความหมายเหมือนกันให้ มีขอ้ มูลเหมือนกันพร้อมกับจัดข้อมูลที*ตอ้ งการ
เปลี*ยนให้เป็ นตารางและตัLงชื*อ
• ใช้คาํ สัง* VLOOKUPเพื*อค้นหาและแทนค่าตัวแปรที*ถูกต้อง ตามที*กาํ หนดไว้
• =VLOOKUP (value, table_array, col_index, [range_lookup])
• ในกรณี ที*มีค่าสู ญหายควรจัดการข้อมูลสู ญหายก่อน

188
การแปลงข้ อมูลให้ มหี น่ วยเดียวกัน (Standardizing)
> 𝒙'𝒎𝒊𝒏
• min-max normalization [0,1] : 𝒙 =
𝒎𝒂𝒙'𝒎𝒊𝒏
𝒙';
𝒙
• z-score normalization : 𝒛 =
𝒔
> 𝒙
• Decimal Scaling : 𝒙 =
𝟏𝟎𝒌

189
การแปลงข้อมูลให้ความแปรปรวนมีค่าเท่ ากัน
วิธี ฟังก์ ชัน Excel
Square root ∗
𝑦"? = 𝑦"? =SQRT(value)
∗ =[value]^(1/3)
Cube root 𝑦"? = *
𝑦"?
Logarithmic ∗
𝑦"? = log(𝑦"? ) =log(value,base), =log10(number)
Arcsine ∗
𝑦"? = 2 arcsin 𝑒 𝑦"? =ASIN(SQRT([value]/MAX([data-set])))
∗ =[value]^(p)
Power 𝑦"? = (𝑦"? )A

𝑦l − 1
Box cox 𝑦l = S l ;l ≠ 0
log 𝑦 ; l = 0
190
สาธิตการเปลียO นค่ าข้ อมูลใหม่ ตามคู่มือลงรหัส ด้ วย Excel
ใช้คาํ สัง4 VLOOKUP เพื4อค้นหาและแทนค่าตัวแปรที4ถูกต้อง ตามที4กาํ หนดไว้
=VLOOKUP (value, table_array, col_index, [range_lookup])
PassengerId Survived Pclass Sex Age SibSp Parch Ticket Fare Cabin Embarked
1 0 3 male 22 1 0 A/5 21171 7.25 S

2 1 1 female 38 1 0 PC 17599 71.2833 C85 C


3 1 3 female 26 0 0 STON/O2. 3101282 7.925 S
4 1 1 female 35 1 0 113803 53.1 C123 S
5 0 3 male 35 0 0 373450 8.05 S
6 0 3 m 0 0 330877 8.4583 Q
7 0 1 m 54 0 0 17463 51.8625 E46 S
8 0 3 male 2 3 1 349909 21.075 S
9 1 3 f 27 0 2 347742 11.1333 S
10 1 2 female 14 1 0 237736 30.0708 C
11 1 3 f 4 1 1 PP 9549 16.7 G6 S
12 1 1 female 58 0 0 113783 26.55 C103 S
13 0 3 m 20 0 0 A/5. 2151 8.05 S
14 0 3 male 39 1 5 347082 31.275 S
15 0 3 f 14 0 0 350406 7.8542 S
16 1 2 female 55 0 0 248706 16 S
17 0 3 male 2 4 1 382652 29.125 Q
18 1 2 male 0 0 244373 13 S

19 0 3 female 31 1 0 345763 18 S
20 1 3 female 0 0 2649 7.225 C
21 0 2 male 35 0 0 239865 26 S
22 1 2 male 34 0 0 248698 13 D56 S
23 1 3 female 15 0 0 330923 8.0292 Q
24 1 1 male 28 0 0 113788 35.5 A6 S
25 0 3 female 8 3 1 349909 21.075 S

26 1 3 female 38 1 5 347077 31.3875 S 191


27 0 3 male 0 0 2631 7.225 C
สาธิตการแปลงข้ อมูลให้ มหี น่ วยเดียวกัน (Standardizing)
> 𝒙'𝒎𝒊𝒏 𝒙';
𝒙 > 𝒙
•𝒙 = :𝒛 = :𝒙 =
𝒎𝒂𝒙'𝒎𝒊𝒏 𝒔 𝟏𝟎𝒌
PassengerId Survived Pclass Sex Age SibSp Parch Ticket Fare Cabin Embarked
1 0 3 male 22 1 0 A/5 21171 7.25 S

2 1 1 female 38 1 0 PC 17599 71.2833 C85 C


3 1 3 female 26 0 0 STON/O2. 3101282 7.925 S
4 1 1 female 35 1 0 113803 53.1 C123 S
5 0 3 male 35 0 0 373450 8.05 S
6 0 3 m 0 0 330877 8.4583 Q
7 0 1 m 54 0 0 17463 51.8625 E46 S
8 0 3 male 2 3 1 349909 21.075 S
9 1 3 f 27 0 2 347742 11.1333 S
10 1 2 female 14 1 0 237736 30.0708 C
11 1 3 f 4 1 1 PP 9549 16.7 G6 S
12 1 1 female 58 0 0 113783 26.55 C103 S
13 0 3 m 20 0 0 A/5. 2151 8.05 S
14 0 3 male 39 1 5 347082 31.275 S
15 0 3 f 14 0 0 350406 7.8542 S
16 1 2 female 55 0 0 248706 16 S
17 0 3 male 2 4 1 382652 29.125 Q
18 1 2 male 0 0 244373 13 S

19 0 3 female 31 1 0 345763 18 S
20 1 3 female 0 0 2649 7.225 C
21 0 2 male 35 0 0 239865 26 S
22 1 2 male 34 0 0 248698 13 D56 S
23 1 3 female 15 0 0 330923 8.0292 Q
24 1 1 male 28 0 0 113788 35.5 A6 S
25 0 3 female 8 3 1 349909 21.075 S

26 1 3 female 38 1 5 347077 31.3875 S


27 0 3 male 0 0 2631 7.225 C 192
สาธิตการแปลงข้ อมูลให้ ความแปรปรวนมีค่าเท่ ากัน
PassengerId Survived Pclass Sex Age SibSp Parch Ticket Fare Cabin Embarked
1 0 3 male 22 1 0 A/5 21171 7.25 S
2 1 1 female 38 1 0 PC 17599 71.2833 C85 C

• Square root
3 1 3 female 26 0 0 STON/O2. 3101282 7.925 S
4 1 1 female 35 1 0 113803 53.1 C123 S
5 0 3 male 35 0 0 373450 8.05 S

• Cube root 6
7
0
0
3
1
m
m 54
0
0
0
0
330877
17463
8.4583
51.8625 E46
Q
S
8 0 3 male 2 3 1 349909 21.075 S
• Logarithmic 9
10
1
1
3
2
f
female
27
14
0
1
2
0
347742
237736
11.1333
30.0708
S
C
11 1 3 f 4 1 1 PP 9549 16.7 G6 S
• Arcsine 12
13
1
0
1
3
female
m
58
20
0
0
0
0
113783
A/5. 2151
26.55
8.05
C103 S
S

• Power
14 0 3 male 39 1 5 347082 31.275 S
15 0 3 f 14 0 0 350406 7.8542 S
16 1 2 female 55 0 0 248706 16 S

• Box cox 17
18
0
1
3
2
male
male
2 4
0
1
0
382652
244373
29.125
13
Q
S
19 0 3 female 31 1 0 345763 18 S
20 1 3 female 0 0 2649 7.225 C
21 0 2 male 35 0 0 239865 26 S
22 1 2 male 34 0 0 248698 13 D56 S
23 1 3 female 15 0 0 330923 8.0292 Q
24 1 1 male 28 0 0 113788 35.5 A6 S
25 0 3 female 8 3 1 349909 21.075 S
26 1 3 female 38 1 5 347077 31.3875 S
27 0 3 male 0 0 2631 7.225 C
193
การผสานข้ อมูล
การทดสอบไคแสควร์ : ตัวอย่ าง

194
คําถาม
• ต้องการตรวจสอบว่าช่องทางในการซืLอกับวิธีการซืLอมีความสัมพันธ์กนั หรื อไม่

ทดสอบว่า ช่องทางในการซืJอมีความสัมพันธ์กบั วิธีการซืJอของ


ลูกค้าหรื อไม่ ที:ระดับนัยสําคัญ 0.05

195
ขั#นตอน การทดสอบไคสแควร์ สําหรับความเป็ นอิสระ

ขัLนตอน
1. กําหนดสมมติฐานว่างและทางเลือก
2. คํานวณสถิติทดสอบ
3. ระบุระดับนัยสําคัญ และองศาความเป็ นอิสระ
4. หาค่าวิกฤต
5. กําหนดอาณาเขตวิกฤต
6. ทําการตัดสิ นใจเพื*อปฏิเสธหรื อไม่ปฏิเสธสมมติฐานว่าง
7. ตีความตัดสิ นใจในเนืLอหา

196
การทดสอบไคสแควร์สาํ หรับความเป็ นอิสระ

Id หมายเลขกรมธรรม์ เบี.ยรับประกันภัย (บาท) ช่องทางการขาย บริ ษทั claimincurred type Claim/noClaim วิธีการขาย
1 29220530 9307 ตัวแทน (Agent) A 8559 Full Size 1 1
2 29991090 600 นายหน้า (Broker) A null Full Size 0 3
3 33557750 1100 ธนาคาร (Bancassurance) A null Full Size 0 2
4 33557760 3740 ตัวแทน (Agent) A 11500 Full Size 1 1
5 33557770 1220 ตัวแทน (Agent) A null High Performance 0 1
6 31551190 8426 ตัวแทน (Agent) A null High Performance 0 1
7 31583230 600 ตัวแทน (Agent) A null High Performance 0 1
8 32123060 600 ตัวแทน (Agent) A 8559 Mid Size 1 1
9 33093800 540 ตัวแทน (Agent) A null Full Size 0 1
10 34670040 5589 นายหน้า (Broker) A 6500 Mid Size 1 3
11 34670050 5589 ธนาคาร (Bancassurance) A 19800 High Performance 1 2
12 34670060 13686 ธนาคาร (Bancassurance) A 2367 Compact 1 2
13 34670070 3707 ธนาคาร (Bancassurance) A 11500 Mid Size 1 2
14 243120 400 ธนาคาร (Bancassurance) A null High Performance 0 1
15 34502150 528 ธนาคาร (Bancassurance) A 6700 Mid Size 1 1

197
การทดสอบไคสแควร์สาํ หรับความเป็ นอิสระ

สรุ ปข้อมูลเบืLองต้น

วิธีการขาย
ช่องทางการขาย รวม
1 2 3
ตัวแทน (Agent) 15 9 5 29
ธนาคาร (Bancassurance) 31 61 32 124
นายหน้า (Broker) 11 17 19 47
รวม 57 87 56 200

198
สมมติฐาน

• สมมติฐานการวิจยั
ช่องทางในการซืLอมีความสัมพันธ์กบั วิธีการซืLอของลูกค้า

• สมมติฐานทางสถิติ
H0 : ช่องทางในการซืLอไม่มี ความสัมพันธ์กบั วิธีการซืLอของลูกค้า
H1 : ช่องทางในการซืLอมีความสัมพันธ์กบั วิธีการซืLอของลูกค้า

199
การทดสอบไคสแควร์ สําหรับความเป็ นอิสระ

สถิตทิ ดสอบสําหรับการทดสอบไคสแควร์ คือ


G H #
(𝑂"? − 𝐸"? )
𝜒# = Y Y
𝐸"?
"5+ ?5+
ถ้ าให้ r คือ จํานวนแถว (ตัวแปรที= 1)
c คือ จํานวนคอมลัน์ (ตัวแปรที= 2)
Oij คือ ความถี=ที=ได้ จากการทดลองหรื อสังเกต (Observed frequency)
I! J,
Eij คือ ความถี=ที=คาดว่าควรจะเป็ นตามทฤษฎี (Expected frequency) หรื อ Eij =
*
n คือ ความถี=ทงหมด
ัH

200
สถิตทิ ดสอบ
วิธีการขาย
ช่องทางการขาย รวม
1 2 3
𝑂!'
ตัวแทน (Agent) 15 9 5 29
ธนาคาร (Bancassurance) 31 61 32 124
นายหน้า (Broker) 11 17 19 47
รวม 57 87 56 200
วิธีการขาย
)! * " ช่องทางการขาย รวม
𝐸!' =
+
1 2 3
ตัวแทน (Agent) 8.27 12.62 8.12 29
ธนาคาร (Bancassurance) 35.34 53.94 34.72 124
นายหน้า (Broker) 13.40 20.45 13.16 47
รวม 57 87 56 200
& ( #
(𝑂!' − 𝐸!' )
𝜒# = G G = 12.99
𝐸!' 201
!%" '%"
หาค่าวิกฤตและกําหนดอาณาเขตวิกฤต
œ 𝛼 = 0.05
œ 𝜈 = 𝑟−1 𝑐−1 = 3−1 3−1 =4
# #
œ ค่าวิกฤต 𝜒+'K,M = 𝜒,.1N,O = 9.49
# #
œ อาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1) 𝜒 > 𝜒+'K,M5(G'+)(H'+) = 9.49
HPQ

9.49
202
ตัดสิ นใจและสรุ ปผล

9.49 12.99

# #
• อาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1) 𝜒 > 𝜒+'K,M5(G'+)(H'+) = 9.49
HPQ
# #
•𝜒 = 12.00 > 𝜒+'K,M5(G'+)(H'+) = 9.49 èTRUEè reject H0
HPQ

ช่องทางในการซืCอมีความสัมพันธ์กบั วิธีการซืCอของลูกค้า 203


การผสานข้ อมูล
สาธิตการทดสอบไคแสควร์ ด้วย excel 1
การสร้ างตารางแจกแจงความถีด< ้ วย pivot

204
การทดสอบไคสแควร์ สําหรับความเป็ นอิสระ

• เป็ นการทดสอบในกรณี ตวั แปรสองตัวนี5 เป็ นการทดสอบเพื8อดูวา่ ตัวแปรสองตัวนี5 มีความเกี8ยวข้องหรื อสัมพันธ์


กันหรื อไม่
• ข้อมูลสําหรับใช้ในการทดสอบนี5 คือ ข้อมูลเชิงคุณภาพในมาตรวัดนามบัญญัติ (Nominal scale) โดยแบ่งเป็ น
2 กลุ่ ม ขึ5 น ไป ข้อ มู ล ประเภทนี5 ไม่ ส ามารถวัด ออกมาเป็ นตัว เลขหรื อ ค่ า ที8 แ น่ น อนได้ เช่ น ความคิ ด เห็ น
ความชอบ เพศ ศาสนา ฯลฯ แต่สามารถที8จะจําแนกข้อมูลเหล่านี5ออกเป็ นกลุ่ม ๆ ได้ เช่น
• ความคิดเห็นจําแนกออกเป็ น เห็นด้วยอย่างยิง5 เห็นด้วย ไม่เห็นด้วย
• ความชอบจําแนกเป็ น ชอบมาก ชอบปานกลาง ชอบน้อย ไม่ชอบ
• เพศก็จาํ แนกออกเป็ น ชาย กับ หญิง
• ศาสนาก็จาํ แนกออกเป็ น พุทธ คริ สต์ อิสลาม
• ซึ8งจะนําเสนอข้อมูลในรู ปของความถี8หรื อจํานวนในแต่ละกลุ่ม

205
การสร้ างการแจกแจงความถีดO ้ วย Pivot table ของ Excel
1. นํา mouse ไปในตารางที4มีขอ้ มูล โดยต้องไม่มีคอลัมน์ที4ผสานเซลล์
2. คลิก “แทรก”
3. คลิก “PivotTable”
4. ใช้ขอบเขตข้อมูลที4ระบบเลือกให้อตั โนมัติ หรื อเลือกขอบเขตข้อมูลใหม่
5. เลือกตําแหน่งที4ตอ้ งการวางรายงาน โดยเลือกแสดงผลใน เวิร์กชีทที4มีอยู่ เพื4อให้ง่ายต่อการดูขอ้ มูล
6. คลิก"ตกลง"

206
การสร้ างการแจกแจงความถีดO ้ วย Excel
ตัวแปรทัDงหมด

พืDนที,สาํ หรับ ฟิ ลเตอร์ตวั แปร

พืDนที,สาํ หรับกําหนดตัวแปรให้เป็ นคอลัมน์

พืDนที,สาํ หรับกําหนดตัวแปรให้เป็ นแถว

พืDนที,สาํ หรับ กําหนดตัวแปรให้เป็ นค่าข้อมูลในตาราง เช่นการแจกแจงความถี,


ใช้เป็ นจํานวนนับของข้อมูล หรื อเป็ นค่าผลรวม ค่าความแปรปรวน

207
การทดสอบไคสแควร์ สําหรับความเป็ นอิสระ
ตัวอย่ าง
Id หมายเลขกรมธรรม์ เบี.ยรับประกันภัย (บาท) ช่องทางการขาย บริ ษทั claimincurred type Claim/noClaim วิธีการขาย
1 29220530 9307 ตัวแทน (Agent) A 8559 Full Size 1 1
2 29991090 600 นายหน้า (Broker) A null Full Size 0 3
3 33557750 1100 ธนาคาร (Bancassurance) A null Full Size 0 2
4 33557760 3740 ตัวแทน (Agent) A 11500 Full Size 1 1
5 33557770 1220 ตัวแทน (Agent) A null High Performance 0 1
6 31551190 8426 ตัวแทน (Agent) A null High Performance 0 1
7 31583230 600 ตัวแทน (Agent) A null High Performance 0 1
8 32123060 600 ตัวแทน (Agent) A 8559 Mid Size 1 1
9 33093800 540 ตัวแทน (Agent) A null Full Size 0 1
10 34670040 5589 นายหน้า (Broker) A 6500 Mid Size 1 3
11 34670050 5589 ธนาคาร (Bancassurance) A 19800 High Performance 1 2
12 34670060 13686 ธนาคาร (Bancassurance) A 2367 Compact 1 2
13 34670070 3707 ธนาคาร (Bancassurance) A 11500 Mid Size 1 2
14 243120 400 ธนาคาร (Bancassurance) A null High Performance 0 1
15 34502150 528 ธนาคาร (Bancassurance) A 6700 Mid Size 1 1

208
การทดสอบไคสแควร์ สําหรับความเป็ นอิสระ
สรุปข้ อมูลเบื6องต้ น

วิธีการขาย
ช่ องทางการขาย รวม
1 2 3
ตัวแทน (Agent) 15 9 5 29
ธนาคาร (Bancassurance) 31 61 32 124
นายหน้า (Broker) 11 17 19 47
รวม 57 87 56 200

209
สาธิตการสร้างการแจกแจงความถี; ด้วย Excel

210
การผสานข้ อมูล
สาธิตการทดสอบไคแสควร์ ด้วย excel 2
ฟังก์ ชันสถิติ Chi-Square

211
การทดสอบไคสแควร์ สําหรับความเป็ นอิสระ

• เพื*อตรวจสอบว่าระดับตัวแปรสองประเภทเป็ นอิสระจากกันหรื อไม่


• สถิติทดสอบ คือ
G H #
#
(𝑂"? − 𝐸"? )
𝜒 = YY
𝐸"?
"5+ ?5+
ถ้าให้ r คือ จํานวนแถว (ตัวแปรที* 1)
c คือ จํานวนคอมลัน์ (ตัวแปรที* 2)
Oij คือ ความถี*ที*ได้จากการทดลองหรื อสังเกต (Observed frequency)
I! J,
Eij คือ ความถี*ที*คาดว่าควรจะเป็ นตามทฤษฎี (Expected frequency) Eij = *
n คือ ความถี*ทL งั หมด

212
การทดสอบไคสแควร[สำหรับความเป]นอิสระ
เป็ นการทดสอบพืLนที*ปลายหางทางด้านขวา

หาค่าวิกฤต และกําหนดอาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1)


# #
œ 𝜒 > 𝜒+'K,M5(G'+)(H'+)
œ p-value < 𝛼
213
การทดสอบไคสแควร์ สําหรับความเป็ นอิสระ ด้ วย Excel
• ค่าความน่าจะเป็ นด้านเดียวของการแจกแจงแบบไคสแควร์ (พืLนที*ทางด้านขวา)
• CHITEST(ช่วงที*สงั เกต ช่วงที*คาดหมาย)
• ช่วงที*สงั เกต - จํานวนนับที*สมั พันธ์กบั ข้อมูลแต่ละหมวดหมู่
• ช่วงที*คาดหมาย - จํานวนนับที*คาดไว้สาํ หรับแต่ละหมวดหมู่ภายใต้สมมติฐานว่าง
• CHIDIST(x,deg_freedom)
• CHISQ.DIST.RT(x,deg_freedom)
• x : ข้อมูลป้อนเข้าสําหรับฟังก์ชนั การแจกแจงความน่าจะเป็ นแบบไคสแควร์ ซึ* งเป็ นค่าที*จะประเมิน
ฟังก์ชนั ต้องเป็ นจํานวนบวก
• deg_freedom : จํานวนองศาความเป็ นอิสระของการแจกแจง

214
การทดสอบ Chi-square ด้ วย Excel
• ค่าความน่าจะเป็ นด้านเดียวของการแจกแจงแบบไคสแควร์ (พืLนที*ทางด้านซ้าย)
• CHISQ.DIST(x, deg_freedom, ค่าสะสม)
• x : ข้อมูลป้อนเข้าสําหรับฟังก์ชนั การแจกแจงความน่าจะเป็ นแบบไคสแควร์ ซึ*งเป็ นค่าที*จะประเมิน
ฟังก์ชนั ต้องเป็ นจํานวนบวก
• deg_freedom : จํานวนองศาความเป็ นอิสระของการแจกแจง
• ค่าสะสม : ค่าตรรกะที*กาํ หนดรู ปแบบของฟังก์ชนั
• ค่าความน่าจะเป็ นด้านเดียวของการแจกแจงแบบไคสแควร์ (พืLนที*ทางด้านขวา)
• 1-CHISQ.DIST(x, deg_freedom, ค่าสะสม)

215
การทดสอบ Chi-square ด้ วย Excel
• ค่าผกผันของค่าความน่าจะเป็ นของการแจกแจงแบบไคสแควร์
• CHIINV((probability, deg_freedom)
• probability : ความน่าจะเป็ นที4เกี4ยวข้องกับการแจกแจงแบบไคสแควร์ (ด้านซ้าย)
• CHISQ.INV.RT(probability, deg_freedom)
• probability : ความน่าจะเป็ นที*เกี*ยวข้องกับการแจกแจงแบบไคสแควร์ (ด้านขวา)
• deg_freedom : จํานวนองศาความเป็ นอิสระของการแจกแจง
• หาค่าวิกฤตของการแจกแจงแบบไคสแควร์ โดยระบุ probability ด้วยค่าระดับนัยสําคัญ

216
การผสานข้ อมูล
สาธิตการทดสอบไคแสควร์ ด้วย excel 2
ฟังก์ ชันสถิติ Chi-Square

217
การทดสอบไคสแควร์ สําหรับความเป็ นอิสระ

Id หมายเลขกรมธรรม์ เบี.ยรับประกันภัย (บาท) ช่องทางการขาย บริ ษทั claimincurred type Claim/noClaim วิธีการขาย
1 29220530 9307 ตัวแทน (Agent) A 8559 Full Size 1 1
2 29991090 600 นายหน้า (Broker) A null Full Size 0 3
3 33557750 1100 ธนาคาร (Bancassurance) A null Full Size 0 2
4 33557760 3740 ตัวแทน (Agent) A 11500 Full Size 1 1
5 33557770 1220 ตัวแทน (Agent) A null High Performance 0 1
6 31551190 8426 ตัวแทน (Agent) A null High Performance 0 1
7 31583230 600 ตัวแทน (Agent) A null High Performance 0 1
8 32123060 600 ตัวแทน (Agent) A 8559 Mid Size 1 1

218
ค่ าความน่ าจะเป็ นด้ านเดียวของการแจกแจงแบบไคสแควร์ (พืนF ทีท< างด้ านขวา)
วิธีการขาย
ช่องทางการขาย รวม
1 2 3
𝑂!'
ตัวแทน (Agent) 15 9 5 29
ธนาคาร (Bancassurance) 31 61 32 124
นายหน้า (Broker) 11 17 19 47
รวม 57 87 56 200
วิธีการขาย
)! * " ช่องทางการขาย รวม
𝐸!' =
+
1 2 3
ตัวแทน (Agent) 8.27 12.62 8.12 29
ธนาคาร (Bancassurance) 35.34 53.94 34.72 124
นายหน้า (Broker) 13.40 20.45 13.16 47
รวม 57 87 56 200
219
ค<าความน<าจะเปEนดGานเดียวของการแจกแจงแบบไคสแควรS (พื้นที่ทางดGานขวา)

P-value = 0.01130799
อาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1) ถ้า p-value < 𝛼
เนื*องจาก p-value = 0.01130799 < 𝛼 = 0.05. จึงปฏิเสธสมมติฐานหลัก
ช่องทางในการซืLอมีความสัมพันธ์กบั วิธีการซืLอของลูกค้า 220
ค่ าความน่ าจะเป็ นด้ านเดียวของการแจกแจงแบบไคสแควร์ (พืนF ทีท< างด้ านขวา)
& ( #
(𝑂!' − 𝐸!' )
𝜒# = G G
𝐸!'
!%" '%"

P-value = 0.01130799

อาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1) ถ้า p-value < 𝛼


เนื*องจาก p-value = 0.01130799 < 𝛼 = 0.05. จึงปฏิเสธสมมติฐานหลัก
ช่องทางในการซืLอมีความสัมพันธ์กบั วิธีการซืLอของลูกค้า 221
ค่ าความน่ าจะเป็ นด้ านเดียวของการแจกแจงแบบไคสแควร์ (พืนF ทีท< างด้ านขวา)
& ( #
(𝑂!' − 𝐸!' )
𝜒# = G G
𝐸!'
!%" '%"

P-value = 0.01130799
อาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1) ถ้า p-value < 𝛼
เนื*องจาก p-value = 0.01130799 < 𝛼 = 0.05. จึงปฏิเสธสมมติฐานหลัก
ช่องทางในการซืLอมีความสัมพันธ์กบั วิธีการซืLอของลูกค้า 222
ค่ าความน่ าจะเป็ นด้ านเดียวของการแจกแจงแบบไคสแควร์ (พืนF ทีท< างด้ านซ้ าย)
& ( #
(𝑂!' − 𝐸!' )
𝜒# = G G
𝐸!'
!%" '%"

0.98869201

P-value = 1-0.98869201 = 0.01130799


อาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1) ถ้า p-value < 𝛼
เนื*องจาก p-value = 0.01130799 < 𝛼 = 0.05. จึงปฏิเสธสมมติฐานหลัก
ช่องทางในการซืLอมีความสัมพันธ์กบั วิธีการซืLอของลูกค้า 223
ค่ าผกผันของค่ าความน่ าจะเป็ นด้ านซ้ ายของการแจกแจงแบบไคสแควร์
& ( #
(𝑂!' − 𝐸!' )
𝜒# = G G
𝐸!'
!%" '%"

9.48772904

# #
อาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1) ถ้า 𝜒 > 𝜒+'K,M5(G'+)(H'+)
HPQ
# #
เนื*องจาก 𝜒 = 12.00 > 𝜒+'K,M5(G'+)(H'+) = 9.49 จึงปฏิเสธสมมติฐานหลัก
HPQ

ช่องทางในการซืLอมีความสัมพันธ์กบั วิธีการซืLอของลูกค้า 224


ค่ าผกผันของค่ าความน่ าจะเป็ นด้ านขวาของการแจกแจงแบบไคสแควร์
& ( #
(𝑂!' − 𝐸!' )
𝜒# = G G
𝐸!'
!%" '%"

9.48772904

# #
อาณาเขตวิกฤต (ปฏิเสธสมมติฐาน H0 ยอมรับ H1) ถ้า 𝜒 > 𝜒+'K,M5(G'+)(H'+)
HPQ
# #
เนื*องจาก 𝜒 = 12.00 > 𝜒+'K,M5(G'+)(H'+) = 9.49 จึงปฏิเสธสมมติฐานหลัก
HPQ

ช่องทางในการซืLอมีความสัมพันธ์กบั วิธีการซืLอของลูกค้า 225


การผสานข้ อมูล
สาธิตการทดสอบไคแสควร์ ด้วย excel 3
Real Statistics Data Analysis Tool: The Real Statistics Resource Pack provides a Chi-Square
Test for Independence data analysis tool.
https://www.real-statistics.com/chi-square-and-f-distributions/independence-testing/

226
การผสานข้ อมูล
การวิเคราะห์ สหสั มพันธ์
pearson

227
สหสั มพันธ์ (Correlation)
การศึกษาความสัมพันธ์ของตัวแปรเชิงปริ มาณ (quantitative data) ซึ*งอยูใ่ นมาตรวัดที*เป็ นแบบ
อันตรภาค (interval scale) หรื อแบบอัตราส่ วน (ratio scale) 2 ตัวแปร เช่น การศึกษาความสัมพันธ์ของ
รายได้ต่อเดือนของบริ ษทั และรายจ่ายต่อเดือนของบริ ษทั ว่ามีความสัมพันธ์กนั มากน้อยเพียงใด
การวัดความสัมพันธ์แบบนีLเป็ นการวัดที*เรี ยกว่า สหสั มพันธ์ (correlation) และสามารถคํานวณ
ออกมาเป็ นตัวเลข เรี ยกว่า สั มประสิ ทธิSสหสั มพันธ์ (correlation coefficient)
y ความสูงการวิ+งกระโดด

ความสูงการวิ+งกระโดดของผู้หญิง (ฟุต)
6.75

6.5

6.25

6.0

5.75

5.5

5.25

X
6.25 6.5 6.75 7.0 7.25 7.5 7.75 8.0

ความสูงการวิ+งกระโดดของผู้ชาย (ฟุต)
228
สั มประสิ ทธิVสหสั มพันธ์ (Correlation Coefficient)
Assumptions of Correlations
1. Normally distributed data
2. Homogeneity of variance
3. Interval data (at least)

229
สหสั มพันธ์ (Correlation)

การศึกษาความสัมพันธ์มกั นิยมใช้วธิ ีการวัดดังนีC


1. แผนภาพกระจาย (scatter plot)
2. สัมประสิ ทธิPสหสัมพันธ์ (Pearson Product-Moment Correlation Coefficient)

230
แผนภาพกระจาย(scatter plot)
เป็ นการลงจุดคู่ลาํ ดับในแนวระนาบ โคออดิเนด (coordinate plane) ตัวแปรอิสระ x เป็ นมาตรวัดตามแกนนอน
(horizontal axis) และตัวแปรตาม y เป็ นมาตรวัดตามแกนตัGง (vertical axis)
y y y

x x x
r = -1 r = -0.6 r=0
y y

x x
r = +0.3 r = +1
231
สั มประสิ ทธิVสหสั มพันธ์ (Correlation Coefficient)
Pearson’s Sample Correlation Coefficient, r

measures the direction and the strength of the linear


association between two numerical paired variables.

232
สั มประสิ ทธิVสหสั มพันธ์ (Correlation Coefficient)
r value Interpretation
1 perfect positive linear relationship
0 no linear relationship
-1 perfect negative linear relationship

r value (+) Interpretation


0.7-1.0 strong association
0.5-0.6 moderate association
>0.4 weak association

233
การผสานข้ อมูล
การวิเคราะห์ สหสั มพันธ์
ตัวอย่ าง

234
ผูจ้ ดั การฝ่ ายการตลาดได้ดาํ เนินการศึกษาเพื;อพิจารณาว่า มีความสัมพันธ์เชิงเส้นระหว่างเงินที;ใช้ในการโฆษณาและ
ตัวอย่ าง ยอดขายบริ ษทั ข้อมูลถูกแจกแจงในตารางข้างล่าง จงแสดงข้อมูลในแผนภาพกระจายและพิจารณาว่าปรากฏเป็ น
สหสัมพันธ์เชิงเส้นทางบวกหรื อทางลบหรื อไม่มีสหสัมพันธ์

เงินที4ใช้ใน ยอดขายบริ ษทั


การโฆษณา (1000 $),x (1000 $),y
2.4 225
1.6 184
2.0 220
2.6 240
1.4 180
1.6 184
2.0 186
2.2 215 มีสหสัมพันธ์เชิงทางบวกระหว่างตัวแปร
ค่าใช้จ่ายการโฆษณาเพิ;มขึOนยอดขายมีแนวโน้มเพิ;มขึOน
235
ผูจ้ ดั การฝ่ ายการตลาดได้ดาํ เนิ นการศึ กษาเพื;อพิจารณาว่า มี ความสัมพัน ธ์เชิ งเส้น ระหว่างเงิ นที; ใช้ในการโฆษณาและ
ตัวอย่ าง ยอดขายบริ ษ ทั ข้อ มู ล ถู ก แจกแจงในตารางข้า งล่ า ง จงแสดงข้อ มู ล ในแผนภาพกระจายและพิ จ ารณาว่า ปรากฏเป็ น
สหสัมพันธ์เชิงเส้นทางบวกหรื อทางลบหรื อไม่มีสหสัมพันธ์
id x y 𝑥 − 𝑥̅ y − 𝑦% 𝑥 − 𝑥̅ ! y − 𝑦% ! (𝑥 − 𝑥)(y
̅ − 𝑦)
%
1 2.4 225 0.425 20.750 0.181 430.563 8.819
เงินที4ใช้ใน ยอดขายบริ ษทั 2 1.6 184 -0.375 -20.250 0.141 410.063 7.594
3 2 220 0.025 15.750 0.001 248.063 0.394
การโฆษณา (1000 $),x (1000 $),y 4 2.6 240 0.625 35.750 0.391 1278.063 22.344
5 1.4 180 -0.575 -24.250 0.331 588.063 13.944
2.4 225 6 1.6 184 -0.375 -20.250 0.141 410.063 7.594
1.6 184 7 2 186 0.025 -18.250 0.001 333.063 -0.456
8 2.2 215 0.225 10.750 0.051 115.563 2.419
2.0 220 sum 15.8 1634 1.235 3813.5 62.65
2.6 240 mean 1.975 204.25
1.4 180 %
6,
̅
-!#$./! 02)(5 ! 05 62.65
1.6 184 𝑟= % %
=
1.235)(3813.5
= 0.91
-!#$./! 02)̅ & -!#$.5! 05)
6 &
2.0 186
2.2 215 มีสหสัมพันธ์เชิงทางบวกระหว่างตัวแปร
ค่าใช้จ่ายการโฆษณาเพิ;มขึOนยอดขายมีแนวโน้มเพิ;มขึOน
236
การผสานข้ อมูล
การวิเคราะห์ สหสั มพันธ์
Spearman

237
Spearman Rank-Order Correlation Coefficient (rsp)
It is a non-parametric measure of correlation.

This procedure makes use of the two sets of ranks that may be assigned to the sample values of
x and Y.

Spearman Rank correlation coefficient could be computed in the following cases:

• Both variables are quantitative.


• Both variables are qualitative ordinal.
• One variable is quantitative and the other is qualitative ordinal.

238
Spearman Rank-Order Correlation Coefficient (rsp)

239
Example In a study of the relationship between level education and income the
following data was obtained. Find the relationship between them and comment.

level education Income


Sample numbers
(X) (Y)
A Preparatory. 25
B Primary. 10
C University. 8
D secondary 10
E secondary 15
F illiterate 50
G University. 60

240
Example
R AN K R AN K
DI DI2
( X) ( Y) X Y

A Preparatory 25 5 3 2 4

B Primary. 10 6 5.5 0.5 0.25

C University. 8 1.5 7 -5.5 30.25

6 ´ 64
D secondary 10 3.5 5.5 -2 4
rs = 1 - = -0.1
E secondary 15 3.5 4 -0.5 0.25 7(48)
F illiterate 50 7 2 5 25

G university. 60 1.5 1 0.5 0.25

Preparatory – middle school ∑ di2=64


Illiterate-uneducated

241
การผสานข้ อมูล
สาธิตการวิเคราะห์ สหสั มพันธ์ ด้วย excel

242
การวิเคราะห์ สหสั มพันธ์ ด้วย excel

• ฟังก์ ชัน CORREL


• Analysis Toolpak

243
ฟังก์ ชัน CORREL
• =CORREL(array1,array2)
• array1 : array of variable x
• array2: array of variable y

244
Analysis Toolpak

245
Analysis Toolpak

246
การผสานข้ อมูล
สาธิตการวิเคราะห์ สหสั มพันธ์ ด้วย excel

247
การผสานข้ อมูล
Data integration

248
การผสานข้ อมูล (Data integration)
การรวบรวมข้อมูลทัLงหมดจากแหล่งต่าง ๆ มาเก็บไว้ในพืLนที*ปลายทางที*รวบรวมข้อมูลทัLงหมด
เพื*อความสะดวกในการค้นหาและการนําไปใช้งานได้ต่อ โดยพืLนที*ปลายทางนีL อาจจะเป็ นฐานข้อมูล หรื อ
แพลตฟอร์มจัดการข้อมูล ประกอบด้วย
• ย้ายข้อมูล
• แปลงข้อมูล
• ทําสารบัญข้อมูล
• จัดการพืLนที*ขอ้ มูลกลาง

249
การรวมข้ อมูลจากหลายแผ่ นงานด้ วย vLookup
• =VLOOKUP (value, table_array, col_index, [range_lookup])
id mouth sale2019 id mouth sale2020 id mouth sale2020 sale2019
1001 JAN 29496 1001 JAN 18983 =VLOOKUP(A2,Sheet1!A2:C13,3,FALS
1001 JAN 18983
E)
1002 FEB 13347 1002 FEB 21809
1002 FEB 21809 13347
1003 MAR 26476 1003 MAR 34485
1003 MAR 34485 26476
1004 APR 25838 1004 APR 21848 1004 APR 21848 25838
1005 MAY 25881 1005 MAY 14682 1005 MAY 14682 25881
1006 JUN 34350 1006 JUN 30900 1006 JUN 30900 34350
1007 JUL 23493 1007 JUL 19810 1007 JUL 19810 23493
1008 AUG 22259 1008 AUG 28176 1008 AUG 28176 22259
1009 SEP 29901 1009 SEP 19940 1009 SEP 19940 29901
1010 OCT 26707 1010 OCT 32711 1010 OCT 32711 26707
NOV 12468 NOV 12089 1011 NOV 12089 12468
1011 1011
1012 DEC 32111 34525
1012 DEC 34525 1012 DEC 32111

250
การลดขนาดข้ อมูล
Data reduction

251
การลดขนาดข้ อมูล (Data reduction)
การลดมิติขอ้ มูล เพื*อเป็ นตัวแทนข้อมูลทัLงหมด ประกอบด้วย
• การรวมข้อมูล (Data Aggregation)
• การทําให้ขอ้ มูลเป็ นแบบไม่ต่อเนื*อง (Discretization)
• การลดรู ปข้อมูล (Numerosity Reduction)
• การลดมิติขอ้ มูล (Dimensionality Reduction) : Feature Selection และ Feature Extraction

252
การรวมข้ อมูล (Aggregation)
• เป็ นการลดรู ปข้อมูลโดยใช้การแทนข้อมูลหลายมิติให้เหลือมิตินอ้ ยลง

Month/Year sale
Jan-18 Month/Year
1528700 sale
Feb-18 Jan-19
696360 2658680
Feb-19 2320150
Q/Y sale
Mar-18 1696100
Mar-19 2604185 1/2018 3921160
Apr-18 1504860
May-18 Apr-19
2759685 1001460 2/2018 7524095 year sale
Jun-18 May-19
3259550 2643965 3/2018 8404357
Q/Y sale 2018 28920612
Jul-18 Jun-19
1810632 1980000 4/2018 9071000
1/2019 7583015 2019 30276445
Aug-18 Jul-19
3963340 2053145 2/2019 5625425
Sep-18 Aug-19
2630385 3053400 3/2019 7729245
Oct-18 Sep-19
2613450 2622700 4/2019 9338760
Nov-18 Oct-19
3873040 3324460
Dec-18 Nov-19
2584510 2355100
Dec-19 3659200

253
Discretization
เป็ นการแปลงข้อมูลตัวเลข (numeric) ให้เป็ นข้อมูลกลุ่ม (nominal)

GPA แบ&งตามเงื่อนไขที่กำหนด แบ&งตามช&วงของข:อมูลที่เท&ากัน


2.50 >3.00 >3.43
2.70 2.01-2.99 3.12-3.43
3.35 <2.00 2.81-3.11
3.75 <2.81
3.15 (2.50-3.75)

254
Numerosity Reduction
การหาค่าตัวแทนของกลุ่ม เพื:อมาใช้แทนค่าต่าง ๆ ในกลุ่ม ประกอบด้วย
1. วิธีการทางพารามิเตอร์ เช่น การวิเคราะห์การถดถอย (regression analysis)
2. วิธีการแบบไม่มีพารามิเตอร์ เช่น การวิเคราะห์กลุ่ม (clustering method) การสุ่ มตัวอย่าง
(sampling method)

255
การลดมิตขิ ้ อมูล (Dimensionality Reduction)
• การลดขนาดของข้อมูลหรื อมิ ติของ ข้อมูลที* ไม่เกี* ยวข้อง หรื อเกี* ยวข้องน้อยที* ไม่ตอ้ งการ และไม่มี
ความสําคัญต่อการค้นหารู ปแบบที*สนใจ
• การลดมิติขอ้ มูล มี 2 ประเภท
• การเลือกคุณลักษณะ (Feature Selection) คือ การเลือกตัวแปรที*มีความสําคัญเป็ นตัวแทน
• การสกัดคุณลักษณะ (Feature Extraction) คือ กระบวนการแปลงข้อมูลให้อยูใ่ นรู ปแบบที*สามารถ
นําไปใช้งาน

256
การลดขนาดข้อมูล: การรวมข.อมูล
Data reduction: Aggregation

257
การรวมข้ อมูล (Aggregation)
• เป็ นการลดรู ปข้ อมูลโดยใช้ การแทนข้ อมูลหลายมิตใิ ห้ เหลือมิตนิ ้ อยลง

Month/Year sale
Month/Year sale
Jan-18 1528700
Jan-19 2658680
Feb-18 696360 Q/Y sale
Feb-19 2320150
Mar-18 1696100
Mar-19 2604185 1/2018 3921160
Apr-18 1504860
May-18
Apr-19
2759685
1001460 2/2018 7524095 year sale
May-19 2643965 3/2018 8404357
Q/Y sale
Jun-18 3259550 2018 28920612
Jun-19 1980000 4/2018 9071000
1/2019 7583015
Jul-18 1810632 2019 30276445
Jul-19 2053145 2/2019 5625425
Aug-18 3963340
Aug-19 3053400
Sep-18 2630385 3/2019 7729245
Sep-19 2622700
Oct-18 2613450 4/2019 9338760
Oct-19 3324460
Nov-18 3873040
Nov-19 2355100
Dec-18 2584510
Dec-19 3659200

258
การรวมข้ อมูล (Aggregation) ด้ วย excel
• Data -> Consolidate

เลือกฟังก์ ชั;น ในการผสานข้ อมูล

เลือกแหล่ งข้ อมูลอ้ างอิง สามารถผสานหลาย sheet ในไฟล์ เดียวกันหรื อจากไฟล์ อื;นก็ได้

เลือกแหล่ งข้ อมูลหลายส่ วนสามารถกดadd เพิม; ได้ หลายๆครัNง


และสามารถลบส่ วนทีไ; ม่ ได้ ใช้ ออกได้
เลือกแถวหรื อคอลัมน์ ของ labels.
คลิกช่องเดียวหรื อทัDง 2 ช่อง "Top row" และ/
หรื อ "Left column“ ตัวเลือกนีD ข้อมูลที, consolidate จะอัพเดทอัตโนมัติ
เพื,อเลือกแถวหรื อคอลัมน์ที,มี labels เวลาหนึ,งในแหล่งข้อมูลอ้างอิงมีการอัพเดท
ถ้าไม่เลือกช่องไหนเลย Excel จะ consolidate
เซลล์ทD งั หมดในตําแหน่งเดียวกัน

259
การรวมข้ อมูล (Aggregation) ด้ วย excel
• Consolidate
mouth price data base years mouth price data base years price
JAN 29496 data base A 2019 JAN 18983 data base B 2019 JAN 48479
FEB 13347 data base A 2019 FEB 21809 data base B 2019 FEB 35156
MAR 26476 data base A 2019 MAR 34485 data base B 2019 MAR 60961
APR 25838 data base A 2019 APR 21848 data base B 2019 APR 47686
MAY 25881 data base A 2019 MAY 14682 data base B 2019 MAY 40563
JUN 34350 data base A 2019 JUN 30900 data base B 2019 JUN 65250
JUL 23493 data base A 2019 JUL 19810 data base B 2019 JUL 43303
AUG 22259 data base A 2019 AUG 28176 data base B 2019 AUG 50435
SEP 29901 data base A 2019 SEP 19940 data base B 2019 SEP 49841
OCT 26707 data base A 2019 OCT 32711 data base B 2019 OCT 59418
NOV 12468 data base A 2019 NOV 12089 data base B 2019 NOV 24557
DEC 34525 data base A 2019 DEC 66636
DEC 32111 data base B 2019
260
การรวมข้อมูล (Aggregation) ด้วย excel
• Insert -> Pivot Table

เลือกแหล่ งข้ อมูลอ้ างอิง เลือกได้ เพียงตารางเดียว

สร้ างตาราง pivot ในชีทหน้ าใหม่

ระบุตาราง pivot ในชีทหน้ าปัจจุบัยหรื อหน้ าอื;นๆทีม; อี ยู่แล้ ว

261
การรวมข้ อมูล (Aggregation) ด้ วย excel
• Insert -> Pivot Table mouth
JAN
price
29496
data base
data base A
years
2019
Row Labels Sum of price
FEB 13347 data base A 2019 JAN 48479
MAR 26476 data base A 2019 FEB 35156
APR 25838 data base A 2019
MAY 25881 data base A 2019 MAR 60961
JUN 34350 data base A 2019 APR 47686
JUL 23493 data base A 2019
AUG 22259 data base A 2019 MAY 40563
SEP 29901 data base A 2019 JUN 65250
OCT 26707 data base A 2019
NOV 12468 data base A 2019 JUL 43303
DEC 34525 data base A 2019 AUG 50435
JAN 18983 data base B 2019
FEB 21809 data base B 2019 SEP 49841
MAR 34485 data base B 2019 OCT 59418
APR 21848 data base B 2019
MAY 14682 data base B 2019 NOV 24557
JUN 30900 data base B 2019 DEC 66636
JUL 19810 data base B 2019
AUG 28176 data base B 2019 Grand Total 592285
SEP 19940 data base B 2019
OCT 32711 data base B 2019
NOV 12089 data base B 2019
DEC 32111 data base B 2019
262
สาธิตการรวมข้ อมูล (Aggregation) ด้ วย excel
• Consolidate • Insert -> Pivot Table
mouth price data base years
mouth price data base years mouth price data base years JAN 29496 data base A 2019
JAN 29496 data base A 2019 JAN 18983 data base B 2019 FEB
MAR
13347
26476
data base A
data base A
2019
2019
FEB 13347 data base A 2019 FEB 21809 data base B 2019 APR 25838 data base A 2019
MAY 25881 data base A 2019
MAR 26476 data base A 2019 MAR 34485 data base B 2019 JUN 34350 data base A 2019
JUL 23493 data base A 2019
APR 25838 data base A 2019 APR 21848 data base B 2019 AUG 22259 data base A 2019
SEP 29901 data base A 2019
MAY 25881 data base A 2019 MAY 14682 data base B 2019 OCT 26707 data base A 2019
JUN 34350 data base A 2019 JUN 30900 data base B 2019 NOV 12468 data base A 2019
DEC 34525 data base A 2019
JUL 23493 data base A 2019 JUL 19810 data base B 2019 JAN 18983 data base B 2019
FEB 21809 data base B 2019
AUG 22259 data base A 2019 AUG 28176 data base B 2019 MAR 34485 data base B 2019
APR 21848 data base B 2019
SEP 29901 data base A 2019 SEP 19940 data base B 2019 MAY 14682 data base B 2019
OCT 26707 data base A 2019 OCT 32711 data base B 2019 JUN
JUL
30900
19810
data base B
data base B
2019
2019
NOV 12468 data base A 2019 NOV 12089 data base B 2019 AUG 28176 data base B 2019
SEP 19940 data base B 2019
DEC 34525 data base A 2019 DEC 32111 data base B 2019 OCT 32711 data base B 2019
NOV 12089 data base B 2019
DEC 32111 data base B 2019 263
การลดขนาดข้ อมูล: การลดมิตขิ ้ อมูล
Data reduction: Dimensionality Reduction

264
การลดมิตขิ ้ อมูล (Dimensionality Reduction)
• การลดขนาดของข้อมูลหรื อมิติของ ข้อมูลที*ไม่เกี*ยวข้อง หรื อเกี*ยวข้องน้อยที*ไม่ตอ้ งการ และไม่มี
ความสําคัญต่อการค้นหารู ปแบบที*สนใจ
• การลดมิติขอ้ มูล มี 2 ประเภท
• การเลือกคุณลักษณะ (Feature Selection) คือ การเลือกตัวแปรที*มีความสําคัญเป็ นตัวแทน
• การสกัด คุ ณ ลัก ษณะ (Feature Extraction) คื อ กระบวนการแปลงข้อ มู ล ให้อ ยู่ใ นรู ป แบบที*
สามารถนําไปใช้งาน

265
การสกัดคุณลักษณะ: การวิเคราะห์ องค์ ประกอบหลัก
• Reducing the dimensionality by extracting the smallest number components that account for most of the variation in the
original multivariate data and to summarize the data with little loss of information.
• Visualize multidimensional data as 2- or 3-dimensional plots.
• Feature extraction as part of data preprocessing.
• Reduce noises
• Reduce computation times
• The uncorrelated components are linear combinations of original variables.

10
p k
8

4
n A n X
2

0
0 2 4 6 8 10

266
การสกัดคุณลักษณะ: การวิเคราะห์ องค์ ประกอบหลัก
principal component methods

Quantitative Qualitative Mixed data

CA MCA
PCA (2 variables or 2 (>2 variables or > 2 FAMD/MFA
categories) categories)

Source: Alboukadel KASSAMBARA. Practical Guide to Principal Component Methods in R.


267
The PCA algorithm

Data matrix (n×p)

Calculate covariance Calculate correlation


matrix matrix

Calculate eigenvalue Calculate % of total


Choose number of Pcs Calculate PC s
and eigenvector variance for each PC j

Singular value
decomposition Generate plots

268
Principle components
• The eigenvalues measure the amount of variation retained by each principal component.
• Eigenvalues are largest for the first PCs and smaller for the subsequent PCs.
• Criteria:
• eigenvalue > 1
• The total variance > 70%
∑&
!"# M!
• only PC if 𝜆! > N

269
การลดขนาดข้ อมูล: ตัวอย่ างการวิเคราะห์
องค์ ประกอบหลัก
Data reduction: Principal Components Analysis Example

270
Credit Card Dataset
• The sample Dataset summarizes the usage behavior of about 9000 active credit card holders during the last
6 months.
• The file is at a customer level with 18 behavioral variables.
• Reference: https://www.kaggle.com/arjunbhasin2013/ccdata

271
Data Dictionary
• CUST_ID : Identification of Credit Card holder (Categorical)
• BALANCE : Balance amount left in their account to make purchases

• BALANCE_FREQUENCY : How frequently the Balance is updated, score between 0 and 1 (1 = frequently updated, 0 = not frequently updated)

• PURCHASES : Amount of purchases made from account


• ONEOFF_PURCHASES : Maximum purchase amount done in one-go

• INSTALLMENTS_PURCHASES : Amount of purchase done in installment


• CASH_ADVANCE : Cash in advance given by the user
• PURCHASES_FREQUENCY : How frequently the Purchases are being made, score between 0 and 1 (1 = frequently purchased, 0 = not frequently purchased)

• ONEOFFPURCHASESFREQUENCY : How frequently Purchases are happening in one-go (1 = frequently purchased, 0 = not frequently purchased)

• PURCHASESINSTALLMENTSFREQUENCY : How frequently purchases in installments are being done (1 = frequently done, 0 = not frequently done)
• CASHADVANCEFREQUENCY : How frequently the cash in advance being paid

• CASHADVANCETRX : Number of Transactions made with "Cash in Advanced"

• PURCHASES_TRX : Number of purchase transactions made


• CREDIT_LIMIT : Limit of Credit Card for user

• PAYMENTS : Amount of Payment done by user


• MINIMUM_PAYMENTS : Minimum amount of payments made by user

• PRCFULLPAYMENT : Percent of full payment paid by user

• TENURE : Tenure of credit card service for user

272
Data

273
Data Preprocessing
• Remove unnecessary variables
• Check for missing values
• Check for outliers
• Check for correlation

274
PCA

About 70.13% of the variation is explained by the first five eigenvalues together
275
The correlation between a variable and a principal component (PC)
Varibales Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
BALANCE 0.218 0.750 0.196 -0.320 0.049
BALANCE_FREQUENCY 0.259 0.243 0.514 -0.169 -0.500
PURCHASES 0.887 0.076 -0.315 -0.044 0.032
ONEOFF_PURCHASES 0.746 0.117 -0.479 -0.088 -0.161
INSTALLMENTS_PURCHASES 0.725 -0.034 0.135 0.058 0.372
CASH_ADVANCE -0.050 0.816 0.033 0.287 0.100
PURCHASES_FREQUENCY 0.692 -0.354 0.458 0.213 -0.095
ONEOFF_PURCHASES_FREQUENCY 0.635 -0.033 -0.141 -0.031 -0.548
PURCHASES_INSTALLMENTS_FREQUENCY 0.592 -0.332 0.579 0.242 0.186
CASH_ADVANCE_FREQUENCY -0.192 0.806 0.133 0.298 -0.142
CASH_ADVANCE_TRX -0.105 0.780 0.141 0.369 -0.081
PURCHASES_TRX 0.842 -0.036 0.095 0.020 -0.031
CREDIT_LIMIT 0.456 0.443 -0.123 -0.148 0.076
PAYMENTS 0.573 0.478 -0.338 0.129 0.200
MINIMUM_PAYMENTS 0.130 0.310 0.271 -0.454 0.445
PRC_FULL_PAYMENT 0.285 -0.353 -0.153 0.479 0.141
TENURE 0.175 -0.008 0.079 -0.491 -0.040

276
Variable correlation plots Cluster plots

277

You might also like