You are on page 1of 135

1

ค่าสถิติเชิงพรรณนาสำาหรับข้อมูลเชิง
ปริมาณ
2

6.1 ค่าสถิตเิ ชิงพรรณนาสำาหรับ


ข้อมูลเชิงปริมาณตัวเดียว
ตัวอย่าง นั กจิตวิทยาต้องการทดสอบประสิทธิภาพ
ของวิธีการจดจำาแบบใหม่ สำาหรับนั กศึกษาระดับ
ปริญญาตรี เขาได้ส่มตัวอย่างนั กศึกษามา 15 คนแล้ว
สอนให้จดจำาคำาศัพท์ด้วยวิธีใหม่ หลังจากนั้ นให้
นั กศึกษาทำาการทดสอบผลโดยให้คำาศัพท์ 10 คำา
แล้วนั บจำานวนคำาที่ตอบได้ถูกต้องของแต่ละคน ได้
ผล ดังนี้
4 6 3 5 5 4 7 5 6 4 6 6 4 3 7
3

เริม
่ จัดเรียงค่าข้อมูล
3 3 4 4 4 4 5 5 5 6 6 6 6 7 7
• ค่าตำ่าส่ด = 3 คำา หรือมีนักศึกษาสามารถจำาได้เพียง
3 คำาอยู่ 2 คน
• ค่าสูงส่ด = 7 คำา หรือ มีนักศึกษาสามารถจำาได้
สูงส่ดถึง 7 คำาอยู่ 2 คน
• ความแตกต่างระหว่างผู้ท่ีจำาได้มากที่ส่ดและผู้ท่จ
ี ำาได้
น้อยที่ส่ดหรือ พิสัย = 7 − 3 = 4 คำา
4

• นำาข้อมูลมาทำา stem-and-leaf plot เพื่อดูการกระ


จายของคะแนน พบว่ามีผู้จำาได้ 4 คำา และ 6 คำา
อย่างละ 4 คน ส่วนอีก 3 คนจำาได้ 5 คำา ค่าที่อยู่
ตรงกลางของ
ข้อมูลทั้งหมดแบ่งเป็ น 5 ส่วน ค่าอื่นๆ จะกระจาย
ออกจากค่ากลางไปทั้งสองด้านอย่างสมำ่าเสมอและ
ค่อนข้างเกาะกล่่มกัน
3 3 4 4 4 4 5 5 5 6 6 6 6 7 7
5

ค่าสร่ปลักษณะสำาคัญต่างๆ ของข้อมูลทั้ง
ประชากรเรียกว่า พารามิเตอร์
ส่วนค่าสร่ปลักษณะสำาคัญต่างๆของข้อมูล
ตัวอย่างเรียกว่า ค่าสถิติ
6

การวัดแนวโน้มเข้าสู่ส่วนกลาง
(Measure of Central Tendency)
• ค่ากลางของข้อมูลหมายถึงค่าที่แสดงเป็ นตัวแทน
ของข้อมูลทั้งกล่่ม
• การพิจารณาค่ากลางจึงมีได้หลายวิธีข้ ึนอยู่กับ
ข้อมูล
ซึ่งแบ่งเป็ น 3 ชนิ ด
* ค่าเฉลี่ย
* ฐานนิ ยม
* มัธยฐาน
7

ค่าเฉลีย่ (Arithmetic Mean or


Mean)
หมายถึงค่าที่ทำาให้ขอ
้ มูลเกิดความสมด่ล เมื่อเรานำา ข้อมูลมาวาง

เรียงบนคานและให้ค่าเหล่านั้ นคือนำ้าหนั กที่ถ่วงคานไว้ ตำาแหน่งที่
คานได้สมด่ล ค่า ณ จ่ดนั้ น เรียกค่าเฉลี่ยเลขคณิ ตหรือเรียกสั้นๆ ว่า
ค่าเฉลี่ย สำาหรับค่าเฉลี่ยตัวอย่าง (Sample Mean) จะใช้สัญลักษณ์
• ส่วนค่าเฉลี่ยประชากรใช้สัญลักษณ์ μ (อ่านว่า มิว) x
8
9
10

ตัวอย่าง ถ้าต้องการทราบกำาลังแรงเฉลีย ่ ที ่
ใช้ดึงรอยต่อจนกระทัง่ รอยต่อหัก หรือ หลุด
ออกจากแผง จากข้อมูลทีม ่ ีอยู่ทัง้ หมด 98
ค่าได้ดังนี ้
11

ตัวอย่าง
คะแนนสอบพิมพ์ดีด ของบริษัทหนึ่ งจำานวน 10 คน
68 72 91 4752 75 63 55 65 35
จงหาคะแนนเฉลี่ย
คะแนนเฉลี่ย = = (68 + 72
+91+47+52+75+63+55+65+35)/10
x
= 623/10 = 62.3
12

ตัวอย่าง
จงหาส่วนสูงเฉลี่ยของนั กศึกษา 5 คนดังนี้
170 151 154 160 158
13

ส่วนสูงเฉลี่ย = (170
+151+154+160+158) /5
= 793/5 =
158.6
14

ฐานนิ ยมตัวอย่าง (Sample Mode)


หมายถึงค่าข้อมูลที่เกิดขึ้นบ่อยที่สุดหรือมี
ความถี่สูงสุด ของข้อมูลตัวอย่าง ถ้าข้อมูล
จัดในลักษณะเป็ นช่วงๆ ช่วงที่มีความถี่
สูงส่ดเรียก ฐานนิ ยม ข้อมูลชุดหนึ่ งๆ อาจ
ไม่มฐี านนิ ยมหรือมีฐานนิ ยมได้หลายค่า
15

จากรูป นี้ มีฐานนิ ยม 2 ค่า ดูจากแท่ง


histogram สูงส่ด มี 2 แท่ง
กราฟที่มฐ
ี านนิ ยมค่าเดียวว่า Unimodal
ถ้ากราฟมีฐานนิ ยมสองค่าเรียกว่า Bimodal
16

ตัวอย่าง
จงหาฐานนิ ยมของข้อมูลต่อไปนี้
1.68 72 91 47 52 75 63 55
ไม่มีฐานนิ ยม
2.63.8 63.9 64.1 64.2 64.2 64.2 64.2 64.3 64.3
ฐานนิ ยม = 64.2
3. 57 59 59 59 60 60 60 61 61
ฐานนิ ยม = 59 และ 60
17

มัธยฐานตัวอย่าง (Sample
Median)
หมายถึงค่าที่อยู่ ณ ตำาแหน่งกึ่งกลางของ
ข้อมูลตัวอย่างที่เรียงลำาดับแล้ว ดังนั้ นจะมี
จำานวนค่าสังเกตครึง่ หนึ่ งมีค่าน้อยกว่า
มัธยฐาน และมีจำานวนค่าสังเกตอีกครึง่
หนึ่ งมีค่ามากกว่ามัธยฐาน
18

มัธยฐาน

ตำาแหน่งที่มัธยฐานอยู่ คือ (จำานวนข้อมูล + 1) / 2


19

จงหามัธยฐานของข้อมูลต่อไปนี้
68 72 91 47 52 75 63 55
เรียงลำาดับข้อมูลได้คือ
47 52 55 63 68 72 75 91
ตำาแหน่งที่มธั ยฐานอยู่ = (จำานวนข้อมูล + 1) / 2 = (8+1)/2
คือ ตำาแหน่งที่ 9/2 = 4.5
มัธยฐาน = (63+68)/2 = 65.5
20

จงหามัธยฐานของข้อมูล
ต่อไปนี้
63.9 64.1 64.2 63.8 64.2
เรียงลำาดับข้อมูลดังนี้
63.8 63.9 64.1 64.2 64.2
ตำาแหน่งที่มัธยฐานอยู่ = (จำานวนข้อมูล + 1) / 2 =
(5+1)/2
คือ ตำาแหน่งที่ 6/2 = 3
มัธยฐาน = 64.1
21

การวัดค่าสถิติ ณ ตำาแหน่งอื่นๆ ทีไ่ ม่ใช่


ค่ากลาง
(Measures of Noncentral Location)
กรณี ท่ีมีข้อมูลช่ดใหญ่มีค่าสังเกตมาก นอกจากการวัดค่ากลาง
แล้วยังนิ ยมวัดค่าในตำาแหน่งอื่นๆ โดยเรียงลำาดับข้อมูลก่อนจาก
น้อยไปมากและแบ่งออกเป็ นส่วนๆ ให้เท่ากัน
แบ่งออกเป็ น 100 ส่วนเรียก เปอร์เซ็นต์ไทล์ (Percentiles)
แบ่งออกเป็ น 10 ส่วนเรียก เดไซล์ (Decile)
แบ่งออกเป็ น 4 ส่วนเรียก ควอร์ไทล์ (Quartiles)
22

เปอร์เซ็นต์ไทล์
แบ่งข้อมูลที่เรียงลำาดับแล้วออกเป็ น 100 ส่วน
แต่ละส่วนมีจำานวนข้อมูลเท่าๆ กัน ค่าที่ตรงกับ
จ่ดทั้ง 99 จ่ด จากน้อยไปมาก เรียกค่าของ
ข้อมูล ณ ตำาแหน่งนั้ นๆ ว่า เปอร์เซ็นต์ไทล์ท่ี
หนึ่ ง (P1) เปอร์เซ็นต์ไทล์ท่ีสอง (P2) … และ
เปอร์เซ็นต์ไทล์ท่ี 99 (P99 ) ตามลำาดับ
23

าของข้อมูล ณ ตำาแหน่ง เปอร์เซ็นต์ไทล์ท่ี r


r% ของจำานวนค่าสังเกตทั้งหมดมีค่าน้อยกว่า Pr
มาณ (100- r)% ของจำานวนค่าสังเกตทั้งหมดมีค่ามา
24

ถ้ามีนักศึกษาสอบวิชาสถิติ 200 คน นายขยันสอบนี้ ได้


80 คะแนนและอยู่ในตำาแหน่งเปอร์เซ็นต์ไทล์ท่ี 86
กำาหนดเป็ น P86 = 80 คะแนน
แสดงว่า นายขยันสอบได้คะแนนดีกว่านั กศึกษาอื่นๆ ถึง
0.86× 200 = 172 คน
และสอบได้คะแนนตำ่ากว่านั กศึกษาอื่นๆ เพียง
0.14× 200 = 28 คน
25

เดไซล์
แบ่งข้อมูลที่เรียงลำาดับแล้วออกเป็ น 10 ส่วน แต่ละ
ส่วนมีจำานวนข้อมูลเท่าๆ กัน ค่าที่ตรงกับจ่ดทั้ง 9
จ่ด จากน้อยไปมาก
26

ควอไทล์
ถ้าเรียงข้อมูลช่ดหนึ่ ง โดยเรียงลำาดับจากค่าน้อยไปหาค่ามาก เรา
สามารถใช้จ่ด 3 จ่ดแบ่งข้อมูลออกเป็ น 4 ส่วน แต่ละส่วนมี
จำานวนข้อมูลเท่าๆ กัน ค่าที่ตรงกับจ่ดทั้ง 3 จ่ด จากน้อยไปมาก
เรียกค่าของข้อมูล ณ ตำาแหน่งนั้ นๆ ว่า ควอไทล์ท่ีหนึ่ ง (Q1) ควอ
ไทล์ท่ีสอง (Q2) และ ควอไทล์ท่ี 3 (Q3
27
28

ควอร์ไทล์ (Quartiles)ที ่ 1 : Q1
• หมายถึงค่าในข้อมูลช่ดนี้ จำานวน 25% หรือประมาณ 1/4 ของ
จำานวนค่าสังเกตทั้งหมดมีค่าน้อยกว่า Q1 และมีอีก 75% หรือประมาณ 3/4
ของจำานวนค่าสังเกตทั้งหมดมีค่ามากกว่า Q1
เช่น ถ้ามีนักศึกษาสอบวิชาสถิติ 200 คน นายสายบ้าง สอบได้ 42 คะแนน
และอยู่ในตำาแหน่ง Q1 นั ่นคือ Q1 = 42 คะแนน แสดงว่า นายสายบ้าง
สอบได้คะแนนดีกว่านั กศึกษาอื่นๆ เพียง 0.25× 200 = 50 คน และสอบ
ได้คะแนนตำ่ากว่านั กศึกษาอื่นๆ 0.75× 200 = 150 คน
29
30

ควอร์ไทล์ (Quartiles)ที ่ 3 : Q3
• หมายถึงค่าในข้อมูลช่ดนี้ จำานวน 75% หรือประมาณ 3/4 ของ
จำานวนค่าสังเกตทั้งหมดมีคา่ น้อยกว่า Q3 และมีอีก 25% หรือประมาณ 1/4ของ
จำานวนค่าสังเกตทั้งหมดมีค่ามากกว่า Q3
เช่น ถ้ามีนักศึกษาสอบวิชาสถิติ 200 คน นายสมำ่าเสมอ สอบได้ 74 คะแนนและ
อยู่ในตำาแหน่ง Q3 นั่นคือ Q3 = 74 คะแนน
แสดงว่า นายสมำ่าเสมอ สอบได้คะแนนดีกว่านั กศึกษาอื่นๆ ถึง
0.75× 200 = 150 คน และสอบได้คะแนนตำา่ กว่านั กศึกษาอื่นๆเพียง 0.25× 200
= 50 คน
31
32

ข้อสังเกต :
1. จะมีนักศึกษา 100 คนที่มีคะแนนอยู่ในช่วง
42 ถึง 74 คะแนน และเราเรียกระยะห่าง
(Q3 − Q1) = 74 − 42 = 32 คะแนน ว่า
พิสัยระหว่างควอร์ไทล์ (Interquartile Range :
IQR)
33

2. ในกรณี ท่ีสามารถหาตำาแหน่งที่ได้ลงตัว ค่าควอร์ไทล์


คือ ค่าสังเกต ณ ตำาแหน่งนั้ น เช่น
34

3. ในกรณี ท่ีไม่สามารถหาตำาแหน่งที่ลงตัวได้ แต่ได้


ตำาแหน่งกึ่งกลาง ค่าควอร์ไทล์ คือค่าเฉลี่ยของค่า
สังตำ
เกตสองค่
าแหน่างติดQกัน คื
ณอตำาแหน่งนั้ น
1
เช่น n = 17
= 4.5
ตำาแหน่ง Q1 คือ
= 13.5
35

4. ในกรณี ท่ีไม่สามารถหาตำาแหน่งที่ลงตัวได้ และไม่ได้


ตำาแหน่งกึ่งกลาง ให้ปัดเป็ นจำานวนเต็มที่ใกล้เคียงที่ส่ด
เช่นตำาnแหน่
= 18ง Q1 คือ =
4.75 ≈ 5
Q 1 = x5

ตำาแหน่ง Q1 คือ
= 14.25 ≈ 14

และ Q3 = x14
36

ตัวอย่าง 6.3
จากการทดสอบกับนั กศึกษากล่่มหนึ่ งได้ผลดังนี้
6 3 8 5 9 7 0 1 7 6 5 9 2 4 3
37
38

จากกราฟ stem-and-leaf และ ฮิสโทแกรม เราสามารถอ่านค่าต่างๆได้ดังนี้


ค่าตำ่าส่ด = 0 ค่าสูงส่ด = 9 มัธยฐาน = 5 Q1= 3 Q3 = 7
39

จากข้อมูลต่อไปนี้
68 72 91 47 52 75 63 55
จงหา 1. ค่าเฉลี่ย 2. มัธยฐาน 3. Q1 4. Q3
40

ค่าฉลี่ย =
= 68
เรียงลำาดับข้อมูล :
47 52 55 63 68 72 75 91

ตำาแหน่ง มัธยฐาน = = 4.5


8 +1
2
มัธยฐาน = 68
ฐานนิ ยม ไม่มี
41

4752 55 63 68 72 75
91 8 +1
ตำาแหน่ง Q1 คือ4 = 2.25 ≈ 2
Q1 = 52
8 +1
ตำาแหน่ง Q3 คือ4 3( ) = 6.75 ≈ 7
Q3 = 75
IQR = Q3 - Q1 = 75 – 52 = 23
42

ตัวอย่าง
คะแนนสอบพิมพ์ดีด (หน่วย:จำานวนคำาต่อนาที) ของผู้สมัครตำาแหน่งผู้
บันทึกข้อมูล(Data Entry) ของบริษัทหนึ่ งจำานวน 20 คน
68 72 91 47 52 75 63 55 65 35
84 45 58 61 69 22 46 55 66 71

ผลการคำานวณ ด้วย EXCEL ดังนี้


43

จงอ่านผลลัพธ์ท่ีได้
44
45

พิสัย(Range)
คือ ค่าที่บอกความแตกต่างระหว่างค่าสูงสุดกับค่าตำา่ สุด

นอกจากค่ากลางแล้วค่าอื่นๆ กระจัดกระจายห่างจากค่ากลางมาก
น้อยเพียงไรด้วย
46

แสดงว่า ข้อมูลในกล่่มที่ 2 กระจายมากกว่าหรือมีคา่


หลากหลายกว่ากล่่มที่ 1 คำาถามต่อมาคือ เราทราบค่า
พิสัยเพิ่มขึ้นมาแล้วได้ภาพสร่ปที่ชัดเจนพอเพียงหรือยัง
ถ้าเราลองมาเปลี่ยนแปลงข้อมูลในกล่่มที่ 1 เพียงเล็ก
น้อยโดยให้คา่ สถิตอิ ่ ืนๆ คงเดิมเปลี่ยนเฉพาะพิสัย = 9
47

เรายังเห็นว่าข้อมูลมีการกระจายต่างกัน แสดงว่าทราบ
พิสัยก็ยังไม่เพียงพอ
48

ส่วนเบีย
่ งเบนมาตรฐานตัวอย่าง
(Sample Standard Deviation)
พิสัยเปลี่ยนแปลงง่ายถ้าเพียงแต่คา่ ตำ่าส่ด หรือ ค่าสูงส่ด
เปลี่ยนแปลง โดยที่
ข้อมูลที่เหลือทั้งหมดไม่เปลี่ยนแปลง ดังนั้ นการวัดการกระ
จายของข้อมูลจึงน่าจะนำาค่าอื่นๆ ในข้อมูลมาพิจารณา
ร่วมด้วย ซึ่งค่าที่ใช้วัดการกระจายนั้ นน่าจะเป็ นค่าที่
เกี่ยวข้องกับระยะห่างของค่าสังเกตแต่ละค่ากับค่ากลาง
49

วิธีหนึ่ งซึ่งน่าจะใช้ได้คือพิจารณาค่าเฉลี่ยของระยะห่าง
ของค่าสั∑งเกตแต่ ละค่ากับค่าเฉลี่ย
n
(x − x)
i
i =1

แต่พบว่าผลรวมของระยะห่างของค่าสังเกตแต่ละค่า
กับค่าเฉลี่ยเท่ากับ 0 เสมอ ทำาให้ไม่สามารถบอกอะไร
ได้ จึงมีขอ้ เสนอใหม่ให้ค∑ด
ิ |เฉพาะขนาดของระยะห่ าง
n
x −x| i

เท่านั้ นไม่นำาทิศทางมาคิด n
i =1

งจะมีคา่ มากถ้าข้อมูลมีการกระจายมาก

แต่วิธีน้ ี ไม่เป็ นที่นิยม


50

ค่าที่นิยมใช้กันเป็ นรากที่สองของผลรวมของกำาลังสองของระยะห่างระหว่างค่าสังเกต
กับค่าเฉลี่ย เรียก ส่วนเบี่ยงเบนมาตรฐานตัวอย่าง (Sample Standard Deviation
หรือ SD) และใช้สัญลักษณ์ S และเรียก S2 ว่า
ความแปรปรวนตัวอย่าง (Sample Variance) มีสูตรดังนี้

ความแปรปรวน ส่วนเบีย
่ งเบนมาตรฐาน
ตัวอย่าง ตัวอย่าง
n n
2
∑ (xi − x) ∑ (xi − x) 2
(Samplei=1Variance) (Sample Standard
i=1
n− 1
Deviation
n− 1
หรือ SD)
S2 = S =
51
52

ข้อมูลทัง้ สองกลุ่มมีคา ่ เฉลีย


่ เท่ากัน
แต่ข้อมูลกลุ่มที ่ 2 มีค่าหลากหลายและอยู่หา
่ งจากค่า
เฉลีย่ มากกว่ากลุ่มที ่ 1
แสดงว่าความสามารถในการจดจำาคำาศัพท์ของนักศึกษาใน
กลุ่มที ่ 1 มีความคล้ายคลึงกัน
มากกว่านักศึกษาในกลุ่มที ่ 2
53

ข้อสังเกต :
1. การคำานวณส่วนเบี่ยงเบนมาตรฐานตัวอย่างนำาค่าสังเกตท่กๆค่ามาพิจารณา
ว่าห่างจากค่าเฉลี่ยมากน้อยเพียงไร ดังนั้ นถ้าข้อมูลมีการกระจายมาก ค่า S
ก็จะมากตาม
2. การหาค่าเฉลี่ยของกำาลังสองของระยะห่างระหว่างค่าสังเกตกับค่าเฉลี่ยนั้ น
หารด้วย (n-1) แทนที่จะหารด้วย n ซึ่งการหารด้วย n-1 ทำาให้ได้ค่าที่
ใช้ในการประมาณค่าเบี่ยงเบนมาตรฐานของประชากรได้แม่นยำากว่า
3. ถ้าค่าสังเกตมีค่าเท่ากันท่กๆค่า จะได้ว่า พิสย
ั = 0 , S = 0 และ S2 = 0
4. S ≥ 0 และ S2 ≥ 0
54

ตัวอย่าง
จากข้อมูลต่อไปนี้
2 7 9 10 15
จงหา ค่าเฉลี่ย ความแปรปรวน และ ส่วนเบี่ยงเบน
มาตรฐาน
55

x (x- x ) (x- x )2

2 2 - 8.6 = -6.6 43.56


7 7 - 8.6 = -1.6 2.56
9 9 – 8.6 = 0.4 .16
10 10 – 8.6 = 1.4 1.96
15 15 – 8.6 = 6.4 40.96
รวม 43 0 89.2

ค่าเฉลี่ย = = 8.6
43
5
56

ความแปรปรวน s∑ =i = 89.=
2 22.3
n
2 ( x − x )2
i =1

n −1 5 −1
ส่วนเบี่ยงเบนมาตรฐาน s = =
4.7 22.3
57

ตัวอย่าง
ต่อไปนี้ เป็ นคะแนนสอบของนั กศึกษา 20 คน เมื่อนำา
มาเขียน stem and leaf ได้คอื
Stem unit = 10
Stem leaf
4 02
5 113357
6 236678
7 6689
8 78
58

จงหา 1. ค่าเฉลี่ยเลขคณิ ต 2. พิสัย


3. มัธยฐาน 4. Q1
5. Q3 6. IQR
7. ความแปรปรวน 8. ส่วนเบี่ยงเบน
มาตรฐาน
59

40 + 42 + ... + 88
1. ค่าเฉลี่ยเลขคณิ ต =
( ) = 63.9
20
2.พิสัย = ค่าสูงส่ด – ค่าตำ่าส่ด = 88 – 40 = 48
3.มัธยฐาน
ตำาแหน่งที่มธ
ั ยฐาน อยู่ = (20+1)/2 = 10.5
มัธยฐาน = (63+66)/2 64.5
4. Q1 : ตำาแหน่งที่ Q1 อยู่ คือ (20+1)/4 = 5.25 ≈ 5
Q1 = 53
5.Q3 : ตำาแหน่งที่ Q3 อยู่ คือ 3(20+1)/4 = 3(5.25) =
15.75 ≈ 16
Q3 = 76
6. IQR = Q3 - Q1 = 76 – 53 = 23
60
n

∑ (x − x) 2

7. ความแปรปรวน
i =1 =
i

n −1
(40 − 63.9) 2 + (42 − 63.9) 2 + ... + (88 − 63.9) 2
ความแปรปรวน = 20 − 1
= 190.6
n

8. ส่วนเบี่ยงเบนมาตรฐาน
i =1
∑ i
=
( x − x ) 2
190.=6
=13.8 n −1
61

ผลการใช้ EXCEL ประมวลผล


62

์ ารแปรผัน (Coefficient of
สัมประสิทธิก
Variation หรือ CV)
์ ารแปรผันเป็ นค่าที่ใช้วด
สัมประสิทธิก ั ความหลากหลายของข้อมูลสัมพัทธ์กับค่าเฉลี่ย มักจะ
บอกว่าข้อมูลมีความแปรผันร้อยละเท่าใดของค่าเฉลี่ย

S
CV = X (100
)%

ประโยชน์ของ CV ในการเปรียบเทียบการก
ระจายของข้อมูลตั้งแต่สองช่ดขึ้นไปที่มีหน่วย
การวัดต่างกัน การเปรียบเทียบเฉพาะส่วน
เบี่ยงเบนมาตรฐาน S อย่างเดียวทำาให้เข้าใจ
ผิดได้
CV 63

ตัวอย่าง
นักศึกษากล่ม ุ ที่ 1 นักศึกษากลุ่มที่ 2
นำ้าหนั กเฉลี่ย 50 กิโลกรัม 110 ปอนด์
ส่วนเบี่ยงเบนมาตรฐาน S 20 กิโลกรัม 44 ปอนด์

20 44
CV (100
) ) = 40%
(100
50 110
= 40%
ข้อมูลทั้งสองช่ดมีการกระจายแบบเดียวกัน เพียง
แต่วัดมาคนละหน่วยเท่านั้ น
64

ตัวอย่าง
ข้อมูลช่ดหนึ่ งมีค่าเฉลี่ยเท่ากับ 100 และ
ส่วนเบี่ยงเบนมาตรฐานเท่ากับ 5 จงหาค่า
สัมประสิทธิก ์ ารแปรผัน (CV ) ของข้อมูล
CV = = 5%

ช่ดนี้
5
× 100
100
65

ตัวอย่าง
ถ้าข้อมูลช่ดหนึ่ งมีค่าเฉลี่ยเท่ากับ 4 เมตร ส่วนเบี่ยง
เบนมาตรฐาน เท่ากับ 0.7 มิลลิเมตร จงหา
สัมประสิทธิข ์ องการแปรผัน
เปลี่ยนหน่วยข้อมูลให้เหมือนกันก่อน เช่น เปลี่ยน
ค่าเฉลี่ย 4 เมตรเป็ น 4× 1000 = 4000 มิลลิเมตร
CV = =× 100
0.0175
0.7
4000
66

รูปร่างของชุดข้อมูล (Shape)
การเปรียบเทียบว่าช่ดข้อมูลมีลักษณะเดียวกัน
หรือไม่น้ ั น นอกจากการพิจารณาค่าเฉลี่ย และ
ค่าความแปรผันแล้วยังไม่เพียงพอ ยังต้อง
พิจารณารูปร่างการกระจายของข้อมูล ซึ่งแบ่ง
ออกเป็ น 3 ลักษณะดังนี้
1. ข้อมูลที่มีการกระจ่กตัวทางด้านขวา ทำาให้
กราฟทางด้านซ้ายลาดเอียงหรือรูปร่างเบ้ทาง
ซ้าย (Negative or Left-Skewed)
67

2. ข้อมูลที่มีการกระจายสมำ่าเสมอคล้ายระฆังควำ่า เรา
เรียกรูปร่างดังกล่าวว่าสมมาตร (Symmetrical Shape)
68

3. ข้อมูลที่มีการกระจ่กตัวทางด้านซ้าย ทำาให้กราฟทาง
ด้านขวาลาดเอียงหรือรูปร่างเบ้ทางขวา (Positive or
Right-Skewed)
69

ตัวอย่าง 6.4
ข้อมูล 3 ช่ดต่อไปนี้ มีค่าเฉลี่ย = 4 , มัธยฐาน= 4
และส่วนเบี่ยงเบนมาตรฐาน = 0.98 เท่ากัน แต่มี
รูปร่างต่างๆ กัน

ช่ดข้อมูล A มีรป ู ร่างเบ้ซ้าย (Negatively Skew)


ช่ดข้อมูล B มีรป
ู ร่างเบ้ขวา (Positively Skew)
ช่ดข้อมูล C มีรปู ร่างสมมาตร (Symmetry)
70

เราสามารถพิจารณาว่าช่ดข้อมูลสมมาตรหรือไม่ โดยการ
เปรียบเทียบขนาดของค่าเฉลี่ย มัธยฐาน และฐานนิ ยม
ดังนี้
ช่ดข้อมูลมีรป
ู ร่างเบ้ซา้ ยเมื่อ ฐานนิ ยม  มัธยฐาน ≥ ค่า
เฉลี่ย
ช่ดข้อมูลมีรปู ร่างสมมาตรเมื่อ ฐานนิ ยม = มัธยฐาน
= ค่าเฉลี่ย
ช่ดข้อมูลมีรป ู ร่างเบ้ขวาเมื่อ ฐานนิ ยม  มัธยฐาน ≤ ค่า
เฉลี่ย
71

หรือพิจารณาจากค่าความเบ้ (Skew ness) ดังนี้

ค่าความเบ้  0 ช่ดข้อมูลมีรูปร่างเบ้ซ้าย
ค่าความเบ้ = 0 ช่ดข้อมูลมีรูปร่าง
สมมาตร
ค่าความเบ้  0 ช่ดข้อมูลมีรูปร่างเบ้
ขวา
72

ข้อมูลช่ด A
การกระจายของชุดข้อมูล A
Statistics

Distribution_A
10 N Valid 26
Mean 4.00
8 Median 4.00
Mode 5
6 Std. Deviation
ความถี่

.98
Skewness -.553
Kurtosis -.747
4
Range 3
Minimum 2
2 Maximum 5
Percentiles 25 3.00
50 4.00
2 3 4 5 75 5.00
Distribution_A
73

ข้อมูลช่ด B
การกระจายของชุดข้อมูล B Statistics

Distribution_B
10
N Valid 26
Mean 4.00
8 Median 4.00
Mode 3
6
ความถี่

Std. Deviation .98


Skewness .553
4 Kurtosis -.747
Range 3
2 Minimum 3
Maximum 6
Percentiles 25 3.00
3 4 5 6
50 4.00
Distribution_B
75 5.00
74

ข้อมูลช่ด C
Statistics
การกระจายของชุดข้อมูล C
Distribution_C
N 26
Mean 4.00
Median 4.00
12
Mode 4
Std. Deviation .98
Skewness .000
ความถี่

8
Kurtosis .577
Range 4
Minimum 2
4 Maximum 6
Percentiles 25 3.75
50 4.00
0 75 4.25
2 3 4 5 6
Distribution_C
75

ฐานนิ ยม < มัธยฐาน < ค่าเฉลี่ย และ ค่า skewness เป็ น +


ข้อมูลช่ดนี้ เบ้ขวา
76

ฐานนิ ยม > มัธยฐาน > ค่าเฉลี่ย และ ค่า skewness เป็ น -


ข้อมูลช่ดนี้ เบ้ซ้าย
77

กฎเกณฑ์ที่ได้จากการทดลอง (Empirical
Rule)
• จากการศึกษาข้อมูลหลายๆเรื่องด้วยกัน โดยเฉพาะอย่างยิ่งข้อมูลที่มรี ูปร่างการกระ
จายแบบสมมาตรและมีรูปร่างคล้ายระฆังควำา่ ดังรูป

90

80 85

70
no. of observations

60

50
48
40 41
30

20

10 14
10
0
-2.00

-1.00
-3.00

3.00
0.00

1.00

2.00

n=200 mean=0 s = 1.00


78

เราสามารถนำาค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานมาอธิบายภาพรวม
คร่าวๆ ของข้อมูลส่วนใหญ่ได้ดี จนสามารถกำาหนดเป็ นกฎเกณฑ์ได้
ดังนี้
1.ประมาณ หรือ 68% ของค่าสังเกตทั้งหมดมีค่าอยู่ในช่วง
(mean -SD, 2mean +SD)
สำาหรับข้อมูลตั3วอย่างจะอยู่ในช่วง

(x − -SD,
จากรูปค่าสังเกตที่มีค่าอยู่ในช่วง (mean s, x +mean
s) +SD) = (-1,1)
มีอยู่ (24+85+21) = 130 ค่า หรือ 65% ของค่าสังเกตทั้งหมด
200 ค่า
 
79

2. ประมาณ 19 หรือ 95% ของค่าสังเกตทั้งหมดมีค่าอยู่ในช่วง


(mean -2SD, mean
20 +2SD) สำาหรับข้อมูลตัวอย่างจะอย่ใู นช่วง
(x − 2s, x + 2s)
จากรูปค่าสังเกตที่มค
ี ่าอย่ใู นช่วง (mean -2SD, mean +2SD)= (-2,2) มีอยู่
(5+48+85+41+7) = 186 ค่า หรือ 93 %ของค่าสังเกตทั้งหมด 200 ค่า

3. ประมาณ 99% ของค่าสังเกตทั้งหมดมีค่าอยู่ในช่วง (mean -3SD, mean +3SD)


สำาหรับข้อมูลตัวอย่างจะอย่ใู นช่วง
จากรูปค่าสังเกตที่มค
ี ่าอย่ใู นช่วง(mean -3SD, mean +3SD)= (-3,3) มีอยู่
(1+10+48+85+41+14) = 199 ค่า หรือ 99.5 %ของค่าสังเกตทั้งหมด 200 ค่า

(x − 3s, x + 3s)
80

กฎของ Chebyshev (Chebyshev’s


Rule)
SX1212 81

ตัวอย่าง 6.5
ตรวจสอบข้อมูลทั้งสองกล่่มในตัวอย่าง 6.1 และ ตัวอย่าง 6.3 ด้วยกฎเกณฑ์ท้ ังสอง ดังนี้

กล่่มที ่ 1 กล่่มที ่ 2
จำานวนคำาศัพท์ทีจ ่ ำาได้ จำานวนคำาศัพท์ทีจ ่ ำาได้

for คำาunit
ศัพท์
: 30 for คำาunit
ศัพท์
Stem 401 0
000 Stem : 00
101
50 0 0 20
60
70 0 0 0
0 30 0
40
50 0
60
70 00
80
90 0

X1
=5 s X2
=5 s =
= 1.31 2.8
82

Empirical Rule นับจากข้อมูลจริง


83

Empirical Rule นับจากข้อมูลจริง

จาก Empirical Rule กลุ่ม


ทีห
่ นึง่ ได้ผลใกล้เคียงกว่า
กลุ่มที ่ 2 ทัง้ นีเ้ พราะค่า
สังเกตกลุ่มที ่ 1 มีรูปร่าง
สมมาตรคล้ายระฆังควำ่า
มากกว่า
84

ข้อสังเกต :

ในกรณีทีเ่ ราทราบรูปร่างของการกระจาย
ของข้อมูลเพิม ่ เติมนอกเหนือจากการ
ทราบค่าเฉลีย ่ กับส่วนเบีย
่ งเบนมาตรฐาน
ทำาให้เราสามารถเลือกใช้กฎเพือ ่ สรุปภาพ
รวมของข้อมูลได้ใกล้เคียงยิง่ ขึน

85

พิสย ั ระหว่างควอร์ไทล์ (Interquartile


Range or IQR)
ค่าเฉลี่ย (mean) เป็ นค่ากลางที่เปลี่ยนแปลงง่ายถ้ามีค่าสูงๆ เพียงบางค่าทำาให้
ลักษณะข้อมูลเบ้ขวา ซึ่งแตกต่างจากมัธยฐาน เราเรียกค่าสถิติท่ี ไม่ไวต่อการ
เปลี่ยนแปลงนี้ ว่าค่าสถิติท่ีมี ความแกร่ง (Robust Statistic) เมื่อค่าเฉลี่ยไวต่อ
การเปลี่ยนแปลงทำาให้ค่าเฉลี่ยไม่เหมาะที่ใช้วัดค่ากลางของข้อมูลที่มรี ูปร่างเบ้
เช่นเดียวกับส่วนเบี่ยงเบนมาตรฐานย่อมไวต่อการเปลี่ยนแปลงและไม่เหมาะที่
จะวัดความแปรผันของข้อมูลที่มรี ูปร่างเบ้
ดังนั้ น ค่ากลางที่เหมาะสมกว่า คือ มัธยฐานและ และใช้ พิสัยระหว่างควอร์ไทล์
(Interquartile Range or IQR) เป็ นค่าวัดความแปรผันของข้อมูล ซึ่งวัดระยะ
ห่างระหว่าง Q3 กับ Q1 ซึ่งไม่ไวต่อการเปลี่ยนแปลงของค่าตำ่าๆ หรือสูงๆ และ
ร้อยละ 50 ของค่าสังเกตทั้งหมดจะมีค่าอยู่ภายในระยะห่าง IQR
IQR = Q3 – Q1
86

Box-and-Whisker Plot
เป็ นกราฟที่นำาเสนอข้อมูลด้วยค่าสถิติ 5 ค่าด้วยกันได้แก่
1. ค่าตำ่าส่ด 2. ค่าสูงส่ด 3. Q1 4. Q2 5. Q3
ในรูปกราฟที่มีลักษณะเป็ นกล่องสี่เหลี่ยม (Box) วางไว้ในแนวนอนหรือแนวตั้งก็ได้ ความยาว
ของกล่องยาวเท่ากับ IQR ส่วนความกว้างไม่มีความหมายใดๆ
ถ้าเปรียบเทียบข้อมูลหลายช่ดต้องให้ความกว้างของกล่องเท่ากันท่กใบจะได้ไม่ลวงตา ส่วน
เส้นตรงที่ต่อออกจาก Q1 ไปยังค่าตำ่าส่ด และ Q3 ไปยังค่าสูงส่ด
แต่ต้องไม่ยาวเกิน 1.5 เท่าของ IQR เรียกเส้นตรงนี้ ว่า Whisker
ค่าสังเกตที่มีค่าเกิน 1.5 เท่าของ IQR แต่ไม่เกิน 3 เท่าของ IQR เรียก Outliers
แทนด้วยสัญลักษณ์ o
ส่วนค่าสังเกตที่มีค่าเกิน 3 เท่าของ IQR เรียก Extremes เขียนด้วยสัญลักษณ์ *
87

เบ้ซา้ ย สมมาตร
เบ้ขวา
88

Box-and-Whisker Plot สำาหรับการกระจายของ


ข้อมูลที่มีรป
ู ร่างต่างๆ Histogram

6 คำาศัพท์ คำาศัพท์
Frequency

21
4

2
4 4
3
2 2
0
3 4 5 6 7
bin

Five-number Summary
คำำศัพท์ 1 คำำศัพท์2
Minimum 3 0
First 4 3 5

ency
Quartile
Median 5 5
Third 6 7 4
Quartile
Maximum 7 9
89

ตัวอย่าง 6.6
ตัวอย่างส่่มขนาด n = 11 ค่าดังต่อไปนี้ 7, 5, 8, 3 ,6 ,10 ,
12, 4 ,9, 15, 18 จงหา
1.ordered array 3 4 5 6 7 8 9 10 12 15
18
90

Stem and leaf plot


Stem unit =1 Stem unit =10
stem leaf stem leaf
3 0 0 3456789
4 0 1 0258
5 0
6 0
7 0
8 0
9 0
10 0
11
12 0
13
14
15 0
16
17
18 0
91

ค่าเฉลี่ย =
3 +=
4 +8.818
5 + 6 + 7 + 8 + 9 + 10 + 12 + 15 + 18
11

3 4 5 6 7 8 9 10 12 15 18
มัธยฐาน (median) อยู่ท่ต
ี ำาแหน่ง (11+1)/2 = 6
มัธยฐาน = 8
ฐานนิ ยม (mode) = ไม่มี
บรรยายรูปร่างของช่ดข้อมูล
ค่าเฉลี่ย > มัธยฐาน การแจกแจงมีลักษณะเบ้ขวา
92

3 4 5 6 7 8 9 10 12
15 18
พิสัย (range) = 18 – 3 = 15

ความแปรปรวน (variance)
= (3 − 8.818) 2 + (4 − 8.818) 2 + (5 − 8.818) 2 + ... + (18 − 8.818) 2
11 − 1

= 21.7636
ส่วนเบี่ยงเบนมาตรฐาน (Standard21Deviation)
.7636 =
= 4.6651
93

สัมประสิทธิก ์ ารแปรผัน (Coefficient of Variation หรือ C.V.)


4.665 =
× 100
= 52.90 % 8.818
3 4 5 6 7 8 9 10 12 15 18
ค่าสถิติ 5 ค่า ได้แก่
1. ค่าตำ่าส่ด = 3 2. ค่าสูงส่ด = 18
3. ตำาแหน่ง Q1 คือ (11+1)/4 = 3
Q1 = 5
4. ตำาแหน่ง Q3 คือ 3(11+1)/4 = 9
Q3 = 12
5 Q2 = มัธยฐาน = 8
94

พิสัยระหว่างควอร์ไทล์ (Interquartile Range or IQR) = Q3 – Q1


= 12 – 5 = 7
เขียนกราฟ Box-and-Whisker

Mean
Box-and-w
Standard Error
Median
95

ตัวอย่าง
จากข้อมูลต่อไปนี้ จงหาค่า 5 ค่า พร้อมทั้ง
เขียน Box and Whisker plot
2 18 22 23 25 30
30 35 45 90
96

Q1 = 22 Q3 = 35 IQR = 35 - 22 = 13
Q1 – 1.5 IQR = 22 – 1.5(13) = 17.5
Q3 +1.5 IQR = 35 + 1.5(13) = 54.5

Q1 – 3 IQR = 22 – 3(13) = -17


Q3 + 3 IQR = 35 + 3(13) = 74
ข้อมูลมี outlier 1 ค่า คือ 2
มีค่า Extreme 1 ค่า คือ 90
97
98

ข้อมูลช่ดหนึ่ ง 83 ค่า ดังนี้


99

Q1 =32 Q3 = 50 IQR = 50-32 = 18


Q1 – 1.5 IQR = 32 – 1.5(18) = 5
Q3 +1.5 IQR = 50 + 1.5(18) = 77

Q1 – 3 IQR = 32 – 3(18) = -22


Q3 + 3 IQR = 50 + 3(18) = 104
100
101

ตัวอย่าง 6.7
จากตัวอย่างเรื่องกำาลังแรงดึงเฉลี่ยจากการทดลอง 98 ครั้ง =
64.2 ปอนด์ และ S = 2.1 ปอนด์ โดยใช้ Empirical Rule เรา
ทราบภาพรวมข้อมูลได้โดยไม่ต้องทราบรายค่าข้อมูล
102
103

Download ข้อมูล เรื่อง pituitary ใน


http://sg002.mypage.utcc.ac.th

Chapter 6
104

เลือก >> Data >> Data analysis >>


Descriptive Statistics
105

Click Input Range เลือก ข้อมูลทัง้ หมด


เลือก Labels in first Row
เลือก Summary statistics >> OK
106

ผลลัพธ์ทีไ่ ด้
107
108
109

กำาหนด Bin เป็ น 18.5, 21.5, 24.5,


27.5, 30.5, 33.5, 36.5
สร้าง Histogram ใน Data Analysis
110

จาก histogram พบว่าการแจกแจงเป็ น


แบบสมมาตร
111

1. ระยะห่างทีว่ ัดได้น้อยทีส่ ุด
สร้างกราฟ Box-and-Whisker
คือ 16.5 mm. เราต้องทราบ
ค่าสถิติต่างๆ ดังนี้ 2. ระยะห่างทีว่ ัดได้มากทีส่ ุด
คือ 31.5 mm.
Box-and-
3. มัธยฐาน (Median) ของระยะ
whisker Plot  ห่าง คือ 24 mm.
Five-number
4. Q1 หรือ Percentiles ที ่ 25
Summary 
Minimum 16.5 คือ 22 mm.
5. Q3 หรือ Percentiles ที ่ 75
First 22 คือ 26 mm.
จะได้ว่า IQR = Q3 - Q1 =
Quartile
Median 24 26 – 22 = 4 mm.
Third 26 จะได้แผนภาพดังนี ้
Quartile
112

ข้อมูลค่อนข้างมีความเป็ นปกติ และไม่มีคา่ ที่ผิดปกติ


ทั้งทางด้านค่าน้อยและด้านค่ามากเกินไป
113

คะแนนมาตรฐาน (Z -Score)
สำาหรับช่ดข้อมูลแต่ละช่ดลำาพังค่าสังเกตแต่ละค่าจะไม่ให้สาระอะไรมากนั ก แต่ถ้าให้ค่า
เฉลี่ยพร้อมทั้งส่วนเบี่ยงเบนมาตรฐานด้วยทำาให้เราสามารถนำาค่าสังเกตเหล่านั้ นมา
เทียบเคียงกันได้ โดยการแปลงค่าสังเกตนั้ นให้เป็ นคะแนนมาตรฐานดังนี้

x − ค่าเฉลี่ย
Z=
ส่วนเบีเบนมาตรฐาน
่ยง
คะแนนมาตรฐาน เป็ นค่าทีบ ่ อกว่าค่าสังเกตนัน
้ ห่างจากค่า
เฉลีย
่ เป็ นกีเ่ ท่าของส่วนเบีย
่ งเบนมาตรฐาน
เช่น ถ้าคะแนนมาตรฐานเป็ นลบ แสดงว่าค่าสังเกตนัน ้ อยู่
ทางด้านซ้ายมือของค่าเฉลีย ่
114

ในกรณี ท่ีช่ดข้อมูลเป็ นข้อมูลตัวอย่าง สูตรการหาคะแนนมาตรฐานคือ

x− x
Z=
s
115

สมบัตบ
ิ างประการเกีย
่ วกับคะแนน
มาตรฐาน
1. ค่าเฉลี่ยของ Z = 0 เสมอ
2. ส่วนเบี่ยงเบนมาตรฐานของ Z = 1 เสมอ
3. การกระจายของค่า Z จะเหมือนการกระจายของ X
ท่กประการ
4. ถ้าการกระจายของค่า Z มีลักษณะสมมาตร โดย
Empirical Rule ประมาณ 68% ของค่า Z ทั้งหมด มี ค่า
ระหว่าง (-1, 1) ประมาณ 95% ของค่า Z ทั้งหมดมีค่า
ระหว่าง (-2, 2) และ ประมาณ 99%ของค่า Z ทั้งหมด มี
ค่าระหว่าง (-3, 3)
116

ตัวอย่าง 6.9
ในการสอบแข่งขันเข้าทำางานในแผนกหนึ่ ง ค่าเฉลี่ยของ
ผลการสอบของผ้เู ข้าสอบ
ทั้งหมดในครั้งนี้ เป็ น 420 คะแนน ค่าส่วนเบี่ยงเบน
มาตรฐาน 10 คะแนน ถ้าเกณฑ์ กำาหนดไว้ว่าผ้ท ู ่ ีมี
คะแนนมาตรฐานไม่ต่าำ กว่า 2 จึงจะมีสิทธิสอบสัมภาษณ์
ส่ณีสอบได้ 435 คะแนน จะมีสิทธิสอบสัมภาษณ์หรือ
ไม่ 435- 420
คะแนนมาตรฐานของส่ ณ Z
ี = = 1.5
ในที่น้ ี x = 435 , ค่าเฉลี10 ่ย = 420 ส่วนเบี่ยงเบน
มาตรฐาน = 10
ซึ่งคะแนนมาตรฐานของส่ ณีท่ีได้เป็ น 1.5 น้อย
กว่ากำาหนด
ดังนั้น สุณีไม่มีสท
ิ ธิเข้าสอบสัมภาษณ์
117

การใช้คะแนนมาตรฐานในการตัดสินใจว่า
ข้อมูลที่สนใจนั้นเป็ นอย่างไร เมื่อเทียบกับ
เกณฑ์ที่กำาหนด
ตัวอย่าง 6.10 ผลการสอบวิชาสถิตส ิ ำาหรับนั กศึกษาชั้นปี ที่ 1สองครั้ง
คะแนนเต็ม 100 คะแนนได้ผลดังนี้
ครั้งที่ 1 ครั้งที่ 2
คะแนนเฉลี่ย 45 คะแนน 60 คะแนน
ส่วนเบี่ยงเบนมาตรฐาน 5 คะแนน 10 คะแนน
นายเก่งเสมอสอบได้ 60 คะแนน 80 คะแนน
ถ้าให้นายเก่งเสมอเลือกเก็บคะแนนไว้เพียงครั้งเดียวที่ดีกว่านั กศึกษา
อื่นๆ ในชั้น นายเก่งเสมอควรเก็บคะแนนครั้งใดไว้เพราะเหต่ใด
118

60− 45
คะแนนมาตรฐานครั้งที่ 1 ของนายเก่
Z1 = ง
5 เสมอ
=3

80− 60
Z
คะแนนมาตรฐานครั้งที่ 2 ของนายเก่
2 =
ง10 =2
เสมอ

นายเก่งเสมอควรเลือกคะแนนครั้งที่ 1 ไว้
119

การตรวจจับ Outliers และ Extremes


Outliers และ Extremes หมายถึง ค่าสังเกตที่มคี ่าน้อยๆ
หรือค่ามากๆเมื่อเทียบกับค่าสังเกตอื่นๆ ในกล่่ม วิธี
ตรวจจับว่าค่าสังเกตใดๆ เป็ น outliers และ extremes
ให้พิจารณาจาก Box-and-Whisker Plot ตามที่ได้กล่าว
แล้ว หรือ แปลงข้อมูลให้อยู่ในรูปคะแนนมาตรฐาน (Z-
score) ค่าสังเกตใดที่มีคะแนนมาตรฐาน < -3 หรือ
คะแนนมาตรฐาน > 3 เป็ น outliers และ extremes
120

การจัดการกับ outliers และ extremes นั้ นต้องขึ้นอยู่กับ


สาเหต่ท่ีเกิด ซึ่งอาจเกิดจากสาเหต่ใดสาเหต่หนึ่ งต่อไปนี้
1. ถ้าเกิดจากการวัด หรือจดบันทึกค่า หรือพิมพ์เข้า
คอมพิวเตอร์ผด ิ พลาด ให้แก้ไขให้ถูกต้องแล้วจึงทำาการ
วิเคราะห์ตอ ่ ไป
2. ถ้าเกิดจากการการวัดค่าสังเกตของประชากรอื่น ให้เอา
ค่าดังกล่าวทิ้งไป
3. ถ้าค่าดังกล่าวบันทึกมาถูกต้องแล้ว ให้แยกออกมา
วิเคราะห์ตา่ งหาก
121

สถิตพ
ิ รรณนาสำาหรับข้อมูล
ประชากร
122

ตัวอย่าง 6.11
จากข้อมูลประชากรแสดงค่าใช้จ่ายไฟฟ้ าในรอบเดือนที่
ผ่านมาของครัวเรือนในหมู่บา้ นจัดสรรแห่งหนึ่ ง (หน่วย
เป็ นบาทต่อเดือน) เป็ นดังนี้
123
124
125
126
127
128

โดยใช้ Empirical Rule เราสามารถนำาค่าเฉลี่ยประชากรและ


ส่วนเบี่ยงเบนมาตรฐานประชากรมาสร่ปภาพรวมของข้อมูล
ช่ดนี้ ได้ดงั นี
2้
1.ประมาณ 3 หรือ 68% ของค่าสังเกตทั้งหมดมีค่าอยู่ใน
(µ − σ ,µ + σ )
ช่วง (mean -SD,
mean +SD) สำาหรับข้อมูล ประชากรจะอยู่ในช่วง
(µ − σ ,µ + σ )
จากรูปค่าสังเกตที่มีค่าอยู่ในช่วง =
(628.41,1132.71) มีอยู่ 25 ค่า หรือ 69% ของค่า
สังเกตทั้งหมด 36 ค่า
129

19
2. ประมาณ 20 หรือ 95% ของค่าสังเกตทั้งหมดมี
(µ − 2+2SD)
ค่าอย่ใู นช่วง (mean -2SD, mean σ ,µ + 2σสำ)าหรับข้อมูล
ประชากรจะอยู่ในช่วง
(µ − 2σ ,µ + 2σ )
จากรูปค่าสังเกตที่มีคา่ อยู่ในช่วง
= (376.26 ,1384.86) มีอยู่ 34
ค่า หรือ 94 % ของค่าสังเกต ทั้งหมด 36
ค่า
130

3. ประมาณ 99% ของค่าสังเกตทั้งหมดมีค่าอย่ใู นช่วง


(µ − สำ3σาหรั
(mean -3SD, mean + 3SD) ,µบ+ข้3อσมู)ลประชากรจะ
อยู่ในช่วง
จากรูปค่าสังเกตที่มีคา่ อยู่ในช่วง (mean
-3SD, mean +3SD)
= (124.11,1637.01) มีอยู่ 36 ค่า หรือ
100%ของค่าสังเกต
ทั้งหมด 36 ค่า
131

สถิติพรรณนาสำาหรับข้อมูลเชิงปริมาณ
หนึ่ งตัวกับข้อมูลเชิงคุณภาพหนึ่ งตัว
ตัวอย่าง 6.12 จากบันทึกของตำารวจเกี่ยวกับ
จำานวนอาชญากรรมต่อวันในฤดูหนาวกับฤดูรอ ้ น
จงแสดงค่าสถิติพรรณนา และ Box plot สำาหรับ
จำานวนอาชญากรรมต่อวันในฤดูหนาวกับฤดูรอ ้ น
ด้วย EXCEL และอภิปรายผลในเชิงเปรียบ
เทียบระหว่างฤดูหนาวกับฤดูร้อน ซึ่งได้บันทึก
ข้อมูล ดังต่อไปนี้
132

และได้ค่าสรุปห้าค่า ของข้อมูล 2 กล่ม


ุ คือ
133

Box-and-whisker Plot
Five-number Summary
หนำว ร้อน
Minimum 12 18
First Quartile 16 18
Median 18.5 26
Third Quartile 20 29
Maximum 21 38
134

หนำว ร้อน
Mean 17.7Mean 25.6
Standard Error 0.91Standard Error 2.109
Median 18.5Median 26
Mode 20Mode 18
Standard 2.87Standard 6.670
Deviation Deviation
Sample Variance 8.23Sample Variance 44.489

Kurtosis -0.05Kurtosis -0.416

Skewness -0.82Skewness 0.420

Range 9Range 20
Minimum 12Minimum 18
Maximum 21Maximum 38
135

วิธก
ี ารหาค่าสถิติพรรณนาสำาหรับ
ตัวแปรเชิงปริมาณ

You might also like