You are on page 1of 15

第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現 81

4.9 習題
A.一般練習題
4.1 描述資料特性的統計測量數主要包括哪些?請簡單說明之。

描述資料特性的統計測量數主要包括中央趨勢的衡量,分散度的衡量,以
及偏度,峰度的衡量,這四種量數均可描述資料的特性。
4.2 算數平均數,標準差經常用來描述資料的中心位置與分散程度,請說明此
二測量數相對其他測量的優點為何?

一般而言(資料分配不是特別偏態)平均數可代表資料中心位置,且平均
數便於代數之演算,由平均數亦可回推總和。而標準差相較其他衡量分散
度的統計測量數如全距、四分位距、平均絕對差、變異數等均較佳,因已
考慮所有的觀察值,易於演算且為單一數字較具意義,因此一般均以標準
差來衡量分散程度。
n
4.3 試證明  ( X i  X )  0
i 1


n
 Xi
( Xi  X )   Xi   X  n  nX  nX  nX  0
i n
4.4 下列一組資料:9 8 8 7 6 5 5 5 4 3。
試求算全距、算術平均數、中位數、眾數。
若資料變為:50 8 8 7 6 5 5 5 4 3。再計算算術平均數、
中位數、眾數。
試問:一組資料中若出現有極端大(或小)的數值,則哪個中心位置的
測量指標(算術平均數、中位數、眾數)會受到影響,哪個不受影響?
「一組資料中,無論算術平均數、中位數、眾數都只有一個。」此敘述
是否正確?試說明之。

82第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現

9  8 3 10  1
全距為 9  3  6 ,平均數為  6 ,中位數位於第  5.5,
10 2
65
 5.5,眾數為5。
因此為 2
50  8 3
平均數為:  10.1,中位數為5.5,眾數為5。
10
由上可知,當資料有極端值出現時,算術平均數最容易受到影響,而失
去代表中央趨勢的特性。中位數及眾數則不受影響。
不正確。一組資料中,平均數與中位數只有一個,但眾數可能有許多個
或沒有(所有資料出現次數均相同)。
4.5 試比較平均數、眾數與中位數在衡量中心位置時各有何優、缺點。

請參閱課本第91頁,表4.4中央趨勢統計測量數之比較。
平均數容易受到離群值/極端值影響。
眾數未必只有一個,若資料為雙峰分佈,可能有兩個眾數。
在資料偏態程度大時,中位數未能良好衡量中心位置。
4.6 謝教授因學生考試成績不理想,將學生成績考慮作如下的調整:
每個學生成績均加 10 分。
每個學生成績增加原有的 10%。
問此方法對原成績之平均數、中位數、標準差各有何影響。

平均數增10分;中位數增10分;標準差不變。
平均數增為1.1倍;中位數增為1.1倍;標準差增為1.1倍。
4.7 【是非題】
平均數、中位數、眾數三者皆是用來測定一群資料分散度情況的統計測
定數,而平均數總是優於中位數和眾數。
當平均數為零時,標準差亦等於零,反之亦然。
任何一組統計資料,可能有很多眾數,也可能沒有眾數。
當所有的資料值均為負數時,平均數、眾數、中位數及變異數亦均是負
值。
若分配是單峰對稱分配,則平均數=眾數=中位數。
若分配是單峰對稱分配,則算術平均數 X ,幾何平均數 G 相等。

第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現 83

否。平均數和離散程度無關,例如題4.6中第一個情形,而中位數和眾
數何者更能代表母體,應視測量中央趨勢之情和資料的特性而定。
否。平均數為0,標準差未必等於0;標準差等於0,平均數也未必等於
0(各樣本值相等)。
是。當所有資料出現次數均相同時,沒有眾數,當多個資料出現之次數
相同時,眾數有多個。
否。變異數一定大於等於零。
是。如下圖:

中位數﹦平均數﹦眾數 X

否。必須所有數值均相同。
4.8 某專科學校工管系一年級學生共 120 人,分成男、女兩組,男生 80 人,平
均身高為 172 公分,標準差為 7 公分;女生 40 人,平均身高為 164 公分,
標準差為 6 公分。試問:
男生或女生的身高較一致?
求全班之平均身高及標準差。

 7
男生的變異係數 CV   0.0407
172
6
女生的變異係數 CV   0.036
164
故知女生的身高較一致。
80  172  40  164
全班的平均身高   169.33
120

母體標準差 
1
120
 
80 (7 2  172 2 )  40 (6 2  164 2 )  169 .33 2  7.747
84第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現

4.9 某電池生產商為測試其所生產的電池壽命,隨機選取 20 個電池,測驗結


果如下(以小時為單位):
41.0 40.9 39.8 42.6 41.4 42.5 42.4 40.8 42.5 42.8
39.7 41.8 42.2 42.5 42.6 40.0 41.0 42.4 42.7 43.6
請利用 Excel 計算下列各數值:
算術平均數、眾數、中位數。
第 10 及第 90 百分位數。
*全距、MAD(平均絕對離差)及四分位全距。
變異數及變異係數。

835.2
算術平均數 X   41.76
20
眾數 M 0  42.5
42. 2  42. 4
me   42. 3
中位數 2

 20  0.1  2 (nd),故 P10  39 .8


20  0.9  18 (th),故 P90  42 .7

全距 R  43.6  39.7  3.9


n
 xi  X
18 .96
平均絕對離差 MAD  i 1

 0.948
n 20
20  0.25  5 (th),故第一四分位數 Q1  40.9
20  0.75  15 (th),故第三四分位數 Q3  42.5
四分位全距 IQR  Q3  Q1  42.5  40.9  1.6

樣本變異數 S 2 
 ( x  X ) 2  23 .548  1.24
n 1 20  1
1.24
變異係數 CV   0.0267
41.76
4.10 自大安國小所有三年級生中抽出 200 位學生,其身高之次數分配表如下
(單位英吋):
組界 次數
40.5~43.5 18
43.5~46.5 24
46.5~49.5 45
49.5~52.5 65
第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現 85

52.5~55.5 30
55.5~58.5 10
58.5~61.5 8
求算第 1、2、3 四分位數。
計算這 200 位學生的平均身高( X )及標準差( S X )。
A XA
設各組的組中點為 X i ,又 Y i  X i ,計算 Y ,驗證 Y  。
B B
(提示:當組數為奇數時,最中間一組的組中點即為 A;為偶數時,中
間兩組中任一點的組中點即為 A。B 為原來的組距。)
1
計算 S Y ,並驗證 SY  S X 。
B

第一四分位數 Q1 為由矮至高排序第 50 名學生,Q2 為第 100 名,Q3 為
第 150 名.

 200  18  24 
1
Q1  46 .5  4  3  47 .03
45
 200  18  24  45 
2
Q2  me  49.5  4  3  50.1
64
3
 200  (18  224  45 )
Q3  4  3  52 .41
65
 18  42  24  45    8  60
X  49.905
200
S X2  18. 92  S X  18. 92  4. 35
組數  7 ,為奇數,故 A  51; B  3
18   3  24   2    10  2  8  3
Y  0.365
200
49.905  51 X  A
 
3 B
 2
SY 
1
200  1
 2 2

  3   0.365  18    3   0.365  8  2.1022

1
 S Y  2.1022  1.45   S X
3
4.11 由於做三明治的原料漲價,美而美三明治店的老闆欲調整其三明治的售
價,他可採取下列兩種措施:
措施 A:每個三明治都漲價 5 元。
措施 B:每個三明治都上漲其原售價的 20% 。
86第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現

試問此二措施對原售價的平均數、中位數、眾數及標準差有何影響?

措施 A:平均數、中位數、眾數都增加 5 元;標準差不變。
措施 B:平均數、中位數、眾數、標準差都增加為原來的 1.2 倍。
4.12 下列是 24 位同學的英文託福成績,請畫出盒鬚圖,並說明資料中是否有
outliers(極端值),以及是否為偏態分配?
540 680 503 558 490 609 379 601 559 495 562 580
510 623 477 574 588 497 527 570 495 590 602 541

極小值379,極大值680,第一四分位數500,中位數558.5,第三四分位數589,
IQR=78
(此處盒鬚圖繪製並無計算標準差,並無落在 Q1  1.5IQR 或
Q3  1.5IQR ,此抽樣並無極端值; Q1  Min  Max  Q3 ,盒子居右,此為

左偏)
4.13 設一組資料含有 X 1 , X 2 , , X n 共有 n 個,且 X 與 S 2X 分別表示其平均數
與變異數,則:
設 Yi  X i  k , i  1,2,, n ,試問 Y 1 , Y 2 ,  , Y n 這 n 個數的平均數與變異
數與原來的 X , S 2X 有何關係?
設 Yi  kXi , i  1,2,, n ,試問 Y 1 , Y 2 ,  , Y n 此 n 個數的平均數與變異數
又與原來之 X , S 2X 有何關係?



 Y i    X i  k    X i  nk  X  k
1 1 1 1
Y
n n n n
2 1
n
 2
 1
n
 2
 1
SY   Y i  Y   X i  k  X  k   X i  X  S X
n

2 2

 1 1 1
Y  Y i   k X i  k   X i  k X
n n n
1
n
 2 1
n
 2
2 1
n
 2
SY   Y i  Y   k X i  k X  k   X i  X  k S X
2 2 2

4.14 設台中市醫生和律師去年全年所得的分配情形如下(單位:萬元):
職業 人數 平均所得 中位數 眾數 標準差
醫生 240 200 150 120 50
律師 160 150 120 100 50

計算該市從事這二種職業的人的總平均所得。
第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現 87

計算二種職業所得的標準差。
哪一種職業的所得差異較大?
各種職業所得之分配呈現何種型態?何者較為偏態?

240  200  160  150
總平均所得   180 (萬元)
240  160
母體變異數
240  50 2  160  50 2  240 (200  180 ) 2  160 (150  80 ) 2
  4700
240  160
標準差  4700  68.55 萬元
50
醫生的變異係數 CV   0.25
200
50 1
律師的變異係數 CV    0.33
150 3
故知律師的所得差異較大。
200  120
均為右偏分配,醫生的偏態係數為  1.6 ,律師的偏態係數為
50
150  100
 1 ,因此醫生所得的分配較為偏態。
50
4.15 在 2010 年初全球智慧型手機約有 3 億隻,到 2019 年底時增加為 14 億隻,
試求每年的平均成長率。

2010年初至2019年底度過兩個年度
9 14 9 14
1+r= √ , 故可得 r = √ − 1 = 0.1867, 每年成長18.67%。
3 3

B.應用題
4.16 下列為 107 年勞工保險各業勞工平均投保薪資(單位:新台幣元)
平均投 平均投 平均投
業別 業別 業別
保薪資 保薪資 保薪資
公共行政及國
農、林、漁、牧業 27,220 運輸及倉儲業 33,442 35,288
防;強制性
礦業及土石採取業 33,795 住宿及餐飲業 25,390 教育服務業 27,147
醫療保健及社
製造業 32,825 資訊及通訊傳播業 36,590 33,876
會工作服務業
藝術、娛樂及
電力及燃氣供應業 41,912 金融及保險業 38,365 27,935
休閒服務業
88第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現

用水供應及污染整
30,401 不動產業 30,930 其他服務業 28,495
治業
專業、科學及技術
營造業 29,700 34,382
服務業
批發及零售業 31,035 支援服務業 27,525
資料來源:勞工保險局,107 年統計年報(勞工保險、納保資料)。

試問最高投保薪資業別與最低投保薪資業別其薪資差距為多少?
試求以上業別的平均投保薪資及標準差。
試問上述業別勞工投保薪資的分配情形是否符合柴比氏定理?是否符
合經驗法則?

最大值-最小值=16522,差距為新台幣 16,522(元)
平均薪資 = 31,908 (元)
變異數 = 18583589.16
標準差 = 4310.8687
柴比氏定理
k=2,75%以上的觀察值落在
𝑋 ± 2𝑆 = 31908 ± 2 × (4310.87) = (23286.26, 40529.74)內
故知符合柴比氏定理。
經驗法則
68 .42 % 的資料都落在
𝑋 ± 𝑆 = 31908 ± (4310.87) = (27597.13,36218.87)內,符合常態分配
94.74% 的資料落在
𝑋 ± 2𝑆 = 31908 ± 2 × (4310.87) = (23286.26, 40529.74)內
99.5 % 的資料落在
𝑋 ± 3𝑆 = 31908 ± 3 × (4310.87) = (18975.39,44840.61)內
故知符合常態分配
4.17 下表為民國 108 年 1 月~9 月 36 家本國銀行稅前損益的統計資料:
稅前損益(新台幣:百萬元) 銀行家數
0~2,000 10
2,000~4,000 8
4,000~6,000 1
6,000~8,000 1
8,000~10,000 2
10,000~12,000 5
第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現 89

12,000~14,000 1
14,000~16,000 2
16,000~18,000 2
18,000~20,000 1
20,000~22,000 1
22,000~24,000 1
24,000~30,000 1
資料來源:行政院金管會銀行局,金融統計(2019年第3季)。

計算稅前損益的平均數、中位數、眾數和標準差。
若不計入保額為 20,000 百萬元以上的廠商,求其餘銀行稅前損益的平
均數、中位數、(粗略法)眾數和標準差。
比較和的計算結果。
銀行稅前損益的分配為對稱、左偏或右偏?


組界(百萬元) 次數 f i 組中點 xi f i xi f i ( xi  x ) 2 累加次數
0~2,000 10 1,000 10000
482253086.4 10

2,000~4,000 8 3,000 24000 195580246.9 18

4,000~6,000 1 5,000 5000 8669753.086 19

6,000~8,000 1 7,000 7000 891975.3086 20

8,000~10,000 2 9,000 18000 2228395.062 22

10,000~12,000 5 11,000 55000 46682098.77 27

12,000~14,000 1 13,000 13000 25558641.98 28

14,000~16,000 2 15,000 30000 99561728.4 30

16,000~18,000 2 17,000 34000 164006172.8 32

18,000~20,000 1 19,000 19000 122225308.6 33


20,000~22,000 1 21,000 21000 170447530.9 34
22,000~24,000 1 23,000 23000 226669753.1 35
24,000~30,000 1 27,000 27000 363114197.5 36
36 286000 1907888889
286000
平均數 = 36
= 7944.44
36 18−10
中位數落在 2 = 18,18在第二組 2000 + 8
× 2000 = 4000

(2,000  0)
眾數   1,000
2
90第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現

1907888889
標準準= √ 36−1
= 7383.164


組界(百萬元) 次數 f i 組中點 xi f i xi f i ( xi  x ) 2 累加次數
0~2,000 10 1,000 10000
482253086.4 10

2,000~4,000 8 3,000 24000 195580246.9 18

4,000~6,000 1 5,000 5000 8669753.086 19

6,000~8,000 1 7,000 7000 891975.3086 20

8,000~10,000 2 9,000 18000 2228395.062 22

10,000~12,000 5 11,000 55000 46682098.77 27

12,000~14,000 1 13,000 13000 25558641.98 28

14,000~16,000 2 15,000 30000 99561728.4 30

16,000~18,000 2 17,000 34000 164006172.8 32

18,000~20,000 1 19,000 19000 122225308.6 33


33 215000 1080242424
286000
平均數 = = 8666.67
33
33
中位數為第 2
= 16.5位數,
16.5−10
故可得 2000 + × (4000 − 2000) = 3625
8
(2,000  0)
眾數   1,000
2
1080242424
標準準= √ 33−1
= 5810

平均數和標準差所受極大值的影響變化很大,相對而言中位數和眾數
受的影響較小。
因為眾數<中位數<平均數,所以稅前損益的分配為右偏分配。
4.18 暑假打工賺取零用錢,其工作情形如下表所示,試計算其每月總收入及
平均每小時薪水。
學校 便利
工作種類 家教 速食店 補習班 KTV
工讀 商店
每月工作時數 8 10 10 16 4 12
時薪(元) 350 80 100 90 350 110
資料來源:虛擬。

每月總收入 = (8350+…+12110) = 8,760
第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現 91

每月總工作時數 = 8+10+10+16+4+12 = 60
平均每小時薪水 = 8,760/60=146 (元/小時)
4.19 行政院主計處調查顯示,大台北地區 15 歲以上通勤通學民眾平日通勤通
學的時間按地區分如下表所示,試求大台北地區 15 歲以上通勤通學民眾
平日平均花多少時間通勤通學?(單位:%、分鐘。)
占總人數 通勤通 占總人 通勤通學
地區別 地區別
比例 學時間 數比例 時間
士林北投 8.74 25 海山 19.11 26
內湖 4.18 27 土樹 9.15 24
南港 1.80 25 八里重新 19.19 25
北市核心 16.69 22 北海岸 3.07 29
大萬華 4.67 25 東北角 0.72 28
文山 4.22 22 汐止 3.34 25
大新店 5.12 31
資料來源:《99 年大臺北地區(雙北市)15 歲以上居民通勤通學型態分
析》,行政院主計處,2013 年 2 月。

平均通勤通學時間
= (8.74%25)+(4.18%27)+…+(0.72%28)+(3.34%25) = 25.01 (分鐘)
4.20 下表為中央氣象局公佈之 107 與 108 年度台北地區臭氧總量觀測資料
(單位為 D.U.),請畫出盒鬚圖,並說明資料中是否有極端值?是否為
偏態分配?
月\年 107 108 月\年 107 108
一 253 229 七 292 281
二 261 229 八 284 278
三 282 253 九 274 268
四 300 286 十 261 273
五 304 292 十一 244 253
六 293 290 十二 229 245
資料來源:《氣候統計、每月臭氧》,中央氣象局,2020 年 1 月。


計算得最小值為229,最大值為304,全距為75
273 + 274
中位數(第12與第13位數的平均值)為Q2 = = 273.5
2
253 + 253
Q1(第6與第7位數的平均值) = = 253
2
286 + 290
Q 3(第18與第19位數的平均值) = = 288
2
92第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現

四分位距IQR = 288 − 253 = 35


253 − 1.5 × 35 = 200.5;288 + 1.5 × 35 = 340.5
未有觀測資料落於(229, 304)外,本表無極端值。

【本圖利用SPSS的圖表功能製作完成的,如用EXCEL,需用外掛工具】
由盒鬚圖可知,左尾較長,故知為左偏分配。
4.21 下表為 106 年第一季至 107 年第四季國民消費支出與國民儲蓄淨額分配情
形(單位新台幣百萬元):
平均值 標準差 最小值 中位數 最大值
國民消費支出 3,005,557 84,680 2,854,497 3,015,756 3,136,836
國民儲蓄淨額 932,003 120,312 812,168 888,156 1,152,480
資料來源:《中華民國統計資訊網》,行政院主計總處,2020 年 1 月。

計算二年度的平均可支配所得。
國民消費支出或國民儲蓄淨額的變異何者較大?
分別繪製國民消費支出和國民儲蓄淨額的盒鬚圖。
國民消費支出和國民儲蓄淨額的分配呈何種型態?左偏、右偏或對
稱?

平均可支配所得為消費支出加上儲蓄淨額=3937560。
國民消費支出差異較小,
120312 84680
∵ CV(國民儲蓄淨額) = = 0.129 > 𝐶𝑉(國民消費支出) =
932003 3005557
= 0.028
(略)【本小題已刪除】
第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現 93

國民儲蓄淨額呈右偏分配,國民消費支出成對稱分配。

4.22 某大學為瞭解畢業同學求職就業情形,調查畢業後第一份工作的薪資,
所得結果摘錄如下:
薪資(元) 大學生人數 碩士生人數
30000 以下 252 28
30000~35000 55 309
35000~40000 16 57
40000 以上 7 28
計算大學生和碩士生的平均薪資及標準差。
大學生或碩士生的薪資差異較大?
大學生和碩士生薪資的分配呈何種型態?左偏、右偏或對稱?

台灣大學大學生(X)和碩士生(Y)的平均薪資及標準差,計算如下
15000  252  32500  55  37500  16  45000  7
X  19,644
330
15000  28  32500  309  37500  57  45000  28
Y  32,844
422
S X2 
1

330  1
2

 15000  19644  252    45000  19644  7  73334082
2

 S X  73334082  8564

SY2 
1
422  1
 2 2

 15000  32844  28    45000  32844  28  34026551

 SY  34026551  5833

大學生的薪資差異較大,因為 CV(大學生) = 8,564/19,644= 0.4360 >


CV(碩士生) = 5,833/32,844 = 0.1776。
皆呈右偏分配。
4.23 承上題,應屆學生畢業後,大學畢業生與碩士生畢業後找到第一份工作
所花的時間分配摘錄如下:
畢業後找到第一份工作的時間 大學生人數 碩士生人數
畢業前已有或已找到工作 11 38
1 到 2 週內 194 220
3 到 4 週內 41 71
5 到 6 週內 19 32
7 到 8 週內 22 21
94第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現

2 到 3 個月 29 22
3 到 4 個月 5 10
4 個月以上 9 8

計算大學生和碩士生畢業後找到第一份工作所花的時間的平均算及標
準差。
大學生和碩士生畢業後找到第一份工作所花的時間差異何者較大?
大學生和碩士生畢業後找到第一份工作所花的時間的分配呈何種型態?
左偏、右偏或對稱?

計算台灣大學大學生(X)和碩士生(Y) 畢業後找到第一份工作所花的時
間的平均值及標準差,
0.5 × 11 + 2 × 194 + 4 × 41 + ⋯ + 19 × 9
𝑋= = 4.373
330
0.5 × 38 + 2 × 220 + 4 × 71 + ⋯ + 19 × 8
𝑌= = 3.951
422
1
𝑆𝑋2 = × [(0.5 − 4.73)2 × 11 + ⋯ + (19 − 4.379)2 × 9] =17.987
330−1

SX = √17.987 = 4.241
1
𝑆𝑌2 = × [(0.5 − 4.73)2 × 38 + ⋯ + (19 − 4.379)2 × 8] = 15.53
422 − 1
SY = √15.53 = 3.941
碩士生的時間差異差異較大,
4.241 3.941
∵ CV(大學生) = = 0.97 < 𝐶𝑉(碩士生) = = 0.997
4.373 3.951
皆呈右偏分配。
4.24 汽車每加侖汽油跑的英里數在速度增加時先會上升再下降。假設這種關
聯相當規則,如以下的速度(每小時英里數)和汽油里程(每加侖英里
數)資料所示:

速度 20 30 40 50 60
汽油里程 24 28 30 28 24
畫一個汽油里程對應速度的散布圖。請計算速度和汽油里程之間的相關
係數。解釋為什麼雖然速度和汽油里程之間有很強關聯,但相關係數卻
是 0。

第 4 章 分 析 資 料 -以 統 計 測 量 數 來 呈 現 95

汽油與速度關係圖
35

30

25

20

15

10

0
0 10 20 30 40 50 60 70

得  XY  0 ,由圖可知X、Y呈抛物線關係,兩者並非獨立。

4.25 請利用下面的數據畫一個散布圖。
x 10 20 30 40 100 100
y 10 30 30 50 10 110

計算相關係數的結果大約是 0.5。對這組數據中的大部分的點來說, x 和
y 之間有很強的直線關聯,是什麼因素導致相關係數只有 0.5 左右?

由圖可看出除了X=100,Y=10那一點外,其他點呈一個直線關係,若將
該點去除,則可得相關係數為0.9925,該點一般被稱為influential point,
必要時可以考慮去除。

You might also like