You are on page 1of 75

統計與生活

第六單元:資料之敘述
授課教師:國立臺灣大學數學系 陳 宏 教授
【 本 著 作 除 另 有 註 明 外 , 採 取 創用 CC
「姓名標示-非商業性-相同方式分享 」臺灣 3.0
版授權釋出】
目錄
• 集中測量數( measure of central tendency )
• 平均數 mean 、中位數 median 和眾數 mode
• 離散測量數( measure of dispersion)
• 全距 range 、四分位距 interquartile range 、變異數
variance 和標準差 standard deviation 。
 盒鬚圖及五數綜合

 常態分布

 查表
2
紐約尼克隊 2011/12 年薪水(百萬美元)
球員 薪水 球員 薪水
安森尼 18.52 Harrellson 0.47
Balkman 1.68 Jeffries 0.85
比盧普斯 14.20 林書豪 0.76
Bibby 0.85 諾瓦克 0.85
泰森錢德勒 13.11 尚波特 1.56
巴隆戴維斯 0.85 史陶德邁爾 18.22
Douglas 1.15 Walker 0.89
費爾德斯 0.76

3
紐約尼克隊 2012 年薪水(百萬美元)
0 | 58899999(1.2)(1.6)(1.7)
2|
4|
6|
8|
10 |
12 | 1
14 | 2
16 |
18 | 25
4
思考問題

• 2011-2012 紐約尼克籃球隊 15 位隊員薪水(百萬


美元)的平均數是 4.98 百萬,中位數是 0.89 百
萬。 .
• 試問如何算出平均數及中位數 ?
• 何者是該隊『典型』薪水較佳的量測?
• 平均數還是中位數 ?

5
圖表 v.s 數字

從前頁表中可看出大部份尼克隊球員的年薪少於 100
萬,少數會超過 1000 萬。

想更精確的知道資料的中心位置和分散度,該怎麼辦?

6
思考問題

• 人類的孕期,足月平均為二百八十天左右,標準差
為十六天。
• 足月平均的四十週中,其中兩週是虛假的,因為排
卵期之前還未受精,但已計入。

• 試問何謂標準差 ?
• 試問超過 296 天才生產是常見的嗎 ?

7
圖表 v.s 數字

圖表是以視覺化的方式來呈現資料的分布情形,掌握
資料全貌與呈現出的訊息。

使用測量數的數值可進一步提供與資料相關的更精確
資訊,亦可作為統計推論所需的數值來源。

8
資料的狀態—資料的中心

集中測量數 (measure of central tendency) :用來


描述資料的中心位置
n 筆資料分別為 x1, x2, …, xn 則均數為

均數為
的解。
9
平均數

 所有資料的總和除以資料個數所得的商
 代表資料的平均水準,維持整個資料分布平
衡的支點,則以下圖形可以達到平衡,不會
歪斜。

 容易受極端值的影響

10
例子:小華微積分小考成績

成績為 76 、 80 、 85 、 76 、 90 分,則平均成績多
少?

將小考成績總和除以小考個數,

則 (76+80+85+76+90)/5=407/5=81.4

11
例子:小明歌唱比賽的得分

給分為
85 、 86 、 84 、 89 、 88 、 89 、 85 、 90 、 85
、 89
,則平均得分為何?

將全部總和除以評審個數,

則 (85+86+84+89+88+89+85+90+85+89)/10=87
12
平均數受極端值影響

一筆資料中若
有一個極端值,
則平均數會因
為它而改變。

13
中位數

將資料的數值從小到大排序後,當資料個數為奇數時,
最中間的那一個數,就是中位數。

例如小華微積分
小考成績的中位
數為 80

14
中位數

將資料的數值從小到大排序後,當資料個數為偶數時,
最中間兩數之平均,就是中位數。

例如小明歌
唱比賽得分
的中位數為
87
15
中位數

只考量資料數值的位置,而沒有考量資料數值的大小
,故不適合作代數運算。

中位數較不易受到極端值的影響。

16
中位數不受極端值影響

即使資料中有
一個極端值,
中位數也不會
因此而有很大
的改變。

17
眾數

 資料數值中出現次數最多的那一個數

 眾數不是只有一個,它可能會有一個,
或兩個以上的眾數,甚至沒有眾數

18
例子:小華微積分小考成績

76→2 次、 80→1 次、 85→1 次、 90→1 次,

所以小華微積分小考成績的眾數為 76

19
例子:小明歌唱比賽的得分

84→1 次、 85→3 次、 86→1 次、 88→1 次、


89→3 次、 90→1 次,

所以小明歌唱比賽得分的眾數
為 85 和 89

20
眾數的判斷

21
資料分布形狀

對稱
左偏
右偏

22
資料的分布形狀

1. 資料的分布為對稱,平均數=中位數=眾數

23
資料的分布形狀

2. 資料的分布為右偏,平均數>中位數>眾數

24
資料的分布形狀

3. 資料的分布為左偏,眾數>中位數>平均數

25
資料的狀態—資料的分散度

離散測量數 (measure of dispersion) :用來描述資料的


分散程度。

常用的有全距 (range) 、四分位數 (interquartile


range) 、變異數 (variance) 、標準差 (standard
deviation) 。

26
全距

資料的數值中最大值與最小值的差距
全距 = 最大值 - 最小值

瞭解資料分布的全部範圍,用來表達資料分散
的狀況

27
例子:小華微積分小考成績

最大值為 90 、最小值為 76 ,

全距 = 最大值 - 最小值
=90-76 =14

所以小華微積分小考成績的全距為 14

28
例子:小明歌唱比賽的得分

最大值為 90 、最小值為 84 ,

全距 = 最大值 - 最小值
=90-84 =6

所以小明歌唱比賽得分的全距為 6

29
四分位距
 資料的數值中第一四位數與第三四分位數的差

 第一四分位數:將資料的數值從小到大排序
後,排序居於前 25 %的那個數字

 第三四分位數:將資料的數值從小到大排序
後,排序居於前 75 %的那個數字

30
例子:小華微積分小考成績

所以小華微積分小考成績的四分位距為 11.5

31
例子:小明歌唱比賽的得分

所以小明歌唱比賽得分的四分位距為 4

32
生活中的 IQR :學測級分

學測級分五項標準之計算:

頂標:成績位於第 88 百分位數之考生級分。
前標:成績位於第 75 百分位數之考生級分。
均標:成績位於第 50 百分位數之考生級分。
後標:成績位於第 25 百分位數之考生級分。
底標:成績位於第 12 百分位數之考生級分。
33
應用:學測級分

由五項標準定義可知
第一四分位距 = 後標 = 成績位於第 25 百分位數之考生
級分
第三四分位距 = 前標 = 成績位於第 75 百分位數之考生
級分

學測級分之 IQR= 前標 - 後標。

34
應用:學測級分

100 學年度學科能力測 100 學年度學科能力測驗


總級分與各科成績標準一覽表
驗總級分之 IQR=58- 標準
項目
頂標 前標 均標 後標 底標
37=21 國文 13 12 11 9 8
英文 14 13 10 6 4
數學 13 11 7 4 3
社會 13 12 10 8 7
其餘各科分別為 自然 13 12 9 7 6
總級分 64 58 48 37 28
3,7,7,4,5

35
變異數

 所有資料到平均數差距的平方總和除以資料個
數減一所得的商

 在測量所有資料到平均數的平均距離

36
例子:小華微積分小考成績

所以小華微積分小考成績的變異數為 36.8

37
例子:小明歌唱比賽的得分

所以小明歌唱比賽得分的變異數為 4.9

38
標準差

 將變異數開平方來表示資料的分散程度

 標準偏差的單位與資料的單位有一致性

39
例子:小華微積分小考成績

先算出微積積分小考成績的變異數為 36.8

再來將變異數開平方為
36.8  6.07

所以小華微積分小考成績的標準偏差為 6.07

40
例子:小明歌唱比賽的得分

先算出歌唱比賽得分的變異數為 4.9

再來將變異數開平方為 4.9  2.21

所以小明歌唱比賽得分的標準偏差為 2.21

41
盒鬚圖
 五數綜合:資料數值的最
小值、第一四分位數、中
位數、第三四分位數以及
最大值。

 盒鬚圖:使用五數綜合數
字所呈現出一種表示料特
性的統計圖形

42
盒鬚圖與資料分布的關係

43
常態分布 (normal distribution)

大部份的值都極中在平均值兩側,極端值不多,圖形
以平均值為中心左右對稱且成鐘形分布。

44
常態分布
某些真實數據的分布,常接近於常態分布
 身高、體重、考試成績
天文學家或測量員仔細重複度量同一個數量時,會有小
誤差,高斯用這些曲線來描述這些小誤差。
有些生物學或心理學的變數也大致是常態分布。
當我們從同一母體抽取出許多樣本時,諸如樣本比例及
樣本平均數這類統計量的分布,常與常態曲線相距不遠。
45
奎特雷 1817 年蒐集的 5732 位
蘇格蘭軍人胸圍數據
胸圍 ( 英吋 ) 頻率 胸圍 ( 英吋 ) 頻率
33 3 41 935
34 19 42 646
35 81 43 313
36 189 44 168
37 409 45 50
38 753 46 18
39 1062 47 3
40 1082 48 1

46
胸圍數據的直方圖,平均值及標準差
分別為 39.85 及 2.07
總體而言,該直方圖
呈現「鐘型」,對稱
於其平均值。或是男
人胸圍數據之分布,
是平均值加上離差,
而離差為一期望值為
0 的隨機變數,其分
配為常態分配。此時
可將一軍人的胸圍表
為平均值及離差的
47 和。
圖中的鐘型曲線為一平均值及標準差分別為 39.85 及
2.07 的常態分配密度函數

48
常態分布的位置因平均數而異

標準差相同而平均數不同之常態分布,形狀相同,但
位置不一樣。

49
常態分布的形狀由標準差決定

平均數相同標準差不同之常態分布,中心位置相
同,但高度形狀不一樣。

50
68-95-99.7 規則

68% 的資料落在距平均數一個標準差的範圍裡。

95% 的資料落在距平均數兩個標準差的範圍裡。

99.7% 的資料落在距平均數三個標準差的範圍裡。

51
68-95-99.7 規則

52
例子: IQ 測驗

成績為常態分布,平均為 100 分,標準差為 10 分

則測驗成績在 90 分到 110 分之間,約佔 68 %


測驗成績在 80 分到 120 分之間,約佔 95 %
測驗成績在 70 分到 130 分之間,約佔 99.7 %

53
例子:班上同學的身高

991 的調查可得知修習統計與生活的學生身高為 165.8


公分,標準差為 12.38 公分。

身高在 153.42 分到 178.18 公分之間,約佔 68 %

在 141.04 公分到 190.56 公分之間,約佔 95 %


在 128.66 公分到 202.94 公分之間,約佔 99.7 %
54
資料標準化 (standardization)
用來比較兩個平均和標準差不同的常態分布。

標準計分 (standard score)Z


= ( 觀測值 - 平均數 )/ 標準偏差

標準化後的標準常態分布的平均數為 0 ,標準差為 1

55
例子:統計學 VS 經濟學

小明的統計學 67 分,平均為 65 分,標準偏差 10 分


經濟學 72 分,平均為 75 分,標準偏差 5 分

則「統計學」的標準計分為 (67-65)/10=0.2
「經濟學」的標準計分為 (72-75)/5=-0.6

所以小明的「統計學」在班上的排名比較好

56
例子:統計學 VS 經濟學

-0.6 0 0.2
57
認識標準常態分布的累積機率表
Z=0.12 0.5438=54.38%

58
例子:標準常態分布的累積機率表之應用

你這學期必修大刀教授所開設的統計學,心中忐忑不安,

擔心這門課沒辦法過。根據大刀教授所教過的 1000 名
學生中分數紀錄所得知,成績合乎常態分布,其平均成
績為 73 分,標準差 10 分,想知道被當的機率有多少?
過去分數不及格 (60 分以下 ) 的人數約有幾人?

59
例子:標準常態分布的累積機率表之應用

先標準計分得到 Z=(60-73)/10=-1.3 ,查表得知 60 分

以下人數約佔 9.68 %,也就是說大約有 9.68% 的機率


被當, 1000x9.68=96.8 ,過去大概有 96 個人不及格。

60
統計人物小傳 - William Snedecor

61
統計人物小傳 - William Snedecor

在 1913 年夏天快結束前, Snedecor 拎著一個裝滿隨身物


品的皮箱從肯塔基大學 (University of Kentucky) 離開,準備
搭車前往愛荷華大學 (University of Iowa) 應徵當數學教授。
可是他對於愛荷華州的地理概念似乎不太好,他沒去到位於
愛荷華市 (Iowa City) 的愛荷華大學,而是來到了位於 Ames
的愛荷華州立大學 (Iowa State College) 。雖然愛荷華州立大
學並沒有徵求數學教授,但是正好他們招收了一群數學背景
比較差的學生,需要他開授一門代數課。自此 Snedecor 就留
在愛荷華州立大學教書。

62
統計人物小傳 - William Snedecor

Snedecor 在愛荷華州立大學創立統計研究中心,最後成立美
國第一個統計系。而 Gertrude Cox 就是在美國第一位拿到統
計碩士學位的學生。當初 Cox 有志於從事神職人員並到偏遠
的地區傳道,在愛荷華州的唸完高中後,她需要大學的學歷
才能夠申請到這樣的工作。 Snedecor 說服 Cox 說唸統計學比
較有趣,自此之後 Cox 就一頭栽進統計學領域中並在統計研
究中心工作。後來, Snedecor 推薦她到加州大學 (University
of California) 攻讀心理學博士。 Cox 學成歸來後 Snedecor 就
將統計研究中心交給她負責。

63
Gertrude Cox

64
統計人物小傳 - William Snedecor

北卡羅萊納州立大學 (North Carolina State University) 要成


立統計研究中心,最後如同愛荷華州立大學一樣模式演變成
統計系所。校長 Frank Graham 尋求 Snedecor 幫忙推薦一位
人選能 領導這個中心。 Snedecor 擬了一份十人的名單並找
來 Cox 幫他做確認。 Cox 看了這份名單後問了一句:「那我
呢?」。 Snedecor 最後在這份十人的名單信件上加了一句話,
「這十個人是我認為非常棒的人,但是如果你需要最好的人,
我會推薦 Gertrude Cox 。」

65
統計人物小傳 - William Snedecor

雖然 Snedecor 並沒有發展出許多統計原創理論,
但他對於統計學的應用發展有莫大的功勞。他的眾多
著作當中,最有名的就是 1937 年與 William G.
Cochran 共同編撰的統計學書籍 Statistical Methods 。
這本書成為當時修習統計學非讀不可的教科書。七零
年代時,各個科學領域所有發表的期刊當中,這本書
被列入文章參考資料的次數是最多的。

66
複習

以課本圖 4.7 例求平均數、中位數、眾數。


全距、四分位數、變異數、標準偏差
判斷資料分布形狀
繪製盒鬚圖

67
版權聲明
頁碼 作品 授權條件 來源 / 作者

shamsports.com
3 安森尼…… 0.89 。 (http://www.shamsports.com/content/pages/data/salaries/knicks.jsp) ,
瀏覽日期 2012/04/30 。依據著作權法第 46 、 52 、 65 條合理使用。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 93 ,
10 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 93 ,
13 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 94 ,
14 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 94 ,
15 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。
68
頁碼 作品 授權條件 來源 / 作者

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 95 ,
17 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 96 ,
21 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

22 國立臺灣大學 農藝學系 劉仁沛 教授。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 96 ,
23 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 96 ,
24 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

69
頁碼 作品 授權條件 來源 / 作者

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 96 ,
25 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 98 ,
31 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 99 ,
32 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

花蓮高中全球資訊網
35 (http://www.hlhs.hlc.edu.tw/node/7332) ,
瀏覽日期 2012/04/10 。依據著作權法第 46 、 52 、 65 條合理使用。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 99 ,
37 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

70
頁碼 作品 授權條件 來源 / 作者

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 100 ,
38 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 102 ,
42 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 102 ,
43 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 102 ,
43 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 103 ,
43 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

71
頁碼 作品 授權條件 來源 / 作者

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 103 ,
44 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

信賴區間與信心水準解讀相關之機率與統計知識 (http://0rz.tw/IFyBT) ,
46 臺灣大學數學系 陳宏,頁 7 ,瀏覽日期 2012/04/30 。
依據著作權法第 46 、 52 、 65 條合理使用。

信賴區間與信心水準解讀相關之機率與統計知識 (http://0rz.tw/IFyBT) ,
47 臺灣大學數學系 陳宏,頁 8 ,瀏覽日期 2012/04/30 。
依據著作權法第 46 、 52 、 65 條合理使用。

信賴區間與信心水準解讀相關之機率與統計知識 (http://0rz.tw/IFyBT) ,
48 臺灣大學數學系 陳宏,頁 8 ,瀏覽日期 2012/04/30 。
依據著作權法第 46 、 52 、 65 條合理使用。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 104 ,
49 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

72
頁碼 作品 授權條件 來源 / 作者

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 104 ,
50 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 104 ,
52 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

57 國立臺灣大學 農藝學系 劉仁沛 教授。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 109 ,
58 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,
劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 109 ,
58 國立臺灣大學出版中心, 2010 年 3 月初版。
由所有權人國立臺灣大學出版中心授權,您如需利用本作品,請另行向權利人取得授權。

73
頁碼 作品 授權條件 來源 / 作者

South-Western
61 (http://www.swlearning.com/quant/kohler/stat/biographical_sketches/bio17.1.html) ,
瀏覽日期 2012/1/9 。依據著作權法第 46 、 52 、 65 條合理使用。

國立臺灣大學生物統計學程 (
在 1913 年……大學教
62 書。
http://biometry.ntu.edu.tw/index.php?option=com_content&view=article&id=58&catid=39&Itemid=6
8
) ,瀏覽日期 2012/03/19 。依著作權法第 46 、 52 、 65 條合理使用。

國立臺灣大學生物統計學程 (
Snedecor 在……交給他
63 負責。
http://biometry.ntu.edu.tw/index.php?option=com_content&view=article&id=58&catid=39&Itemid=6
8
) ,瀏覽日期 2012/03/19 。依著作權法第 46 、 52 、 65 條合理使用。

NCSU Libraries
64 (http://d.lib.ncsu.edu/collections/catalog/0003592) ,
瀏覽日期 2012/1/9 。依據著作權法第 46 、 52 、 65 條合理使用。

北卡羅萊納州……推薦 國立臺灣大學生物統計學程 (
65 Gertrude Cox 。」
http://biometry.ntu.edu.tw/index.php?option=com_content&view=article&id=58&catid=39&Itemid=6
8
) ,瀏覽日期 2012/03/19 。依著作權法第 46 、 52 、 65 條合理使用。

74
頁碼 作品 授權條件 來源 / 作者

國立臺灣大學生物統計學程 (
66 雖然 Snedecor…… 次數
是最多的。
http://biometry.ntu.edu.tw/index.php?option=com_content&view=article&id=58&catid=39&Itemid=6
8
) ,瀏覽日期 2012/03/19 。依著作權法第 46 、 52 、 65 條合理使用。

75

You might also like