You are on page 1of 29

樣本平均數之

抽樣分佈
1
一、母體分佈和樣本平均數之抽樣
分佈
 統計學家通常於對母體作推論感興趣,因為
,費用過於昂貴,我們不可能對全國所有人
進行全身健康檢查,統計學家便建議抽樣然
後對樣本作檢查,然後來估計母體的健康情
形。很顯然的,不同的樣本得到結果是不同
,但是,假如樣本數夠大,且重覆抽樣,並
將每個樣本得到之平均數整理成一次分佈,
稱為樣本平均數的抽樣分佈,這個樣本平均
數組成的抽樣分佈形狀將會出人意外。
2
 我們必須要區分樣本平均數組成之分佈和母體分佈
( population distribution )的差異。樣本平均組成之
分佈( distribution of sample means )是從母體中抽出
相同樣本數( n )的所有可能之樣本,每個樣本平均
數的數值組成一個新母體,由此樣本平均數組成之分
佈就是樣本平均之抽樣分佈。

 再以檀香山心臟研究的血糖資料來說明樣本平均數組
成分佈(如表 1 、圖 2 和圖 3 )。圖 1 為所有 7683 名
研究對象(母體)的血糖值分佈,母體的平均數 μ 為
161.52 ,標準 σ 為 58.15 。

3
圖 1 檀香山心臟研究所有參與者(母體 N=7683 )之血 4

分佈
表 1 檀香山心臟研究母體血糖值分佈和其樣本平均
數分佈
樣本平均數
血糖 母體 ( n=25 )
(毫克 /100 毫 次數 (次數)
升)
30.1-45.0 2
45.1-60.0 15
60.1-75.0 40
75.1-90.0 210
90.1-105.0 497
105.1-120.0 977
120.1-135.0 1073 5
135.1-150.0 1083 62
150.1-165.0 849 201
165.1-180.0 691 109
180.1-195.0 569 23
195.1-210.0 440
210.1-225.0 343 5
225.1-240.0 291
240.1-255.0 153
表 1 檀香山心臟研究母體血糖值分佈和其樣本

均數分佈 ( 續 )
樣本平均數
血糖 母體 ( n=25 )
(毫克 /100 毫
270.1-285.0 次數
82 (次數)
升)
285.1-300.0 60
300.1-315.0 38
315.1-330.0 18
330.1-345.0 26
345.1-360.0 19
360.1-375.0 20
375.1-390.0 9
390.1-405.0 13
405.1-420.0 11
420.1-435.0 6
435.1-450.0 5
450.1-465.0 4
6
465.1-480.0 24
合計 7683 400
 假設隨機抽出一樣本數為 25 ,算出樣本平均
數 和標準差 s 。如果重覆隨機抽樣每次樣本
數均是 25 ,記錄每一個樣本之平均值,便會
產生新的分佈,此分佈就是樣本平均數之抽
樣分佈。表 1 之第三直欄為從母體的 7683 參
與者隨機抽樣 400 次。產生的樣本平均數抽
樣分佈,當樣本數為 25 ,如果抽出所有可能
樣本,共有 8.512×1071 種樣本,很大的數字!
實際上,我們只會選一個樣本。

7
圖 2 檀香山心臟研究中血糖樣本平均數之抽樣分佈
( n=25 )
從圖 2 中,樣本平均數之抽樣分佈為對稱的
,略呈鐘形,且平均值接近母體平均數
161.52 ,但其變異數明顯小於母體變異數。 8
二、中央極限定理
 比較圖
2 和圖 3 很容易看到兩圖相似及不相似的
地方。相似的地方是樣本平均數之抽樣分佈的平
均數幾乎等於母體的平均數;另一方面,樣本平
均數抽樣分佈的變異數小於母體的變異數許多。
不同的地方是母體的分佈為一個平坦的曲線,樣
本平均數抽樣分佈則為狹窄、尖頂的曲線;另一
個值得注意的特性是樣本平均數之抽樣分佈接近
鐘形且對稱之曲線,而原來母體卻是一明顯地偏
斜分佈。驟看似乎有矛盾,實際上這是一個數理
統計的特性,稱為中央極限定理。
9
10

圖 3 母體分佈形狀和樣本數對樣本平均數抽樣,分佈曲線的影響
 中央極限定理( center limit theorem )說明隨
機抽取樣本,樣本數為 n ( n 必須至少 25 , n
愈大愈接近母體),母體的平均數為 μ 和母體
的標準差 σ 。
1. 不論原來母體是否為常態,樣本平均數 組成
之抽樣分佈接近常態分佈。
 從統計定理可以延伸出二個特性:
2. 樣本平均數抽樣分佈的平均數等於母體平均數
,即 µ = µ 。
x
3. 樣本平均數抽樣分佈的標準差等於母體標準差
除上樣本數的平方根,即

σ
σ x = (公式1)
11

n
圖
3 說明以上三個特性,共有四個不同的母
體分佈,樣本數依序增加,樣本平均數抽樣
分佈愈趨近於常態分佈,不論原始母體是否
為常態分佈,又平均數抽樣分佈的平均數等
於母體的平均數( μ ),隨著樣本數增加,
樣本平均數抽樣分佈的標準差也隨之變小。

12
三、平均數之標準誤
σ
 樣本平均數抽樣分佈之標準差為 ,但稱
n
為平均數之標準誤( standard error of the
mean ),記為 SE (
x ),即

σ
SE( x) = σ x = ( 公式 2)
n

13
 SE(x )和標準差極為相似,表示樣本平均
數抽樣分佈之變異情形,而不是測量每個觀
察值的變異情形。因為它有抽樣誤差的意味
,在統計推論上非常重要。抽樣誤差與其他
誤差不同,它可隨樣本數的增加而減小。在
醫學文獻常以平均數及其標準誤 ±2SE x
( ),來估計母體平均數 μ ,即在 x
±2SE ( )有 95% 機會包含要估計的母體平
均數 μ 。

14
 要證明中央極限定理需要相當的數學背景,超出本書的範圍
,所以不在此證明。圖 1 和圖 2 的抽樣試驗已足夠印證中央
極限定理的真實性,從圖中可以得知:
1. 樣本平均數之抽樣分佈的平均數 等於母體平均數 μ 。
2. 樣本平均數抽樣分佈的標準差以公式計算為
12.24 和平均數標準誤 =11.63 非常相近。這
個的結果非常重要,只要知道樣本數和母體標準
差 σ ,則可以採用 來估計樣本平均數抽
樣分佈之標準誤。 σ
σx =
n
3. 樣本平均數之抽樣分佈接近常態分佈。
σ
σx =
n

15
 實際上,σ 幾乎很少知道的,通常是用樣本
標準差 s 來估計,最常使用下列公式來計算
平均數的標準誤
S
S x = (公式3)
n

當 σ 未知時, 可以從樣本估計得知。

16
 很多時候資料都不是常態分佈,導致統計分析時
會有一些困難,但對平均數作分析時,只要樣本
數足夠大(約 25 或以上)便可以假定它為常態
分佈。
 因為中央極限定理說明樣本平均數接近常態分佈
,便可計算樣本平均數常態分佈曲線下的面積。
先對原來資料值作 Z 轉換,也就是計算 Z 分數。
對樣本平均數而言, Z 的公式為
x −µ
Z = (公 式4)
σ
n
 計算 Z 可以確定 在樣本平均數抽樣分佈的相對
位置
17
四、學生氏 T 檢定
 很多時候母體的標準差 σ 是不知道的,就無
法計算 Z 分數。所以當 σ 未知時,可採用 s
來估計樣本標準差,公式如下:

s=
∑ ( x − x ) 2

(公式5)
n −1

 可否用公式5 中之 s 替代 σ 嗎?答案是可以
的。但經 s 取代 σ 後之分佈不再是標準常態
分佈,而是在 1906 年發展出來 t 分佈。
18
 由英國化學家兼統計學家 William S. Gosseett
在 1908 年發表,他在柏林的 Guinness 酒廠工
作,因雇主擔心酒廠的貿易機密外漏,鮮少
允許僱員發表論文,所以 Gossett 以「學生」
的假名發表,因此他發表的 t 分佈常常又稱
為學生氏 t 分佈( Student’s distribution )。
t 分數之公式為:

x −µ
t= (公式6)
s
n
19
 t 分佈與標準常態分佈很相似,為單峰、鐘形、對稱,且兩邊無限延
伸。雖然 t 分佈曲線之變異量稍高於常態分佈,面積總和仍為 1.0 ,
見表 B 。曲線下面積以 α 表示,為自由度( degree of
freedom , df )表示之函數。當估計單樣本的標準差。
df=n-1

 自由度的意義是在某一組資料中有多少位個案資料可以用來估計母
體變異數 σ2 。因此,自由度也是 s 可信度的指標,樣本數愈大,估
計 σ 的可信性愈高。所以平均數的 t 分佈之變異量會隨樣本數增加而
降低。當樣本數約超過 30 時, t 分佈便非常接近於常態分佈,所以
在實務上,使用常態分佈。換言之,在大樣本時, s 是非常可靠的估
計 σ 。在圖 4 中清楚看到不同的自由度之 t 分佈。當自由度增加, t
分佈愈接近常態分佈。

20
圖 4 t 分佈和常態分佈之比較

22
t分佈說明了大樣本中無限大的自由度的觀念
,自由度無限大時, t 分佈相等於常態分佈。
比較表 B 的 df=∞ 之臨界值和表 A 不同 α 之
Z 值,便很容易看到 t 分佈等於常態分佈。當
自由度 =25 時, t 分佈便很接近常態分佈了
;到了自由度為 30 時, t 分佈幾乎等於標準
常態分佈。表 B 的 t 分佈列出不同自由度部
份面積相對的 t 值。例如, α=.05 和 15df 的 t
值等於 1.753 ,從表中找 df=15 和面積
=.95 ,得 t=1.753 ; α 為曲線尾部的面積。

23
 哪種狀況應使用 t 分佈?答案是當母體的標
準差未知時。如果母體的 σ 已知或是樣本數
是超過 25 時,便可以放心採用常態分佈,否
則,應採用 t 分佈。

表 2 列出學生氏 t 分佈的公式和 Z 公式。

表 2 母體分佈和樣本平均數抽樣分佈的使用符號
五、應用
 從檀香山心臟研究整個母體血糖資料(見圖 1)
,得到 μ=161.52 和 σ=58.15 。設從母體中抽取樣
本數為 25 的樣本。( 1 )有多少比例的樣本平均
數其血糖平均值為 170 或以上?( 2 )有多少比
例的樣本平均數其血糖平均值為 155 或以下?

 對問題(
1 ),可以先算出 Z 分數,再求出 Z 以
上面積的比例,得到 :
170 − 161.25 8.49
Z= = = .73
58.15 11.63
25
 再查表 A , Z=.73 右邊的面積為 .5-.2673 ,約
23% 。問題( 2 ),利用相同的方法,可求得

155 − 161.25 −6.25
Z= = = −.54
58.15 11.63
25

 在表 A 中, Z=-.56 以下的面積
為 .5-.2123=.2877 ,約 29% 。
六、執行 t 檢定必要的假

 執行 t 檢定時必須符合以下的前題假設:

1. 觀察者必須是隨機選出的
2. 此分佈必須是常態分佈
3. 有時假設不符合時,仍可執行 t 檢定,似可
得到很不錯的結果,是因為 t 檢定有非常穩
健的特質。
 總結

母體之分佈和樣本平均數組成之抽樣分佈明
顯地不同。一個非常有用的中央極限定理,
給予下列結果:儘管母體分佈不是常態分佈
,只要樣本數夠大( n≧30 ),其樣本平均
組成之抽樣分佈仍接近常態分佈。樣本分佈
平均組成之抽樣之平均數等於母體分佈之平
均數。樣本平均數之標準誤等於母體標準差
除上樣本數的平方根。在抽樣試驗中,以上
的結果通常用來判斷得到之樣本平均有沒有
不同。
 練習:

假定 17 歲少女的收縮壓接近常態分佈,平均數為
128mmHg ,標準差為 12mmHg 。
a. 收縮壓介於 122 mmHg 和 134 mmHg 之間的
女孩佔多少比例?
b. 若抽樣 16 名女孩,試問其平均數介於 122
mmHg 和 134 mmHg 間的比例為何?
c. 比較( a )和( b )的結果,並解釋不同處
的原因。
 練習:

假定 17 歲少女的收縮壓接近常態分佈,若抽樣 9 名女
孩,平均為 126 mmHg ,,樣本標準差為 20 mmHg ,
則母體平均數 95% 信賴區間為何?