You are on page 1of 47

應用統計學

CH7 抽樣、抽樣分配與點估計
抽樣分配

■ 抽樣簡介
■ 抽樣分配
■ 樣本平均數的抽樣分配
■ 樣本比例的抽樣分配
■ 兩樣本平均數差的抽樣分配
■ 兩樣本比例差的抽樣分配
■ 三個重要的抽樣分配
■ 常態母體之檢查及轉換
抽樣的基本概念

• 所謂抽樣(sampling),是運用適當的抽取方式 自母體中抽出部份樣本點的方
法或程序 。
• 抽樣的主要目的 是希望能藉由適當的抽樣方式,自母體中抽取一組具有代表
性的樣本,並計算此樣本的特徵量數值(稱統計量 statistic) 再有效的、精確
的推論母體的主要特徵量數(稱參數 parameter)。
• 為了能有效的、精確的推論母體的主要特徵量數(參數)在抽樣時必須考慮
採用正確而且合適的抽樣方法,才能獲得一組具有代表性的樣本 。

3
抽樣調查之重要性

• 節省人力、物力、成本 。
• 較具時效性。
• 提高調查資料之品質。
• 適合破壞性之檢驗,例如:燈泡壽命之檢驗。
➢ 抽查之缺點為誤差必然存在,但可透過科學方法加以衡量與控制。

4
• 在抽樣的調查中,母體的參數皆未知,需以樣本的統計量來估計推斷,其表示的
符號,如表:

名 稱 母體參數 樣本統計量 樣本統計量的值

個體大小 N n n

平均數  X x
X x
比例 p P̂ = p̂ =
n n
( X i −  ) ( X i − X ) ( x i − x )
2 2 2
變異數 2= 2
S = 2
s =
N n −1 n −1
   
抽樣方法會造成誤差的原因有二:
• 抽樣誤差(sampling errors)或為隨機誤差(random errors)。
• 抽樣方法:不同抽樣方法會造成不同抽樣誤差,期中又以機率性抽樣之誤差較小。
• 樣本數大小:樣本愈大、誤差愈小(但成本相對提高)

• 非抽樣誤差。
1. 資料取得或處理誤差。
2. 測量工具本身之誤差。
3. 回覆誤差。例如:訪問者亂填問卷。
一、隨機抽樣法(random sampling) 若抽樣之過程符合下列三個條件,
則稱此種抽樣方法為隨機抽樣法:
1. 母體內任何一個元素均有被抽出的可能性。
2. 任一組樣本被抽取的機率均為已知或可計算得知。
3. 任一組樣本被抽取的過程均為獨立。
即母體內某一個體被抽到與否不會影響其他個體被抽到之機會。

二、非隨機抽樣法(non-random sampling)
統計調查時所抽取的樣本並不是依照機率模式設計去抽取,而是根據個人的主觀
意志;例如自己的專長、知識、研究的目的或考慮資料取得的方便性,來選取樣
本的方法,稱為「非隨機抽樣法」。以「非隨機抽樣」所得到的樣本來推論母體
特性,比較不具有公正性。
7
設母體的隨機變數X,每次抽出一個隨機變數Xi,則n次抽樣X1, X2, …, Xn須滿足下
列二條件:
1. X1, X2, …, Xn互為獨立(independent, i)。
2. X1, X2, …, Xn之機率分配與X之機率分配相同(identically distributed, i.d.)。
3. 此時X1, …, Xn即為一組隨機樣本,有時簡寫為r.s.。
隨機抽樣的方法大可分為如下:
(一)簡單隨機抽樣(simple random sampling)
• 從一個含有N個元素的母體中,隨機抽取數個(n個)元素(樣本點)為一組樣本,
每一個樣本點被抽到的機會均相同,此種抽樣的方法,稱之為「簡單隨機抽樣
法」。
• 而按此種方法所抽出的樣本,則稱之為「簡單隨機樣本」,簡稱為「隨機樣本」。
• 在採用簡單隨機抽樣時,依其所抽取樣本點是採放回或不放回方式,又可分為「抽
樣放回」(samplingwithreplacement)與「抽樣不放回」(samplingwithoutreplacement)兩
種方法。
• 此兩種方法在抽樣時,樣本出現的機率並不相同。採取「抽樣放回」的簡單隨機抽
1 n
樣,每組樣本出現的機率為 ( ) ,而採用「抽樣不放回」的簡單隨機抽樣時,其每
N
1
組樣本出現的機率則為 (
CnN
)。
1 n 1
• 然而當母體個數相當大(N→∞)時,( N
) 與 (
CnN 兩者差異已不大,此時兩種抽樣
)

方法都可視為是獨立的狀況,也就是說不管樣本放回或是不放回,對於下一次
抽取並不會造成影響。
• 另外依抽樣工具的不同,常用的簡單隨機抽樣方法有抽籤法或亂數表法等。
• 抽籤法:將母體內N個元素加以編號,並將號碼放入箱內,由箱內任意抽取出n
個籤碼,再由母體中抽取出與籤碼相符的n個樣本點,組成一組簡單隨機樣本。
• 亂數表法:將母體N個元素加以編號,再依據亂數表上任意一號碼點為起始號碼,
然後依序或隨意選取n個亂數碼,(注意:只選取屬於母體編碼範圍內的亂數
碼),再由母體中挑取出與n個亂數碼相符的n個樣本點,組成一組簡單隨機樣
本。
11
12
範例
某公司舉辦年終餐會,會中有抽獎活動,公司提供一部汽車及若干個家電
作為員工抽獎用。參加餐會的員工每人發給一張兩頭印有相同號碼的摸彩
券,一半為存根聯,一半為抽獎聯。撕下其中的抽獎聯投入摸彩箱中攪拌
均勻,再依序請公司各級主管抽出摸彩券,以決定家電與汽車的中獎人。
這就是「抽取不放回的簡單隨機抽樣 」 。

13
(二)系統抽樣(systematic sampling)

• 第一步驟:將母體內N個元素依序由1至N 加以編碼。
• 第二步驟:再將母體內N個元素的編碼,平分為n個段落。
• 第三步驟:先由第一段落(1~ k)的編號中,隨機抽取一個號碼,(假設恰巧抽到2
號),則在母體的第一段落(1~ k)的編號中,選取2號元素為第一個樣本點。
• 第四步驟:依第一個被抽到的樣本編號,每次加k個單位再取下一個樣本,直到
編號超過母體個數,或直到選滿n個樣本為止。
(2, 2+k, 2+2k, 2+3k, …, 2+(n-1)k)

14
範例

例如N=110人,欲抽取11人,則先將母體分成11個間段,每10號為一個間隔(k=10)。假

設從第一段落編號為(1~10)中,隨機剛好抽中7號,依序繼續抽取第7+k號,第7+2k號,

第7+3k號,…,第7+(11-1)k號。即有系統的依序抽出{7,17,27,37,47,57,67,77,87,97,107},

共計11個元素為調查對象。

7 17 27 37 47 57 67 77 87 97 107

10 20 30 40 50 60 70 80 90 100 110

15
隨堂練習(1)

某政黨進行立法委員選舉,黨內提名電話民意調查,在高雄市預定抽出4,000
個樣本,假設高雄市電話號碼簿住宅部共有500頁,每頁有4欄,每欄有60個
電話號碼,若由您主持該項調查,您要如何進行抽樣,以抽出一個具有代表
性的樣本?

16
(三)分層隨機抽樣(stratified random sampling)
• 分層抽樣(stratified sampling)屬於隨機抽樣法(Radom sampling)中的一種,其方法為
將抽樣母體分成性質不同或互斥的若干組,每一組為一個『層』(strata)。
• 同層的性質要儘量相近,即變異要愈小愈好;不同層間的變異要愈大愈好,但分
層組數不宜太多,可在6組以內(Cochran 1963)。
• 選擇分層的變數通常與研究的主題有直接的關聯,例如依BMI(身體質量指數)的大
小將肥胖程度分為過瘦(18以下)、標準(18-23.9)、輕微過重(24-26.9)以及過重(27以
上)等。其它常用的變項如性別、年齡、社經地位、都市化程度等。

17
• 再從各層中隨機抽取樣本,此法可依適用情形再分為等比例抽樣以及不等比例
抽樣。
• 等比例抽樣(或稱分層固定比例)中,適用當各層樣本數與該層總體數的比值相等,
而採取固定的比例抽樣。
• 例如,樣本大小n=50,總體N=500,則n/N=0.1 即為樣本比例,每層均按這個比
例確定該層樣本數,可避免各層抽過多或過少,並減少抽樣誤差,最常用的方
法是「比例配置法」(Proportional allocation)。
• 不等比例抽樣的適用情形為層內變異較大,則抽樣個數較多,反之則抽較少,
常用方法為「尼曼配置法」(Neyman allocation),各層樣本數與該層總體數的
比值並不固定。

18
採用分層抽樣法可避免出現簡單隨機抽樣中的集中於某些特性或遺漏掉某些特性的
缺點,而其優點為可靠性高且利於比較。

要如何來決定每一層內抽出的樣本數呢?以下為各層樣本數的估計方法

1. 「尼曼配置法」
「尼曼配置法」主要是考慮各層變異不同,同時考慮各層所佔比例不同,所採取的
估計方法。

19
範例
某大學欲了解其大學畢業生的起薪,採用分層隨機抽樣法,依學院別分成三層。各學院畢業生人
數 Ni 及根據過去調查所求得這三學院的畢業生起薪之標準差Si (以月計) 分別列於表

若總共要抽出200個畢業生為樣本(N=200)
(一) 採用尼曼配置法 (Neyman allocation)各層應配置多大的樣本?
(二) 採用「比例配置法」(Proportional allocation)各層應配置多大的樣本?
解答:
n1=200×(1000/2000×5)/(1000/2000×5+400/2000×6+600/2000×3)≒109
n2=200×(400/2000×6)/(1000/2000×5+400/2000×6+600/2000×3)≒52
n3=200×(600/2000×5)/(1000/2000×5+400/2000×6+600/2000×3)≒39 20
2. 比例配置法(Proportional allocation)
若每一層的層內變異皆相同, ,則「尼曼配置法」的公式可簡化為
,即各層所佔比例。

解答:
n1=200×(1000/2000)=100
n2=200×(400/2000)=40
n3=200×(600/2000)=60

21
群集隨機抽樣(Cluster random sampling)

• 「群集隨機抽樣法」(部落隨機抽樣法)是將整個母體按地域關係或按方便性,
分成若干個性質相似的「群集」或「部落」(cluster)。使得部落與部落之間同質
性較高,而各個部落內的元素則彼此間的差異性較大。因而每一個部落均可視
為整個母體的縮小。
• 群集隨機抽樣法:首先從事前分好的所有部落中,隨機抽取數個(個)部落為
隨機部落樣本,第二步驟再對這些被抽到的隨機部落,作全面性的普查。

22
範例

• 例如人口抽樣調查,可以每個家庭為一個(部落)單位,由所有家庭(部落)中隨
機抽取數個( k 個)家庭(部落),再從被選中的家庭作全部成員的調查。雖然採
用部落抽樣法取得的樣本資料,有時會產生較大的誤差,然而因為可以就近集中調
查,反而省下不少的調查時間與調查費用。故此種抽樣法還是有其可用之處。
• 原住民抽樣調查是典型的部落抽樣的例子,遍佈全台的原住民各部落之間,基本上
都具有相似的原住民部落特性,故可以全台灣的原住民部落為抽樣單位,抽取數個
( k 個)部落(村),調查員再到被抽中的部落(村),做全面性的人口普查。所
得的樣本資料,稱為「部落隨機樣本」。

23
分層與群集抽樣之比較

分層抽樣 群集抽樣
步驟 1、將母體依某特性分層 1、將母體依照某特性分群
2、由各層隨機抽取子樣本 2、由群中隨機抽取一群作普查

原則 層內差異小 群內差異大
層間差異大 群間差異小
比較 1、以各層之個體為選擇對象 1、以整個群體為選擇對象
2、其原則較易滿足→誤差小 2、其原則較不易滿足
3、適用在抽樣單位較集中時 3、適用在抽樣單位較分散時
4、目的在降低抽樣誤差 4、目的在降低抽樣成本
範例 求某國小平均身高 求全國小學生平均身高
→依照年級分層 →依照學校分群 24
抽樣分配(sampling distribution)

• 樣本統計量之機率函數,即謂抽樣分配。
• 樣本統計量(sample statistic):是一個隨機變數,其值隨樣本不同而不同。
也就是為隨機樣本的實數值函數。
• 抽樣分配(sampling distribution):表示樣本統計量的機率分配。
樣本平均數的抽樣分配

設(X1 , X2 , …, Xn)來自具有平均數為 X,變異數為  的母體之一組隨機樣本,則


 x2
n

 X 為樣本平均數,且 E( X ) = ,
x Var( X ) =
稱 X = 1
i

n n

1.無限母體:
 2
若樣本夠大,樣本中n個隨機變數X1, X2, …, Xn可視為相互獨立,則 Var( X ) = x =  x2
n
統計量的標準誤(standard errors),以 = X / n 表示,此乃強調變異的來源
為抽樣誤差所造成。
n n n n n n
xi E ( xi ) x i  v( x )  i
2

 x2
E(x ) E( i 1
) i 1 i 1
x
Var( X ) = V ( i =1
)= i =1
= i =1
=
n n n n n2 n2 n 26
2.有限母體:
若樣本對母體而言不夠小(或母體不夠大),則樣本平均數的變異數應修
N −n  X2
正為Var( X ) =  。
N −1 n
樣本平均數的抽樣分配,有兩個重要的結果:
• 一個是由常態母體隨機抽出的情形。
• 另一個是由非常態母體隨機抽出大樣本的情形。
來自常態母體:

設(X1, X2, …, Xn)來自常態母體 N(  , 2


)且  2
為已知之一組隨機樣本,
則樣本平均數的抽樣分配為

2 X −
N(  , ) 或 Z= N( 0,1 )
n / n

由上可知,若X為常態分配,且  2 已知,則不管n的大小,的抽樣分配
一定為常態分配。

28
來自非常態母體之大樣本:

『中央極限定理(Central limit Theorem,CLT)』


設(X1, X2, …, Xn)來自具有平均數為 ,變異數為  2< ,之任意母體隨機抽
出的一組樣本,則當n足夠大時(通常,當n  30), X 的抽樣分配會近似
2
於 N(  , )。
n

X −
或 Z= N( 0,1 )
/ n
中央極限定理之應用
30
抽樣分配之形成

抽樣分配之用途
• 測量統計推論之最大誤差(e)→效度
• 說明推論結果之信心水準(1-α)→信度
x1 x2 x3 x4

n
xi 2
i 1 36
x N( , )
n n 4

31
隨堂練習(2)

從理想公司之四位(2男2女)業務員中抽出2人,藉由其年度業績(萬元)估
計全体平均業績。今若全體四人之業績分別為:女:{120,140},男:{170,190}
1、若採單純隨機抽樣法,則所有可能之隨機樣本為何?試列出。
2、若採依比例配置之分層隨機抽樣,則所有可能之隨機樣本為何?試列出。
3、在(1)中,求樣本平均數 x 之抽樣分配。
4、在(3)中之 x 抽樣分配的平均數 x 及標準誤 x 。

32
樣本比例的抽樣分配

由二項分配,可知X~B(n, p)且E(X) = np,Var(X) = np(1 - p),當n很大且np  5,


n(1- p)  5,X的分配會近似於N(np, np(1 - p)),或樣本比例
X
p̂ =
n
的抽樣分配會近
p( 1 − p )
似於常態分配,即 p̂ N( p,
n
)

p̂ − p
或 Z= N( 0,1 )
p( 1 − p )
n
兩樣本平均數差的抽樣分配

假設有兩個獨立母體,分別具有平均數為 1 ,  2 ,變異數為  1 , 2,隨機抽出


2 2

n1,n2個樣本,則兩樣本平均數差 X − Y 的抽樣分配為何呢?
不管來自常態母體或是來自非常態母體之大樣本,則

 12  22 (X − Y)-( 1 −  2 )
X −Y N( 1 −  2 , + ) 或 Z= N(0,1 )
n1 n2
 2
 2
1
+ 2
n1 n2
35
三個重要抽樣分配

36
37
(4)卡方分配之基本用途在於變異數之估計及檢定,主要尚可應用於無母數
檢定中,如適合度檢定、齊一性檢定、獨立性檢定等等。

38
39
40
41
42
43
44
常態母體之檢查及轉換

45
46
47

You might also like