You are on page 1of 94

你應該知道的統計知識

資商訊息顧問有限公司
中華資料採礦協會
杜長嶸
何謂統計學
統計就是從數據中獲取資訊的
科學
 收集資料
 整理資料

 分析資料

 導出結論

敘述統計學、推論統計學
統計詞彙
 母體  統計量
 個體  變數
 樣本
 眾數
 抽樣底冊
 中位數
 參數
 平均數
母體與樣本間的關係

母體參數
個體
姓名 身高(cm) 體重(kg) 性別
杜長嶸 180 75 男
王大明 172 88 男
陳小慧 160 48 女
黃大德 165 58 男

觀察值
騙人的平均數
 老謝應徵工作
 公司規模:老闆、經理 2 位、組長 3 位
、職員 5 位。
 老闆:公司平均月薪 6 萬元,受訓期間
1 萬五千元,很快會加薪。

做 不做
平 中 眾
人數 月薪 總計 間
均 數
老闆 1人 24 萬 24 萬 數 數
: : :
經理 2人 10 萬 20 萬

2
4
6
組長 3人 4萬 12 萬 萬 萬

職員 5人 2萬 10 萬

人數

6
5
5
4
3
3
2
2
1
1
0
24萬 10萬 4萬 2萬
 平均數:量測觀察值散佈情形的中間值。
 標準差:衡量觀察值的散佈情形偏離平均值
有多遠。
 偏度:描述一個分配偏離對稱性的情形
 峰度:衡量觀察值偏離平均數有多快。
 變異係數:獲得相對的變異情形。
變異係數=標準差/平均數
 某次統計學考試,甲班平均分數為 80 分,標
準差為 20 ,乙班平均分數為 75 分,標準差
為 5 ,哪一班成績較優?


資料衡量尺度
 量化的處理工具便稱為衡量的尺度,又稱量表
( Scale )。
 問卷衡量尺度的設計是評估報告是否深入的關鍵。
 不同的量表應用不同的統計分析,準確性才會提高。
 考量的依據:
 1. 研究目的與問題深入的程度
 2. 事後資料整理時之便利性
 3. 各種可能選項的周延性與互斥性需兼顧
 4. 統計的方法
一、名目尺度 (nominal
scale)
二、順序尺度 (ordinal
此種量表是根據被調查對象的 scale)
性質而分類,如根據消費者答 較類別量表多一特性,可以表示各
案可分為「喜歡」與「不喜 類別之間的順序關係。
歡」或「是」與「否」兩類。
如要求消費者根據其心中偏好,將
每類答案的數字只作為分類之 五種飲料品牌依最喜歡到最不喜歡
用,如果將這些答案數字 的順序排列,最喜歡給 5 分、最不
(1,2,3) 做運算,根本沒有意義 喜歡給 1 分,這就是一種順序量表
,因為這些數字在此僅屬名義 。
而已,真正目的是在分類。 不過代表順序的數字還是不能用來
做運算,只能看出高低次序,卻無
法確定順序之間的差異大小,例如
若已知 A>B>C>D>E ,但並不
知道 A 與 B 的差距,或 C 與 D 的
三、差距尺度 (interval
scale)
四、比率 尺度 (ratio scale)
較順序量表再推進一步,不單
比率量表除了具有差距量表的全部
能表示順序關係,尚能測量各
特色外,再加上「真零」這個特性
順序之間的距離,可確定地指 。
出 5 分與 4 分之差距等於 4 分
與 3 分的差距。 例如身高、年齡、體重等變數的測
量都是用比率量表,故可說體重
差距量表的分數可用來做加減 180 磅的人比 90 磅的人重兩倍。
乘除的運算,此為其之一大優
不過在態度測量方面,運用比率量
點,但是不能說明 6 分為 3 分 表顯然有困難,消費者給一種飲料
的兩倍,因為差距量表並沒有 100 分,另一種給 50 分,但卻不
一個真正零點(真零)。 表示喜歡程度有兩倍的差距。因為
態度測量本質上為一順序概念,顯
然不宜用比率或差距量表測量。
 適用於各類量表的統計分析方法列如下表:

量表類別 主要用途 平均量度值 統計檢定


類別量表 分類、性別、品牌、使用者與 眾數 χ 2 檢定
非使用者
順序量表 排列或順序偏好等級 中位數 無母數檢定
差距量表 商業指數與態度測定認知度 算術平均數 一般統計方法皆可使

比率量表 單位、銷售額、生產量、成本幾何平均術 變異數分析
資料處理與展示 —統計圖表
定性資料
 次數分配表
 相對次數分配
 長條圖
 圓餅圖
資料處理與展示 —統計圖表
計量資料
 次數分配表  直方圖
 相對次數分配表  次數多邊圖
 累加次數分配表  枝葉圖
 累加相對次數分配

 散佈圖
 次數分配表

(單位:人、百分比)
家庭組織型態 次數 百分比 有效百分比
總 計 916 100.0 100.0

單身 127 13.9 14.5


夫婦二人 114 12.4 13.0
單親家庭 125 13.6 14.2
隔代家庭 17 1.9 1.9
核心家庭 370 40.4 42.1
主幹家庭 46 5.0 5.2
混合家庭 79 8.6 9.0

缺失值 38 4.1
隔代家庭:祖父母+小孩,核心家庭:父母+未婚子女,主幹家庭:祖父
母+父母+未婚子女,混合家庭:祖父母+父母+未婚子女+伯叔姑… 。
 交叉分析表
Crosstab

5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥ÁÄÒªº¡§ÁÙ¬O¤ä«ù
¨ä¥L¬FÄÒªº¡H
¤ä«ù°ê¥ÁÄÒ ¤ä«ù¥Á¶iÄÒ ¤ä«ù·sÄÒ ¤ä«ù¿Ë¥ÁÄÒ ¤¤¥ß ©Úµª Total
1.½Ð°Ý±zª¾¹D ª¾¹D¡A¥B¥¿½T»¡¥XĬ®a©ú Count 21 7 1 2 79 1 111
®ç¶é¥«¥Á¥Nªí
% within 1.½Ð°Ý±zª¾¹D®ç¶é¥«
·|ªº¥D®u¬O½Ö 18.9% 6.3% .9% 1.8% 71.2% .9% 100.0%
¥Á¥Nªí·|ªº¥D®u¬O½Ö¶Ü¡H
¶Ü¡H
% within 5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§
¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒ
14.7% 10.9% 33.3% 6.1% 10.2% 2.2% 10.4%
ªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥Á
ÄÒªº¡§ÁÙ¬O¤ä«ù¨ä¥L¬FÄÒªº¡H
ª¾¹D¡A¦ý¤£ª¾¹D©m¦W¡]¦³¦L¶H¡^ Count 11 2 2 31 46
% within 1.½Ð°Ý±zª¾¹D®ç¶é¥«
23.9% 4.3% 4.3% 67.4% 100.0%
¥Á¥Nªí·|ªº¥D®u¬O½Ö¶Ü¡H
% within 5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§
¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒ
7.7% 3.1% 6.1% 4.0% 4.3%
ªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥Á
ÄÒªº¡§ÁÙ¬O¤ä«ù¨ä¥L¬FÄÒªº¡H
¤£ª¾¹D Count 111 55 2 29 664 45 906
% within 1.½Ð°Ý±zª¾¹D®ç¶é¥«
12.3% 6.1% .2% 3.2% 73.3% 5.0% 100.0%
¥Á¥Nªí·|ªº¥D®u¬O½Ö¶Ü¡H
% within 5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§
¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒ
77.6% 85.9% 66.7% 87.9% 85.8% 97.8% 85.2%
ªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥Á
ÄÒªº¡§ÁÙ¬O¤ä«ù¨ä¥L¬FÄÒªº¡H
Total Count 143 64 3 33 774 46 1063
% within 1.½Ð°Ý±zª¾¹D®ç¶é¥«
13.5% 6.0% .3% 3.1% 72.8% 4.3% 100.0%
¥Á¥Nªí·|ªº¥D®u¬O½Ö¶Ü¡H
% within 5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§
¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒ
100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
ªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥Á
ÄÒªº¡§ÁÙ¬O¤ä«ù¨ä¥L¬FÄÒªº¡H
 交叉分析表

表. 臺閩地區單親家庭概況統計
九十年五月底 單位:戶
男性單親 女性單親
項 目 別 總 計 未 婚 未 婚 未 婚 未 婚
計 離 婚 喪 偶 計 離 婚 喪 偶
領 養 收 養 生 子 收 養

戶 數
單 親 戶 數 318,544 143,393 10,442 845 120,786 11,320 175,151 34,603 45 95,012 45,491

地 區 別

北部地區 106,468 48,033 3,290 252 41,116 3,375 58,435 11,790 15 32,611 14,019

中部地區 71,217 32,061 2,207 160 26,605 3,089 39,156 6,979 10 19,772 12,395

南部地區 65,948 32,237 2,538 221 26,898 2,580 33,711 5,771 5 17,773 10,162

東部地區 12,779 5,790 615 104 4,471 600 6,989 1,558 9 3,391 2,031

金馬地區 439 177 10 2 140 25 262 25 -- 96 141

台北市 37,456 14,962 1,050 50 12,877 985 22,494 5,741 4 12,905 3,844

高雄市 24,237 10,133 732 56 8,679 666 14,104 2,739 2 8,464 2,899
 圓餅圖

拒答 小學或以下
大學及以上 3.4% 17.2%
20.4%
國中或初中
11.5%

專科
13.0%
高中或高職
34.5%
 圓餅圖

寄居 臨時搭建場所 缺失值
配用 7.0% 0.3% 1.5% 自有
1.9% 36.2%

借用
9.7%
自有住屋
自有住屋
租用 已繳清貸款
43.3% 12.3%
缺失值
44.9%

貸款中
42.8%

貸款中
缺失值 貸款中
27.5%

不是優惠利率貸
第一次購屋貸款: 3 人 款
勞工貸款: 2 人 為優惠利率貸款 57.0%
15.5%
公教補助貸款: 4 人

優惠利率
優惠利率
 圓餅圖

知道的民眾主要特徵
知道 ,且正確說出 (14.7%)
姓名 知 道,但不知 道姓
10.4% 名( 有印象) •支持國民黨
4.3%

•50 ~ 59 歲
•職業為軍公教或自營

不知 道
85.2% •男性

不知道的民眾主要特徵
(85.2%)
•年齡為 20 ~ 29 歲
•職業為學生或家庭主婦
•女性



0
10
20
30
40
50
60

325
次數

80
0
折線圖

30
00
45
72

00
缺失值

回答人數:325
60
00
85
00
95
0
平均值

10 0
50
12 0
00
15 0
00
標準差
14763.25 9823.02

18 0
00
21 0
50
25 0
全距

00
104600

28 0
00
32 0
00
48 0
00
最大值
105000

0
400
最小值
 直方圖

 家庭使用語言(複選)

900 100.0%
93.6%
800 次數 90.0%
700 百分比 80.0%

回答人數:905 70.0%
600
60.0%
500
47.6% 50.0%
400
40.0%
300 31.8%
30.0%
200 20.0%
100 2.8% 0.7% 0.3% 0.1% 10.0%
0 0.0%
國語 族語 閩南語 日語 客家語 英語 西班牙語
 直方圖

備課時間之增加 3.27

教學評量工作的執行 3.22

學校課程發展委員會之運作 3.21

學校課程計劃之編寫 3.12

協同教學之進行 3.04

資訊融入各科之教學 2.99

統整課程活動之設計 2.88

專業成長之要求 2.65

教學方法之創新 2.62

彈性課程之實施 2.38

1 1.5 2 2.5 3 3.5 4 4.5 5


困擾程度平均分數
 直方圖

100.0%
面訪
80.0%
網站

60.0%

40.0%

20.0%

0.0%
實作評量 紙筆測驗 檔案評量 真實評量
 盒形圖

50

40 370
344
343
342
1
30 33
44
5
8
7
9
0
6
302
3
4

20

10

0
任教年資

-10
N= 3 8 419

Missing 男性 女性

性別
 枝葉圖

 全班 35 位同學統計學考試分數
86,77,91,60,35,76,92,47,88,67,23,59,72,75,83,77,68,82
97,89,81,75,74,39,67,79,83,70,78,91,68,49,56,94,81

9
8
枝 葉 7 9
2 3 7 8
3 9
6 6
4 79
8 5 3 7
5 569
6 07788 8 5 3 4
7 0245567789 9 7 4 2 2
8 11233689 9 6 7 2 1 1
9 11247 3 9 7 5 0 0 1 1
2 3 4 5 6 7 8 9
1 2 3 4 5
3.0122
¶m¤g ³£·|¤Æ
4.2645
¶Âª÷¬£¨t ¥¿¬£¸gÀç
3.6000
²{¥N³Ð·s ¦Ñ¦¡«O¦u
3.84347
¶ÆºC§Nºz ¿Ë¤Á¦³Â§
2.1958
¤½¥¿¶WµM ¿ïÁ|¼Î¸}
3.1639
¤H­û±M·~ ¤H­û¤£±M·~
3.4672
¥HÀç§Q¬°¥Øªº ¼ö¤ß¤½¯q
3.2735
ÆF¬¡¦³¼u©Ê ³Q°Ê»ø¤Æ
2.1570
°Ó«~²Õ¦X¤Ö °Ó«~¦h¼Ë¤Æ
2.5556
Àç¹BÁZ®ÄÀu¨} Àç¹BÁZ®Ä¤£¨Î
 根據統計顯示,多數車禍發生在車子行駛於一般車速
的時候,只有少數車禍發生在車速超過時速 150 公里

 開快車較安全。 多數人都以一般車速開車,
自然多數車禍發生於一般車
速。
 研究顯示,有個城市死於心臟病的人數與口香糖的消
費量同時遽增。
 嚼口香糖導致心臟病。
這兩類數字的增加是因為
人口快速成長的結果。
 現在我要寄一封文件給一位我不認識的人,我先寄給
最有可能認識目標者的人,再請他轉寄,如此轉寄到
目標者手中,請問中間經過人數?

平均為 5

 現場有兩人是同月同日生的機率為?

23 人機率略高於 1/2 ,
40 人機率達到 90 %以上。
 解讀民意調查 未回答

A 候選人支持度 31.2 %
15.4% A候選人
 31.2%

 B 候選人支持度 28.5 % C候選人


24.9%
 C 候選人支持度 24.9 % B候選人
28.5%

 成功訪問 1,068 位受訪者,在 95 %的信心水準下,抽


樣誤差為正負 3 %。
分配( Distribution )
 包括了對位置 (location) 、散佈 (spread) 及形狀 (shape) 的描
述。
 在描述 ( 呈現 ) 變數的分配形狀時,應了解:
 (1) 分配的形狀和分配的位置、散佈一樣重要
 (2) 在了解分配的形狀時,以視覺化的方式來呈現比以數字來
呈現更令人一目了然
 (3) 變數的分配形式決定了用哪一種統計技術來描述比較適當。

3 4 .1 % 3 4 .1 %

2 .1 % 1 3 .6 % 1 3 .6 % 2 .1 %

- 3 - 2 - 1 平 均 值 + 1 + 2 + 3
位置的衡量 (measures of
location)
 平均數 (Mean) :平均數指的是算術平均數,也就是在分配
中各觀察值的和除以觀察數。
n Xi
X =∑
i =1 n
 中位數 (Median) :中位數是分配的中央點。在分配中有一半
的觀察點低於,有一半的觀察點高於中位數。如果在分配中
觀察點的數目是偶數,則中位數是兩個中間數的平均數。

 眾數 (Mode) :眾數是出現次數最多的那個數字。
散佈的衡量 (measures of
spread)
 變異數 (Variance) :變異數是衡量以平均數為基準的分配情況。如
果所有的分數都相等,則變異數為零。分數分散的情形愈大,則變異
數愈大。
n (X − X )
S =∑ i
2
i =1 n −1
 標準差 (Standard deviation) :標準差是變異數的平方根,它免除
了變異數的平方,因而增加了解釋力。

S = S2
 全距 (Range) :全距是分配中最大與最小的分數之差,全距只涉及
到最大與最小的分數,因此在衡量散佈方面是相當粗糙的。
散佈的衡量 (measures of
spread)
 四分位距 (interquartile range, IQR): 是分配中第一、第
三分位之差。它也稱為中點分配 (midspread) 。第 1 分位
Q1 是第 25% 的那個數字;中位數或 Q2 是第 50% 的那
個數字;第 3 分位 Q3 是第 75% 的那個數字。
IQR=Q3-Q1

 四分位差 (quartile deviation) :四分位差或稱半四分位


距 (semi-interquartile range) 是 Q3 與 Q1 間距離的一
半。
Q3 − Q1
Q=
2
形狀的衡量 (measures of
shape)
 偏度 (skewness) :是描述一個分配偏離對稱性的情形,在對稱性
的分配中,平均數、中位數、眾數都是在同樣的位置。偏態分為左
偏態 ( 或負偏態 ) 與右偏態 ( 或正偏態 ) 二種。對 稱 分 配


3
m3 x 右偏 分 配 左偏 分 配
SK = = N
3
m2 
m 2  ∑ x 
2 
N
 

 峰度 (kurtosis) :是描述一個分配的平坦或陡直情況。峰度共有
三種:常態峰 (mesokurtic) 、高狹峰 (leptokurtic) 及低闊峰
(platykurtic) 。 高狹峰
常態峰

4
m4 ∑x N 低闊峰
ku = −3 = −3
m2 2  x 2 
2
∑ N
 
機率論 (Probability
Theory)
 機率:衡量某一事件可能發生的程度(機會),並針
對此一事件發生之可能性賦予一量化的數值。及用來
衡量不確定性大小的工具。

機率論

隨機 機率 事件 性質與運 貝氏
實驗 理論 機率 算法則 定理
隨機實驗 (Random
Experiment)
 隨機實驗 (Random Experiment) :觀察一可
產生各種可能結果 (Outcome) 的過程,稱為
實驗;而若各種可能結果的出現(或發生)具
有不確定性,則此一過程便稱為隨機實驗。

 必須滿足:
 1. 實驗可以在相同條件下重複進行。
 2. 所有結果是明確可知的,且不只一個。
 3. 實驗後的結果為所有可能結果之一,但實驗前無
法肯定會出現何種結果。
樣本點 (sample
第一件 第二件 第三件 樣本點 point) :每個可能的
G
G GGG 結果
D GGD
G
G GDG
D 樣本空間 (sample
D GDD
G DGG
space) :各種可
G
D DGD
能結果的集合
D
G DDG
D
D DDD 事件 (event) :樣本空間的
部分集合
簡單事件 (simple event) :
檢驗三件產品之樣本空間樹狀圖 只包含一個樣本點
複合事件 (composite
event) :包含二個或以上的
樣本點
各式樣本空間
隨機實驗 樣本空間 有限或無限 間斷或連續
1.擲一骰子 (1,2,3,4,5,6) 有限 間斷
2.調查某班級(45 人)近視人數 (0,1,2,3,4,…,45) 有限 間斷
3.擲一硬幣兩次 (HH,HT,TH,TT) 有限 間斷
4.檢驗一批產品,直到發現有不良
(1,2,…,n,…) 無限 間斷
品為止,記錄檢查的產品數
5.觀察某一燈管使用壽命 ( t | t>0) 無限 連續
機率測度的方法
 古典方法:
 P(E)=n(E)/n(S)
 限制條件:樣本空間必須是有限的樣本空間。
 基本假設:樣本空間內每一樣本點出現的機會皆相同。
 客觀方法(相對次數法):
 P(E)=lim(n/N) , N→ ∞
 重複進行此一實驗許多次,並觀察該事件出現次數的比例。
 主觀方法:
 P(E)= (個人對事件 E 發生的信心)
機率的公理
 1. 0 ≤ P ( Ei ) ≤ 1 Ei ∈ S
 2. P( E1 ∪ E2 ∪  ∪ En ) = P( E1 ) + P( E2 ) +  + P( En )
E1 , E2 ,  En 為互斥
 3. P(S)=1 ; P(Φ)=0
事件機率
 聯合機率 (joint probability)

兩個或兩個以上事件同時發生的機率。
P ( A ∩ B ) = ∑ P ( Ei ), Ei ∈ A ∩ B
 邊際機率 (marginal probability)
 在兩個或兩個以上類別的樣本空間中,若僅考慮一類別個
別發生的機率稱之。
 條件機率 (conditional probability)

已知 B 事件發生下,另一事件 A 發生的機率,稱為在 B
發生條件下, A 的條件機率。
P( A / B) = P( A ∩ B) P( B) , P( B) ≠ 0
應徵者的資料
畢業學校 畢業學校
性別 性別
公立(A) 私 立(B) 合計 公立(A) 私立(B) 合計
男 性(M ) 10 2 12 男性(M) 0.5 0.1 0.6
女 性(F) 5 3 8 女性(F) 0.25 0.15 0.4
合計 15 5 20 合計 0.75 0.25 20

P ( M ∩ A) = 0.5
P ( M ) = 0.6
P ( A / M ) = P ( A ∩ M ) / P( M ) = 0.5 / 0.6 = 5 / 6
事件的性質
 獨立事件 (Independent Event)
 係指一事件的發生不影響其他事件的發生,若
A 、 B 兩事件互為獨立,則:
1.P( A / B ) = P( A)
2.P ( B / A) = P ( B)
3.P( A ∩ B ) = P ( A) • P ( B )
 相依事件 (Dependent Event)
 係指一事件的發生影響其他事件發生的機率。
 互斥事件 (Mutually Exclusive Event)
 事件沒有共同的樣本點稱之,即當兩事件之
交集為空集合時。

s s s

A B A B A B

A∪ B A∩ B A∩ B =φ
事件的運算法則
 餘集合的機率 S
P( A ) = 1 − P( A) A
 加法定理
P ( A ∪ B ) = P ( A) + P( B) − P( A ∩ B)
 乘法定理
P( A ∩ B) = P( B) • P( A | B)
B
 分割定理
P ( B ) = ∑ P ( B ∩ Ai ) = ∑ P ( Ai ) • P ( B | Ai )
貝氏定理 (Bayes Theorem)
事前機率
事後機率

取得新資訊 應用貝氏定理
(條件機率的形
式)
事前機率
P( A ∩ B ) P ( B | A) P( A)
P( A | B) = =
P( B) P( B)
事後機率 條件機率
 某公司計畫推出新產品,並認為經濟景氣好壞會影響新產品的銷
售,公司行銷經理主觀判斷景氣好、普通、不好的機率各為
0.5 、 0.2 、 0.3 。今公司委託專業市調公司進行市場景氣調查
,但該市調公司之調查並非百分之百正確,根據過去經驗,其正
確率為 0.9 ,不正確的誤認為其他兩種是其他兩種狀況的機率各
為 0.05 。若該市調公司調查結果為景氣好,而市場景氣真正為
好的機率為多少?
主觀判斷景氣好、普通、不好的
機率
事前機率
事後機率
修正機率
取得新資訊
市調公司調查結果
事前機率:
P ( A1 ) =0.5 , A1 代表景氣好。
P ( A2 ) =0.2 , A2 代表景氣普通。
P ( A3 ) =0.3 , A3 代表景氣不好。
取得新資訊:
P( B1 | A1 ) =0.9 , B1 代表調查結果景氣好。
P( B2 | A1 ) =0.05 , B2 代表調查結果景氣普通。
P( B3 | A1 ) =0.05 , B3 代表調查結果景氣不好。
事後機率:
P ( A1 ∩B1 ) P ( B1 | A1 ) P( A1 ) 0.5 ×0.9
P ( A1 | B1 ) = = = =0.95
P( B1 ) P( B1 ) 0.475
其中: P( B1 ) =P( A1 , B1 ) +P( A2 , B1 ) +P( A3 , B1 )
=P( A1 ) P ( B1 | A1 ) +P( A2 ) P( B1 | A2 ) +P ( A3 ) P( B1 | A3 )
=0.5 ×0.9 +0.2 ×0.05 +0.3 ×0.05 =0.475
機率分配
隨機變數 (Random
Variable)
 係以樣本空間為定義域的實數值函數,
也就是隨機實驗中對應樣本點的實數值
函數。X :擲一枚銅板二次,出現正面的次數
正正 1.0 ≤ f ( xi ) ≤ 1, i = 1,2, n
2 1/4
n
正反
1 2/4 2.∑ f ( xi ) = 1, i = 1,2, n
反正
0 1/4 i =1
反反

1.∫ f ( x)dx = 1
−∞
樣本空間 S 隨機變數 機率 f(x) b
2.P (a ≤ X ≤ b) = ∫ f ( x)dx
X a
期望值 (Expected Value) 與變
異數
 間斷機率分配:
 期望值: µ = E ( X ) = ∑ x∈X ( S ) x • f ( x)
 變異數: σ 2
= E [( X − µ ) 2
] = ∑x∈X ( S ) ( x − µ ) 2
f ( x)

 連續機率分配: b
 期望值: µ = E ( X ) = ∫a xf ( x)dx, a ≤ X ≤ b
b
 變異數: σ = V ( X ) = ∫a ( x − µ ) 2 f ( x)dx
2
離散型機率分配
 二項分配 (Binomial Distribution)
 幾何分配 (Geometric Distribution)
 超幾何分配 (Hypergeometric Distribution)
 波瓦松分配 ( Possion Distribution)
二項分配 (Binomial
Distribution)
 伯努利試驗 (Bernoulli Trial)
 每一次試驗皆僅有兩種可能結果,不是成功 (S) ,
就是失敗 (F) 。
 成功機率固定為為 P(S)=p ,失敗機率固定為為
P(F)=1-p 。
 每一次試驗之間互為獨立。
 進行 n 次的伯努利試驗,稱為二項實驗,若隨
機變數 X 為 n 次試行實驗成功的次數, X 的
機率分配稱為二項機率分配。
 二項機率分配函數:
n− x
E ( X ) = np
f ( x) = C p (1 − p )
n
x
x
, x = 0,1,2, , n
V ( X ) = npq
0.35 0.7 0.7
0.3 0.6 0.6
0.25 0.5 0.5
0.2 0.4 0.4
0.15 0.3 0.3
0.1 0.2 0.2
0.05 0.1 0.1
0 0 0
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
P(X=x) n=5, p=0.5 P(X=x) n=5, p=0.3 P(X=x n=5, p=0.9
)
超幾何分配 (Hypergeometric
Distribution)
 超幾何實驗:
 從一含有 N 物的有限母體中,採不放回抽樣,抽取
n 個隨機樣本。
 N 物中有 S 個屬成功類,另 N-S 個屬失敗類。
 隨機變數 X 為 n 個中,成功的次數, X 的機
率分配稱為超幾何機率分配。
S
成功類 S 個
x n-x
失敗類 N-S

 超幾何機率分配函數:
C xS CnN−−xS
f ( x) = N
, max{ 0, n − ( N − S )} ≤ x ≤ min{ n, S }
Cn

S N −n
E ( X ) = n = np V (X ) = npq
N N −1
幾何分配 (Geometric
Distribution)
 二項分配為進行 n 次的伯努利試驗的成功次數分
配,如果未預先固定試驗的次數,而在第一次成
功發生之後才停止整個伯努利試驗,成功的次數
固定為 1 ,所需試驗的次數則為一隨機變數,此
隨機變數的機率分配即稱為幾何分配。
 幾何機率分配函數:
1
E( X ) =
p
f ( x) = p(1 − p ) x −1 , x = 0,1,2,
q
V (X ) = 2
p
波瓦松分配 ( Possion
Distribution)
 在一特定區間(或區域)內,觀察某特定事件發生的次數。
 上午 10 點至 11 點中,每 10 分鐘打進公司的電話通數。
 1 天內停車場停車數。
 高速公路每 10 公里路面有窪動的數目。

秘書小姐每打一頁報告出現錯誤的字數。
 波瓦松實驗:
 在一連續區間發生事件的次數,與另一區間發生的次數是獨立的。
 在一連續區間內發生事件的的期望值(平均數)與區間大小成比例。
 在一極短的區間內,僅有兩種狀況,即發生一次或不發生,而發生兩次
或以上的情形不予考慮。
 若一事件滿足上述三個特質,隨機變數 X 定義為連續區間內發生事
件的次數,則 X 為一波瓦松隨機變數,其機率分配為波瓦松分配。
 波瓦松分配函數:
e −λλx
f ( x) = , x = 0,1,2,3, 
x!
式中 λ 表示在某特定區間內某事件所發生平均次數,而
e=2.71828 。
E( X ) = λ Var ( X ) = λ
某公司訂有消費者 7 天內不滿意免費退貨服務,根據過去記錄,每
7 天平均 2 件被要求退貨,問在 14 天內會被退 5 件的機率?

e −2×2 (2 × 2) 5
f (5) = = 0.15629
5!
二項、超幾何與波瓦松分配之間關係

當 n/N<=0.05 實 當 n>20 且 np<=7


可用二項分配取代 時,可用波瓦松分配
超幾何分配 取代二項分配

超幾何分配 二項分配 波瓦松分配


連續型機率分配
 均等分配 (Uniform
Distribution)
 常態分配 (Normal
Distribution)
 指數分配 (Exponential
Distribution)
均等分配 (Uniform
Distribution)
 隨機變數在某區間( a,b )內發生機率
皆相同時,其機率分配稱之。
 機率密度函數:
a+b
E( X ) =
1 2
f ( x) = ,a < x < b
b−a (b − a ) 2
V (X ) =
f(x) 12
1
b−a

a b
某班火車抵達車站的時間在 8 點至 8 點 10 分之間,且在此時段
中任何時點到站的可能性均相同。
1. 某乘客在 8 點 3 分抵達車站,可搭上火車的機率?
2. 某乘客在 8 點 8 分抵達車站,火車已開走的機率?
3. 計算期望值與變異數,並解釋期望值的意義。

1
X 表示火車在 8 點以後到站的時 X ~ U (0,10), f ( x) = ,0 < x < 10
10
間, (1) P( X ≥ 3) = 10 1 dx = 0.7
∫3 10
8 1
(2) P( X ≤ 8) = ∫ dx = 0.8
0 10

0 + 10 (10 − 0) 2
(3) E ( X ) = = 5, Var ( X ) = = 8.333
2 12
常態分配 (Normal
Distribution)
 又稱高斯分配( Gauss Distribution )。
 重要性:
 1. 許多自然現象,工業生產、商業問題及社會現象均
可用常態分配加以描述。
 2. 許多統計量的的抽樣分配在大樣本下呈常態分配。
 3. 常態分配可進行許多統計推論,許多統計量的的抽
樣分配如 t 分配、卡方分配、 F 分配都必須假設母體
為常態分配才可獲得。
 4. 間斷機率分配在某些條件下可利用常態分配求其近
似值。
 機率密度函數:
1 −
1 ( x−µ )2 E( X ) = µ
f ( x) = e 2 σ2
,−∞ < x < ∞
2π σ V (X ) = σ 2

N ( µ1 , σ 1 )

N ( µ1 , σ 1 ) N (µ 2 ,σ 2 )
N (µ 2 ,σ 2 )

µ1 < µ 2 , σ 1 = σ 2 µ1 = µ 2 , σ 1 < σ 2
 常態分配特性:
 1. 以平均數µ 為中心的對稱曲線。
 2. 平均樹、眾數、中位數均相等( µ = M o = M e )。
 3. 以µ 為中心,兩邊加減一個標準差之處,為常態曲線的反
曲點( Inflection Point )。
 4. 常態曲線左右兩尾與橫軸逐漸接近,但絕不會相交。
 5. 以µ 為中心,兩邊加減一個標準差的區間,其機率(面
積)為 0.683 ,加減二個標準差的區間,其機率(面積)為
0.954 ,加減三個標準差,其機率(面積)為 0.997 。

P( µ − σ < X < µ + σ ) = 0.6826


3 4 .1 % 3 4 .1 %
P( µ − 2σ < X < µ + 2σ ) = 0.9544
P( µ − 3σ < X < µ + 3σ ) = 0.9974
2 .1 % 1 3 .6 %
µ 1 3 .6 % 2 .1 %

- 3 - 2 - 1 平 均 值 + 1 + 2 + 3
 標準常態分配( Standard Normal
Distribution ):
 即平均數為 0 ,標準差為 1 的常態分配。
 機率密度函數:

1 −
z2 E ( z) = 0
f ( z) = e ,−∞ < z < ∞
2



標準化( Normalized ): V ( z) = 1

X −µ
Z=
σ
某品牌家電用品的使用壽命為平均數 4.5 年,標準差為 1 年的常
態分配。若其保證期間為二年,推算其退貨的比例。

X 表示該品牌家電用品使用壽命 X ~ N (4.5,1)
, 2 − 4.5
P ( X < 2) = P ( Z < ) = P( Z < −2.5) = 0.0062
1

某公司生產高級辦公桌,其裝配時間為常態分配,平均數 56 分鐘
,標準差 4 分鐘。現有一客戶要求於 1 個鐘頭後準時到達公司提
貨,如從現在開始裝配準時完成交貨的機率為?

X 表示裝配一張桌子所需時間,X ~ N (56,4)
60 − 56
P( X ≤ 60) = P( Z ≤ ) = P( Z ≤ 1) = P( Z ≤ 0) + P(0 ≤ Z ≤ 1) = 0.5 + 0.3413 = 0.8413
4
指數分配 (Exponential
Distribution)
 與波瓦松分配相反,指數隨機變數在說
明接連兩件事發生的間隔期間。
Poisson 隨機變數 指數隨機變數
1. 20 分鐘內,平均 5 部車子開進停 1. 平均每隔 4 分鐘有一部車子開進
車場(λ =5 輛/20 分鐘)。 停車場(μ =4 分鐘/輛) 。
2. 高速公路上每 10 公里平均有 5 個 2. 高速公路上,平均每隔 2 公里有 1
窪洞(λ =5 個/10 公里)。 個窪洞(μ =2 公里/個) 。
3. 某一機器 30 分鐘內平均故障 3 次 3. 某一機器平均每隔 10 分鐘故障 1
(λ =3 輛/30 分鐘)。 次(μ =10 分鐘/次)。
 機率密度函數:
1
− λx
E( X ) = = µ
f ( x) = λe , x ≥ ∞, λ > 0 λ
1
V (X ) = = µ 2

λ2

λ 1. 指數分配曲線為非對稱性,
− λx 範圍為( 0 ,∞ )。
f ( x ) = λe
2. 平均數 μ 必大於 0 。

x
某一型彩色電視機其壽命時間成指數分配,且平均壽命為 10 年。
求該電視機的壽命時間之下列機率:
1. 壽命長達 15 年以上。
2. 兩年內即發生故障而報廢。
3. 壽命時間介於 2 年至 15 年。

−x
1
X 表示該電視機之壽命時間, X ~ Exp(10), f ( x) = e 10 , x > 0
10
15 1 − x 10
(1) P ( X > 15) = 1 − P ( X ≤ 15) = 1 − ∫ e dx = 0.22
0 10
1 − x 10
2
( 2) P ( X < 2) = ∫ e dx = 0.18
0 10

15 1 − x 10 2 1
(3) P ( 2 < X < 15) = P ( X < 15) − P ( X < 2) = ∫ e dx − ∫ e − x 10 dx = 0.82 − 0.22 = 0.6
0 10 0 10
P(Z<
z)
z
z
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09


-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183

標準常態分配值
λ x e− λ x
λ x e− λ x
λ x e− λ x
λ x e− λ x

0.0 1.000 2.5 ---- 5.0 ---- 7.5 ----


0.1 0.905 2.6 ---- 5.1 ---- 7.6 ----
0.2 0.819 2.7 ---- 5.2 ---- 7.7 ----
0.3 0.741 2.8 ---- 5.3 ---- 7.8 ----
0.4
0.5
0.670
0.607
2.9
3.0
----
----
5.4
5.5
----
----
7.9
8.0
----
----
e −λx
0.6 0.549 3.1 ---- 5.6 ---- 8.1 ----
0.7 0.497 3.2 ---- 5.7 ---- 8.2 ----
0.8 0.449 3.3 ---- 5.8 ---- 8.3 ----
0.9 0.407 3.4 ---- 5.9 ---- 8.4 ---- λx
1.0 0.368 3.5 ---- 6.0 ---- 8.5 ----
1.1 0.333 3.6 ---- 6.1 ---- 8.6 ----
1.2 0.301 3.7 ---- 6.2 ---- 8.7 ----
1.3 0.273 3.8 ---- 6.3 ---- 8.8 ----
1.4 0.247 3.9 ---- 6.4 ---- 8.9 ----
1.5 0.223 4.0 ---- 6.5 ---- 9.0 ----
1.6 0.202 4.1 ---- 6.6 ---- 9.1 ----
1.7 0.183 4.2 ---- 6.7 ---- 9.2 ----
1.8 0.165 4.3 ---- 6.8 ---- 9.3 ----
1.9 0.150 4.4 ---- 6.9 ---- 9.4 ----
2.0
2.1
0.135
0.122
4.5
4.6
----
----
7.0
7.1
----
----
9.5
9.6
----
---- 指數分配值
2.2 0.111 4.7 ---- 7.2 ---- 9.7 ----
2.3 0.100 4.8 ---- 7.3 ---- 9.8 ----
2.4 0.091 4.9 ---- 7.4 ---- 9.9 ----
抽樣 (Sampling)
估計誤差 (Error of Estimation)
 抽樣誤差 (Sampling Error)
 非抽樣誤差 (Nonsampling Error)

母體參數

估計誤差

1. 樣本數 資料整理時
的疏失
2. 推論方法
3. 抽樣方法
抽樣方法
抽樣方法
 非機率抽樣法

 機率抽樣法

非機率抽樣 機率抽樣
 立意抽樣法  簡單隨機抽樣

 便利抽樣法  分層抽樣

 滾雪球抽樣法  集群抽樣

 配額抽樣  系統抽樣
非機率抽樣法
 非機率抽樣:亦即樣本不按照其機率予以抽出,而是
由抽樣者之主觀抽出或自願樣本。
 ◎ 優點:在某些調查時,有其必要性。
 ◎ 缺點: (1) 難以評斷樣本之代表性。
(2) 無法估計精確度。
(3) 樣本偏差往往較大。
 ◎ 非機率抽樣之種類:
 1. 立意樣本 (Judged Sampling) :調查研究人員根據自己的專長、

知識、研究目的來選取代表性的樣本。如學者、專家或代表性之樣本。
 2. 便利樣本 (Convenient Sampling) :事先不預定樣本,碰到即問

或自動回答者。如街頭訪問或主動打電話回答問題者。缺點:注意樣本
之偏激性及兩極化。
 3. 滾式樣本 ( 輻射樣本 ) :利用樣本尋找樣本,亦即利用樣本之滾雪球

方式或輻射力抽取樣本。如都市中之原住民抽樣。使用時機:可用於當
樣本不易取得時,或針對特殊族群之調查。
 4. 配額樣本:按母體某些特性予以配置樣本,但取樣時卻由調查員任意

抽取。
機率抽樣
 機率抽樣:抽取之樣本是按照樣本之機率隨機
抽出。
 ◎ 優點:
 1. 樣本較具代表性。

2. 可計算估計之精確度。

3. 可隨不同之抽樣設計採取不同之抽樣方法。
 4. 隨之不同之抽樣方法,採取相互配合之估計方法。
 ◎ 機率抽樣之種類:
 1. 簡單隨機抽樣:不對母體加以任何修飾或分割,而使每一樣本均有相同之被抽
中機率。

2. 分層隨機抽樣:將母體按照某些特性,分成數個不重疊的組群,這些組群即稱
為層,而再由各層分別抽取樣本。
 3. 系統抽樣:將母體之元素按順序編號後,有系統的每隔一定間隔抽取一個樣本
之方法。

4. 集群抽樣:將母體中相鄰近之個體排成為一集體,而以集體為抽樣單位,即每
一抽樣單位為一集體之抽樣單位。
 5. 兩段集群抽樣:首先抽出一些樣本集體,再由樣本集體內抽出部分基本個體。

6. 分層集群抽樣:將母體內之集體予以分層後,再由各層抽取樣本。
簡單隨機抽樣法 (simple random
sampling)
 簡單隨機抽樣是一種最基礎且最簡便的抽樣方法。
 優點是 (i) 當母體底冊完整時,直接由母體中抽出樣本,方法簡
單;和 (ii) 每一單位被抽中的機率均相等,參數的估計較簡單。
 限制是 (i) 母體底冊不易取得,或取得很費時,費力且費錢; (ii)
母體內樣本單位太多時,作業不方便; (iii) 樣本分配較分散,行
政作業較不易;和 (iv) 樣本代表性恐有不足 ( 尤其當樣本點差異
大時或重要性不同時 ) 。
 使用最佳時機,便是當 (i) 母體內樣本單位不多,且有完備名冊
,可茲編號時; (ii) 母體內樣本單位間的差異不大時 ( 對研究的
目的而言 ) ;和 (iii) 對母體資訊無法充份獲得時。
 簡單隨機抽樣法的準確度會受下列二因素的影響,即 (i) 母體本
身的變異,和 (ii) 樣本的大小。
分層抽樣法 (stratified sampling)

第一層 n1
第二層
n2
:
nk
第 K層

 優點是 (i) 可增加樣本代表性; (ii) 可提高估計的確度; (iii) 可分別獲得


各層的訊息,並做各層間的比較分析; (iv) 可在各層設立行政單位,以
便於執行;和 (v) 可視各層情形,採取不同的抽樣方法。
 限制是 (i) 分層變數的選取 ( 要與所欲估計的特徵值具有高度相關 ) ;
(ii) 層數的釐定 ( 要適當並配合母體的分配狀況 ) ; (iii) 分層標準的決定
( 各層不能有重疊現象 ) ; (iv) 各層樣本的配置方法;和 (v) 分層後,樣
本資料的整理及估計較複雜。
 使用最佳時機,便是當 (i) 母體內樣本單位的差異較大時;和 (ii) 分層後
能達到層間差異大,層內差異小的原則。原則上要使層內變異小,而層
間變異大;各層不能有重疊現象。
系統抽樣法 (systematic sampling)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 …s (s+1)
(s+2) …N

6 12 18
K=N/n

 優點是 (i) 在抽取樣本的過程中,很容易完成抽樣工作; (ii) 通常可使樣


本普遍的散佈於母體內,使樣本更具代表性;和 (iii) 在某些條件下,系統
抽樣可取代簡單隨機抽樣。
 限制是 (i) 對母體狀況宜略有所瞭解; (ii) 避免系統樣本內的樣本單位趨
於一致; (iii) 不易計算估計量的變異數,和 (iv) 避免母體內樣本單位特
徵值的週期性變動。
 使用最好是當 (i) 母體內的樣本單位,按有興趣的特徵值而言是隨機的或
按大小排列的; (ii) 母體內單位數過多,而抽取的樣本又較多時;和 (iii)
母體內的單位數不能確定時。
群集抽樣法 (cluster sampling)
 有時母體底冊的蒐集及編造極為困難或龐大,而在調查時又希望
節省成本時,則可採用群集抽樣法。舉例來說,在森林區的材積
調查中,將調查區劃分多個小塊以為群集。又如在住戶調查中,
以鄰或區段作為群集以進行訪查。
 優點是 (i) 母體底冊的編造較為簡單; (ii) 調查行動半徑較小,調
查成本較低; (iii) 行政管理較為容易;和 (iv) 通信調查時較易宣
傳及進行。
 限制是 (i) 群集內樣本單位的一致性太強,則易浪費樣本;和 (ii)
群集大小的決定。
 使用最好時機是當 (i) 母體底冊不易獲得時; (ii) 為簡省調查成本
時;及 (iii) 群集內差異大,而群集間的變異小。
 採用群集抽樣法進行樣本調查時,要注意到以下兩個原則。亦即
, (i) 根據經驗、試查及實際狀況以決定適當的群集;和 (ii) 確定
群集間變異小,而群集內變異大。
抽樣分配
 母體參數 (Parameter)
 描述母體資料特性的統計測量數,為未知但
固定的數。
 樣本統計量 (Statistics)
 為一組隨機樣本的實數值函數。
 抽樣分配 (Sampling Distribution)
 樣本統計量為一隨機變數,其機率分配稱為
抽樣分配。
樣本平均數的抽樣分配
 自一大小為 N 的母體抽出一組隨機樣本

X , X , , X 則樣本平均數 X 本身亦為隨機
1 2 n

變數, X 有其機率分配。
X + X 2 + X n
X= 1 =
∑X i

n n

抽自無限母體: 抽自有限母體:
E( X ) = µ E( X ) = µ

σ2 N −n σ2
Var ( X ) = Var ( X ) =
n N −1 n
大樣本 σ
中央極限定理 常態分配性質 x ~ N (µ ,
(n≧ 30) => n)
常態分配 σ
母體 σ 已知 常態分配性質 x ~ N (µ ,
小樣本 => n)
(n< 30) 母體 σ 未知 t 分配性質
=>
大樣本
σ
(n≧ 30) 中央極限定理 常態分配性質 x ~ N (µ ,
=> n)
非常態分
配 小樣本 視母體分配而
(n< 30) 定

X 抽樣分配的型態
統計估計
 利用樣本統計量去推估母體參數的方法。
 點估計 (Point Estimation)
 根據樣本資料求得一估計值,以推估未知的母體參
數。
 評估估計量的好壞:
 不偏性 (unbiasde) 、有效性 (efficiency)
 區間估計 (Interval Estimation)
 根據樣本資料求得之點估計值,藉由點估計值統計
量的抽樣分配性質求出兩個數值所構成的區間,並
利用此一區間推估未知的母體參數範圍。
估計大學應屆畢業生平均薪資,若我們以 X = 27,200 元為中心
加減某個數字,譬如 1,784 ,得到 (27,200-
1,784)~(27,200+1,784) 元的一個區間,然後我們可以說『所
有大學應屆畢業生每月的平均薪資在 25,416~28,984 元之間』
,並說平均薪資在 25,416~28,984 元之間的可靠度為 95 %。

此一過程稱為區間估計,而此一區間稱為信賴區間 (Confidence
Interval) , 95 %稱為信心水準 (Confidence Level) 。
P(25,416 < X < 28,984) = 0.95 = 1 − 0.05 = 1 − α

X = 27,200
μ
25,416 28,984
某保險公司自其投保人的母體中隨機抽出 36 位投保人,計算出此
36 位投保人的平均年齡為X = 39.58 歲,已知母體標準差為 σ
= 7.2 歲,試求出母體平均數 μ 的 95 %信賴區間。
樣本大小為 36 ,故為大樣本,所以X 的抽樣分配為常態分配。
7.2
信賴區間= 1-α =0.95 , α/2=0.025 ,
x ~ N (39.58,
36
)

X −µ
P ( −Zα 2 < < Zα 2 ) = 1 −α 0.95
σ n
39 .58 − µ
=> P ( −Zα 2 < < Zα 2 ) =1 − 0.5
7.2 36
=> P (39 .58 −Zα 2 ×1.2 < µ < 39 .58 + Zα 2 ×1.2) =1 −0.5 μ
=> P (39 .58 −1.96 ×1.2 < µ < 39 .58 +1.96 ×1.2) =1 −0.5
X − Zα 2σ X X − Zα 2σ X
=> P (37 .15 < µ < 41 .85 ) = 0.95
假設檢定 (Hypothesis
Testing)
 是對母體參數(特性)提出假設(或主張),利用樣本的訊
息,決定接受該假設或拒絕該假設的統計方法。
虛無假設 H(Null Hypothesis)

0
 對立假設 (Alternative Hypothesis)
H1
 基本精神:
 除非具有足夠的證據可以否決 ,否則我們只好接受 ;但是接受
並不表示 為真,僅表示我們沒有足夠的證據可以拒絕 H0 H0
;相對的
,拒絕 H時僅表示我們具有充分的證據可以拒絕
0 H0 ,此時此檢定稱
H0
為具顯著性 (Significance)H。
0

H0
 統計假設檢定亦稱為顯著性檢定 (Significant Testing) 。
型 I 誤差與型 II 誤差
真實情況
H0 為真 H1 為真
錯誤決策
正確決策
不拒絕 H0 型 II 誤差
1-α
β
決策
錯誤決策
正確決策
拒絕 H0 型 I 誤差
1-β
α

H 0 : µ ≥ µ0 H0 µ = µ0
H0
H1 : µ < µ 0
接受域
拒絕域 α
x
µ = µ0
H0 µ1 < µ 0
接受 H 0
β
x
µ1
 假設檢定分為單尾檢定 (One-tailed Test) 與雙尾檢定 (Two-
tailed Test) 。

雙尾檢定 左尾檢定 右尾檢定


虛無假設 H0 的符號 = =或≧ =或≦
對立假設 H1 的符號 ≠ < >
拒絕域 在左右兩尾 在左尾 在右尾
α值 α /2 α α

H 0 : µ ≥ µ0 H 0 : µ ≤ µ0 H 0 : µ = µ0
H1 : µ < µ 0 H1 : µ > µ 0 H1 : µ ≠ µ 0

α
α α α

拒絕域 接受域 接受域 拒絕域 拒絕域 接受域 拒絕域

左尾檢定 右尾檢定 雙尾檢定


某廠商宣稱其所開發的新合成釣魚線平均強度為 8 公斤,標準差
為 0.5 公斤。茲從其中隨機抽出 50 條釣魚線,測試其強度結果平
均為 7.8 公斤。請在 0.01 顯著水準下,檢定廠商的宣稱。
X
首先建立虛無假設,此為雙尾檢定, H0 : μ=8 ; H1 :
μ≠8
0.5
拒絕域
接受域
拒絕域
x ~ N (8, )
50
c1 −8
α/2=0.0 α/2=0.0 Z 0.005 = = 2.575 => c1 =8.18
05 05 50
c2 c1
c1 −8
H0 成立之下,X 的抽樣分配 −Z 0.005 = = −2.575 = > c1 = 7.82
50

=> 7.8 ∉(7.82 ,8.18 )


真正瞭解統計顯著性的意義
 樣本愈多愈容易拒絕虛無假設。
 統計上的顯著度和實際上的顯著度是不
一樣的。除了注意 P 值外,要多花點時
間看看資料本身(畫圖)。
 選擇顯著水準。
 不要忽略沒有顯著性的結果。

You might also like