Professional Documents
Culture Documents
資商訊息顧問有限公司
中華資料採礦協會
杜長嶸
何謂統計學
統計就是從數據中獲取資訊的
科學
收集資料
整理資料
分析資料
導出結論
敘述統計學、推論統計學
統計詞彙
母體 統計量
個體 變數
樣本
眾數
抽樣底冊
中位數
參數
平均數
母體與樣本間的關係
母體參數
個體
姓名 身高(cm) 體重(kg) 性別
杜長嶸 180 75 男
王大明 172 88 男
陳小慧 160 48 女
黃大德 165 58 男
觀察值
騙人的平均數
老謝應徵工作
公司規模:老闆、經理 2 位、組長 3 位
、職員 5 位。
老闆:公司平均月薪 6 萬元,受訓期間
1 萬五千元,很快會加薪。
做 不做
平 中 眾
人數 月薪 總計 間
均 數
老闆 1人 24 萬 24 萬 數 數
: : :
經理 2人 10 萬 20 萬
2
4
6
組長 3人 4萬 12 萬 萬 萬
萬
職員 5人 2萬 10 萬
人數
6
5
5
4
3
3
2
2
1
1
0
24萬 10萬 4萬 2萬
平均數:量測觀察值散佈情形的中間值。
標準差:衡量觀察值的散佈情形偏離平均值
有多遠。
偏度:描述一個分配偏離對稱性的情形
峰度:衡量觀察值偏離平均數有多快。
變異係數:獲得相對的變異情形。
變異係數=標準差/平均數
某次統計學考試,甲班平均分數為 80 分,標
準差為 20 ,乙班平均分數為 75 分,標準差
為 5 ,哪一班成績較優?
乙
班
資料衡量尺度
量化的處理工具便稱為衡量的尺度,又稱量表
( Scale )。
問卷衡量尺度的設計是評估報告是否深入的關鍵。
不同的量表應用不同的統計分析,準確性才會提高。
考量的依據:
1. 研究目的與問題深入的程度
2. 事後資料整理時之便利性
3. 各種可能選項的周延性與互斥性需兼顧
4. 統計的方法
一、名目尺度 (nominal
scale)
二、順序尺度 (ordinal
此種量表是根據被調查對象的 scale)
性質而分類,如根據消費者答 較類別量表多一特性,可以表示各
案可分為「喜歡」與「不喜 類別之間的順序關係。
歡」或「是」與「否」兩類。
如要求消費者根據其心中偏好,將
每類答案的數字只作為分類之 五種飲料品牌依最喜歡到最不喜歡
用,如果將這些答案數字 的順序排列,最喜歡給 5 分、最不
(1,2,3) 做運算,根本沒有意義 喜歡給 1 分,這就是一種順序量表
,因為這些數字在此僅屬名義 。
而已,真正目的是在分類。 不過代表順序的數字還是不能用來
做運算,只能看出高低次序,卻無
法確定順序之間的差異大小,例如
若已知 A>B>C>D>E ,但並不
知道 A 與 B 的差距,或 C 與 D 的
三、差距尺度 (interval
scale)
四、比率 尺度 (ratio scale)
較順序量表再推進一步,不單
比率量表除了具有差距量表的全部
能表示順序關係,尚能測量各
特色外,再加上「真零」這個特性
順序之間的距離,可確定地指 。
出 5 分與 4 分之差距等於 4 分
與 3 分的差距。 例如身高、年齡、體重等變數的測
量都是用比率量表,故可說體重
差距量表的分數可用來做加減 180 磅的人比 90 磅的人重兩倍。
乘除的運算,此為其之一大優
不過在態度測量方面,運用比率量
點,但是不能說明 6 分為 3 分 表顯然有困難,消費者給一種飲料
的兩倍,因為差距量表並沒有 100 分,另一種給 50 分,但卻不
一個真正零點(真零)。 表示喜歡程度有兩倍的差距。因為
態度測量本質上為一順序概念,顯
然不宜用比率或差距量表測量。
適用於各類量表的統計分析方法列如下表:
(單位:人、百分比)
家庭組織型態 次數 百分比 有效百分比
總 計 916 100.0 100.0
缺失值 38 4.1
隔代家庭:祖父母+小孩,核心家庭:父母+未婚子女,主幹家庭:祖父
母+父母+未婚子女,混合家庭:祖父母+父母+未婚子女+伯叔姑… 。
交叉分析表
Crosstab
5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥ÁÄÒªº¡§ÁÙ¬O¤ä«ù
¨ä¥L¬FÄÒªº¡H
¤ä«ù°ê¥ÁÄÒ ¤ä«ù¥Á¶iÄÒ ¤ä«ù·sÄÒ ¤ä«ù¿Ë¥ÁÄÒ ¤¤¥ß ©Úµª Total
1.½Ð°Ý±zª¾¹D ª¾¹D¡A¥B¥¿½T»¡¥XĬ®a©ú Count 21 7 1 2 79 1 111
®ç¶é¥«¥Á¥Nªí
% within 1.½Ð°Ý±zª¾¹D®ç¶é¥«
·|ªº¥D®u¬O½Ö 18.9% 6.3% .9% 1.8% 71.2% .9% 100.0%
¥Á¥Nªí·|ªº¥D®u¬O½Ö¶Ü¡H
¶Ü¡H
% within 5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§
¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒ
14.7% 10.9% 33.3% 6.1% 10.2% 2.2% 10.4%
ªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥Á
ÄÒªº¡§ÁÙ¬O¤ä«ù¨ä¥L¬FÄÒªº¡H
ª¾¹D¡A¦ý¤£ª¾¹D©m¦W¡]¦³¦L¶H¡^ Count 11 2 2 31 46
% within 1.½Ð°Ý±zª¾¹D®ç¶é¥«
23.9% 4.3% 4.3% 67.4% 100.0%
¥Á¥Nªí·|ªº¥D®u¬O½Ö¶Ü¡H
% within 5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§
¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒ
7.7% 3.1% 6.1% 4.0% 4.3%
ªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥Á
ÄÒªº¡§ÁÙ¬O¤ä«ù¨ä¥L¬FÄÒªº¡H
¤£ª¾¹D Count 111 55 2 29 664 45 906
% within 1.½Ð°Ý±zª¾¹D®ç¶é¥«
12.3% 6.1% .2% 3.2% 73.3% 5.0% 100.0%
¥Á¥Nªí·|ªº¥D®u¬O½Ö¶Ü¡H
% within 5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§
¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒ
77.6% 85.9% 66.7% 87.9% 85.8% 97.8% 85.2%
ªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥Á
ÄÒªº¡§ÁÙ¬O¤ä«ù¨ä¥L¬FÄÒªº¡H
Total Count 143 64 3 33 774 46 1063
% within 1.½Ð°Ý±zª¾¹D®ç¶é¥«
13.5% 6.0% .3% 3.1% 72.8% 4.3% 100.0%
¥Á¥Nªí·|ªº¥D®u¬O½Ö¶Ü¡H
% within 5.½Ð°Ý±z»{¬°¦Û¤v¬O¡§
¤ä«ù°ê¥ÁÄÒªº¡§¡B¡§¤ä«ù¥Á¶iÄÒ
100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
ªº¡§¡B¡§¤ä«ù·sÄÒªº¡§¡B¡§¤ä«ù¿Ë¥Á
ÄÒªº¡§ÁÙ¬O¤ä«ù¨ä¥L¬FÄÒªº¡H
交叉分析表
表. 臺閩地區單親家庭概況統計
九十年五月底 單位:戶
男性單親 女性單親
項 目 別 總 計 未 婚 未 婚 未 婚 未 婚
計 離 婚 喪 偶 計 離 婚 喪 偶
領 養 收 養 生 子 收 養
戶 數
單 親 戶 數 318,544 143,393 10,442 845 120,786 11,320 175,151 34,603 45 95,012 45,491
地 區 別
北部地區 106,468 48,033 3,290 252 41,116 3,375 58,435 11,790 15 32,611 14,019
中部地區 71,217 32,061 2,207 160 26,605 3,089 39,156 6,979 10 19,772 12,395
南部地區 65,948 32,237 2,538 221 26,898 2,580 33,711 5,771 5 17,773 10,162
東部地區 12,779 5,790 615 104 4,471 600 6,989 1,558 9 3,391 2,031
台北市 37,456 14,962 1,050 50 12,877 985 22,494 5,741 4 12,905 3,844
高雄市 24,237 10,133 732 56 8,679 666 14,104 2,739 2 8,464 2,899
圓餅圖
拒答 小學或以下
大學及以上 3.4% 17.2%
20.4%
國中或初中
11.5%
專科
13.0%
高中或高職
34.5%
圓餅圖
寄居 臨時搭建場所 缺失值
配用 7.0% 0.3% 1.5% 自有
1.9% 36.2%
借用
9.7%
自有住屋
自有住屋
租用 已繳清貸款
43.3% 12.3%
缺失值
44.9%
貸款中
42.8%
貸款中
缺失值 貸款中
27.5%
不是優惠利率貸
第一次購屋貸款: 3 人 款
勞工貸款: 2 人 為優惠利率貸款 57.0%
15.5%
公教補助貸款: 4 人
優惠利率
優惠利率
圓餅圖
知道的民眾主要特徵
知道 ,且正確說出 (14.7%)
姓名 知 道,但不知 道姓
10.4% 名( 有印象) •支持國民黨
4.3%
•50 ~ 59 歲
•職業為軍公教或自營
商
不知 道
85.2% •男性
不知道的民眾主要特徵
(85.2%)
•年齡為 20 ~ 29 歲
•職業為學生或家庭主婦
•女性
每
月
租
0
10
20
30
40
50
60
金
325
次數
80
0
折線圖
30
00
45
72
00
缺失值
回答人數:325
60
00
85
00
95
0
平均值
10 0
50
12 0
00
15 0
00
標準差
14763.25 9823.02
18 0
00
21 0
50
25 0
全距
00
104600
28 0
00
32 0
00
48 0
00
最大值
105000
0
400
最小值
直方圖
家庭使用語言(複選)
900 100.0%
93.6%
800 次數 90.0%
700 百分比 80.0%
回答人數:905 70.0%
600
60.0%
500
47.6% 50.0%
400
40.0%
300 31.8%
30.0%
200 20.0%
100 2.8% 0.7% 0.3% 0.1% 10.0%
0 0.0%
國語 族語 閩南語 日語 客家語 英語 西班牙語
直方圖
備課時間之增加 3.27
教學評量工作的執行 3.22
學校課程發展委員會之運作 3.21
學校課程計劃之編寫 3.12
協同教學之進行 3.04
資訊融入各科之教學 2.99
統整課程活動之設計 2.88
專業成長之要求 2.65
教學方法之創新 2.62
彈性課程之實施 2.38
100.0%
面訪
80.0%
網站
60.0%
40.0%
20.0%
0.0%
實作評量 紙筆測驗 檔案評量 真實評量
盒形圖
50
40 370
344
343
342
1
30 33
44
5
8
7
9
0
6
302
3
4
20
10
0
任教年資
-10
N= 3 8 419
Missing 男性 女性
性別
枝葉圖
全班 35 位同學統計學考試分數
86,77,91,60,35,76,92,47,88,67,23,59,72,75,83,77,68,82
97,89,81,75,74,39,67,79,83,70,78,91,68,49,56,94,81
9
8
枝 葉 7 9
2 3 7 8
3 9
6 6
4 79
8 5 3 7
5 569
6 07788 8 5 3 4
7 0245567789 9 7 4 2 2
8 11233689 9 6 7 2 1 1
9 11247 3 9 7 5 0 0 1 1
2 3 4 5 6 7 8 9
1 2 3 4 5
3.0122
¶m¤g ³£·|¤Æ
4.2645
¶Âª÷¬£¨t ¥¿¬£¸gÀç
3.6000
²{¥N³Ð·s ¦Ñ¦¡«O¦u
3.84347
¶ÆºC§Nºz ¿Ë¤Á¦³Â§
2.1958
¤½¥¿¶WµM ¿ïÁ|¼Î¸}
3.1639
¤Hû±M·~ ¤Hû¤£±M·~
3.4672
¥HÀç§Q¬°¥Øªº ¼ö¤ß¤½¯q
3.2735
ÆF¬¡¦³¼u©Ê ³Q°Ê»ø¤Æ
2.1570
°Ó«~²Õ¦X¤Ö °Ó«~¦h¼Ë¤Æ
2.5556
Àç¹BÁZ®ÄÀu¨} Àç¹BÁZ®Ä¤£¨Î
根據統計顯示,多數車禍發生在車子行駛於一般車速
的時候,只有少數車禍發生在車速超過時速 150 公里
。
開快車較安全。 多數人都以一般車速開車,
自然多數車禍發生於一般車
速。
研究顯示,有個城市死於心臟病的人數與口香糖的消
費量同時遽增。
嚼口香糖導致心臟病。
這兩類數字的增加是因為
人口快速成長的結果。
現在我要寄一封文件給一位我不認識的人,我先寄給
最有可能認識目標者的人,再請他轉寄,如此轉寄到
目標者手中,請問中間經過人數?
平均為 5
人
現場有兩人是同月同日生的機率為?
23 人機率略高於 1/2 ,
40 人機率達到 90 %以上。
解讀民意調查 未回答
A 候選人支持度 31.2 %
15.4% A候選人
31.2%
3 4 .1 % 3 4 .1 %
2 .1 % 1 3 .6 % 1 3 .6 % 2 .1 %
- 3 - 2 - 1 平 均 值 + 1 + 2 + 3
位置的衡量 (measures of
location)
平均數 (Mean) :平均數指的是算術平均數,也就是在分配
中各觀察值的和除以觀察數。
n Xi
X =∑
i =1 n
中位數 (Median) :中位數是分配的中央點。在分配中有一半
的觀察點低於,有一半的觀察點高於中位數。如果在分配中
觀察點的數目是偶數,則中位數是兩個中間數的平均數。
眾數 (Mode) :眾數是出現次數最多的那個數字。
散佈的衡量 (measures of
spread)
變異數 (Variance) :變異數是衡量以平均數為基準的分配情況。如
果所有的分數都相等,則變異數為零。分數分散的情形愈大,則變異
數愈大。
n (X − X )
S =∑ i
2
i =1 n −1
標準差 (Standard deviation) :標準差是變異數的平方根,它免除
了變異數的平方,因而增加了解釋力。
S = S2
全距 (Range) :全距是分配中最大與最小的分數之差,全距只涉及
到最大與最小的分數,因此在衡量散佈方面是相當粗糙的。
散佈的衡量 (measures of
spread)
四分位距 (interquartile range, IQR): 是分配中第一、第
三分位之差。它也稱為中點分配 (midspread) 。第 1 分位
Q1 是第 25% 的那個數字;中位數或 Q2 是第 50% 的那
個數字;第 3 分位 Q3 是第 75% 的那個數字。
IQR=Q3-Q1
∑
3
m3 x 右偏 分 配 左偏 分 配
SK = = N
3
m2
m 2 ∑ x
2
N
峰度 (kurtosis) :是描述一個分配的平坦或陡直情況。峰度共有
三種:常態峰 (mesokurtic) 、高狹峰 (leptokurtic) 及低闊峰
(platykurtic) 。 高狹峰
常態峰
4
m4 ∑x N 低闊峰
ku = −3 = −3
m2 2 x 2
2
∑ N
機率論 (Probability
Theory)
機率:衡量某一事件可能發生的程度(機會),並針
對此一事件發生之可能性賦予一量化的數值。及用來
衡量不確定性大小的工具。
機率論
隨機 機率 事件 性質與運 貝氏
實驗 理論 機率 算法則 定理
隨機實驗 (Random
Experiment)
隨機實驗 (Random Experiment) :觀察一可
產生各種可能結果 (Outcome) 的過程,稱為
實驗;而若各種可能結果的出現(或發生)具
有不確定性,則此一過程便稱為隨機實驗。
必須滿足:
1. 實驗可以在相同條件下重複進行。
2. 所有結果是明確可知的,且不只一個。
3. 實驗後的結果為所有可能結果之一,但實驗前無
法肯定會出現何種結果。
樣本點 (sample
第一件 第二件 第三件 樣本點 point) :每個可能的
G
G GGG 結果
D GGD
G
G GDG
D 樣本空間 (sample
D GDD
G DGG
space) :各種可
G
D DGD
能結果的集合
D
G DDG
D
D DDD 事件 (event) :樣本空間的
部分集合
簡單事件 (simple event) :
檢驗三件產品之樣本空間樹狀圖 只包含一個樣本點
複合事件 (composite
event) :包含二個或以上的
樣本點
各式樣本空間
隨機實驗 樣本空間 有限或無限 間斷或連續
1.擲一骰子 (1,2,3,4,5,6) 有限 間斷
2.調查某班級(45 人)近視人數 (0,1,2,3,4,…,45) 有限 間斷
3.擲一硬幣兩次 (HH,HT,TH,TT) 有限 間斷
4.檢驗一批產品,直到發現有不良
(1,2,…,n,…) 無限 間斷
品為止,記錄檢查的產品數
5.觀察某一燈管使用壽命 ( t | t>0) 無限 連續
機率測度的方法
古典方法:
P(E)=n(E)/n(S)
限制條件:樣本空間必須是有限的樣本空間。
基本假設:樣本空間內每一樣本點出現的機會皆相同。
客觀方法(相對次數法):
P(E)=lim(n/N) , N→ ∞
重複進行此一實驗許多次,並觀察該事件出現次數的比例。
主觀方法:
P(E)= (個人對事件 E 發生的信心)
機率的公理
1. 0 ≤ P ( Ei ) ≤ 1 Ei ∈ S
2. P( E1 ∪ E2 ∪ ∪ En ) = P( E1 ) + P( E2 ) + + P( En )
E1 , E2 , En 為互斥
3. P(S)=1 ; P(Φ)=0
事件機率
聯合機率 (joint probability)
兩個或兩個以上事件同時發生的機率。
P ( A ∩ B ) = ∑ P ( Ei ), Ei ∈ A ∩ B
邊際機率 (marginal probability)
在兩個或兩個以上類別的樣本空間中,若僅考慮一類別個
別發生的機率稱之。
條件機率 (conditional probability)
已知 B 事件發生下,另一事件 A 發生的機率,稱為在 B
發生條件下, A 的條件機率。
P( A / B) = P( A ∩ B) P( B) , P( B) ≠ 0
應徵者的資料
畢業學校 畢業學校
性別 性別
公立(A) 私 立(B) 合計 公立(A) 私立(B) 合計
男 性(M ) 10 2 12 男性(M) 0.5 0.1 0.6
女 性(F) 5 3 8 女性(F) 0.25 0.15 0.4
合計 15 5 20 合計 0.75 0.25 20
P ( M ∩ A) = 0.5
P ( M ) = 0.6
P ( A / M ) = P ( A ∩ M ) / P( M ) = 0.5 / 0.6 = 5 / 6
事件的性質
獨立事件 (Independent Event)
係指一事件的發生不影響其他事件的發生,若
A 、 B 兩事件互為獨立,則:
1.P( A / B ) = P( A)
2.P ( B / A) = P ( B)
3.P( A ∩ B ) = P ( A) • P ( B )
相依事件 (Dependent Event)
係指一事件的發生影響其他事件發生的機率。
互斥事件 (Mutually Exclusive Event)
事件沒有共同的樣本點稱之,即當兩事件之
交集為空集合時。
s s s
A B A B A B
A∪ B A∩ B A∩ B =φ
事件的運算法則
餘集合的機率 S
P( A ) = 1 − P( A) A
加法定理
P ( A ∪ B ) = P ( A) + P( B) − P( A ∩ B)
乘法定理
P( A ∩ B) = P( B) • P( A | B)
B
分割定理
P ( B ) = ∑ P ( B ∩ Ai ) = ∑ P ( Ai ) • P ( B | Ai )
貝氏定理 (Bayes Theorem)
事前機率
事後機率
取得新資訊 應用貝氏定理
(條件機率的形
式)
事前機率
P( A ∩ B ) P ( B | A) P( A)
P( A | B) = =
P( B) P( B)
事後機率 條件機率
某公司計畫推出新產品,並認為經濟景氣好壞會影響新產品的銷
售,公司行銷經理主觀判斷景氣好、普通、不好的機率各為
0.5 、 0.2 、 0.3 。今公司委託專業市調公司進行市場景氣調查
,但該市調公司之調查並非百分之百正確,根據過去經驗,其正
確率為 0.9 ,不正確的誤認為其他兩種是其他兩種狀況的機率各
為 0.05 。若該市調公司調查結果為景氣好,而市場景氣真正為
好的機率為多少?
主觀判斷景氣好、普通、不好的
機率
事前機率
事後機率
修正機率
取得新資訊
市調公司調查結果
事前機率:
P ( A1 ) =0.5 , A1 代表景氣好。
P ( A2 ) =0.2 , A2 代表景氣普通。
P ( A3 ) =0.3 , A3 代表景氣不好。
取得新資訊:
P( B1 | A1 ) =0.9 , B1 代表調查結果景氣好。
P( B2 | A1 ) =0.05 , B2 代表調查結果景氣普通。
P( B3 | A1 ) =0.05 , B3 代表調查結果景氣不好。
事後機率:
P ( A1 ∩B1 ) P ( B1 | A1 ) P( A1 ) 0.5 ×0.9
P ( A1 | B1 ) = = = =0.95
P( B1 ) P( B1 ) 0.475
其中: P( B1 ) =P( A1 , B1 ) +P( A2 , B1 ) +P( A3 , B1 )
=P( A1 ) P ( B1 | A1 ) +P( A2 ) P( B1 | A2 ) +P ( A3 ) P( B1 | A3 )
=0.5 ×0.9 +0.2 ×0.05 +0.3 ×0.05 =0.475
機率分配
隨機變數 (Random
Variable)
係以樣本空間為定義域的實數值函數,
也就是隨機實驗中對應樣本點的實數值
函數。X :擲一枚銅板二次,出現正面的次數
正正 1.0 ≤ f ( xi ) ≤ 1, i = 1,2, n
2 1/4
n
正反
1 2/4 2.∑ f ( xi ) = 1, i = 1,2, n
反正
0 1/4 i =1
反反
∞
1.∫ f ( x)dx = 1
−∞
樣本空間 S 隨機變數 機率 f(x) b
2.P (a ≤ X ≤ b) = ∫ f ( x)dx
X a
期望值 (Expected Value) 與變
異數
間斷機率分配:
期望值: µ = E ( X ) = ∑ x∈X ( S ) x • f ( x)
變異數: σ 2
= E [( X − µ ) 2
] = ∑x∈X ( S ) ( x − µ ) 2
f ( x)
連續機率分配: b
期望值: µ = E ( X ) = ∫a xf ( x)dx, a ≤ X ≤ b
b
變異數: σ = V ( X ) = ∫a ( x − µ ) 2 f ( x)dx
2
離散型機率分配
二項分配 (Binomial Distribution)
幾何分配 (Geometric Distribution)
超幾何分配 (Hypergeometric Distribution)
波瓦松分配 ( Possion Distribution)
二項分配 (Binomial
Distribution)
伯努利試驗 (Bernoulli Trial)
每一次試驗皆僅有兩種可能結果,不是成功 (S) ,
就是失敗 (F) 。
成功機率固定為為 P(S)=p ,失敗機率固定為為
P(F)=1-p 。
每一次試驗之間互為獨立。
進行 n 次的伯努利試驗,稱為二項實驗,若隨
機變數 X 為 n 次試行實驗成功的次數, X 的
機率分配稱為二項機率分配。
二項機率分配函數:
n− x
E ( X ) = np
f ( x) = C p (1 − p )
n
x
x
, x = 0,1,2, , n
V ( X ) = npq
0.35 0.7 0.7
0.3 0.6 0.6
0.25 0.5 0.5
0.2 0.4 0.4
0.15 0.3 0.3
0.1 0.2 0.2
0.05 0.1 0.1
0 0 0
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
P(X=x) n=5, p=0.5 P(X=x) n=5, p=0.3 P(X=x n=5, p=0.9
)
超幾何分配 (Hypergeometric
Distribution)
超幾何實驗:
從一含有 N 物的有限母體中,採不放回抽樣,抽取
n 個隨機樣本。
N 物中有 S 個屬成功類,另 N-S 個屬失敗類。
隨機變數 X 為 n 個中,成功的次數, X 的機
率分配稱為超幾何機率分配。
S
成功類 S 個
x n-x
失敗類 N-S
個
超幾何機率分配函數:
C xS CnN−−xS
f ( x) = N
, max{ 0, n − ( N − S )} ≤ x ≤ min{ n, S }
Cn
S N −n
E ( X ) = n = np V (X ) = npq
N N −1
幾何分配 (Geometric
Distribution)
二項分配為進行 n 次的伯努利試驗的成功次數分
配,如果未預先固定試驗的次數,而在第一次成
功發生之後才停止整個伯努利試驗,成功的次數
固定為 1 ,所需試驗的次數則為一隨機變數,此
隨機變數的機率分配即稱為幾何分配。
幾何機率分配函數:
1
E( X ) =
p
f ( x) = p(1 − p ) x −1 , x = 0,1,2,
q
V (X ) = 2
p
波瓦松分配 ( Possion
Distribution)
在一特定區間(或區域)內,觀察某特定事件發生的次數。
上午 10 點至 11 點中,每 10 分鐘打進公司的電話通數。
1 天內停車場停車數。
高速公路每 10 公里路面有窪動的數目。
秘書小姐每打一頁報告出現錯誤的字數。
波瓦松實驗:
在一連續區間發生事件的次數,與另一區間發生的次數是獨立的。
在一連續區間內發生事件的的期望值(平均數)與區間大小成比例。
在一極短的區間內,僅有兩種狀況,即發生一次或不發生,而發生兩次
或以上的情形不予考慮。
若一事件滿足上述三個特質,隨機變數 X 定義為連續區間內發生事
件的次數,則 X 為一波瓦松隨機變數,其機率分配為波瓦松分配。
波瓦松分配函數:
e −λλx
f ( x) = , x = 0,1,2,3,
x!
式中 λ 表示在某特定區間內某事件所發生平均次數,而
e=2.71828 。
E( X ) = λ Var ( X ) = λ
某公司訂有消費者 7 天內不滿意免費退貨服務,根據過去記錄,每
7 天平均 2 件被要求退貨,問在 14 天內會被退 5 件的機率?
e −2×2 (2 × 2) 5
f (5) = = 0.15629
5!
二項、超幾何與波瓦松分配之間關係
a b
某班火車抵達車站的時間在 8 點至 8 點 10 分之間,且在此時段
中任何時點到站的可能性均相同。
1. 某乘客在 8 點 3 分抵達車站,可搭上火車的機率?
2. 某乘客在 8 點 8 分抵達車站,火車已開走的機率?
3. 計算期望值與變異數,並解釋期望值的意義。
1
X 表示火車在 8 點以後到站的時 X ~ U (0,10), f ( x) = ,0 < x < 10
10
間, (1) P( X ≥ 3) = 10 1 dx = 0.7
∫3 10
8 1
(2) P( X ≤ 8) = ∫ dx = 0.8
0 10
0 + 10 (10 − 0) 2
(3) E ( X ) = = 5, Var ( X ) = = 8.333
2 12
常態分配 (Normal
Distribution)
又稱高斯分配( Gauss Distribution )。
重要性:
1. 許多自然現象,工業生產、商業問題及社會現象均
可用常態分配加以描述。
2. 許多統計量的的抽樣分配在大樣本下呈常態分配。
3. 常態分配可進行許多統計推論,許多統計量的的抽
樣分配如 t 分配、卡方分配、 F 分配都必須假設母體
為常態分配才可獲得。
4. 間斷機率分配在某些條件下可利用常態分配求其近
似值。
機率密度函數:
1 −
1 ( x−µ )2 E( X ) = µ
f ( x) = e 2 σ2
,−∞ < x < ∞
2π σ V (X ) = σ 2
N ( µ1 , σ 1 )
N ( µ1 , σ 1 ) N (µ 2 ,σ 2 )
N (µ 2 ,σ 2 )
µ1 < µ 2 , σ 1 = σ 2 µ1 = µ 2 , σ 1 < σ 2
常態分配特性:
1. 以平均數µ 為中心的對稱曲線。
2. 平均樹、眾數、中位數均相等( µ = M o = M e )。
3. 以µ 為中心,兩邊加減一個標準差之處,為常態曲線的反
曲點( Inflection Point )。
4. 常態曲線左右兩尾與橫軸逐漸接近,但絕不會相交。
5. 以µ 為中心,兩邊加減一個標準差的區間,其機率(面
積)為 0.683 ,加減二個標準差的區間,其機率(面積)為
0.954 ,加減三個標準差,其機率(面積)為 0.997 。
- 3 - 2 - 1 平 均 值 + 1 + 2 + 3
標準常態分配( Standard Normal
Distribution ):
即平均數為 0 ,標準差為 1 的常態分配。
機率密度函數:
1 −
z2 E ( z) = 0
f ( z) = e ,−∞ < z < ∞
2
2π
標準化( Normalized ): V ( z) = 1
X −µ
Z=
σ
某品牌家電用品的使用壽命為平均數 4.5 年,標準差為 1 年的常
態分配。若其保證期間為二年,推算其退貨的比例。
X 表示該品牌家電用品使用壽命 X ~ N (4.5,1)
, 2 − 4.5
P ( X < 2) = P ( Z < ) = P( Z < −2.5) = 0.0062
1
某公司生產高級辦公桌,其裝配時間為常態分配,平均數 56 分鐘
,標準差 4 分鐘。現有一客戶要求於 1 個鐘頭後準時到達公司提
貨,如從現在開始裝配準時完成交貨的機率為?
X 表示裝配一張桌子所需時間,X ~ N (56,4)
60 − 56
P( X ≤ 60) = P( Z ≤ ) = P( Z ≤ 1) = P( Z ≤ 0) + P(0 ≤ Z ≤ 1) = 0.5 + 0.3413 = 0.8413
4
指數分配 (Exponential
Distribution)
與波瓦松分配相反,指數隨機變數在說
明接連兩件事發生的間隔期間。
Poisson 隨機變數 指數隨機變數
1. 20 分鐘內,平均 5 部車子開進停 1. 平均每隔 4 分鐘有一部車子開進
車場(λ =5 輛/20 分鐘)。 停車場(μ =4 分鐘/輛) 。
2. 高速公路上每 10 公里平均有 5 個 2. 高速公路上,平均每隔 2 公里有 1
窪洞(λ =5 個/10 公里)。 個窪洞(μ =2 公里/個) 。
3. 某一機器 30 分鐘內平均故障 3 次 3. 某一機器平均每隔 10 分鐘故障 1
(λ =3 輛/30 分鐘)。 次(μ =10 分鐘/次)。
機率密度函數:
1
− λx
E( X ) = = µ
f ( x) = λe , x ≥ ∞, λ > 0 λ
1
V (X ) = = µ 2
λ2
λ 1. 指數分配曲線為非對稱性,
− λx 範圍為( 0 ,∞ )。
f ( x ) = λe
2. 平均數 μ 必大於 0 。
x
某一型彩色電視機其壽命時間成指數分配,且平均壽命為 10 年。
求該電視機的壽命時間之下列機率:
1. 壽命長達 15 年以上。
2. 兩年內即發生故障而報廢。
3. 壽命時間介於 2 年至 15 年。
−x
1
X 表示該電視機之壽命時間, X ~ Exp(10), f ( x) = e 10 , x > 0
10
15 1 − x 10
(1) P ( X > 15) = 1 − P ( X ≤ 15) = 1 − ∫ e dx = 0.22
0 10
1 − x 10
2
( 2) P ( X < 2) = ∫ e dx = 0.18
0 10
15 1 − x 10 2 1
(3) P ( 2 < X < 15) = P ( X < 15) − P ( X < 2) = ∫ e dx − ∫ e − x 10 dx = 0.82 − 0.22 = 0.6
0 10 0 10
P(Z<
z)
z
z
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
:
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
:
標準常態分配值
λ x e− λ x
λ x e− λ x
λ x e− λ x
λ x e− λ x
母體參數
估計誤差
1. 樣本數 資料整理時
的疏失
2. 推論方法
3. 抽樣方法
抽樣方法
抽樣方法
非機率抽樣法
機率抽樣法
非機率抽樣 機率抽樣
立意抽樣法 簡單隨機抽樣
便利抽樣法 分層抽樣
滾雪球抽樣法 集群抽樣
配額抽樣 系統抽樣
非機率抽樣法
非機率抽樣:亦即樣本不按照其機率予以抽出,而是
由抽樣者之主觀抽出或自願樣本。
◎ 優點:在某些調查時,有其必要性。
◎ 缺點: (1) 難以評斷樣本之代表性。
(2) 無法估計精確度。
(3) 樣本偏差往往較大。
◎ 非機率抽樣之種類:
1. 立意樣本 (Judged Sampling) :調查研究人員根據自己的專長、
知識、研究目的來選取代表性的樣本。如學者、專家或代表性之樣本。
2. 便利樣本 (Convenient Sampling) :事先不預定樣本,碰到即問
或自動回答者。如街頭訪問或主動打電話回答問題者。缺點:注意樣本
之偏激性及兩極化。
3. 滾式樣本 ( 輻射樣本 ) :利用樣本尋找樣本,亦即利用樣本之滾雪球
方式或輻射力抽取樣本。如都市中之原住民抽樣。使用時機:可用於當
樣本不易取得時,或針對特殊族群之調查。
4. 配額樣本:按母體某些特性予以配置樣本,但取樣時卻由調查員任意
抽取。
機率抽樣
機率抽樣:抽取之樣本是按照樣本之機率隨機
抽出。
◎ 優點:
1. 樣本較具代表性。
2. 可計算估計之精確度。
3. 可隨不同之抽樣設計採取不同之抽樣方法。
4. 隨之不同之抽樣方法,採取相互配合之估計方法。
◎ 機率抽樣之種類:
1. 簡單隨機抽樣:不對母體加以任何修飾或分割,而使每一樣本均有相同之被抽
中機率。
2. 分層隨機抽樣:將母體按照某些特性,分成數個不重疊的組群,這些組群即稱
為層,而再由各層分別抽取樣本。
3. 系統抽樣:將母體之元素按順序編號後,有系統的每隔一定間隔抽取一個樣本
之方法。
4. 集群抽樣:將母體中相鄰近之個體排成為一集體,而以集體為抽樣單位,即每
一抽樣單位為一集體之抽樣單位。
5. 兩段集群抽樣:首先抽出一些樣本集體,再由樣本集體內抽出部分基本個體。
6. 分層集群抽樣:將母體內之集體予以分層後,再由各層抽取樣本。
簡單隨機抽樣法 (simple random
sampling)
簡單隨機抽樣是一種最基礎且最簡便的抽樣方法。
優點是 (i) 當母體底冊完整時,直接由母體中抽出樣本,方法簡
單;和 (ii) 每一單位被抽中的機率均相等,參數的估計較簡單。
限制是 (i) 母體底冊不易取得,或取得很費時,費力且費錢; (ii)
母體內樣本單位太多時,作業不方便; (iii) 樣本分配較分散,行
政作業較不易;和 (iv) 樣本代表性恐有不足 ( 尤其當樣本點差異
大時或重要性不同時 ) 。
使用最佳時機,便是當 (i) 母體內樣本單位不多,且有完備名冊
,可茲編號時; (ii) 母體內樣本單位間的差異不大時 ( 對研究的
目的而言 ) ;和 (iii) 對母體資訊無法充份獲得時。
簡單隨機抽樣法的準確度會受下列二因素的影響,即 (i) 母體本
身的變異,和 (ii) 樣本的大小。
分層抽樣法 (stratified sampling)
第一層 n1
第二層
n2
:
nk
第 K層
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 …s (s+1)
(s+2) …N
6 12 18
K=N/n
變數, X 有其機率分配。
X + X 2 + X n
X= 1 =
∑X i
n n
抽自無限母體: 抽自有限母體:
E( X ) = µ E( X ) = µ
σ2 N −n σ2
Var ( X ) = Var ( X ) =
n N −1 n
大樣本 σ
中央極限定理 常態分配性質 x ~ N (µ ,
(n≧ 30) => n)
常態分配 σ
母體 σ 已知 常態分配性質 x ~ N (µ ,
小樣本 => n)
(n< 30) 母體 σ 未知 t 分配性質
=>
大樣本
σ
(n≧ 30) 中央極限定理 常態分配性質 x ~ N (µ ,
=> n)
非常態分
配 小樣本 視母體分配而
(n< 30) 定
X 抽樣分配的型態
統計估計
利用樣本統計量去推估母體參數的方法。
點估計 (Point Estimation)
根據樣本資料求得一估計值,以推估未知的母體參
數。
評估估計量的好壞:
不偏性 (unbiasde) 、有效性 (efficiency)
區間估計 (Interval Estimation)
根據樣本資料求得之點估計值,藉由點估計值統計
量的抽樣分配性質求出兩個數值所構成的區間,並
利用此一區間推估未知的母體參數範圍。
估計大學應屆畢業生平均薪資,若我們以 X = 27,200 元為中心
加減某個數字,譬如 1,784 ,得到 (27,200-
1,784)~(27,200+1,784) 元的一個區間,然後我們可以說『所
有大學應屆畢業生每月的平均薪資在 25,416~28,984 元之間』
,並說平均薪資在 25,416~28,984 元之間的可靠度為 95 %。
此一過程稱為區間估計,而此一區間稱為信賴區間 (Confidence
Interval) , 95 %稱為信心水準 (Confidence Level) 。
P(25,416 < X < 28,984) = 0.95 = 1 − 0.05 = 1 − α
X = 27,200
μ
25,416 28,984
某保險公司自其投保人的母體中隨機抽出 36 位投保人,計算出此
36 位投保人的平均年齡為X = 39.58 歲,已知母體標準差為 σ
= 7.2 歲,試求出母體平均數 μ 的 95 %信賴區間。
樣本大小為 36 ,故為大樣本,所以X 的抽樣分配為常態分配。
7.2
信賴區間= 1-α =0.95 , α/2=0.025 ,
x ~ N (39.58,
36
)
X −µ
P ( −Zα 2 < < Zα 2 ) = 1 −α 0.95
σ n
39 .58 − µ
=> P ( −Zα 2 < < Zα 2 ) =1 − 0.5
7.2 36
=> P (39 .58 −Zα 2 ×1.2 < µ < 39 .58 + Zα 2 ×1.2) =1 −0.5 μ
=> P (39 .58 −1.96 ×1.2 < µ < 39 .58 +1.96 ×1.2) =1 −0.5
X − Zα 2σ X X − Zα 2σ X
=> P (37 .15 < µ < 41 .85 ) = 0.95
假設檢定 (Hypothesis
Testing)
是對母體參數(特性)提出假設(或主張),利用樣本的訊
息,決定接受該假設或拒絕該假設的統計方法。
虛無假設 H(Null Hypothesis)
0
對立假設 (Alternative Hypothesis)
H1
基本精神:
除非具有足夠的證據可以否決 ,否則我們只好接受 ;但是接受
並不表示 為真,僅表示我們沒有足夠的證據可以拒絕 H0 H0
;相對的
,拒絕 H時僅表示我們具有充分的證據可以拒絕
0 H0 ,此時此檢定稱
H0
為具顯著性 (Significance)H。
0
H0
統計假設檢定亦稱為顯著性檢定 (Significant Testing) 。
型 I 誤差與型 II 誤差
真實情況
H0 為真 H1 為真
錯誤決策
正確決策
不拒絕 H0 型 II 誤差
1-α
β
決策
錯誤決策
正確決策
拒絕 H0 型 I 誤差
1-β
α
H 0 : µ ≥ µ0 H0 µ = µ0
H0
H1 : µ < µ 0
接受域
拒絕域 α
x
µ = µ0
H0 µ1 < µ 0
接受 H 0
β
x
µ1
假設檢定分為單尾檢定 (One-tailed Test) 與雙尾檢定 (Two-
tailed Test) 。
H 0 : µ ≥ µ0 H 0 : µ ≤ µ0 H 0 : µ = µ0
H1 : µ < µ 0 H1 : µ > µ 0 H1 : µ ≠ µ 0
α
α α α