You are on page 1of 100

統計與生活

第十三 / 十四單元:顯著性檢定 & 統計推論的應



授課教師:劉仁沛 教授

【 本 著 作 除 另 有 註 明 外 , 採 取 創用 CC
「姓名標示-非商業性-相同方式分享」臺灣 3.0
版授權釋出】

1
範例一 : 淑女品茶 (Lady Testing Tea)

 奶茶
辨一位淑女宣稱她可辨別
 是奶倒入茶中 (milk into the tea)

 是茶倒入奶中 (tea into the milk)

2
範例一 : 淑女品茶 (Lady Testing Tea)

 奶茶
辨一位淑女宣稱她可辨別
 是奶倒入茶中 (milk into the tea)

 是茶倒入奶中 (tea into the milk)
Yes or NO?
3
範例二 : 尿遁
老師小學四年級女兒小咪咪,最近叫她做功
課時常常就要上廁所。
 真的需要上廁所

 藉口不做功課
Yes or No?
4
範例三 : 能量性治療 (Therapeutic Touch)
 能量性治療人員宣稱可感覺到並改變人類能量
場 (Human Energy Field) 而可治療病人不同身
體問題 (JAMA,1998;279:1005-1010) 。
 真的可感覺到人類能量場

 是猜的

5
範例三 : 能量性治療 (Therapeutic Touch)
 能量性治療人員宣稱可感覺到並改變人類能量
場 (Human Energy Field) 而可治療病人不同身
體問題 (JAMA,1998;279:1005-1010) 。
 真的可感覺到人類能量場

 是猜的

Yes or No ?
6
範例一 : 淑女品茶 (Lady Testing Tea)

• 進行 n 杯茶的試驗
 估計其答對的比例 (Proportion) – 點
估計。

7
範例一 : 淑女品茶 (Lady Testing Tea)

• 進行 n 杯茶的試驗
 估計其答對的比例 (Proportion) – 點
估計。
 估計其答對比例的可能範圍 - 信賴
區間。
8
範例一 : 淑女品茶 (Lady Testing Tea)

 進行 n 杯茶的試驗
 估計其答對的比例 (Proportion) – 點估計。
 估計其答對比例的可能範圍 - 信賴區間。
 評估她是否是猜的或正確地辨別奶倒入茶
中 或茶倒入奶中 - 顯著性檢定或假說檢
定 (Hypothesis testing) 。
9
其他範例
• 犯人有罪與否 ? (Yes or No?)
• 藥品是否有效 ? (Yes or No?)
• 食品防腐劑是否超出政府所訂的標準 ? (Yes or No?)
• 乳品中是否含三聚氰胺 ? (Yes or No?)
• 建構式數學是否提升小學生數學能力 ? (Yes or No?)
• 產品是否符合規格 ? (Yes or No?)
• 台大農場生產 960cc 之鮮奶是否的確為 960cc? (Yes or No?)

10
其他範例
 藥品有效期是否為標韱上所宣稱 2010 年 7 月到期 ? (Yes or No?)
 教授論文或學生作業是否抄襲 ? (Yes or No?)
 經過政府大力宣導與嚴格執法,今年高速公路死亡車禍是否較
去年減少 ? (Yes or No?)
 經過政府大力宣導與嚴格執法,今年台灣抽煙比例是否較五年
前減少 ? (Yes or No?)
 國內肉產品 ( 農產品 ) 內禁用抗生素量 ( 禁用農藥量 ) 是過高
( 超出政府所訂的標準 )? (Yes or No?)
11
其他範例
• 新流感快篩靈敏度 60% ,是否要進行篩檢 ? (Yes or No?)

12
其他範例
• 鑑識科學 (Forensic Science)
– National Research Council of the US National Academy of
Sciences ( 美國國家科學院 )
– Simple and unverified assumptions
– Unclear and incomplete finger print ( 指紋 ) and evidence
– 2007 年調查, 75% 美國鑑識科學家相信無辜的人因為
錯誤的指紋鑑識結果而入獄,或成為死因。

13
其他範例
• 鑑識科學
– It’s not finger print is not reliable, Its reliability is
unverified either by statistical models or by consistent data
(Kennedy, Science, Dec. 4, 2003)

– Was the assassination bullet of Martin Luther King fired


from the rifle of James Earl Ray?
– Decision-making in the presence of uncertainty of
evidence
– Probability statement should be introduced into scientific
testimony

14
實證科學 (Evidence-based Science)

 以數據的經驗證據 (Empirical evidence) 做出資


訊決策 (Informed Decision) 。
 決策的方式只有兩種 : 是或否 ( Yes or No?) 。
 數據的經驗證據來自樣本。
 決策是推論至整個母體。

15
統計推論 (Statistical Inferences)
 減肥藥的臨床試驗。
 隨機、雙盲、平行設計,安慰劑對照組。
 將具有肥胖相關危險因子 (obesity-related risk factors)
的受試者隨機分派 (random assignment) 成兩組。
 一組服用減肥藥,一組服用安慰劑。
 每天服用三顆 (t.i.d.) ,服用兩年。
 體重下降超過 10% 的比例 ( 主要療效指標 ) 。
16
統計推論 (Statistical Inferences)

17
統計推論 (Statistical Inferences)

二年後體重下降
處理組 n 超過 10% 的比例
減肥藥 178 18.0%
安慰劑 158 9.5%

18
統計推論 (Statistical Inferences)
 減肥藥的臨床試驗共收納 336 位受試者 ( 樣本 )
 服用減肥藥的 178 位受試者中有百分之十八 ( 約 32 位 ) 服
用減肥藥兩年後的體重下降超過 10%
 服用安慰劑的 158 位受試者中有百分之九點五 ( 約 15 位 )
服用減肥藥兩年後的體重下降超過 10%
 所以減肥藥的減重效果較安慰劑為優 ?
 若此減肥藥被衛生主管機關核淮上市後,將有成千上萬的
人 ( 母體 ) 服用,是否仍然百分之十八服用兩年後的體重
下降超過 10% 而其減重效果仍較安慰劑為優 ?
19
統計推論 (Statistical Inferences)

 統計推論 - 根據試驗樣本 (sample) 得到的証據


(evidence) 對減肥藥於母體 (population) 是否具
有減重療效作下結論 (conclusion) 或決策。
 樣本不是母體,所以根據樣本所的結論帶有不
確定性 (uncertainty) 。
 不確定性可以抽樣誤差 (sampling error) 及機率
(probability) 加以量化。
20
假說 (Hypotheses)
 只考慮兩種可能的決策或結論
 犯人
 無罪

 有罪
 減肥藥
 無減重療效

 有減重療效

21
假說 (Hypotheses)
• 假說 : 二分法 - 兩種可能的決策
• 邏輯 : 反証法
• 虛無假說 (null hypothesis: Ho)
– 欲推翻的決策
• 對立假說 (alternative hypothesis: Ha)
– 欲證實的決策
22
假說 (Hypotheses)
• 檢查官必須舉証推翻犯人無罪的虛無假說,
以證明犯人有罪的對立假說是成立。
• 藥廠必須執行減肥藥的臨床試驗,提出減
重療效的証據以推翻無減重療效的虛無假
說,證明具有減重療效的對立假說是成立。

23
假說 (Hypotheses)
 當無充分証據推翻犯人無罪的虛無假說,並不
表示虛無假說為真。
 當無充分証據推翻犯人無罪的虛無假說時,並
不表示犯人是無罪,而是檢查官無充分証據證
明犯人有罪。
 當無充分証據翻無減重療效的虛無假說,並不
表示是減肥藥無效,只是藥廠未提出充分証據
證明減肥藥是具有減重療效。
24
其他範例
• 消費者基金會懷疑某公司出產奶粉重量不
足 500 公克

奶粉重量不足 500 公克
Ho :平均奶粉重量至少 500 公克
Ha :平均奶粉重量不足 500 公克
25
其他範例
• 該公司欲證明其出產奶粉重量至少 500 公克

奶粉重量至少 500 公克
Ho :平均奶粉重量不足 500 公克
Ha :平均奶粉重量至少 500 公克

26
統計假說 (Statistical Hypotheses)
統計方法進行決策的過程 (Decision-Making Process) ,
將探討的問題二分為兩種假說:

虛無假說 (Null Hypothesis , Ho)


對立假說 (Alternative Hypothesis , Ha)
對立假說:吾人欲證明的事件 ( 所感興趣 )
虛無假說:對立假說之補事件 ( 不感興趣 )
27
統計假說 (Statistical Hypotheses)

人非聖賢
孰能無過
28
統計假說之邏輯基礎:反證法
• 目的:證明對立假說 Ha 為真
• 方法:利用數據證明虛無假說 Ho 不成立
=> 間接地證明對立假說 Ha 成立
• 結論:二種可能性
1. 推翻虛無假說 Ho => 證明 Ha
2. 無法推翻虛無假說 Ho
不代表證明虛無假說 Ho 為真
僅說明資料無法提供足夠證據推翻 Ho

29
Ho :減肥藥不具減重療效
vs. Ha :減肥藥具有減重療效
事實 (Truth: 永遠不知 )
決策 (Decision) Ho :不具減重療效 Ha :具有減重療效

無法推翻 Ho
決策正確 型Ⅱ錯誤
不具減重療效

推翻 Ho
型Ⅰ錯誤 決策正確
具有減重療效

30
型Ⅰ錯誤 (Type I Error)

推翻虛無假說∣當虛無假說 Ho 為真時
決策判定具有減重療效∣事實上無減重療效
reject Ho∣Ho is true
消費者的風險 (Consumer's Risk)

31
型 II 錯誤 (Type II Error)

無法推翻虛無假說∣當對立假說 Ha 為真時
決策判定無減重療效∣事實上具有減重療效
無法拒絕 Ho∣Ha is true
生產者的風險 (Producer's Risk)

32
型 I 與型 II 錯誤 (Type I &Type II Errors)

事實 (Truth: 永遠不知 )
決策 (Decision) Ho : μ 500g 為真 Ha : μ 500g 為真

無法推翻 Ho
μ 500g 決策正確 型 II 錯誤

推翻 Ho
μ< 500g 型 I 錯誤 決策正確
33
判決結果

事實 (Truth: 永遠不知 )
決策
Ho :無罪 Ha :有罪
無法推翻 Ho
決策正確 型Ⅱ錯誤
犯人無罪
推翻 Ho: 犯人有罪 型Ⅰ錯誤 決策正確

型Ⅰ錯誤:判決有罪∣事實上無罪
拒絕 Ho∣ Ho 為真誤殺忠良 ?
型Ⅱ錯誤:判決無罪∣事實上有罪放虎歸山 ?
無法拒絕 34 Ho∣ Ha 為真
The truth is still out there (in X file ???)
統計假說 (Statistical Hypotheses)
 樣本不是母體,所以根據樣本所的結論帶有不
確定性 (uncertainty) 。
 不確定性可以抽樣誤差 (sampling error) 及機率
(probability) 加以量化。
 根據樣本數據,可計算型 I 錯誤與型 II 錯誤
發生的機率。
 可將型 I 錯誤與型 II 錯誤發生的機率控制在
可接受的範圍內。
35
統計假說 (Statistical Hypotheses)

 目的:反證法證明對立假說 Ha 成立
必須先控制型Ⅰ錯誤發生的機率
( 推翻虛無假說 Ho 當虛無假說 Ho 為真 )
無法控型Ⅰ錯誤不發生
但可控型Ⅰ錯誤發生的機率在某一範圍

36
統計假說 (Statistical Hypotheses)

 顯著水準  = 准許型Ⅰ錯誤發生的機率
= P[ 型Ⅰ錯誤 ]
= P[ 推翻 Ho∣Ho 為真 ]
= P[ 偽陽性 ]
通常 = 5% 或 10%
二十次決策中准許一 ( 二 ) 次型Ⅰ錯誤的發生
37
統計假說 (Statistical Hypotheses)
 β= 准許型Ⅱ錯誤發生的機率
=P[ 型Ⅱ錯誤 ]
=P[ 無法推翻 Ho∣ Ha 為真 ]
=P[ 偽陰性 ]
 檢定力 (power) = 1 - β
=P[ 推翻 Ho∣ Ha 為真 ]
= 推翻虛無假說 Ho∣ 當對立假說 Ha 為真

38
統計假說 (Statistical Hypotheses)
 檢定力 =1 - β
=P[ 推翻 Ho∣ Ha 為真 ]
= 推翻虛無假說 Ho∣ 當對立假說 Ha 為真的
機率
= 決策判定減肥藥具有減重療效∣事實上減肥藥
有減重療效的機率
= 決策判定犯人有罪∣事實上犯人有罪
的機率

39
統計假說 (Statistical Hypotheses)
• 假說
– 消費者基金會懷疑某公司出產奶粉重量
不足 500 公克
奶粉重量不足 500 公克
Ho :平均奶粉重量至少 500 公克
Ha :平均奶粉重量不足 500 公克

40
統計假說 (Statistical Hypotheses)
• 數據的經驗證據 (Empirical evidence)
 自今天生產的奶粉罐隨機取樣 36 罐奶粉,
其樣品平均值為 485g 。
 若族群標準偏差 =30g ,是否有足夠證
據證明奶粉罐平均重量不足 500 公克?

41
統計假說檢定或顯著性檢定步驟 (Statistical
Hypothesis Testing or Significance Test)

1. 設立虛無假說 (Ho) 及對立假說 (Ha)


應將欲證明之假說放於 Ha
其補集合放於 Ho
消費者基金會:奶粉重量不足 500 公克
  Ho :  500g vs. Ha :  < 500g
2. 設定顯著水準 通常 =0.05 或 =0.01
42
統計假說檢定或顯著性檢定 (Statistical
Hypothesis Testing or Significance Test)

3. 選擇適當的檢定統計量 (Test Statistic)


分子
Z 
分母
分子:樣本估算值與虛無假說所假定母體參數
間之差異
樣本估算值-虛無假說所假定母體參數
樣本平均數-虛無假說所假定母體平均數
分母:樣本估算值的抽樣誤差

43
統計假說檢定或顯著性檢定 (Statistical
Hypothesis Testing or Significance Test)

3. 檢定統計量

分子:樣品平圴值 = 485 g
- 虛無假說所定族群母數 =500 g
485 g – 500 g = -15 g
問題 : 36 罐奶粉,其樣品平均值為 485 g 較其宣稱少
15g ,是否就可證明消費者基金會的懷疑某公司出產奶
粉重量不足 500 公克 ?
44
統計假說檢定或顯著性檢定 (Statistical
Hypothesis Testing or Significance
Test)
3. 檢定統計量
必須決定少 15g 是否在正常抽樣誤差範圍內 ?
分母:抽樣誤差

n

抽樣誤差 = 30 30
= =5
36 6
45
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
3. 檢定統計量
分子
Z 
分母
- 15
=
5
= -3
46
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
 檢定統計量 :
 樣本平均數與虛無假說所設定母體平均數的差
異以抽樣誤差倍數表示。
 樣品平均值為 485 g 與虛無假說所設定母體平
均數 500 g 的差異為 -15 g ,是抽樣誤差 -3 倍。
 在虛無假說下,抽樣誤差 -3 倍或比 -3 倍更大
的抽樣誤差發生機率 -p-value
47
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
• 4. 計算 p-value
p-value: 在虛無假說為真時 ( 奶粉罐平均重
量至少 500 公克 ) 觀測到 36 罐奶粉的樣本
平均值為 485 g 或比 485 g 更輕的機率。
p-value = Pr (z < -3) = 0.0013

48
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
數據的經驗證據 虛無假說 (>= 500)
樣本平均值 為真的可能性
495 ?
490 ??
485 ???

49
50
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
• 4. 計算 p-value
p-value: 在虛無假說為真時 ( 奶粉罐平均重量
至少 500 公克 ) 若觀測到 36 罐奶粉的樣本平
均值為 495 公克或比 495 公克更輕的機率。
Z= -5/5=-1(-1 倍抽樣誤差 )
p-value = Pr (z < -1) = 0.1587

51
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
• 4. 計算 p-value
p-value: 在虛無假說為真時 ( 奶粉罐平均重量
至少 500 公克 ) 若觀測到 36 罐奶粉的樣本平
均值為 490 公克或比 490 公克更輕的機率。
Z= -10/5=-2 (-2 倍抽樣誤差 )
p-value = Pr (z < -2) = 0.0228

52
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
 4. 計算 p-value
虛無假說
樣本平均值 p-value 為真的可能性
495 0.1587 很可能
490 0.0228 不可能
485 0.0013 極不可能
53
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
 樣本平均值距離虛無假說所假定的 500g 愈遠
時 p-value 愈小。
 P-value 為在虛無假說為真時,樣本平均值發
生的可能性。
 樣本平均值與 p-value 均為數據的經驗證據。
 p-value 小代表數據的經驗證據並不支持虛
無假說。
54
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)

 問題 : p-value 要多小,才可下推翻虛無假說的
決策 ?
 答案 : 小於顯著水準。
 顯著水準 : 吾人可容忍的型 I 錯誤。
 若顯著水準定為 0.05 表示 20 次推翻虛無假說的決
策中可允准一次錯誤 ( 即有一次虛無假說為真 ) 。
或 1000 次推翻虛無假說的決策中可允准 50 次錯誤
( 即有 50 次虛無假說為真 )
55
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
 問題 : p-value 要多小,才可下推翻虛無假
說的決策 ?
 答案 : 小於顯著水準。
 若顯著水準定為 0.05
 樣本平均值為 485 時的 p-value 是 0.0013
 1000 次推翻虛無假說的決策中可能犯 1.3 次錯
誤,小於可容忍的 50 次。
56
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)
• 5. 決策判定 :
– 因 p-value = 0.0013 小於 0.05 的顯著水準
– 推翻虛無假說。
– 樣本平均值為 485g 與虛無假說所假設 500g 的
差異在 5% 顯著水準下為統計顯著 (statistically
significant) 。
– 統計假說檢定又稱顯著性檢定。

57
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)

 5. 決策判定 :
 顯著水準定為 0.05(1/20)
樣本平均值 p-value 決策判定
495 0.1587 不顯著 ( 無法推翻虛無假說 )
490 0.0228 顯著 ( 推翻虛無假說 )
485 0.0013 顯著 ( 推翻虛無假說 )
58
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)

 5. 決策判定 :
 顯著水準定為 0.20(1/5)
樣本平均值 p-value 決策判定
495 0.1587 顯著 ( 推翻虛無假說 )
490 0.0228 顯著 ( 推翻虛無假說 )
485 0.0013 顯著 ( 推翻虛無假說 )
59
統計假說檢定或顯著性檢定 (Statistical Hypothesis
Testing or Significance Test)

 5. 決策判定 :
 顯著水準定為 0.01(1/100)
樣本平均值 p-value 決策判定
495 0.1587 不顯著 ( 無法推翻虛無假說 )
490 0.0228 不顯著 ( 無法推翻虛無假說 )
485 0.0013 顯著 ( 推翻虛無假說 )
60
統計歷史人物小傳
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962

61
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962
• R.A. Fisher was the second of twins, but the older twin was stillborn
• Because the third child died at a very young age and a son was stillborn,
Fisher’s mother, Katie, being superstitious, decided that all their children
should have a “y” in their name
• A sickly and lonely child with mathematic talent at a very young age

62
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962

• He entered Cambridge in 1909, became a wrangler in mathematics


and graduated with distinction in mathematics of tripos of 1912
• After graduation, he continued his study at Cambridge in the theory
of error that led him to statistical problems
• R.A. Fisher secretly married his wife, Ruth Eileen Guinness on April
26 1917, Ruth’s 17th birthday without her mother’s approval

63
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962

 R.A. Fisher was interested in farming and he worked on the Canadian


farm before World War I
 He was rejected from military service in World War I because of his
poor eye sight
 He taught at Rugby and other middle schools from 1915 to 1919
 He was a terrible teacher and was too difficult for and ailed to
appreciate the limitation of average students
 His class would rapidly fall away until only 2 or 3 students who could
stand the pace remained as fascinated disciples

64
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962

 Rothamsted Agricultural Experimental Station, established in 1837, was


privately own and was the oldest agricultural research institute in U.K.
 Results of fertilizer experiments over 90-year period
 Daily records of rainfall and temperature
 Weekly records of fertilizer dressings and measures of soil
 Annual of harvests
 Preserved in leather-bound notebooks and stored in the station’s archives
 No consistent results

65
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962

• Sir John Russell, head of the station, decided to hire a statistician to


take a look these huge amount of data
• Salary: 1000 pounds a year
• Duration: 1 year
• Sir John Russell’s decision to hire and Fisher’s decision to accept
were to revolutionize the world

66
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962
• Between 1921 and 1929, a series of papers entitled with “Studies in
Crop Variation” (I to VI) appeared in Journal of Agricultural Sciences
or Philosophical Transactions of the Royal Society of London
• “Statistical Methods for Research Workers” was first published in
1925
– The first book for statistical methods with examples with real data
and without any theorem and mathematical proof
– 14 English editions and translation into French, German, Italian,
Japanese, Spanish, and Russian

67
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962
• Studies in Crop Variation II - 1923
– First time to introduce the concept of randomization into
experiment – randomized controlled experiments
– First time to invent the technique of experiment design such as
blocks to control variation
– First time to develop the Analysis of Variance (ANOVA 變異數分
析 ) to separate the source of variation from the treatment effects

68
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962
• Studies in Crop Variation VI – 1929
– First time to develop the method of Analysis of Covariance
(ANCOVA 共變數分析 ) to control the factors (covariates) which
are not part of experiment design but can be measured
– ANCOVA has great impact in biological, medical and
epidemiological research

69
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962
• New definition of statistics as estimators which are random
• Criteria to evaluate estimators
– Consistency 一致性
– Unbiasedness 不偏性
– Efficiency 有效性
• Concept of likelihood in 1921 and maximum likelihood estimator
(MLE 最大概似估計值 ) which is consistent, the most efficient but
with known bias  consistent, efficient, and unbiased estimators

70
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962
• Fisher complained that his papers were rejected by statisticians who
did not understand biology and biologists who did not understand
statistics
• Fisher’s novel ideas took time to become accepted
• About half of Fisher’s publications were in genetics and he was the
Arthur Balfour Professor of Cambridge University until his retirement
in 1957

71
Sir Ronald Aylmer Fisher
2/17/1890 – 7/29/1962
• We need to be impartial and critical of research by others or in other
fields
• We also need to appreciate the ideas, work and efforts of others and in
other fields
• We need to have an open view on everything
• We need to provide every opportunity to young researchers
• Young researchers should fear of no one and hold on your own ideas

72
單尾假說 (One-sided Hypothesis)
• 假說
– 消費者基金會懷疑某公司出產奶粉重量不足 500 公克

奶粉重量不足 500 公克
Ho :平均奶粉重量至少 (>=)500 公克
Ha :平均奶粉重量不足 (<)500 公克

73
單尾假說 (One-sided Hypothesis)
• 假說
該公司欲證明其出產奶粉重量超過 500 公克

奶粉重量超過 500 公克
Ho :平均奶粉重量最多 (<=)500 公克
Ha :平均奶粉重量超過 (>)500 公克

74
雙尾假說 (Two-sided Hypothesis)
• 假說
消保官評估出產奶粉重量是否為 500 公克

Ho :平均奶粉重量是 (=)500 公克
Ha :平均奶粉重量不是 ()500 公克
不是大於或小於雙尾

75
統計顯著 vs. 應用顯著 vs. 樣本數
樣本平均值 =499g, 母體平均值 =500g
樣本平均值 - 母體平均值 = -1g
母體標準偏差 =30g
樣本數  /n z p-value
100 3 -0.33 0.3707
1600 0.75 -1.33 0.0918
3600 0.5 -2 0.0228
10000 0.33 -3.33 0.0012
 0 - 0

76
統計顯著 vs. 應用顯著 vs. 樣本數

• 樣本數增加,抽樣誤差下降。
• Z 絕對值變大, p-value 變小。
• 統計顯著。
• 推翻虛無假說。
• 只要不斷增樣本數,一定可推翻虛無假說,並達到統計顯著。

77
統計顯著 vs. 應用顯著 vs. 樣本數

• 1g 差異的統計顯著,並無實用上意義。
• 必須先訂出實用上有意義的差異。
• 降血壓新藥降舒張壓的效果較安慰劑多 5 mmHg 。
• 在規劃的顯著水準 ( 如 5%) 與檢定力 (power 如 80%) 下,計算所需
樣本數後,收集資料進行顯著性檢定。

78
Case Study
97 學年度下學期統計與生活通識課程問卷資料
每次選修這門課的所有同學中女性所佔的比例是不是多
數?
 在 97 學年度下學期共有 114 位同學選修這堂課,其中女
性同學為 62 位,佔 54.4% 。另外我們將這次檢定的顯著
水準訂為一般常用的 5% 。

79
The Five Steps of Hypothesis Testing

• 步驟一:設定虛無假說與對立假說
• 步驟二:決定顯著水準(型 I 錯誤發生的機率)
• 步驟三:選擇檢定統計量
• 步驟四:收集資料,計算檢定統計量以及其
對應的 P 值
• 步驟五:進行決策判定

80
Case Study:
每次選修這門課的所有同學中女性所佔的比例是不是多數 ?
步驟一:設定虛無假說與對立假說
p :同學中女性所佔比例

Ho :欲推翻的假說→同學中女性所佔的比例不是多數→ p ≤ 0.5
Ha :欲證實的假說→同學中女性所佔的比例是多數→ p > 0.5
p > 0.5 來代表同學中女性所佔的比例是多數,而 p ≤ 0.5 則代表
同學中女性所佔的比例不是多數,而我們所欲推翻的假說是 p ≤
0.5 。
步驟二:決定顯著水準 ( 型 I 錯誤發生的機率 )
顯著水準 α 訂在一般常用的 5% ,之後會再用較嚴格的顯著水準
1% 作比較。
81
Case Study:
每次選修這門課的所有同學中女性所佔的比例是不是多數 ?
步驟三:選擇檢定統計量
由於我們在這裡進行的是一個比例值的檢定,想要證明母體比例
值是否超過 0.5 ,因此選擇 Z 檢定統計量來進行檢定。 Z 檢定
統計量就是一個分子 / 分母的概念,分子一樣是樣本比例點估計
值與母體比例值的差,分母代表樣本比例值的抽樣誤差。樣本數
共有 114 位,統計上可以將樣本比例點估計,視為近似一個常態
分布。

82
Case Study: Test Statistic
步驟四:收集資料,計算檢定統計量以及其對應的 P
值Based on the sample:
n=114 (large, so proportions follow normal distribution)
no physical discipline: 51%
– = 0.544
– standard error of :
(where 0.50 is p0 from the null hypothesis)
standardized score (test statistic)

83
Case Study: P-value
樣本點估計比例值為 0.544 與母體比例值 0.5 間的距離為 0.9 倍的抽樣誤
差,接著根據我們所欲證實假說的方向,我們要計算 P 值為:

P 值 ( 樣本點估計比例大於 0.544 | 母體真實比例為 0.5)


= P(Z > 0.9) = 0.1841

84
Case Study: Decision
P 值 =0.1841 高於我們的顯著水準 α=0.05 ,所以我們沒有足夠的統計
由於
證據去推翻虛無假說。

在以上的結論中 P 值 =0.1841 代表,若我們做出推翻虛無假說的決定,會有


18.41% 的機率會讓型 I 錯誤發生,這不是一個低的犯錯機率,且高於我們
可以接受的 5% ,所以我們無法說明有足夠證據去推翻虛無假說。

若顯著水準訂為較嚴格的 1% ,做出來的結論依然會是無法推翻虛無假說,
因為有 18.41% 的機率會讓型 I 錯誤發生遠高於我們可以接受的 1% 。當我
們將顯著水準訂為嚴格的 1% 時,我們收集到樣本比例 54.4% 與虛無假說中
假設母體比例 50% 做比較,這 4.4% 的差異在統計上會是更不顯著的。

85
統計歷史人物小傳
Sir Austin Bradford Hill
7/8/1897-4/18/1991

86
Sir Austin Bradford Hill
7/8/1897-4/18/1991
• The third son of distinguished medical physiologist, Sir Leonard Erskine
Hill
• During World War I, enlisted as a pilot in the Royal Naval Air Service
• Contracted TB and sent home (to die?)
• Two years in hospital to recover
• BSc from Univ. of London in 1922 and PhD from University College,
London in 1926

87
Sir Austin Bradford Hill
7/8/1897-4/18/1991
• Conducted the first randomized clinical trial on human to test
the efficacy of streptomycin for the treatment of TB patients
• Supply of the new antibiotics was extremely limited and
funding was scarce. “In that situation, I said it would be
unethical not to make a randomized clinical trial – the first of
its kind”

88
Sir Austin Bradford Hill
7/8/1897-4/18/1991
• With Sir Richard Doll, they conducted a retrospective case-
control study, for the first time, to show lung cancer to be
closely related to smoking in 1950
• The procedure and conclusion of their paper was severely
criticized by Sir R.A. Fisher
– “Cigarettes, Cancer, and Statistics” in Centennial Review
– “Lung Cancer and Cigarettes?” and “Cancer and Smoking” in Nature

89
90
Sir Austin Bradford Hill
7/8/1897-4/18/1991
• In response, A.B. Hill with R. Doll conducted a prospective cohort
study (British Doctors Study) which involved collecting data on the
smoking habit and Health over 50,000 male British doctors
• The results published in 1954 and 1956 silenced the earlier criticism
• This cohort of 50,000 doctors are still being followed and “Mortality
in relation to smoking: 50 years’ observation on male British doctors”
British Medical Journal, 2004.

91
92
Sir Austin Bradford Hill
7/8/1897-4/18/1991
• A. B. Hill is not known for developing statistical theory or methods
• He is known to understand the concept and importance of randomized
controlled experiments and was the first pioneer to apply the methods to
clinical trials for advance of human life
• He also knew the limitation of randomized controlled clinical trials and
was the first one to show the link between lung cancer and smoking by
retrospective case-control design

93
總結 (Summary)
1. 設立虛無與對立假設 ( 雙尾,單尾 )
2. 決定顯著水準 ( 型Ⅰ誤差機率 )=0.05 或 =0.01
3. 選擇檢定統計量
4. 收集資料,計算檢定統計量,計算 p-value
5. 進行決策判定

94
版權聲明
頁碼 作品 版權標示 作者 / 來源
《 The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth
2-3 、 7- 範例一:淑女品茶
Century 》, Salsburg, D.(2001) , p1-p8 , Henry Holt Company , New York 。
9 (Lady Testing Tea)
依據著作權法第 46 、 52 、 65 條合理使用。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 246 ,


國立臺灣大學出版中心, 2010 年三月初版。
4 範例二:尿遁
由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《 A close look at therapeutic touch. 》,


範例三:能量性治療 Rosa, L.; Rosa, E.; Sarner, L.(1998) ,
5-6 (Therapeutic Touch) The Journal of the American Medical Association ,
依據著作權法第 46 、 52 、 65 條合理使用。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 271 ,


國立臺灣大學出版中心, 2010 年三月初版。
12 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《 Weak forensic science has high cost 》


鑑識科學…… into
13-14 scientific testimony 。
, Spiegelman, C.(2010) , AMSTAT News , March 2010 ,頁 35-37 。
依據著作權法第 46 、 52 、 65 條合理使用
95
頁碼 作品 版權標示 作者 / 來源
《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 272-273 ,
16 、 1 統計推論 (Statistical 國立臺灣大學出版中心, 2010 年三月初版。
Inferences) 由所有權人國立臺灣大學出版中心授權,
9 您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 273 ,


國立臺灣大學出版中心, 2010 年三月初版。
17 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 273 ,


國立臺灣大學出版中心, 2010 年三月初版。
18 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 274-275 ,


檢查官必須舉証推翻……
國立臺灣大學出版中心, 2010 年三月初版。
23-26 平均奶粉重量至少 500 公
由所有權人國立臺灣大學出版中心授權,
克。
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 276 ,


國立臺灣大學出版中心, 2010 年三月初版。
30 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

96
頁碼 作品 版權標示 作者 / 來源
《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 278 ,
國立臺灣大學出版中心, 2010 年三月初版。
33 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 278 ,


國立臺灣大學出版中心, 2010 年三月初版。
34 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 283-286 ,


40-
消費者基金會懷疑…… 國立臺灣大學出版中心, 2010 年三月初版。
48 、 51-52 、
又稱顯著性檢定。 由所有權人國立臺灣大學出版中心授權,
54-57
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 285 ,


國立臺灣大學出版中心, 2010 年三月初版。
49 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 284 ,


國立臺灣大學出版中心, 2010 年三月初版。
50 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

97
頁碼 作品 版權標示 作者 / 來源
《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 285 ,
國立臺灣大學出版中心, 2010 年三月初版。
53 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 286 ,


國立臺灣大學出版中心, 2010 年三月初版。
58 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 286 ,


國立臺灣大學出版中心, 2010 年三月初版。
59 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 286 ,


國立臺灣大學出版中心, 2010 年三月初版。
60 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

WIKIPEDIA
61 (http://en.wikipedia.org/wiki/File:R._A._Fischer.jpg) ,
瀏覽日期 2012/06/12 。

98
頁碼 作品 版權標示 作者 / 來源
R.A. Fisher was the second School of Mathematics and Statistics University of St Andrews, Scotland
62-72 of twins……and hold on (http://www-history.mcs.st-andrews.ac.uk/Biographies/Fisher.html) ,
your own ideas. 瀏覽日期 2012/06/01 ,依據著作權法第 46 、 52 、 65 條合理使用。

73- 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 296-297 ,


消費者基金會懷疑…… 國立臺灣大學出版中心, 2010 年三月初版。
75 、 83 、統計上會是更不顯著的。 由所有權人國立臺灣大學出版中心授權,
85 您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 301 ,


國立臺灣大學出版中心, 2010 年三月初版。
76 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 302 ,


1g 差異的統計……顯著 國立臺灣大學出版中心, 2010 年三月初版。
78 性檢定。 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 296 ,


國立臺灣大學出版中心, 2010 年三月初版。
84 由所有權人國立臺灣大學出版中心授權,
您如需利用本作品,請另行向權利人取得授權。

99
頁碼 作品 版權標示 作者 / 來源
Cardiff University
86 (http://www.cardiff.ac.uk/insrv/libraries/scolar/archives/bradfordhill/index.html) ,
瀏覽日期 20121/06/12 。依據著作權法第 46 、 52 、 65 條合理使用。

87- The third son of


Cardiff University
distinguished……by
89 、 91 、retrospective case-control (http://www.cardiff.ac.uk/insrv/libraries/scolar/archives/bradfordhill/biography.html ) ,
93 瀏覽日期 2012/06/01 。依據著作權法第 46 、 52 、 65 條合理使用。
design.

《 Basic and Clinical Biostatistics 》,


Beth Dawson; Robert G. Trapp(2000) , P.11 ,
90 McGraw-Hill Professional Publishing 。
依據著作權法第 46 、 52 、 65 條合理使用。

《 Basic and Clinical Biostatistics 》,


Beth Dawson; Robert G. Trapp(2000) , P.14 ,
92 McGraw-Hill Professional Publishing 。
依據著作權法第 46 、 52 、 65 條合理使用。

100

You might also like