Professional Documents
Culture Documents
統計學課程
科目代碼: BAC20804
第十二章 - 變異數分析
1 陳瑞祥老師
2 章前導讀
問題:何時才會利用到變異數分析?
當母體個數超過二個以上,而欲做數個母體平均數檢定
時。
問題:實驗設計的目的是什麼?
檢定一種或者多種統計假設,並且
使得需要的資料能夠有效地蒐集與分析。
3 章節大綱
12.1 基本概念
12.2 一因子變異數分析
12.3 數個平均數的多重比較
12.4 二因子變異數分析
12.5 因子設計
12.6 電腦統計軟體範例
第 442 頁
4 12.1 基本概念
問題:變異數分析又稱為?
Analysis of variance (ANOVA)
問題:變異數分析是如何分析的?
將一組資料所發生的變異,依可能發生變異的來源
分割為數個部分,
亦即每一個部分皆可歸因於某個原因 ( 變異來源 ) 。
問題:如何判斷某一個變異來源對資料具有顯著影響?
測度這些不同的變異來源,可了解各種變異間對於資料的
影響是否有顯著差異。
若有差異,表示某一變異來源對資料有顯著影響;
若無差異,無影響作用。
第 442 頁
5 例題 12.1
蒐集台灣地區民國 60 年至 107 年各縣市稻米的平均產量 ( 每
畝 ) , 則此組資料內的各觀察值顯然皆有所不同 ( 亦即有差
異)。 將各觀察值減去總平均數後取平方再加總,此即總
變異。
造成總變異的原因可能有很多種,例如施肥度、土質、氣候等
等,測度這些變異來源,我們即可了解到
何種變異 ( 原因 ) 對稻米的產量具有決定性 ( 顯著 ) 影響。
在分析變異來源時,往往有一些變異原因無法一一列出,
此時乃將這些變異歸諸於實驗誤差造成的變異來源。
縣市 1( 產量 1) 施肥度
縣市 2( 產量 2) 土質
… 氣候
縣市 N( 產量 N)
實驗誤差
( 無法一一列出 )
總變異
問題:何種變異 ( 原因 ) 對稻米的產量具有決定性 ( 顯著 ) 影響
第 442 頁
7 例題 12.1
問題:在變異數分析中,有哪些常用的名詞與意義?
1. 實驗設計中所衡量的基本對象稱為「實驗單位」。
2. 在不同條件下衡量實驗單位的總觀察值,這些不同的條件
稱為「因子」。
3. 各因子的不同表現程度稱為「水準」。
4. 不同因子的某種特定水準組合稱為「處理方式」。
實際說明如下頁
第 442 頁
8 例題 12.1
例如:例題 12.1
觀察值:稻米產量 ( 各農地 )
總變異:變異數
因子 ( 造成總變異 ) :雨量、施肥度、土質及氣候等
等。 水準:高、中、低雨量
問題:假如只關心雨量因子,此分析稱為?
一因子變異數 (one factor ANOVA) 分析
高、中、低雨量稱為三種處理方式
縣市 1( 產量 1) 雨量 ( 因子 )
縣市 2( 產量 2) 不同處理
(1) 高
…
(2) 中
縣市 N( 產量 N) (3) 低
實驗誤差
( 無法一一列出 )
總變異
第 443 頁
10 例題 12.1
問題:假如關心雨量與土質二因子,此分析稱為?
肥沃 貧脊
高 1 4
中 2 5
低 3 6
第 443 頁
12 12.2 一因子變異數分析 ( 完全隨機化設計 )
問題:本節介紹哪兩種實驗設計?
完全隨機化設計 (complete randomized design)
隨機化區集設計 (randomized block design)
問題:完全隨機化設計適用何種分析?
一因子變異數分析
問題:隨機化區集設計適用何種分析?
二因子變異數分析
第 443 頁
13 12.2.1 完全隨機化設計
問題:常態分配與 t 分配可以檢定的虛無假設形式為? (2 個
母體 )
問題:完全隨機化設計可以檢定的虛無假設形式為?
檢定二個或二個以上的母體平均數是否相同
(k 個母體 )
問題:完全隨機化設計,對於母體的概念為何?
對若干母體進行獨立的隨機試驗
每一母體均採用在某種處理方式下的
反應變數 (response variable) 。
第 443 頁
14 12.2.1 完全隨機化設計
問題:處理方式與實驗單位之間的關係為?
第一種處理方式施用於個實驗單位
第二種處理方式施用於個實驗單位
-…
第 k 種處理方式施用於個實驗單位
實驗單位總共個
雨量 ( 因子 )
不同處理
(1) 高
(2) 中
(3) 低
第 444 頁
16 12.2.1 完全隨機化設計
離差
第 444 頁
17 12.2.1 完全隨機化設計
問題:的意義為何?
第 j 種處理方式的第 i 個觀察值 ( 對應第 12 頁 )
問題:有哪一些與變異數相關的名詞?
1. 離差 (deviation) :任一觀察值與其平均數的差, 。 2.
變異 (variation) :離差的平方,即 3. 離差
的平方和 (sum of square for deviation) :將所有離差加總 4.
變異數 (variance) :離差的平方和除以自由度。
5. 樣本變異數:
第 444 頁
18 12.2.1 完全隨機化設計
某工廠欲了解 4 部機器的性能,由於 4 部機器
(1) 分別由不同的人操作,以及 (2) 其他無法測知的因素,
致使每一部機器之每小時平均產量可能有所不同。
表 12.2 列出每一部機器在某段時間所測得的每小時之產量
( 各機器的觀察值不完全相同 ) ,並
計算出每一組樣本的平均數與離差平方和。
第 444 頁
19 12.2.1 完全隨機化設計
表 12.2 4 部機器每小時產量的觀察值
第 444 頁
20 12.2.1 完全隨機化設計
觀察表 12.2 ,
根據我們對統計觀念的了解,或許會聯想到下面一些問
題: (1) 4
部機器的性能 ( 平均產量 ) 是否有顯著的差異?
(2) 若存在顯著差異,是否存在任意 2 部機器的性能相同?
(3) 每部機器之間,是否可求得其間平均數差的信賴區間?
以上三個問題即為下面我們將陸續討論的內容。
第 445 頁
21 12.2.2 變異數分析的原理與相關的計算
問題:在進行 ANOVA 分析時,必須先建立哪一些假設?
(1) 每個反應變數對應的母體均服從常態分配
(2) 每個母體的變異數均相等
(3) 抽自各母體的各組隨機樣本互為獨立
說明:
假設有 k 組隨機樣本抽自於 k 個母體,
k 個母體均為常態分配 ,
令 假設二:所有的皆相
等 假設三: k 組隨機
樣本是互為獨立
第 446 頁
22 12.2.2 變異數分析的原理與相關的計算
問題:變異數分析法的概念為何?
對平均數的總變異,按其發生來源予以分解。
問題:總變異可以再分成哪幾種差異來源?
每一觀察值與總平均數的差異 :
處理方式不同平均數與總平均數的差異
: 每一觀察值與處理方式不同平均數的差
異: 隨機誤差 ( 殘差 )
問題:離差、差異與殘差的關係如何用數學式表示?
總差異 ( 離差 ) 處理方式差異殘差
(12-1)
第 446 頁
23 12.2.2 變異數分析的原理與相關的計算
問題:將
(12.1) 式兩邊取平方和,可以得到哪一些變異來源?
左式:總變異
右式:處理方式的變異 + 殘差
問題:如何以數學式表示? (12-2)
問題:每一項的專業名稱為?
SST( 總平方和 ) = SSB( 組間平方和 )+SSW( 組內平方和 )
- SSE( 殘差平方和 )
𝑇1
𝑇2
𝑇3
𝑇4
𝑇❑
第 447 頁
26 12.2.2 變異數分析的原理與相關的計算
問題:上述說明皆是何種概念?
變異與平方和
問題:要進一步求得變異數,則需要找出各項變異的?
自由度
問題:在 ANOVA 分析過程中,各種變異的自由度如何求得?
各項平方和自由度 ( 各項變異的自由度 )
(12-4)
第 447 頁
27 12.2.2 變異數分析的原理與相關的計算
以例題 12.2 為例
問題: ( 組間平方和 ) 的自由度為何?
處理方式平方和或組間平方和:
( 共 4 項 ) 限制式: 因為:
( 課本第 37 頁,平均數為重
心) 組間平方和的自由
度為 4-1=3
第 448 頁
28 12.2.2 變異數分析的原理與相關的計算
問題:一般情況下 ( 組間平方和 ) 的自由度為何?
表示組數或處理方式
的個數
(12-5)
問題:在變異數分析過程中,將所有情況編表,此表名稱為?
變異數分析表 (analysis of variable table, ANOVA 表 )
第 449 頁
30 12.2.2 變異數分析的原理與相關的計算
第 449 頁
31 12.2.2 變異數分析的原理與相關的計算
問題:什麼是均方 (mean square, MS) ?
各變異項的平方除以其自由度
又稱變異數 (variance)
問題:又可區分成哪幾類?
組間 ( 處理方式 ) 均方 (mean square between, MSB)
殘差均方
(mean square for error, MSE)
第 449 頁
32 12.2.2 變異數分析的原理與相關的計算
表 12.2 的 ANOVA 表
計算過程請參考課本第 446 頁
第 449 頁
33 12.2.3 變異數分析的統計推論
問題:變異數分析最主要在於檢定?
檢定數種處理方式之間是否有顯著的差異
數個母體平均數是否有顯著差異的檢定
問題:虛無假設的檢定型態為何?
(k 種處理方式 )
問題:檢定數個母體平均數前,下一步要先確定何種條件?
探討每個母體的變
異數是否相等 (ANOVA 表的
基本假設 )
問題:要如何估計每一種處理 ( 母體 ) 的變異數?
第 450 頁
34 12.2.3 變異數分析的統計推論
問題:母體變異數可由何種樣本估計值估計?
組間變異 =MSB
組內 ( 殘差 ) 變異 ( 或 ) =MSE
問題:上述變異數如何利用樣本資料計算而得?
第 451 頁
35 12.2.3 變異數分析的統計推論
問題:ANOVA 的邏輯假設為何?
在虛無假設 成立, 與皆為的不偏估計式。 在
虛無假設不成立, 為的不偏估計式。 -
但是 高估
第 449 頁
36 圖 12.1
在成立與不成立下,其抽
樣分配的情況
第 450 頁
37 12.2.3 變異數分析的統計推論
問題:假設情況下,利用圖形說明? 種類:
樣本抽樣
平均數:
( 樣本一 ) 、 ( 樣本二 ) 、 ( 樣本三 ) 發現:
可做為母體變異數的不偏估計式
第 450 頁
38 12.2.3 變異數分析的統計推論
問題:假設不成立,利用圖形說明? 種類:
樣本抽樣
平均數:
( 樣本一 ) 、 ( 樣本二 ) 、 ( 樣本三 ) 發現:
較為分散
可能高估母體變異數
第 450 頁
39 12.2.3 變異數分析的統計推論
問題:根據上述性質,如何判斷虛無假設是否成立?
性質: 是不偏或者高估母體變異數 -
為母體變異數的不偏估計式 方式:建
立比例,進一步判斷。
問題:此比例的數值範圍為?
最小值,成立, 與皆為母體變異數的不偏估計式 -
想法: 數值,數值愈大, ,
高估情況愈嚴重, 愈不可能成立
第 450 頁
40 12.2.3 變異數分析的統計推論
問題: 服從何種分配? F
分配
問題:如何利用數學推導推得 F 分配?
-
第 452 頁
41 12.2.3 變異數分析的統計推論
問題:搭配 ANOVA 表的項目, F 統計量可以改寫為?
(12-6)
問題:如何進行數個母體平均數是否有顯著差異的假設檢定?
完全隨機化設計的 F 檢定
若
則拒絕。
問題: F 值在 ANOVA 表的位置?
最後一行
第 452 頁
42 例題 12.3
就例題
12.2 中,比較4部機器產量的資料 ( 表 12.2) ,
建立 ANOVA 表,並在水準下,
檢定。
解答
本利的 ANOVA 表已如表 12.4 所示,茲再重列如表 12.5 ,
並計算 F 比值,。查表得知,
由於,故結論為拒絕。也就是說, 4部機器
的平均產量有顯著的差異 ( 即性能有顯著差異 ) 。
第 452 頁
43 例題 12.3
表 12.5 ANOVA 表
第 453 頁
44 例題 12.4
某位大學教師為了解所任教學校之學生每月零用錢支出的情
形,分別隨機抽取 25 位男生與 25 位女生,調查結果如下:
假設男、女每月零用錢支出呈現常態分配,且
二個母體的變異數相等;試問
男、女每月零用錢的平均數是否相等?
第 453 頁
45 例題 12.4
解答
(, 分別表示男、女生每月零用錢的平均數 )
(a) 採用 t 檢定統計量 其中
因此,結論無法拒絕虛無假設,亦即
男、女生每月零用錢的平均數沒有顯著的差異。
第 453 頁
46 例題 12.4
(b) 採用 ANOVA
- = -
第 454 頁
47 例題 12.4
由於
結論:無法拒絕。