You are on page 1of 35

ANOVA

Analysis of variance
變異數分析觀念講解:以 one-way 為例

作者:Alfred Yang
alfred7526@gmail.com

Outline
前言
觀念複習
點估計與中央極限定理
F distribution 與變異數同質
線性效果、分配平移、與變異數同質
連加符號Σ

Outline
ANOVA
基本觀念
數值差異的拆解
Sum of Square, SS
Degree of Freedom, 自由度
Mean Square, MS
ANOVA 與 F test
ANOVA table

Ending

前言
各位同學於前兩周的心統正課中,應已學過平均
數檢定「變異數分析」的觀念。而有鑑於過去的統計
學生,即使在聽完課程後,仍多對觀念不熟悉,甚至
疏於即時複習,導致成果不佳。於是接下來將於SAS
實習課中,以觀念的角度再複習一次。
在上完課後,請確定你是否瞭解了:
1.為什麼〝平均數〞的差異,可以用〝變異數〞來檢定?
2.是否瞭解ANOVA觀念層次的意義?
3.是否能夠接受ANOVA公式推導的流程?
4.是否有辦法將上面兩種層次結合在一起理解?
5.是否能夠瞭解並建立ANOVA table?

觀念複習
ANOVA之所以容易造成同學的混淆,不只因為它
是初統中第一個較複雜的檢定,更因為它結合了同學上
學期中學到的各種觀念,包含:
點估計
線性組合

中央極限定理
F distribution

常態分配
假設檢定與t-test

甚至未來與迴歸分析會有所關連。但是ANOVA的
結論卻出奇地簡單,就只是整體差異顯著性的判斷。
接下來我們將一一複習這些觀念,再導入正題。而
由於屬於複習性質,應用部分不再補述。

點估計與中央極限定理
當我們對母群的某個統計數有興趣時,有時候因為
某些原因,如樣本數太大,無法取樣整個母群進行計算。
便會隨機地選取一組樣本(內含n個樣本點),並計算出
樣本統計數來估計母群統計數,此就稱為點估計。
平均的點估計

u

x
抽出n個

有興趣的母群

xi 點並計算出

s
變異數的點估計

2

2

點估計與中央極限定理
有時候,我們為求準確,會抽取不只一組的樣本,
將好幾組樣本所計算出來的統計數們平均起來,會得到
更為準確,誤差更小的點估計。
組別

樣本平均數

第1組

1
第2組

2
3

第3組

s22
s32

……

K

s12

……

……

……

第k組

x1
x2
x3

樣本變異數

xk

sk2

一共抽了k組,各含n個樣本點。

請注意,每一組都各含有n個獨立的樣本點 xij 喔!
(下標 j為組別、i為該組第幾個點)

點估計與中央極限定理
根據上一張投影片,反覆抽取出來的 k 組樣本點,
得到 k 個樣本平均數與 k 個樣本變異數。而一個更準確
的點估計,就是把這 k 個統計數再進行一次平均。
k

E ( x) 

x

j

j 1

k


請牢記這兩個公式,
來自點估計的觀念,
待會將用到。

k

E (s 2 ) 

2
s
 j
j 1

k

 2

點估計與中央極限定理
再來回到中央極限定理,各位上學期學過,根據
前兩張投影片的抽樣動作,假如我們不只抽取 k 組,
而是抽取 k= ∞ 無限組的樣本平均數,就會形成一個
新的分配,稱為平均數的抽樣分配。它具有以下特性。

u

u
抽樣了無限個樣本平均數形成

它的變異數

 x2  SE 2
2

2
每一個單點都是

xi

每一個單點都是

xj

n

點估計與中央極限定理
u

u
它的變異數

抽樣了無限個樣本平均數形成

 x2  SE 2
2

2
每一個單點都是

xi

每一個單點都是

n

xj

這裡我們繼續(雞婆地)回顧一下,這兩個分配的變異數,各自公式應為:

2 

 ( xi   )2

 x2  SE 2

(x

j

  )2

k
N
請仔細地觀察這兩個公式的異同之處,並想一想,如果左式中,
我們常見的母群變異數可以用一組樣本來計算並估計(稱為樣本變異數),
那麼右式中,平均抽樣分配的變異數,是否也可以用一組平均數來估計!

點估計與中央極限定理
講到這裡,各位有沒有發現,原來我們有兩組方法可以用來
2
估計母群變異數  ,分別是:
① 點估計法
觀念小跳躍:
假如每一組樣本
皆有n個樣本點。

k

  E (s ) 
2

2

s
j 1

2
j

k

1 k 2
1 k n
( s j )  ( ( x ji  x j  ) 2 /( n  1))
k j 1
k j 1 i 1

② 中央極限定理(倒推)

利用

  SE 
2
x

2

2
n

得到

  n  SE
2

2

 (x
 n

j

  )2

k

千萬不要忘記這個n

再次提醒,平均數的抽樣分配中,SE同樣可以利用一組樣本平均數來估計。

F distribution 與變異數同質
結束剛剛的變異數估計之推導,接著進行兩組變異數的比較。
各位上學期中學到一個概念「變異數同質」,及是表示在:
1.來自同一個母群 2.樣本間互相獨立 3.隨機抽樣 此三成立之下,
無關樣本數的大小,不同組樣本間的變異數理論上是相同的!
此即為變異數同質(Homogeneous)。
但是實務上,抽樣變異數會受到誤差的影響,而通常樣本數越
少時誤差越大,變異數也越大。(直觀來看,抽樣少當然誤差大)。
所以統計學家把兩組變異數相除,自由度小的放上面,形成一
個值,稱為 F 值,而無數組的抽樣變異數比值,就形成一個理論的
F 分配(F distribution),分配的長相僅由兩組自由度所決定。


F

2
df 1
,df1 ≦ df2
2
df 2

H0 成立下的 F 分配
參數為 df1 與 df2

理論上,F ≧1 但隨著
變異數越不同質,F 值
也越大,故利用機率,
同樣可以設定 α 值進行
變異數同質的假設檢定

線性效果、分配平移、與變異數同質
到此希望各位還跟得上腳步,前面的觀念緊抓好,接著講完這
個大觀念後,我們就要進入ANOVA的正題了!
剛剛才講完變異數同質,我們在做實驗,或著是操弄變項時,
往往會期待效果是固定的,是在每一個單一樣本上都造成相同的變
化量。舉個例,假如在自修的狀況下,小鈞、小衡、小冬的數學成
績分別為50、60、70。而透過研究發現,小堯老師的教學可以讓學
生平均進步 5 分。所以我們就會期待,理論上小鈞、小衡、小冬的
數學成績就會變成55、65、75。
我們可以發現,自然情形下,小鈞、小衡、小冬之間就存在著
特定的間距,在統計上我們稱為個體差異,也通常是所謂的誤差。
而小堯的教學影響就稱為效果。
所以我們會說,雖然小堯使得整體的平均進步了(60 → 65),
但是小鈞、小衡、小冬之間的個體差異(組內誤差)是不變的!這
就是線性效果,下一張投影片有圖示。

線性效果、分配平移、與變異數同質
小鈞
50 分

小衡
60 分

μ

小冬
70 分

μ’

小鈞’
55 分 小衡’
65 分

小冬’
75 分

數學成績

小堯造成的整體效果,平移 5 分

各位是不是更可以理解,何為線性效果與分配平移了呢?
在這裡可以看到,因為平移的關係,兩個分配各自之內,三人的間距沒有改變。
所以很重要的一個 ANOVA 假設就因此顯出,分組之間的差異,受到效果的影
響,但是組內的差異,理論上在隨機抽樣中是相同的,也就是變異數同質!
(各位可以回想上學期的線性組合中學過,資料平移不改變變異數的大小。)

連加符號 Σ
喘口氣,複習一下簡單的高中數學,咱們就要進入 ANOVA 囉!
n

x
i 1

k

數學符號 Σ ,就是連加。如左式所見,可以知道有一組樣本點 x ,
從第 1 個開始,連加至第 n 個。

i

n

 x
j 1 i 1

n

ji

左式則是 Σ 的組合型。可以想像成,我有 k 組樣本,每一組又各
有 n 個樣本點 x ,這個組合不只把組內 n 個點加加起來,還把 k
個組的總和又加總起來,一共加總了 k x n 個樣本點。

n

n

n

 ( x  c)   x   c   x  nc
i 1

i

i 1

i

i 1

i 1

i

假如式子中有固定的常數 c ,由於對任意一個樣本點 x 來說
c 都是固定的,所以加了 n 個樣本點,就等於把 c 給重複地
加了 n 次,故直接等於 nc 。

ANOVA 基本觀念
ANOVA,Analysis of variance,變異數分析。其目的是透過變異數
的比較,來對兩組以上的平均數,進行整體的差異顯著推論。

以 one-way ANOVA 來說,假如我有一系列同個變項(variable)
但卻不同水準(level)的平均,進行 ANOVA 檢定後,我只能得出兩種
結論,即是:
H0:每一組平均之間,沒有顯著差異,可以視為相等。
H1:在所有的平均之間,至少有一組(兩個)以上的平均有顯著差異。
舉個例,假如把 120 隻白老鼠分成四組,分別注射 1、2、3、4 的
四種劑量(level)之嗎啡,觀察它們在電擊實驗中的耐受性,並計算各
組平均。實驗者想知道,不同劑量的嗎啡,減痛效果是否有顯著差異。
在這裏我們可以發現,組數 k=4,每一組有 n=30 隻白老鼠,所以
這個 ANOVA 即是在檢定四組平均之間,是否有顯著差異,來對藥效是
否存在做個整體推論。如果藥效存在,進行後續比較才具有經濟效益。

數值差異的拆解
首先我們要來解釋誤差的概念,單獨的樣本點xij 之間存在誤差,大家
都是瞭解的。而如上張投影片的例子,分組後即使不打藥,四組老鼠的平
均會是完全相同的嗎?學過統計的你當然知道不是,因為平均之間也會有
誤差,只是比單一樣本點之間的誤差小罷了。
所以我們可以知道,如果藥效不存在(或根本沒打藥),則組與組之
間的平均差異,應該是隨機誤差。但是如果藥效存在的話,則組間差異就
同時包含了隨機誤差以及效果了。(這是非常重要的觀念)如圖示:
① H0成立:組與組之間
沒有顯著差異,只有隨機誤差。

② H1成立:至少一組平均間有顯著
差異,組間包含隨機誤差與效果。

我們可以看出來,H0成立下,組與組的分配幾乎是疊合的,而H1是分開
的。但是根據假設檢定的邏輯,可以知道假設平均之間互相相等的H0只
有一種可能。但是H1中,不相等的情形卻有無限種組合。所以回到上學
期假設檢定的邏輯,我們當然是從檢定H0是否成立來下手。

數值差異的拆解
接下來,我們就可以來進行 ANOVA 的公式推導囉,從數值差異的
拆解開始。根據剛剛的小白老鼠例子,我們可以知道 120 隻小白老鼠,
除了有自己的耐受值外,還有分組的組平均,以及全體的總平均。
k

k=4 組1
n=30 j=1

組2
j=2

組3
j=3

組4
j=4

i=1

x11

x21

x31

x41

2

x12

x22

x32

x42

3

x13

x23

x33

x43

x ji

x1i

x2 i

x3i

x4 i

30

x1,30

x2,30

x3,30

x4,30

組平均

x1 x 2

x 3

x 4

(亦有教科書將組平均表為 M j  )

總平均 Grand mean  x   M  

x
j 1

k

k

j

n

 x
j 1 i 1

ji

k n

請好好觀察左邊的格子以及上方的式子。
這時候我們稱 k 為組數(下標為 j )
而每一組有 n 個樣本點(下標為 i )
請務必瞭解符號的寫法與意義,
組平均與總平均常見的表示法也要熟悉。

數值差異的拆解
無論實驗效果是否存在,我們都可以把樣本點到總平均之間的距離寫成

( x ji  x )  ( x ji  x j  )  ( x j   x )
整體差異
total

組內差異
within

組間差異
between

如同這裡的示意圖,我們將 x 值的大小擺成垂直的軸來觀察樣本點散佈圖。



以它為例


‧‧‧ x 2

‧‧

‧‧
‧‧


‧‧‧

‧ ‧


x 4 ‧
‧‧

‧ ‧‧


(組4) ‧

‧‧

(組2)


‧‧‧ x1

‧‧

‧‧
‧‧


‧‧‧
(組1)

‧‧
‧‧

‧‧ x 3

‧‧
‧‧

‧‧
‧‧
(組3)

x ji  x j 
x j   x 
紅線為組平均
藍線為總平均

加總為

x ji  x 

數值差異的拆解
講解到這裡,各位是否有發現,延續之前線性效果、分配平移及變
異數同質的觀念,套用在上一張的式子中。就隱含著無論實驗效果是否
存在,理論上都只會在組間差異(between)中產生。
請不用急,務必將前方的脈絡一步步理解至此後才能繼續下去。
先令實驗效果的代號為

 j ,不同組之間的實驗效果可以不相同。

① H0成立:實驗效果不存在,
平均之間只有隨機誤差。

② H1成立:實驗操弄有效,組與組
之間包含隨機誤差與實驗效果。

組內差異
within

x ji  x j    ji

x ji  x j    ji

組間差異
between

x j   x    j 

x j   x    j    j

弄懂這裡的介紹後,先放在心裡,接下來要進行純粹的公式推導啦!

Sum of Square, SS
變異量,Sum of Square,或簡寫為 SS ,是在統計學中經常使
用到的差異總和量。好處是僅在乎距離,無關正負,各位在過去的變
異數、標準差就已經接觸過它,未來的相關、迴歸等更會見到它。其
定義為:
2 由一組資料,以及這組資料的平均所組成。
SS  ( xi   ) 平方後可去正負。

跟上一張投影片比較,有沒有發現其拆解後的式子,恰巧符合三組 SS 的組合?

( x ji  x )  ( x ji  x j  )  ( x j   x )

Note:對總平均而言,由 k 組樣本
形成的 k 個平均數也是一組資料。

於是我們可以進一步把它寫成下式進行推導(看起來有點嚇人呢,呵)
k

n

k

n

SSTotal   ( x ji  x  ) 2  [( x ji  x j  )  ( x j   x  )]2
j 1 i 1

j 1 i 1

Sum of Square, SS
不用擔心,我們就來一步步推導,揭開 ANOVA 的最後面紗吧!
k

n

k

n

SSTotal   ( x ji  x  )  [( x ji  x j  )  ( x j   x  )]2
2

j 1 i 1
k
n

j 1 i 1

 [( x ji  x j  ) 2  ( x j   x  ) 2  2( x ji  x j  )( x j   x  )]
j 1 i 1
k
n

k

n

k

n

  ( x ji  x j  )   ( x j   x  )  2 ( x ji  x j  )( x j   x  )
2

2

j 1 i 1

j 1 i 1

n

 (x

這時我們發現

i 1

ji

j 1 i 1

n

n

i 1

i 1

 x j  )   x ji   x j   n x j   n x j   0

公式繼續下去又發現,對每一個組而言,組平均都是一個常數。
k

n

k

n

k

n

k

  ( x ji  x j  )   ( x j   x  )   ( x ji  x j  )  n ( x j   x  ) 2
2

j 1 i 1

2

j 1 i 1

2

j 1 i 1

j 1

千萬不要忘記這個n

Sum of Square, SS
所以我們得到了這個漂亮的公式!
一樣別急,請先說服自己公式的推導過程皆能理解後,才繼續往下。
永遠不可忘記這個n

k

n

k

n

k

SSTotal   ( x ji  x  )   ( x ji  x j  )  n ( x j   x  ) 2
2

j 1 i 1

2

j 1 i 1

j 1

換句話說

SSTotal  SSWithin  SS Between

換中文說

總變異量等於組內變異量加上組間變異量

冗長點說

樣本點與總平均的差異平方和
等於
樣本點與組平均之差異平方和
加上
組平均與總平均的差異平方和

Degree of Freedom, 自由度
講到這裡,希望大家不要昏了,因為講完自由度後,就將要對 ANOVA
進行一個小結啦。自由度,是指說,我有一筆資料,用來估計特定的母群參
數時(如μ ),為求不偏,每多估計一個參數,就必須少掉一個自由度。
例如變異數的公式,分母為 n-1 即是因為估計了母群變異數 2之故。
那麼,SS是否有辦法估計自由度呢?當然可以,我們一一來看。
k

n

SSTotal   ( x ji  x  ) 2
j 1 i 1

k

n

SSWithin   ( x ji  x j  ) 2
j 1 i 1

這裡很簡單,我們一共有 k乘以n 個隨機抽取的點,
式子裡唯一需要被估計的只有總平均,所以自由度
為 kn-1 。

這個式子就麻煩了,首先得從理解它的意義來說明。
式子的意義是,先加總組內變異量,再把各組組內
變異量給加總。而各組由於分組的關係,每一組的
組平均都視同估計來自特定分配的母群平均,所以
每一組都要犧牲一個自由度來估計組平均(n-1),
又因為把 k 組都加總了,所以總自由度為 k( n-1 ) 。

Degree of Freedom, 自由度
k

SS Between  n ( x j   x  )
j 1

2

最後是這個式子,還記得前幾張投影片說過,相對於
總平均,各組的組平均可以被視為一組資料。所以在
這個式子裡,組平均是隨機選取用來估計總平均的!
故,有 k 個組平均,所以自由度為 k-1 。

各位是否真的理解自由度的意義與運算,並不是這麼重要,但是能夠記住自
由度以及 SS 的算法及其來源,則 ANOVA 就幾乎可以說是完全學懂了。
我們來總結一下自由度。

dfTotal  kn  1
我們又發現
Wow!! 得到

dfWithin  k (n  1)

df Between  k  1

k (n 1)  (k 1)  kn  k  k 1  kn 1

dfTotal  dfWithin  df Between

你覺得這是巧合嗎?
Hint:不是,但是各位要真正理解它,
並不是這麼容易。先記住吧!

Mean Square, MS
以前我們學過樣本變異數 s 
2

 ( xi  x)

2

n 1

n

2
SS

(
x

x
)
,剛剛我們又學到了
 i
i 1

不知道各位現在對於,把 SS 除以自由度 df 做為一種平均 Mean 是否比較能接受?
回顧我們剛剛推導過的 SS 與 df 公式,列於下。

k

n

k

n

SSTotal  SSWithin  SS Between

 ( x

dfTotal  dfWithin  df Between

kn  1  k (n  1)  (k 1)

j 1 i 1

ji

k

 x  )   ( x ji  x j  )  n ( x j   x  ) 2
2

2

j 1 i 1

是的!我們就是要來把每一個 SS 都除以它自己的 df,
這個特別的值,我們稱之為 Mean Square,MS。

j 1

Mean Square, MS
Total 的 MS 值並不重要,

SS
MSTotal  Total
dfToal

我們真正關注的是另外兩個,
within 與 between 的推導。

①組內差異平方合的平均
MSWithin 

SSWithin
dfWithin
k

各位有沒有發現,

紅圈圈的地方竟然就是

組內變異數的平均!

j 1 i 1

ji

k

 x j )2

k  (n  1)

SS Between
df Between

n  ( x j   x  ) 2
j 1

k 1

k

各組的組內變異數,
而整個式子就是

MS Between 

n

 ( x

②組間差異平方合的平均

s
j 1

2
j

k
 E (s 2 )   2

 n s

2
x

 n  SE 2   2

一樣地又發現,

綠圈圈的地方是
平均數的變異數,
而這個式子就是
標準誤SE的平方再乘以n!

Mean Square, MS
①組內差異平方合的平均
k

MSWithin 

SSWithin

dfWithin

②組間差異平方合的平均

n

 ( x
j 1 i 1

ji

 x j )

k  (n  1)

k

2

MS Between 

SS Between

df Between

n  ( x j   x  ) 2
j 1

k 1

k

s
j 1

k

2
j

 E (s 2 )   2

 n  sx2  n  SE 2   2

有沒有覺得這兩個公式好熟悉?
趕快回到投影片第12頁,點估計與中央極限定理。
原來,這兩個公式都是用來估計母群變異數的公式!
用例題來說,就是 120 隻小白鼠原始母群的變異數。
只是一個用點估計(組內),一個用中央極限定理(組間)。

ANOVA 與 F test
這下子真相大白了,原來兜了這麼大一圈 SS、df、與 MS 竟然匯合成了
我們最前面講到的點估計與中央極限定理。
原來使用組內變異,或組間變異,只要除上自由度後,都是在估計母群
的變異數。所以他們計算出來的值是否理論上要相等呢?
這是有前提的!請回想在投影片第 18 頁到第 21 頁的講解,
假如H0成立,也就是實驗無效果,或根本沒打藥的情形下,
組平均之間的差異就只是隨機誤差。而組內也是隨機誤差,
所以利用組間差異(中央極限定理)與組內差異(點估計)兩種方法所推導
出來的母群變異數,理論上就應該相同。
但若是H1成立的話,組間差異就包含了隨機誤差與實驗效果。
而組內依然只有隨機誤差。這個時候,由點估計估的母群變異數不改變,
但是,由中央極限定理(組間差異)估的母群變異數卻會隨著實驗效果越
大而變得更大,會顯著地大於隨機誤差!

ANOVA 與 F test
這時候又讓我們回到投影片第12頁的 F distribution。
我們那時說到了 F 值的計算方法,這時候把變異數代換為

MS Betewwn  中央極限定理
F

2
MSWithin
 點估計
2

檢查一下,是否符合F值
的要求,分子的自由度要
小於分母的自由度。

df Between  k  1

dfWithin  k (n  1)
再套入上一張投影片回顧的觀念,組內差異無論在H0或H1成立下都只有隨機誤差。
但組間確有實驗效果存在與否的結果。
① H0成立:平均之間只有隨機誤差。
組內差異
within

x ji  x j    ji

組間差異
between

x j   x    j 
② H1成立:隨機誤差與實驗效果。

x j   x    j    j

ANOVA 與 F test
所以我們可以推得,(詳細數理證明請見上課講義)
① H0成立:平均之間只有隨機誤差。

MSWithin   2

MS Between   2
② H1成立:平均間有隨機誤差與實驗效果。

MS Between   2   2

MS Betewwn
F
MSWithin

所以回歸到 F distribution,當我的
樣本觀察值 F 在分配中的落點所得
的 p-value 低於顯著水準 alpha 時,
即是,兩個變異數顯著地有差異。

1
H0 成立下的 F 分配
參數為 df1 與 df2

ANOVA 與 F test
換句話說,當樣本觀察值 F 顯著時,就表示 MS between 顯著地大於
MS within,從剛剛一路推導,我們便可得知,這表示 MS between
並不只包含隨機誤差,還有實驗效果。所以,就間接推得組間差異,
或著說平均之間除了隨機誤差外,還包含了實驗效果。回顧以下假設:
H0:每一組平均之間,沒有顯著差異,可以視為相等。
H1:在所有的平均之間,至少有一組(兩個)以上的平均有顯著差異。

相當巧妙地,利用了母群變異數的兩種估計法,間接推得平均間是否
有顯著差異的檢定法。這正是利用了點估計僅受組內隨機變異的影響
(又變異數同質),而中央極限定理因使用平均間差異來倒推母群變
異數,所以會受到實驗效果存否的影響。最後以 F 檢定做結,得出了
對整體來說,平均間是否有顯著差異的推論。

ANOVA table
如果前方的觀念你能流暢地理解,則我相信 ANOVA table 就
只是小菜一碟了。或說, ANOVA table 的長相與邏輯,理所當然
就長成底下這樣了。

Source
Between

SS

df

MS

F

n  ( x j   x  ) 2

k–1

SS Between
df Between

MS Betewwn
MSWithin

k( n - 1 )

SSWithin
dfWithin

k

j 1

k

Within

n

 ( x ji  x j )2
j 1 i 1

k

Total

n

 ( x
j 1 i 1

ji

臨界值 critical value 查表 ~

 x  ) 2

nk-1

F( df1 ,df2 , )

*小提醒:MS沒有加成性!

One-way ANOVA 的推導到此結束,其餘太過細

節的觀念請看課本複習。各位若能將這部分學好,對於
未來的多元 ANOVA幫助甚大,甚至到研究所都佔有一
定的重要性。
現在你能夠回答下面問題了嗎?
1.為什麼〝平均數〞的差異,可以用〝變異數〞來檢定?
2.是否瞭解ANOVA觀念層次的意義?
3.是否能夠接受ANOVA公式推導的流程?
4.是否有辦法將上面兩種層次結合在一起理解?
5.是否能夠瞭解並建立ANOVA table?

Thanks for
Your
Attention.
ANOVA跟他很有關係→

Ronald A. Fisher
維基百科

time