You are on page 1of 43

類別資料分析

1
Review
 資料型態:
類別資料: 性別、暴露、疾病…
量化資料: 血壓、體重、身高…

(1)
一個量化資料 mean.SD.median…( 直方圖 )
一個類別資料 count.proportion…( 長條圖 )
(2)
一個類別一個量化
二個類別變數 XY
二個量化變數

2
(3) 多個類別 . 量化資料 看反應變數
(response)
( 多變數資料分析 )

有 Linear regression. logistic regression.
Survival analysis…)

3
類別資料分析
類別資料分析 (Categorical data analysis)
1 一個變數類別資料
2 二個變數類別資料 ( 二變數獨立 )
3 相關程度探討
4 配對的兩個類別資料
5 Berkson’s Fallacy
6 Simpson’s paradox
Breslow – Day Method(Test of Homogeneity)
Mantel – Hanenszel test
4
1 一個變數類別資料
 使用情況:滿意度的調查、流行病盛行率的調查、
疾病的發生率、手術成功率等等。

統計分析:盛行率的 X n:
調查個數 P=
n X :得病個數

P (1 − P )
σ
標準差:
p =
n
95% 信賴區間
( P − 1.96σ P , P +1.96σ P )
5
 例一:了解懷孕婦女的抽煙盛行率, 189 人
當中, 74 人抽 煙,

74
P= = 0.39 ( 盛行率 )
189
0.39 × 0.61
σP = = 0.035
189

95% 信賴區間 ( 0.32 , 0.46 )

6
例二:滿意度 ( 民意調查 )

500
P= = 50%
1000
95% 信心水準下,誤差範圍

0.5 × 0.5
1.96 = 3.4%
1000
95% 信賴區間 (46.6% , 53.4%)

7
 例: if n=10000 , p=0.5

誤差範圍 0.5 × 0.5
1.96 B 1%
10000

 例:如果要保證誤差範圍為
±d %

P(1 − P ) 1
1.96 ≤ 1.96 ≤d%
 n 4n
1 1.96 2
n≥ ( )
4 d% 8
2 二個變數類別資料
 使用情形:探討二個類別資料是否有相關,
如:抽煙與性別的關係、暴露與疾病的關係
等等。

 統計分析:先探討二變數是否相關,使用
卡方檢定 (Chi-square test) 。

9
例: H0 :假設二變數無關 vs H1 :二變數有關
column 1 2 -------- c total
row
1 O11 O12 -------- O1C n1‧
2 O21 O22 -------- O2C n2‧
. . . . . .
. . . . . .
r Or1 Or2 -------- OrC nr‧
total n‧1 n‧2 -------- n‧C N
10
 我們使用 Chi-square 統計量如下:

r c (Oij − Eij ) 2

X = ∑∑
2
: X 2( r −1)( c −1)
i =1 j =1 Eij
自由度 df=(r-1)(c-1)
ngj
Eij = ni g ×
 ,N 分別代表第 i 列第 j 行的觀察值及期

望值。當
O Eij 值很大 拒絕
ij
χ2 H0

11
 例一:

H0 H1
:抽菸與性別無關 vs H 0 :
not

observation
[
男 女
抽 40 20 60
不抽 60 80 140
100 100 200

12
觀察值
男 女
抽 40 20 60
不抽 60 80 140
100 100 200

H期望值 (
0 is true )

E11 E12 30 30
⇒ 70 70
E21 E22
13
100
E11 = 60 × = 30
200
100
E12 = 60 × = 30
200
100
E21 = 140 × = 70
200
100
E22 = 140 × = 70
200

(30 − 40) 2 (20 − 30)2 (60 − 70)2 (80 − 70)2
χ =
2
+ + + = 9.5
30 30 70 70
14
例二:對懷孕婦女是否抽煙及是否早產作相關
分析,結果如下:

L o w B irt h W e ig h t * S m o kin g S tat u s D u rin g P re g交n叉
an表cy
S m o kin g S ta tu s D u rin g
Pre g n a n c y
no ye s 總和
L o w B irth B irth W e ig h t > = 2
個5數 00g 86 44 130
W e ig h t 期望個數 7 9 .1 5 0 .9 1 3 0 .0
L o w B irth W e ig內
h t的 6% 6 .2 % 3 3 .8 % 1 0 0 .0 %
B irth W e ig h t< 2 5個
0 0數g 29 30 59
期望個數 3 5 .9 2 3 .1 5 9 .0
L o w B irth W e ig內
h t的 4% 9 .2 % 5 0 .8 % 1 0 0 .0 %
總和 個數 115 74 189
期望個數 1 1 5 .0 7 4 .0 1 8 9 .0
L o w B irth W e ig內
h t的 6% 0 .8 % 3 9 .2 % 1 0 0 .0 %

15
卡方檢定
漸近顯著 精確顯著 精確顯著
數值 自由度 性 ( 雙尾) 性 ( 雙尾) 性 ( 單尾)
Pearson卡方 4.924b 1 .026
連續性校正a 4.236 1 .040
概似比 4.867 1 .027
Fisher's精確檢定 .036 .020
線性對線性的關連 4.898 1 .027
有效觀察值的個數 189
a. 只能計算 2x2 表格
b. 0格 (.0%) 的預期個數少於 5。 最小的預期個數為 23.10。

 分析結果:從上表p-value = 0.04 < 0.05 ,則
表示有足夠 證據證明懷孕婦女抽煙與早產是有
相關。
16
例三:探討不同種族懷孕婦女抽煙習慣是否不
同,結果如下

Race * Smoking Status During Pregnancy 交叉表
Smoking Status During
Pregnancy
no yes 總和
Race White 個數 44 52 96
期望個數 58.4 37.6 96.0
Race 內的% 45.8% 54.2% 100.0%
Black 個數 16 10 26
期望個數 15.8 10.2 26.0
Race 內的% 61.5% 38.5% 100.0%
Other 個數 55 12 67
期望個數 40.8 26.2 67.0
Race 內的% 82.1% 17.9% 100.0%
總和 個數 115 74 189
期望個數 115.0 74.0 189.0 17
Race 內的% 60.8% 39.2% 100.0%
卡方檢定
漸近顯著
數值 自由度性 (雙尾)
Pearson卡方 21.779a 2 .000
概似比 22.997 2 .000
線性對線性的關連 21.609 1 .000
有效觀察值的個數 189
a. 0格 (.0%) 的預期個數少於 5。 最小的預期個數為
10.18。

 分析結果:
p-value < 0.001 表示有足夠證據
證明不同種族婦女抽煙習慣不同。
18
 Remark :

1. 當我們處理交叉表時, 20% 格子期望次數小
於 5 ,將使用費氏精確檢定 ( Fisher’s exact
test ) ,或合併一些欄,以增加期望值。
2.only 2 x 2 tables 才做連續性校正
3.sample size 少時,不要分太多類別。

19
3 相關程度探討
 只告訴有關是不夠的,告訴相關強弱相關幾倍 =?
 最常使用在勝算比 ( odds ratio ) 及相對危險比 ( relative
risk ) 。
 Odds ratio ( OR ) :適合 follow up studies(prospective) 、 case
control studies(retrospective) 、 cross sectional studies 。
 Relative risk ( RR ) :適合 follow up studies 。

 Case control studies :疾病 => 暴露。

 Follow up studies :暴露 => 疾病。 (Low birth weight data)

 Cross sectional studies :同一時間作暴露與疾病的調查。

20
 例一:

disease
D D
E a b n1
Exposure
c d n2
E
m1 m2 N

21
case-control follow up
P(有暴露 有病) P(有病 有暴露)
P(沒暴露 有病) P (沒病 有暴露)
OR = =
p(有暴露 沒病 ) p(有病 沒暴露 )
p(沒暴露 沒病 ) p(沒病 沒暴露 )
a a
m1 n1
c b
m1 n1 ad
= = =
b c bc
m2 n2
d d
m2 n2
22
P ( 有病 有暴露) a n1
RR = =
P ( 有病 沒暴露) c2 n
¶ =3
RR

 暴露在危險環境中得病的比例筆非暴露在危
險環境多 33 倍 95% C.I.

23
 例四:探討有暴露在抽煙情形下,早產的 OR 及 RR
結果如下:
SMOKE1 * LOW1 交叉表
個數
LOW1
weight<2500gweight>2500g 總和
SMOKE1 有抽煙 30 44 74
沒抽煙 29 86 115
總和 59 130 189

風險估計值
30 × 86
95% 信賴區間 2.02 =
數值 較低 較高 44 × 29
SMOKE1 (有抽煙 / 沒 30 74
2.022 1.081 3.783
抽煙) 的奇數比 1.68 =
顯示相對風險之估計 29 115
LOW1 = weight<2500g 1.608 1.058 2.443
顯示相對風險之估計 44 74
LOW1 = weight>2500g .795 .641 .987 0.795 =
85 115
有效觀察值的個數 189
24
 分析結果:由前面例二我們知道懷孕婦女早
產與抽煙有關。除了有關外,我們需要進一
步告訴別人,關係有多強。我們從上表得知

OR = 2.02 95% 信賴區間 ( 1.08, 3.78 )
RR = 1.61 95% 信賴區間 ( 1.06, 2.44 )

25
 總結:新生兒體重與
SMOKE , RACE , HT , UI 之交叉表分析
  如下表: 新生兒體重 ( 重要的 response) OR p-value
< 2500g ≧2500g
SMOKE 抽煙 30(40.5%) 44(59.5%) 2.02
0.04
沒抽煙 29(25.2%) 86(74.8%) ref
 
黑人 11(42.3%) 15(57.7%) 2.33
RACE 白人 23(24.0%) 73(76.0%) ref 0.082
 
其它 25(37.3%) 42(62.7%) 1.89
HT 有 7(58.3%) 5(41.7%) 3.37
0.036
沒有 52(29.4%) 125(70.6% ref
UI 有 14(50.0%) 14(50.0%)
) 2.58
0.020
沒有 45(28.0%) 116(72.0% ref 26
)
 有關於使用前. 使用後的 data, 為配對的資料
 使用情形:當二變數資料為配對資料時。例如想了解
懷孕對於婦女抽煙習慣是否改變。

懷孕後
M subject 前 後
有抽煙 沒有抽煙 1 yes yes
2 no no
懷 有抽煙 a b a+b 3 yes no
孕 4 no yes
前 沒有 c d c+d
a+c b+d M
27
4 配對的二個類別變數
(McNamara's test)
H:懷孕與抽煙習慣無關 vs H1 :懷孕與抽
0
煙習慣有關

 McNemar’s test
2
2

 
b −c −
1 2
χ= χ : 1
b +c
當 b.c 相差很大拒絕 H0
28
 例一:調查100 名懷孕婦女,想了解其懷孕
是否影響其抽煙情況,結果如下:
H0 :懷孕與抽菸習慣無關, H1
懷孕前 *懷孕後 交叉表
個數
懷孕後
沒抽煙 有抽煙 總和
懷孕 沒抽煙 60 6 66
前 有抽煙 19 15 34
總和 79 21 100

卡方檢定
精確顯著
數值 性 (雙尾 )
McNemar 檢定 .015 a
有效觀察值的個數 100 29
a. 使用二 項式 分配
 分析結果:由上表知p-value=0.15 ,有足夠
證據證明懷孕婦女對抽煙習慣有改變。

:當我們處理二變數交叉表時,我們
 Remark
必須瞭解這二變數是獨立資料還是配對資料
,以便使用正確之統計方法。

30
5 Berkson’s Fallacy
 Selection biase biase sample biase inference
Circulatory  Respiratory Disease Total
Disease Yes No
Yes 7  29 36
No 13 208 221
Total 20 237 257


OR =
( 7 ) ( 208 )
= 3.86
( 29 ) ( 13)
χ 2 = 6.17
0.01< p <0.025(Significant) 31
Random from Hospital and non-hospital

Respiratory 
Circulatory  Disease Total
Disease Yes No
Yes 22 171 193
No 202 2389 2591
Total 224 2560 2784

χ 2 = 2.67
p >0.10 (Non-significant)
32
 The rate of hospitalization for this subgroup is
7
= 31.8%
22
 The rate of hospitalization among subjects with
respiratory illness alone is

13
= 6.4%
 Among individuals with circulatory disease only , the rate
202
is

29
= 17.0%
171 33
 andamong persons suffering from neither
disease , the rate of hospitalization is

208
= 8.7%
2389
 Thiskind of spurious relationship among
variables - which is evident only because of the
way in which the sample was chosen - is
known as Berkson’s fallacy.

34
6 -1 Simpson’s paradox
Males
生存 死亡
Treatment A 150 50
Treatment B 400 400

Females
生存 死亡
Treatment A 240 560
Treatment B 25 175

¶ m = ( 150 ) ( 400 ) = 3
OR  A 存活較高
( 50 ) ( 400 ) 35

¶ ( 240 ) ( 175)
OR F = =3  A 存活較高
( )( )
25 560
Combine ( Males and females )
生存 死亡

Treatment A 390 610
Treatment B 425 575


OR =
( 390 ) ( 575 )
= 0.86  B 存活較高
( 610 ) ( 425 )
 Simpson’s paradox occurs when either the magnitude or
the direction of the relationship between two variables is
influenced by the presence of a third factor. In this case,
gender is a confounder in the relationship between
treatment and disease. 36
6-2 Breslow – Day Method ( Test of
Homogeneity) k 個 2 x 2 tables
H 0: O R1 = O R2 L = i O=RL g =O R =
g

∑ i( i )
2
X : w y − Y ⋅ ~ X 2
g −1
i =1

 Suppose that the ith 2 x 2 tables the following format :
Disease Exposure Total
Yes No
Yes ai bi N1i
No ci di N 2i
Total M 2i Ti
37
M 1i
¶ ai di
 Where ,OR = ;
bi ci

·
( )  ai di
yi = ln ORi = ln 
 bi ci

⋅


g
wi yi
Y= i =1


g
i =1
wi
−1
1 1 1 1
wi =  + + + 
 ai bi ci di 
1
=
[ (1 ai ) + (1 bi ) + (1 ci ) + (1 di )] 38
 If odds ratio homogeneity using common odds ratio
 If odds ratio non-homogeneity individual discuss

Common Odds Ratio :

g
¶ = i =1
(ai di Ti )
OR

g
i =1
(bi ci Ti )


g
¶ (ai di Ti )
OR = i =1


g
i =1
(bi ci Ti )
(a1 d1 T1 ) + ( a2 d 2 T2 )
=
(b1c1 T1 ) + (b2 c2 T2 )
150 × 400 1000 + 240 × 175 1000
= 39
400 × 50 1000 + 25 × 560 1000
=3
6-3 Mantel – Hanenszel Method
( Test of Association)
 Test common odds ratio equal 1
H : OR=1
0
2
Σ a − Σ mi 
g
i =1 i
g
i =1
χ =
2
~ χ1g
Σi =1σ i
g 2

M 1i N1i
mi = .
Ti
M 1i M 2 i N1i N 2 i
σ =2

Ti 2 ( Ti − 1)
i
 If we reject null hypothesis, imply the exposure and disease
have association and the common odds ratio is not equal 1.
40
卡方檢定的使用限制
 本單元有關卡方檢定之計算的是將離散資料
視為近似連續分佈。但是,是否真的近似連
續分佈與列聯表中格子內的次數大小有關。
要確認離散資料是否近似連續分佈。有一簡
單法則:期望次數不能太小。多小才稱為
「小」呢?與不同種類的卡方檢定有關。但
一般採用的法則為期望次數不得小於 1 及
20% 格子之期望次數不得小於 5 。假如有違
反上述法則,可將一些橫列或直欄合併來增
加期望次數,或者使用費氏精確檢定
41
( Fisher’s exact test ),將在往後介紹。
 因為卡方檢定計算容易,所以使用非常普遍。
在各式的衛生及醫學領域都可以應用。但是
有時候太常使用反而變成濫用。最常錯誤使
用卡方檢定的情況就是非獨立樣本的情況。
例如相同人出現多次,前後測的實驗,或相
同人數重複記錄多次,如蛀牙或缺牙的數據。
很明顯的蛀牙或缺牙的情況並不是獨立情況
,因為在同一人鄰近牙齒情況會比不同人牙
齒情況相似。這時候,應該計算每個人蛀牙
或缺牙的數目而不應該計算每顆牙齒有沒有
蛀或缺的情況。
42
總結
 卡方檢定適用於類別資料。卡方檢定的目的
是要比較觀察次數與期望次數有沒有統計顯
著差異。卡方值之計算為各格子內觀察次數
與期望次數之差異平方,除期望次數,然後
作總和。計算所得卡方值可與附錄的卡方表
臨界值比較,而卡方臨界值的大小與 α 和自
由度有關。如果計算所得卡方值大於臨界值
,即拒絕虛虛無假說。

43