Professional Documents
Culture Documents
- 1 -
평균이 인 포아송분포를 따르면서 서로 독립인 확률변수 ⋯ 이 있을 때,
를 가 관측되는 조건의 exposure라고 하면 의 평균 는 다음과 같이 표현될 수 있다.
(12.1)
exp ′
′
- 2 -
log
log
log
[풀이]
이 예제의 경우 사망수가 관측된 “각 나이대별 인원수”가 다르므로 이를 모형에 반영해 주어
야 한다. 이를 위해 의학통계에서는 보통 “인년”이라는 단위를 사용한다. 예를 들어, 심장병
환자의 치료기간을 조사할 때 연령별 조사대상자 수가 다르고, 또한 각 환자별 치료기간이 다
르므로 특정 집단에 대한 정보는 인년(= ∑환자별 치료기간 )의 단위로 정리되며, 각 집단을 비
교할 때는 동일한 인년에 해당되는 통계값으로 비교하여야 한다. 이 예제에서의 인년은 조사
에 참여했을 때의 각 참가자의 나이를 모두 더한 것으로 정의된다.
- 3 -
8 28 0 3 5710
9 28 0 4 2585
10 31 0 5 1462
Deviance Residuals:
Min 1Q Median 3Q Max
-4.5712 -2.7562 0.2857 1.4261 3.7183
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -8.11833 0.13929 -58.282 < 2e-16 ***
smoke 0.40637 0.10720 3.791 0.00015 ***
age 0.83583 0.02904 28.777 < 2e-16 ***
coronary <- within(coronary, pdeath <- death / personyears * 100000) #10만 인년 당 사망자 수
plot(pdeath ~ age, coronary, type="n") # 그래프의 frame만 작성
text(pdeath ~ age, coronary, labels=smoke) # 각 점을 smoke의 값으로 표시
- 4 -
경우와 비슷하게 해석하면 된다.
우선 적합된 모형식은
log
log
Deviance Residuals:
1 2 3 4 5 6 7 8 9 10
0.43820 -0.27329 -0.15265 0.23393 -0.05700 -0.83049 0.13404 0.64107 -0.41058 -0.01275
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -10.79176 0.45008 -23.978 < 2e-16 ***
smoke 1.44097 0.37220 3.872 0.000108 ***
age 2.37648 0.20795 11.428 < 2e-16 ***
I(age^2) -0.19768 0.02737 -7.223 5.08e-13 ***
I(age * smoke) -0.30755 0.09704 -3.169 0.001528 **
log
log
- 5 -
가 되어 나이가 많을수록 차이는 줄어들고, 고령자(75세-84세)인 경우에는 smoke의 영향력이
반대가 되는 것을 알 수 있다.
anova(fit1.coronary , fit2.coronary , test="Chisq")
Analysis of Deviance Table
[표 12.1] × 분할표
- 6 -
⋯ 행합
⋮ ⋮ ⋮ ⋮ ⋮
교육수준
사회경제적 지위 1 2 3 합계
1 33 65 32 130
2 7 47 50 104
3 5 33 103 141
합계 45 145 185 375
- 7 -
8 2 3 50
9 3 3 103
chisq.test(tbl) # 카이제곱 검정
Pearson's Chi-squared test
data: tbl
X-squared = 76.379, df = 4, p-value = 1.018e-15
- 8 -
남학생들 간의 반응의 차이를 보기 위해 임의로 500명을 추출하여 설문조사를 한다고 하자.
이를 위해 500명의 학생들을 무작위로 추출하였는데 500명 중에 남학생이 495명이고, 여학생
은 5명만 있다고 하면 공정한 조사가 될 수 없을 것이다. 이러한 낭패를 막기 위하여 일반적
으로는 500명을 전체 여학생과 남학생 수의 비율로 나누어 배분하게 된다. 예를 들어, 여학생
200명, 남학생 300명을 조사하는 식이다. 만약 성별을 행변수라고 하면 이 경우에는 행합이
사전에 설정된 경우이다. 이와 같이 행합 또는 열합이 사전에 주어지면 도수는 다른 분포를
가지게 된다. 번째 행합 ⋅ 이 사전에 주어지는 경우에는 번째 행의 도수들 ⋯
는 다항분포를 가지게 되고, 각 행들은 서로 독립이므로 전체 에 대한 확률밀도함수는 각
행이 갖는 다항분포들의 확률밀도함수들의 곱으로 주어지는데, 이에 대한 분포를 적다항분포
(product multinomial distribution)이라 한다(참고1의 Case 3). 열합이 사전에 주어지는 경우에도
비슷하게 정의된다. 이 경우에 관심 있는 가설은 각 행의 분포가 동일한가 하는 것이다. 즉,
위의 예제에서는 정책에 대한 반응이 여학생과 남학생들 간에 동일한지를 알아보는 것이 분석
이 목적이 된다. 이러한 것을 통계학에서는 동질성검정(test of homogeneity)이라 한다.
이미 기초통계학에서 배웠듯이 독립성검정과 동질성검정을 하기 위해서 사용하는 통계분석
방법은 카이제곱검정 하나였다. 통계분석방법은 동일하고, 단지 실험방법에 따라 분석결과의
해석만 다르게 주어진다. 마찬가지로 분할표에 대한 일반화선형모형방법도 실험방법 또는 분
포의 종류와 무관하게 로그-선형모형 하나로 분석이 가능하게 된다.
- 9 -
[풀이]
로그-선형모형 (12.4)에 대한 R code는 다음과 같이 주어진다.
# independent model
fit1.ese = glm(count ~ factor(soceco) + factor(edu), family=poisson, data=edusoceco)
summary(fit1.ese)
Call:
glm(formula = count ~ factor(soceco) + factor(edu), family = poisson, data = edusoceco)
Deviance Residuals:
1 2 3 4 5 6 7 8 9
3.8275 -1.6926 -3.4131 1.9873 1.0421 -3.1471 -4.4466 -0.1832 3.7394
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.74727 0.16507 16.643 < 2e-16 ***
factor(soceco)2 -0.22314 0.13156 -1.696 0.0899 .
factor(soceco)3 0.08123 0.12159 0.668 0.5041
factor(edu)2 1.17007 0.17064 6.857 7.04e-12 ***
factor(edu)3 1.41369 0.16622 8.505 < 2e-16 ***
# saturated model
fit2.ese = glm(count ~ factor(soceco) + factor(edu) + factor(soceco):factor(edu), family=poisson,
data=edusoceco)
summary(fit2.ese)
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
- 10 -
(Intercept) 3.49651 0.17408 20.086 < 2e-16 ***
factor(soceco)2 -1.55060 0.41613 -3.726 0.000194 ***
factor(soceco)3 -1.88707 0.47990 -3.932 8.42e-05 ***
factor(edu)2 0.67788 0.21375 3.171 0.001517 **
factor(edu)3 -0.03077 0.24810 -0.124 0.901292
factor(soceco)2:factor(edu)2 1.22636 0.45806 2.677 0.007422 **
factor(soceco)3:factor(edu)2 1.20919 0.52535 2.302 0.021353 *
factor(soceco)2:factor(edu)3 1.99688 0.47372 4.215 2.49e-05 ***
factor(soceco)3:factor(edu)3 3.05606 0.52083 5.868 4.42e-09 ***
- 11 -
와 같이 나타낼 수 있다.
로지스틱 회귀모형에서처럼, 로그-선형모형에서의 모수들도 뉴턴-랩슨이나 피셔의 스코어링
방법으로 추정된다. 그리고, 모형 적합 후에 적합도를 따지기 위해 데비언스를 계산한다. 예를
들어, × 이차원 분할표를 생각하면 최대모형 하에서
이므로 로그 가능도함수는
상수 log
이다. 여기서
은 의 추정치이다. 따라서, 데비언스는
log
[예제 12.3] 악성 종양 예제
이 자료는 로버츠(Roberts, 1981)로부터 인용한 것으로, 400명의 악성 종양 환자 중에서 종양의
종류와 부위에 따라 발생되는 빈도를 나타낸 것이다([표 12.2] 참조). 여기서 행변수는 종양의
종류를 나타내고, 열변수는 종양이 발생하는 부위를 나타낸다. 이 문제에서 주 관심은 두 변수
간에 관련성 여부를 밝히는 것이다. 분할표에 주어진 도수들은 합이 400인 제약을 가지는
확률변수이다. 로그-선형모형을 이용하여 종양의 종류와 부위가 서로 독립인지를 알아보자.
[표 12.2] 악성종양 자료: 종류 및 부위에 따른 빈도
부위
머리 몸통 손발 합계
종류
허친슨 종양 22 2 10 34
표피성 종양 16 54 115 185
결절성 종양 19 33 73 125
기타 11 17 28 56
합계 68 106 226 400
[풀이]
- 12 -
이 문제에서는 총합 400이 사전에 주어진 경우이므로 독립성 검정에 해당된다. 두 변수가 독
립이라는 가정 하에서 로그-선형모형은
log ⋯
Freq = c(22, 2, 10, 16, 54, 115, 19, 33, 73, 11, 17, 28)
Tumour = rep(c("허친슨", "표피성", "결절성", "기타"), each=3) # 벡터의 각 원소를 3번 반복
Tumour = factor(Tumour) ; Tumour = relevel(Tumour, ref="기타")
chisq.test(tbl)
Pearson's Chi-squared test
data: tbl
X-squared = 65.813, df = 6, p-value = 2.943e-12
- 13 -
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.2534 0.1734 12.996 < 2e-16 ***
Tumour결절성 0.8030 0.1608 4.993 5.93e-07 ***
Tumour표피성 1.1950 0.1525 7.835 4.69e-15 ***
Tumour허친슨 -0.4990 0.2174 -2.295 0.02173 *
Site몸통 0.4439 0.1554 2.857 0.00427 **
Site손발 1.2010 0.1383 8.683 < 2e-16 ***
# model comparison
anova(fit1.mel, fit2.mel, test="Chisq")
Analysis of Deviance Table
*** 해석: 교호작용항이 포함된 모형이 최종모형으로 선택됨. 유의한 교호작용항들이 나타난다.
행변수(Tumour)와 열변수(Site)는 서로 독립이 아니다.
최종모형은 아래와 같이 주어진다.
log
결절성 표피성 허친슨 몸통 손발
결절성몸통 표피성몸통 허친슨몸통
결절성손발 표피성손발 허친슨손발
- 14 -
“머리” : 0 exp(0) = 1
“몸통” : 0.435 + 0.781 = 1.216 exp(1.216) = 3.374
“손발” : 0.934 + 1.038 = 1.972 exp(1.972) = 7.185
로 주어지며, 위에서 오른쪽 부분은 공통값 0.375를 제외한 값들의 지수값이다. 따라서 표피성
종양의 경우, 몸통에서 발생하는 경우가 머리에서 발생하는 경우보다 약 3.374배 높으며, 손발
에서는 머리보다 약 7.185배 높다고 해석할 수 있다. 이 경우 현재모형이 최대모형이므로 위
의 지수값들은 실제로 각 관측도수의 비와 같게 주어진다. 즉, 54/16=3.375, 115/16=7.185 에
해당하는 값들이다.
다음으로 위의 추정 모형을 이용하여 기대도수를 계산하여 보자. 예를 들어, “기타” 종양이
“머리”에서 발생하는 경우에 대해서는 모든 가변수의 값이 0이므로
log
또는
exp
log
결절성 표피성 허친슨 몸통 손발
resid(fit1.mel, type="pearson")
1 2 3 4 5 6
6.74663058 -2.33536960 -2.10133816 -2.75497815 0.71053305 1.02457545
7 8 9 10 11 12
-0.48809353 -0.02171861 0.28260796 0.47967076 0.56070806 -0.64711750
로 구할 수 있다. □
- 15 -
[예제 12.4] 인플루엔자 백신 예제
새로 개발된 인플루엔자 백신이 인플루엔자의 예방에 효과가 있는지 알아보기 위해, 35명에게
백신을 투여하고, 38명에게 식염수를 투여했다. [표 12.3]에는 투여 6주 후에 혈액 속에 있는
HIA(Haemagglutinin Inhibiting Antibody) 양을 조사한 결과가 정리되어있다. HIA의 양이 많다
는 것은 백신의 효과가 있다는 것을 의미한다. 이 예제에서 행변수는 처리(treatment)군과 대조
(control)군을 구분하는 변수이고, 열변수는 “적음”, “많음” 2가지로 구분된 HIA의 양이다. 로그
-선형모형을 이용하여 백신의 효과가 있는지를 분석해보자.
HIA
적음 많음 합계
대조군(식염수) 25 13 38
처리군(백신) 6 29 35
합계 31 42 73
[풀이]
이 문제에서는 각 행합 38과 35가 사전에 주어진 설정되었으므로 동질성검정에 해당된다. 대
조군과 처리군의 HIA 분포가 동일하다는 가정 하에서 로그-선형모형은
log
chisq.test(tbl)
Pearson's Chi-squared test with Yates' continuity correction
data: tbl
X-squared = 15.712, df = 1, p-value = 7.375e-05
- 16 -
에서는 “많음”이 상대적으로 많이 나타나고 있다.
# model comparison
anova(vac.fit1, vac.fit2, test="Chisq")
Analysis of Deviance Table
summary(vac.fit2)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.2189 0.2000 16.094 < 2e-16 ***
Groupvaccine -1.4271 0.4546 -3.139 0.00169 **
HIAxhigh -0.6539 0.3419 -1.912 0.05582 .
Groupvaccine:HIAxhigh 2.2295 0.5640 3.953 7.71e-05 ***
Null deviance: 2.0429e+01 on 3 degrees of freedom
Residual deviance: -5.1070e-15 on 0 degrees of freedom
AIC: 26.347
log
- 17 -
으로 두 가지 HIA 양에서의 도수의 비를 구할 수 있다. 즉, “low” group에서는 백신군의 숫자
가 적고, “high” group에서는 백신군의 숫자가 대조군보다 약 2.231배 많다는 것을 알 수 있다.
이 경우에도 현재모형이 최대모형이므로 이 지수값들은 각 관측도수의 비와 같게 주어진다.
그리고 분할표의 각 칸에 대한 기대도수를 계산하면 역시 관측도수와 같게 주어진다. □
- 18 -
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.6539 0.3419 -1.912 0.0558 .
Groupvaccine 2.2295 0.5640 3.953 7.71e-05 ***
추정된 모형식은
log
이며, exp(2.2295) = 9.30 이므로 백신군의 오즈가 대조군의 오즈의 약 9.3배가 된다고 할 수
있다. 여기에서 오즈는 HIA가 “많음”과 “적음”의 비로 정의되므로, 백신군에서 HIA 양이 일반
적으로 많다고 할 수 있다. 즉, 백신의 효과가 있다고 할 수 있다. □
log
회귀계수 추정값들을 비교해보면 로지스틱모형에서의 회귀계수들이 로그-선형모형에 있는 일
부 값들과 동일하게 주어짐을 알 수 있다. 이것은 우연한 결과가 아니라 로그-선형모형과 로
지스틱모형의 관계에서 항상 유도되는 결과이다. 위의 모형식의 경우, 로그-선형모형에서
high=1인 식에서 high=0인 식을 빼주면
log
log
log
log
log ⋅
log ⋅
log
- 19 -
2개인 경우에는 지금까지 배운 로지스틱모형이 적용되고, 값의 종류가 3개 이상인 경우에는
로지스틱모형을 확장한 “기준범주모형”과 “비례오즈모형”을 사용한다.
(12.7)
⋅⋅ ⋅ ⋅
|
(12.8)
- 20 -
독립성 검정 하에서는 ⋅ ⋅ 가 된다.
⋅
⋅ ⋅ ⋅
⋯ | ‧
⋅
⋅
|⋅ ⋯
⋅
(12.9)
- 21 -
형을 위해 통일된 분석방법을 사용할 수 있다.
[연습문제]
로 주어질 때 의 조건부분포는 이항분포가 됨을 보여라. 즉, 의 분
접촉정도
낮음 높음
주택종류\만족도 낮음 보통 높음 낮음 보통 높음
연립주택 65 54 100 34 47 100
아파트 130 76 111 141 116 191
단독주택 67 48 62 130 105 104
- 22 -