You are on page 1of 22

12장 포아송 회귀모형과 로그-선형 모형

우리가 통계분석에서 다루는 변수들 중에서는 연속형 또는 범주형으로 분류하기에는 애매한


것들도 있다. 대표적인 것이 바로 “사건”의 발생 건수 같은 변수로 보통 정수값을 가지게 된
다. 예를 들어, 특정 시간 동안 발생하는 교통사고 건수, 월간 보험금 청구 건수, 일 년간의
태풍 발생 건수, 분할표의 관측도수 등이 있다. 이러한 변수를 통계학에서는 빈도변수(counting
variable)라 부른다.
만일 빈도변수가 가지는 서로 다른 값들의 개수가 많고, 각 값의 도수(frequency)가 많으면
이러한 변수들은 근사적으로 정규분포를 따르게 되어 정규분포를 가정한 분석을 할 수도 있
다. 나이, 과목의 성적, 또는 설문지에 의해 평가되는 점수 등이 이러한 경우의 예가 된다. 그
러나 대부분의 도수가 몇 개의 값들에만 한정되는 경우에는(예: 동작구에서 매일 오전에 발생
하는 교통사고 건수는 대부분 0~5의 값들을 가지고, 10 이상이 되는 경우는 매우 드물다), 정
규분포에 의한 근사가 성립하지 않게 된다. 실제로 대부분의 빈도변수는 0의 관측값이 많고
오른쪽 꼬리가 긴 분포의 모양을 가지고 있다. 이런 경우에는 원래 분포인 포아송분포(Poisson
distribution)를 사용하여 분석하여야 한다.
포아송분포는 11장에서 이미 소개되었는데 확률변수  가 평균이  인 포아송분포를 따른
다는 것을  ∼    이라 나타내며, 확률식은 다음과 같이 주어진다.
   
            ⋯


포아송분포의 특징은 분산이 평균  와 같다는 것이며, 11장에서 보였듯이 포아송분포도 지수


분포군에 속하므로 일반화선형모형을 사용하여 분석할 수 있다.
포아송분포를 따르는 반응변수에 대한 모형은 일반적으로 포아송 회귀모형(Poisson
regression model)과 로그-선형모형(log-linear model) 두 가지로 구분할 수 있다. 크게 보면 두
모형은 같은 것이므로 교재에 따라서는 이 두 가지 모형을 구분 없이 사용하는 경우도 있으
나, 보통 설명하는 과정이 명확하지 않고 혼동을 주는 경우가 많다. 따라서 처음부터 확실하게
구분하여 사용하는 것이 좋다. 본 교재에서는 일반적인 포아송분포를 따르는 자료에 대한 모
형을 포아송 회귀모형이라 하고, 분할표의 형태로 주어지는 자료에 대한 모형을 로그-선형모형
이라 부르기로 한다.

12.1 포아송 회귀모형

포아송분포에서의 평균  는 “사건”의 평균 발생 건수로 간주되지만, 많은 경우에 비율(rate)의


의미를 가진다. 예를 들어, 고객 100명 중 특정 물품을 구입하는 고객수의 평균 또는 자동차
주행거리 10만km 당 평균사고건수 등의 경우이다. 앞의 두 예제에서 “고객 100명”과 “주행거
리 10만km”와 같이 사건의 발생 건수를 조사하는 단위 또는 구간을 exposure라고 한다.

- 1 -
평균이  인 포아송분포를 따르면서 서로 독립인 확률변수       ⋯  이 있을 때,  
를  가 관측되는 조건의 exposure라고 하면  의 평균  는 다음과 같이 표현될 수 있다.

        (12.1)

위에서   는 다른 설명변수들의 영향이 반영되는 모수라고 해석한다. 예를 들어,  를 특정(회


사, 모델) 자동차에 대해 청구된 보험건수라면,   는 보험에 가입된 해당 자동차들의 전체 대
수로 자동차 회사와 모델에 따라 다른 값을 가지게 된다. 그리고 청구 보험건수에 영향을 주
는 다른 설명변수들  (예를 들어, 나이, 성별, 직업 등)가 있다면 이들의 영향력을

   exp   ′  

로 표현하게 된다. 위에서 exp  함수를 사용하는 이유는 선형예측치  ′  의 값에 관계없이


 와  의 값이 항상 양수가 되도록 해두기 위함이다. 그리고  를 식(12.1)에 대입하면

       exp   ′   (12.2)

이 되고,  ∼     이므로, 포아송분포에 대한 자연연결함수인 로그함수를 사용하여

log   log     ′ (12.3)

로 주어지는 포아송 회귀모형을 얻을 수 있다. 이 경우 log   를 offset이라 하는데,   는 사


전에 값이 알려져 있으므로 모수를 포함하지 않는 항이 된다. 위에서 만약  에 대한 exposure
 가 모두 동일하다면, log   는 상수항에 포함될 수 있어 위 모형의 오른쪽 부분은 일반화선

형모형에서의 선형예측치와 동일하게 된다. 선형예측치의 설명변수들은 연속형 또는 범주형이


든 관계가 없다.
포아송 회귀모형에서 설명변수  의 회귀계수  의 해석에 대해 알아보자. 식(12.2)에서 
가  인 경우와 한 단위 증가한    에서의 기댓값을 비교해보면

          
   
        

가 된다. 따라서 다른 설명변수들의 값들이 고정되어 있을 때,  가 한 단위 증가하면  의


 
평균값은   배 증가한다.   를 비율비(rate ratio, RR)라 부른다. 설명변수  가 범주형 변수
인 경우에는 각 범주 간의 비율비를 나타낸다.
회귀계수벡터  의 최대가능도추정량을 
 이라 나타내면, 포아송 회귀모형에서의 예측값은

  ′

  
     

로 주어지며, 이것은 기대도수(expected frequency)   의 예측값 


  가 된다. 그리고 포아송분포

에서는 평균과 분산이 동일하므로 


  의 표준오차는 

 로 주어지고, Pearson 잔차는

- 2 -
  
   
 

이 되며(  는 관측도수), 카이제곱 통계량   은


  
  
       
 

로 주어진다. 그리고 deviance와 deviance 잔차는 각각

    log        
    
      log      
  


     log    
             
  

로 주어지게 된다. 관측도수  와 기대도수의 예측값 


  은 보통 일치하지 않지만 그 합은 항

상 동일하게 주어진다. 즉, ∑  ∑


  . 따라서 deviance 공식에서    
   의 합은 0이 되어

없어지고, 잔차  에서는 그대로 남게 된다.

[예제 12.1] 영국 의사들의 흡연과 심장동맥사


이 연구는 심장동맥사에 흡연과 나이의 영향을 조사한 것으로, 조사대상은 영국의 의사들로
10년의 기간에 걸쳐 조사되었다. 반응변수는 사망수(death), 설명변수로는 각 대상자의 흡연여
부(smoke; 1=smoker, 0=non-smoker)와 나이(age; 35-44=1, 45-54=2, 55-64=3, 65-74=4, 75-84=5)
를 조사하였다(Breslow & Day, 1987). 그리고 각 나이별로 인년(人年, personyears)의 값이 주
어진다. 이 자료에 대한 포아송 회귀모형을 추정하고 분석을 해보자.

[풀이]
이 예제의 경우 사망수가 관측된 “각 나이대별 인원수”가 다르므로 이를 모형에 반영해 주어
야 한다. 이를 위해 의학통계에서는 보통 “인년”이라는 단위를 사용한다. 예를 들어, 심장병
환자의 치료기간을 조사할 때 연령별 조사대상자 수가 다르고, 또한 각 환자별 치료기간이 다
르므로 특정 집단에 대한 정보는 인년(= ∑환자별 치료기간 )의 단위로 정리되며, 각 집단을 비
교할 때는 동일한 인년에 해당되는 통계값으로 비교하여야 한다. 이 예제에서의 인년은 조사
에 참여했을 때의 각 참가자의 나이를 모두 더한 것으로 정의된다.

coronary <- read.table(file="d:/coronary.txt", header=TRUE) # 자료 불러오기


coronary
death smoke age personyears
1 32 1 1 52407
2 104 1 2 43248
3 206 1 3 28612
4 186 1 4 12663
5 102 1 5 5317
6 2 0 1 18790
7 12 0 2 10673

- 3 -
8 28 0 3 5710
9 28 0 4 2585
10 31 0 5 1462

fit1.coronary <- glm( death ~ smoke + age, family=poisson(link="log"), offset=log(personyears),


data=coronary)
summary(fit1.coronary)
Call:
glm(formula = death ~ smoke + age, family = poisson(link = "log"),
data = coronary, offset = log(personyears))

Deviance Residuals:
Min 1Q Median 3Q Max
-4.5712 -2.7562 0.2857 1.4261 3.7183

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -8.11833 0.13929 -58.282 < 2e-16 ***
smoke 0.40637 0.10720 3.791 0.00015 ***
age 0.83583 0.02904 28.777 < 2e-16 ***

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 935.067 on 9 degrees of freedom


Residual deviance: 69.182 on 7 degrees of freedom
AIC: 130.25

Number of Fisher Scoring iterations: 4

coronary <- within(coronary, pdeath <- death / personyears * 100000) #10만 인년 당 사망자 수
plot(pdeath ~ age, coronary, type="n") # 그래프의 frame만 작성
text(pdeath ~ age, coronary, labels=smoke) # 각 점을 smoke의 값으로 표시

[그림 12.1] 나이별 100,000인년 당 사망자수(1=smoke, 0=non-smoke)

위의 glm 함수에는 먼저 반응변수와 설명변수들이 명시되고, 분포가 이제는 포아송분포이므로


family 인자에 분포는 “poisson”으로, 연결함수는 로그함수로 “log”가 설정되었다. 그리고 offset
변수로 “log(personyears)”가 입력된다. summary 출력물의 내용에 대한 해석은 로지스틱 모형의

- 4 -
경우와 비슷하게 해석하면 된다.
우선 적합된 모형식은
log 
  log        

이며, 각 회귀계수 추정값은 유의하다고 판단된다. 그러나, deviance가    로 기준값인


qchisq(0.95, 7)
[1] 14.06714

보다 크므로 모형의 적합도는 좋지 않다고 판단된다.


모형의 적합도를 높이기 위하여 관측값들의 산점도를 작성해보면([그림 12.1]), death가 age
에 대해 선형보다는 곡선의 관계를 보이고 있고, 또한 smoke 여부 간에도 증가하는 정도에 차
이가 있다는 것을 알 수 있다. 따라서 기존 모형에 age의 제곱항과 age와 smoke의 교호작용항
을 추가하는 것을 고려할 수 있다.

fit2.coronary <- glm( death ~ smoke + age + I(age^2) + I(age*smoke),


family=poisson(link="log"), offset=log(personyears), data=coronary)
summary(fit2.coronary)
Call:
glm(formula = death ~ smoke + age + I(age^2) + I(age * smoke),
family = poisson(link = "log"), data = coronary, offset = log(personyears))

Deviance Residuals:
1 2 3 4 5 6 7 8 9 10
0.43820 -0.27329 -0.15265 0.23393 -0.05700 -0.83049 0.13404 0.64107 -0.41058 -0.01275

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -10.79176 0.45008 -23.978 < 2e-16 ***
smoke 1.44097 0.37220 3.872 0.000108 ***
age 2.37648 0.20795 11.428 < 2e-16 ***
I(age^2) -0.19768 0.02737 -7.223 5.08e-13 ***
I(age * smoke) -0.30755 0.09704 -3.169 0.001528 **

Null deviance: 935.0673 on 9 degrees of freedom


Residual deviance: 1.6354 on 5 degrees of freedom
AIC: 66.703

이제 두 번째 모형의 deviance는    로 매우 작아 모형의 적합도가 높다고 할 수 있으


며, 추가한 제곱항과 교호작용항의 회귀계수 또한 유의하게 나온다. 따라서 적합된 모형식은

log 
  log                 

이 된다. 먼저 smoke 여부의 영향력을 보면 기본적으로는 RR = exp(1.44097) = 4.22 이므로


심장동맥사의 사망률은 흡연자가 비흡연자보다 평균적으로 약 4.22배 높다고 할 수 있다. 그러
나 나이와의 교호작용항도 유의하므로 흡연의 정확한 영향력은 나이별로 계산하여야 한다.
exp(1.44097-0.30755 × 1)=3.11, exp(1.44097-0.30755 × 2)=2.28, exp(1.44097-0.30755 × 3)=1.68,
exp(1.44097-0.30755 × 4)=1.23, exp(1.44097-0.30755 × 5)=0.91

- 5 -
가 되어 나이가 많을수록 차이는 줄어들고, 고령자(75세-84세)인 경우에는 smoke의 영향력이
반대가 되는 것을 알 수 있다.
anova(fit1.coronary , fit2.coronary , test="Chisq")
Analysis of Deviance Table

Model 1: death ~ smoke + age


Model 2: death ~ smoke + age + I(age^2) + I(age * smoke)
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 7 69.182
2 5 1.635 2 67.547 2.15e-15 ***

다음은 반응변수의 관측도수와 적합된 모형으로 추정한 기대도수를 보여준다.


coronary$death
[1] 32 104 206 186 102 2 12 28 28 31
fitted(fit2.coronary)
1 2 3 4 5 6
29.584734 106.811960 208.198646 182.827893 102.576767 3.414801
7 8 9 10
11.541629 24.743377 30.229155 31.071038

12.2 분할표와 확률분포

이 절에서는 분할표로 주어지는 자료에 대한 로그-선형모형을 설명한다. 우선 12.1절의 포아송


회귀모형에서 모든 관측값에 대한 exposure가 동일한 경우에는 모형에 offset이 있을 필요가 없
으므로 자연스럽게 로그-선형모형이 된다고 볼 수 있다. 이러한 경우 대부분 자료들이 분할표
로 정리되기 때문에 분할표 자료에 대한 로그-선형모형을 생각하기로 한다.(실제로 [예제 12.1]
의 자료도 만약 exposure 변수인 인년이 동일하다면  ×  분할표로 정리될 수 있다.)
로그-선형모형으로 분석되는 분할표의 종류에는 아무 제약이 없으나 우선 설명의 편의상 2
차원 분할표를 생각하자. 행의 개수가  개, 열의 개수가  개인  ×  2차원 분할표는 [표 12.1]
의 형태로 주어진다. 표에서  는 행변수  의  번째, 열변수  의  번째 항목에 속하는 도
수를 나타낸다. 그리고, ⋅ 는  변수의  번째 항목에 속하는 도수들의 합, ⋅  는  변수의 
번째 항목에 속하는 도수들의 합을 나타내고 총합은 ⋅⋅   으로 표시하였다. 그리고 ⋅ 와
⋅ 를 주변합(marginal sum)이라 부르며, ⋅ 는 행의 주변합이고 ⋅ 는 열의 주변합이 된다.

[표 12.1]  ×  분할표

- 6 -
  ⋯  행합

   ⋯  ⋅

   ⋯  ⋅

⋮ ⋮ ⋮ ⋮ ⋮

   ⋯  ⋅

열합 ⋅ ⋅ ⋯ ⋅   ⋅⋅

[예제 12.2] 교육수준과 사회경제적 지위에 대한 독립성 검정


이 예제는 통계학 교재의 11장에 사용된 것으로 375가구의 세대주에 대해 조사하여 교육수준
(3개 수준)과 사회경제적 지위(3개 수준)가 서로 독립인지를 검정하는 문제이다.

교육수준
사회경제적 지위 1 2 3 합계
1 33 65 32 130
2 7 47 50 104
3 5 33 103 141
합계 45 145 185 375

이 문제에 대해 기초통계학에서는 카이제곱 검정을 사용하였다. 분할표에서 귀무가설 하에서


추정되는 기대도수(expected frequency)의 추정값을 
  이라 하면, 독립성 가정 하에서는 각 칸

에 대한 확률은 표의 주변확률의 곱으로 주어지므로


⋅ ⋅ ⋅⋅⋅

    ×  ×   
  
(단,   ⋅⋅    )

으로 계산된다. 그리고 각 칸(cell)에 대한 관측도수(observed frequency)를  라 하면 검정통계


량인 카이제곱통계량은
      
  
    
 
 

로 주어지며 이것은 자유도     인 카이제곱분포를 근사적으로 따르게 된다.

edusoceco <- read.table(file="d:/edusoceco.txt", header=TRUE) # 자료 불러오기


edusoceco
soceco edu count
1 1 1 33
2 2 1 7
3 3 1 5
4 1 2 65
5 2 2 47
6 3 2 33
7 1 3 32

- 7 -
8 2 3 50
9 3 3 103

( tbl <- xtabs(count ~ soceco + edu, data=edusoceco) ) # 3 x 3 분할표 작성


edu
soceco 1 2 3
1 33 65 32
2 7 47 50
3 5 33 103

chisq.test(tbl) # 카이제곱 검정
Pearson's Chi-squared test

data: tbl
X-squared = 76.379, df = 4, p-value = 1.018e-15

*** 해석 : 카이제곱 통계량값이 76.379로 관측도수와 기대도수 간에 큰 차이가 있음을 보여


준다(또는 p값이 매우 작음). 기대도수는 독립성 가정 하에서 계산된 것이므로, 이는 역으로
독립성 가정이 맞지 않다는 증거가 된다. 따라서 행변수와 열변수는 서로 독립이 아니라고 할
수 있다. □

위에서 사용한 카이제곱통계량은 확률분포를 사용하지 않고 단지 관측도수와 기대도수의 차이


만을 이용하여 도출한 것이다. 일반화선형모형을 이용한 분석을 하기 위해서는 관측자료에 대
해 확률분포를 가정해야하는데 일반적으로 분할표에서 나타나는 도수(frequency)의 분포는 자
료를 수집하는 방법에 따라 세 가지 경우가 있다. 따라서 공식적으로는 각 경우에 대한 확률
분포에서 가능도함수를 유도하여 사용해야 되어 분석이 복잡할 수가 있다. 그러나 다행스럽게
도 세 가지 확률분포에 대해서는 공통적인 분석방법의 적용이 가능하다는 것이 알려져 있고,
자료수집방법에 따른 최소한의 유의사항만 지키면 되어 일반화선형모형을 이용한 분석이 한결
간결하게 주어진다.
로그-선형모형의 분석을 위해서는 세 가지 확률분포에 신경 쓸 필요가 없으나, 분석결과의
정확한 해석을 위해서는 실험의 방법에 대한 정보도 필요하니 한번 정리해보기로 한다.
먼저 [예제 12.2]에 주어진 분할표의 도수는 어떻게 관측되었을까? 만약 임의로 선택된 어
느 지역에 대해 조사해보니 전체 375가구가 있었다고 하자. 즉, 총합인 375가 사전에 설정되
지 않았으며, 단지 각 칸의 도수  를 모두 합한 것으로 주어지는 경우이다. 이때 도수  는
평균이  인 포아송분포를 따르게 된다. 그리고 각  는 서로 독립이므로 가능도함수는 
들의 확률밀도함수들의 곱으로 주어진다(참고1의 Case 1).
두 번째는 이 조사에서 사전에 375가구를 조사하겠다고 설정한 경우이다. 따라서  의 총
합이 375로 주어진 상황에서  의 값들을 관측한 것으로, 이 경우에  들은 총합에 대한 조
건부분포를 가지게 된다. 그리고 이 조건부분포는 다항분포로 주어지며, 가능도함수는 다항분
포의 확률밀도함수로 주어지게 된다(참고1의 Case 2). 기초통계학에서 배우는 범주형 변수들에
대한 독립성검정(test of independence)이 여기에 해당된다.
세 번째는 다른 예제를 생각해보자. 예를 들어, 숭실대학교의 새로운 정책에 대해 여학생과

- 8 -
남학생들 간의 반응의 차이를 보기 위해 임의로 500명을 추출하여 설문조사를 한다고 하자.
이를 위해 500명의 학생들을 무작위로 추출하였는데 500명 중에 남학생이 495명이고, 여학생
은 5명만 있다고 하면 공정한 조사가 될 수 없을 것이다. 이러한 낭패를 막기 위하여 일반적
으로는 500명을 전체 여학생과 남학생 수의 비율로 나누어 배분하게 된다. 예를 들어, 여학생
200명, 남학생 300명을 조사하는 식이다. 만약 성별을 행변수라고 하면 이 경우에는 행합이
사전에 설정된 경우이다. 이와 같이 행합 또는 열합이 사전에 주어지면 도수는 다른 분포를
가지게 된다.  번째 행합 ⋅ 이 사전에 주어지는 경우에는  번째 행의 도수들      ⋯
는 다항분포를 가지게 되고, 각 행들은 서로 독립이므로 전체  에 대한 확률밀도함수는 각
행이 갖는 다항분포들의 확률밀도함수들의 곱으로 주어지는데, 이에 대한 분포를 적다항분포
(product multinomial distribution)이라 한다(참고1의 Case 3). 열합이 사전에 주어지는 경우에도
비슷하게 정의된다. 이 경우에 관심 있는 가설은 각 행의 분포가 동일한가 하는 것이다. 즉,
위의 예제에서는 정책에 대한 반응이 여학생과 남학생들 간에 동일한지를 알아보는 것이 분석
이 목적이 된다. 이러한 것을 통계학에서는 동질성검정(test of homogeneity)이라 한다.
이미 기초통계학에서 배웠듯이 독립성검정과 동질성검정을 하기 위해서 사용하는 통계분석
방법은 카이제곱검정 하나였다. 통계분석방법은 동일하고, 단지 실험방법에 따라 분석결과의
해석만 다르게 주어진다. 마찬가지로 분할표에 대한 일반화선형모형방법도 실험방법 또는 분
포의 종류와 무관하게 로그-선형모형 하나로 분석이 가능하게 된다.

12.3 분할표에 대한 로그-선형모형

 ×  2차원 분할표에서  번째 행과  번째 열에 해당하는 도수를  이라 나타내면, 아무 제약

이 없는 경우  는 포아송분포를 따른다.(12.2절에서 설명되었듯이  은 실험방법에 따라 세


가지 종류의 분포를 가질 수 있다.) 그리고 포아송분포는 지수분포군에 속하는 분포이므로 일
반화선형모형은 자연연결함수인 로그함수를 이용하여 설정된다. 즉,      이라 하면
log    ′

로 설정된다. 2차원 분할표의 경우 선형예측치에 포함되는 변수는 행변수와 열변수 2개인데,


분할표에서는 이들 변수가 모두 범주형변수에 해당되므로 가변수로 변환되어 사용된다. 예를
들어, [예제 12.2]의 경우에는 각 변수에 3개의 범주가 있으므로 각각 2개의 가변수를 사용하
면 귀무가설인 독립성 가정 하에서의 모형은

log               (12.4)

로 나타낼 수 있다. 위의 모형에서      는 각각 행변수와 열변수에 대한 가변수들이다.

[예제 12.2] 교육수준과 사회경제적 지위에 대한 독립성 검정 (2번째)


로그-선형모형을 이용하여 이 자료를 분석해보자.

- 9 -
[풀이]
로그-선형모형 (12.4)에 대한 R code는 다음과 같이 주어진다.

# independent model
fit1.ese = glm(count ~ factor(soceco) + factor(edu), family=poisson, data=edusoceco)
summary(fit1.ese)
Call:
glm(formula = count ~ factor(soceco) + factor(edu), family = poisson, data = edusoceco)

Deviance Residuals:
1 2 3 4 5 6 7 8 9
3.8275 -1.6926 -3.4131 1.9873 1.0421 -3.1471 -4.4466 -0.1832 3.7394

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.74727 0.16507 16.643 < 2e-16 ***
factor(soceco)2 -0.22314 0.13156 -1.696 0.0899 .
factor(soceco)3 0.08123 0.12159 0.668 0.5041
factor(edu)2 1.17007 0.17064 6.857 7.04e-12 ***
factor(edu)3 1.41369 0.16622 8.505 < 2e-16 ***

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 179.948 on 8 degrees of freedom


Residual deviance: 77.892 on 4 degrees of freedom
AIC: 135.1

Number of Fisher Scoring iterations: 5

우선 모형의 적합도를 보기위해 데비언스값에 대한 p값을 구해보면


1 – pchisq(deviance(fit1.ese), fit1.ese$df.resid)
[1] 4.440892e-16

으로 거의 0에 가까운 값이 나온다. 이것은 데비언스가 매우 크다는 것으로 현재모형의 적합


도가 좋지 않다는 것을 의미하며, 또한 이것은 현재모형이 도출된 귀무가설이 옳지 않다는 것
을 의미한다. 따라서 행변수와 열변수가 독립이라는 가설을 기각하게 된다. 현재모형의 데비언
스는 4의 자유도를 가지는데 이는 총 9개의 자유도에서 5개의 모수를 추정하고 남은 자유도이
다. 또는 (3-1)(3-1)=4로 주어지는 값과 동일하다.
모형의 적합도를 높이기 위하여 교호작용항을 추가한 모형을 적합해보자.

# saturated model
fit2.ese = glm(count ~ factor(soceco) + factor(edu) + factor(soceco):factor(edu), family=poisson,
data=edusoceco)
summary(fit2.ese)
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0

Coefficients:
Estimate Std. Error z value Pr(>|z|)

- 10 -
(Intercept) 3.49651 0.17408 20.086 < 2e-16 ***
factor(soceco)2 -1.55060 0.41613 -3.726 0.000194 ***
factor(soceco)3 -1.88707 0.47990 -3.932 8.42e-05 ***
factor(edu)2 0.67788 0.21375 3.171 0.001517 **
factor(edu)3 -0.03077 0.24810 -0.124 0.901292
factor(soceco)2:factor(edu)2 1.22636 0.45806 2.677 0.007422 **
factor(soceco)3:factor(edu)2 1.20919 0.52535 2.302 0.021353 *
factor(soceco)2:factor(edu)3 1.99688 0.47372 4.215 2.49e-05 ***
factor(soceco)3:factor(edu)3 3.05606 0.52083 5.868 4.42e-09 ***

Null deviance: 1.7995e+02 on 8 degrees of freedom


Residual deviance: -1.5987e-14 on 0 degrees of freedom
AIC: 65.21

2차원 분할표에서 교호작용이 포함된 모형은 항상 최대모형 또는 포화모형이 된다. 자유도(9


개)의 개수만큼 모수들이 포함되었기 때문에 적합이 완벽하게 되어 데비언스가 0이 되고(자유
도도 0), 잔차들의 값이 모두 0이 된다.
교호작용항들의 계수추정값들이 유의하게 나오므로 교호작용이 있다고 할 수 있고, 따라서
‘행변수와 열변수는 서로 독립이 아니다’라는 결론을 얻을 수 있다. 두 모형을 비교하기 위해
deviance의 차이를 비교할 수는 있으나, 그 차이는 곧 (주효과)현재모형의 deviance가 되므로
(주효과)현재모형에 대한 적합도를 따지는 것과 동일하다. □

일반적으로 분할표 자료에서는 선형예측치에 포함되는 행변수와 열변수들이 범주형이므로


가변수로 변환하여 사용하는데, 범주의 개수가 많거나 3차원 이상의 분할표에 대해 모형식을
가변수로 표현한다는 것은 매우 귀찮은 작업이 될 수 있다. 이를테면,  ×  ×  분할표의 경우
에는 기본적으로 상수항을 포함하여 10개의 모수가 포함되며, 2차 교호작용항들을 포함시키면
무려 36개의 모수가 포함된 매우 긴 모형식이 된다. 그래서 로그-선형모형에서는 이를 간편하
게 표현하기 위하여 통계학의 분산분석에서 사용하는 모형의 표현식을 도입하여 사용한다. 즉,
 ×  분할표에 대한 로그-선형모형의 최대모형은

log           (12.5)

로 표현되며, 독립성 가정 하에서의 모형은

log        (12.6)

로 표현된다. 모형 (12.4)와 (12.6)을 비교해보면 [예제 12.2]의 경우에는  는     에,


 는      에 해당되는 것을 알 수 있다. 가변수를 사용하는 경우에는 특정 변수에

대한 가변수들을 모두 포함시키든지 또는 모두 제외하든지의 두 가지 선택만 하게 되므로 위


의 표현 방식이 가능하게 된다. 즉, 하나의 범주형 설명변수에 대해 정의된 가변수들 중 일부
만 모형에 포함시키는 경우는 없다는 점을 반드시 유의하기 바란다.
침고로  ×  ×  3차원 분할표에 대한 로그-선형모형의 최대모형은

log                        

- 11 -
와 같이 나타낼 수 있다.
로지스틱 회귀모형에서처럼, 로그-선형모형에서의 모수들도 뉴턴-랩슨이나 피셔의 스코어링
방법으로 추정된다. 그리고, 모형 적합 후에 적합도를 따지기 위해 데비언스를 계산한다. 예를
들어,  ×  이차원 분할표를 생각하면 최대모형 하에서 
   이므로 로그 가능도함수는

  max    상수     log     

이고, 현재모형 하에서 로그 가능도함수는

     상수     log 
    

이다. 여기서 
 은      의 추정치이다. 따라서, 데비언스는

      log   
        
 

로 주어진다. 또 다른 적합도인 피어슨 카이제곱 통계량은

   
 
   

 

이며,  와   은 근사적으로 카이제곱분포를 따른다. 또한, 잔차도 데비언스 잔차와 피어슨


잔차 등을 이용해서 계산할 수 있다.

[예제 12.3] 악성 종양 예제
이 자료는 로버츠(Roberts, 1981)로부터 인용한 것으로, 400명의 악성 종양 환자 중에서 종양의
종류와 부위에 따라 발생되는 빈도를 나타낸 것이다([표 12.2] 참조). 여기서 행변수는 종양의
종류를 나타내고, 열변수는 종양이 발생하는 부위를 나타낸다. 이 문제에서 주 관심은 두 변수
간에 관련성 여부를 밝히는 것이다. 분할표에 주어진 도수들은 합이   400인 제약을 가지는
확률변수이다. 로그-선형모형을 이용하여 종양의 종류와 부위가 서로 독립인지를 알아보자.
[표 12.2] 악성종양 자료: 종류 및 부위에 따른 빈도

부위
머리 몸통 손발 합계
종류
허친슨 종양 22 2 10 34
표피성 종양 16 54 115 185
결절성 종양 19 33 73 125
기타 11 17 28 56
합계 68 106 226 400

[풀이]

- 12 -
이 문제에서는 총합 400이 사전에 주어진 경우이므로 독립성 검정에 해당된다. 두 변수가 독
립이라는 가정 하에서 로그-선형모형은

log            ⋯       

으로 표현되는데, 이 경우 추정되어야 할 모수의 개수는 1 + 3 + 2 = 6개이다.

Freq = c(22, 2, 10, 16, 54, 115, 19, 33, 73, 11, 17, 28)
Tumour = rep(c("허친슨", "표피성", "결절성", "기타"), each=3) # 벡터의 각 원소를 3번 반복
Tumour = factor(Tumour) ; Tumour = relevel(Tumour, ref="기타")

Site = rep(c("머리", "몸통", "손발"), 4) # 벡터 전체를 4번 반복


Site = factor(Site) ; Site = relevel(Site, ref="머리")

melanoma = data.frame(Tumour, Site, Freq)


melanoma
Tumour Site Freq
1 허친슨 머리 22
2 허친슨 몸통 2
3 허친슨 손발 10
4 표피성 머리 16
5 표피성 몸통 54
6 표피성 손발 115
7 결절성 머리 19
8 결절성 몸통 33
9 결절성 손발 73
10 기타 머리 11
11 기타 몸통 17
12 기타 손발 28

tbl = xtabs( Freq ~ Tumour + Site, data=melanoma)


tbl
Site
Tumour 머리 몸통 손발
기타 11 17 28
결절성 19 33 73
표피성 16 54 115
허친슨 22 2 10

chisq.test(tbl)
Pearson's Chi-squared test

data: tbl
X-squared = 65.813, df = 6, p-value = 2.943e-12

*** 해석 : 카이제곱 통계량값이 65.813이고, p값이 매우 작으므로 귀무가설을 기각한다. 즉,


행변수와 열변수가 독립이 아니다. [표12.2]를 보면 허친슨 종양은 상대적으로 머리에 많이 발
생하고, 다른 종양들은 손발에 많이 나타나고 있어 종양의 종류와 발생부위 간에는 관련이 있
다는 것을 알 수 있다.

# 로그-선형 모형1 : independent model


fit1.mel = glm(Freq ~ Tumour + Site, family=poisson, data=melanoma)
summary(fit1.mel)

- 13 -
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.2534 0.1734 12.996 < 2e-16 ***
Tumour결절성 0.8030 0.1608 4.993 5.93e-07 ***
Tumour표피성 1.1950 0.1525 7.835 4.69e-15 ***
Tumour허친슨 -0.4990 0.2174 -2.295 0.02173 *
Site몸통 0.4439 0.1554 2.857 0.00427 **
Site손발 1.2010 0.1383 8.683 < 2e-16 ***

Null deviance: 295.203 on 11 degrees of freedom


Residual deviance: 51.795 on 6 degrees of freedom
AIC: 122.91

# 로그-선형 모형2 : saturated model


fit2.mel = glm(Freq ~ Tumour * Site, family=poisson, data=melanoma)
summary(fit2.mel)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.3979 0.3015 7.953 1.82e-15 ***
Tumour결절성 0.5465 0.3789 1.443 0.149141
Tumour표피성 0.3747 0.3917 0.957 0.338747
Tumour허친슨 0.6931 0.3693 1.877 0.060511 .
Site몸통 0.4353 0.3870 1.125 0.260593
Site손발 0.9343 0.3558 2.626 0.008649 **
Tumour결절성:Site몸통 0.1168 0.4824 0.242 0.808747
Tumour표피성:Site몸통 0.7811 0.4804 1.626 0.103948
Tumour허친슨:Site몸통 -2.8332 0.8338 -3.398 0.000679 ***
Tumour결절성:Site손발 0.4117 0.4393 0.937 0.348618
Tumour표피성:Site손발 1.0380 0.4448 2.334 0.019602 *
Tumour허친슨:Site손발 -1.7228 0.5216 -3.303 0.000957 ***

Null deviance: 2.9520e+02 on 11 degrees of freedom


Residual deviance: -2.4869e-14 on 0 degrees of freedom
AIC: 83.111

# model comparison
anova(fit1.mel, fit2.mel, test="Chisq")
Analysis of Deviance Table

Model 1: Freq ~ Tumour + Site


Model 2: Freq ~ Tumour * Site
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 6 51.795
2 0 0.000 6 51.795 2.05e-09 ***

*** 해석: 교호작용항이 포함된 모형이 최종모형으로 선택됨. 유의한 교호작용항들이 나타난다.
행변수(Tumour)와 열변수(Site)는 서로 독립이 아니다.
최종모형은 아래와 같이 주어진다.
log 
     결절성  표피성  허친슨  몸통  손발 
결절성몸통  표피성몸통  허친슨몸통 
결절성손발  표피성손발  허친슨손발

위의 모형에서는 기준범주로 종양의 종류에 대해서는 “기타”가, 위치에 대해서는 “머리”가 사


용되었으므로, 각 회귀계수 추정값들은 기준범주에 대한 상대적인 값으로 해석되어야 한다. 예
를 들어, “표피성” 종양의 경우에 대해 각 부위별에 해당되는 계수추정값들은

- 14 -
“머리” : 0 exp(0) = 1
“몸통” : 0.435 + 0.781 = 1.216 exp(1.216) = 3.374
“손발” : 0.934 + 1.038 = 1.972 exp(1.972) = 7.185
로 주어지며, 위에서 오른쪽 부분은 공통값 0.375를 제외한 값들의 지수값이다. 따라서 표피성
종양의 경우, 몸통에서 발생하는 경우가 머리에서 발생하는 경우보다 약 3.374배 높으며, 손발
에서는 머리보다 약 7.185배 높다고 해석할 수 있다. 이 경우 현재모형이 최대모형이므로 위
의 지수값들은 실제로 각 관측도수의 비와 같게 주어진다. 즉, 54/16=3.375, 115/16=7.185 에
해당하는 값들이다.
다음으로 위의 추정 모형을 이용하여 기대도수를 계산하여 보자. 예를 들어, “기타” 종양이
“머리”에서 발생하는 경우에 대해서는 모든 가변수의 값이 0이므로
log 
    또는 
   exp   

이 되고, “허친슨” 종양이 “머리”에서 발생하는 경우에 대해서는 “허친슨”의 값만 1로 주어지


므로,
log 
        또는 
   exp   

으로 주어진다. 이 값들은 각 경우에 대한 관측도수와 같은데 이 역시 우리가 적합한 모형이


최대모형이기 때문이다.
다음으로 잔차를 계산하는 예를 알아보자. 최대모형에서는 잔차가 0이므로, 주효과항만 있
는 아래의 독립모형을 사용하자.

log 
     결절성  표피성  허친슨  몸통  손발

예를 들어, 첫 번째 관측치인 “허친슨”이 “머리”에서 발생하는 경우에 대한 관측도수는 22이


고, 기대도수는
log 
        또는 
   exp   

로 주어지므로 Pearson 잔차는


  
    
   
   
 

로 계산된다. 현재모형이 적당한 모형이 아니므로 큰 값의 잔차가 나타남을 볼 수 있다. R을


이용해서는

resid(fit1.mel, type="pearson")
1 2 3 4 5 6
6.74663058 -2.33536960 -2.10133816 -2.75497815 0.71053305 1.02457545
7 8 9 10 11 12
-0.48809353 -0.02171861 0.28260796 0.47967076 0.56070806 -0.64711750

로 구할 수 있다. □

- 15 -
[예제 12.4] 인플루엔자 백신 예제
새로 개발된 인플루엔자 백신이 인플루엔자의 예방에 효과가 있는지 알아보기 위해, 35명에게
백신을 투여하고, 38명에게 식염수를 투여했다. [표 12.3]에는 투여 6주 후에 혈액 속에 있는
HIA(Haemagglutinin Inhibiting Antibody) 양을 조사한 결과가 정리되어있다. HIA의 양이 많다
는 것은 백신의 효과가 있다는 것을 의미한다. 이 예제에서 행변수는 처리(treatment)군과 대조
(control)군을 구분하는 변수이고, 열변수는 “적음”, “많음” 2가지로 구분된 HIA의 양이다. 로그
-선형모형을 이용하여 백신의 효과가 있는지를 분석해보자.

[표 12.3] 인플루엔자 백신자료

HIA
적음 많음 합계

대조군(식염수) 25 13 38
처리군(백신) 6 29 35
합계 31 42 73

[풀이]
이 문제에서는 각 행합 38과 35가 사전에 주어진 설정되었으므로 동질성검정에 해당된다. 대
조군과 처리군의 HIA 분포가 동일하다는 가정 하에서 로그-선형모형은

log                 

으로 표현되며, 이 때 추정되어야 할 모수의 개수는 1 + 1 + 1 = 3개이다.

Freq <- c(25, 13, 6, 29)


Group <- rep(c("control", "vaccine"), each=2)
HIA <- rep(c("low", "xhigh"), 2)
( vaccine <- data.frame(Group, HIA, Freq) )
Group HIA Freq
1 control low 25
2 control xhigh 13
3 vaccine low 6
4 vaccine xhigh 29

( tbl <- xtabs( Freq ~ Group + HIA, data=vaccine) )


HIA
Group low xhigh
control 25 13
vaccine 6 29

chisq.test(tbl)
Pearson's Chi-squared test with Yates' continuity correction

data: tbl
X-squared = 15.712, df = 1, p-value = 7.375e-05

*** 해석 : 카이제곱 통계량값이 15.712이고, p값이 매우 작으므로 귀무가설을 기각한다. 즉,


각 행의 분포는 동일하지 않다고 할 수 있다. [표12.3]을 보면 대조군에서는 “적음”이, 처리군

- 16 -
에서는 “많음”이 상대적으로 많이 나타나고 있다.

# 로그-선형 모형1 : homogeneous model


vac.fit1 = glm(Freq ~ Group + HIA, family=poisson, data=vaccine)
summary(vac.fit1)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.78111 0.21184 13.129 <2e-16 ***
Groupvaccine -0.08224 0.23428 -0.351 0.726
HIAxhigh 0.30368 0.23679 1.283 0.200

Null deviance: 20.429 on 3 degrees of freedom


Residual deviance: 18.641 on 1 degrees of freedom
AIC: 42.989

# 로그-선형 모형2 : saturated model


vac.fit2 = glm(Freq ~ Group * HIA, family=poisson, data=vaccine)

# model comparison
anova(vac.fit1, vac.fit2, test="Chisq")
Analysis of Deviance Table

Model 1: Freq ~ Group + HIA


Model 2: Freq ~ Group * HIA
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 1 18.642
2 0 0.000 1 18.642 1.578e-05 ***

summary(vac.fit2)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.2189 0.2000 16.094 < 2e-16 ***
Groupvaccine -1.4271 0.4546 -3.139 0.00169 **
HIAxhigh -0.6539 0.3419 -1.912 0.05582 .
Groupvaccine:HIAxhigh 2.2295 0.5640 3.953 7.71e-05 ***
Null deviance: 2.0429e+01 on 3 degrees of freedom
Residual deviance: -5.1070e-15 on 0 degrees of freedom
AIC: 26.347

*** 해석: 교호작용항이 포함된 모형이 최종모형으로 선택됨. 교호작용항이 유의하다.


따라서 각 행의 분포는 동질적이지 않다고 할 수 있다.
위의 모형에서는 기준범주로 행변수에서는 “control”이, 열변수에 대해서는 “low”가 사용되었으
므로 최종모형은 아래와 같이 주어진다.

log 
         

각 회귀계수 추정값들에 대한 해석을 해보자. 우선 2차 교호작용효과항의 계수가 양수이고 유


의하므로, HIA의 양이 많은 그룹에서 백신군의 숫자가 대조군보다 일반적으로 많다고 할 수
있으므로 백신의 효과가 있다고 할 수 있다. 구체적으로 백신의 효과를 보면
“low” group : -1.4271 exp(-1.4271) = 0.240
“high” group : -1.4271 + 2.2295 = 0.8024 exp(0.8024) = 2.231

- 17 -
으로 두 가지 HIA 양에서의 도수의 비를 구할 수 있다. 즉, “low” group에서는 백신군의 숫자
가 적고, “high” group에서는 백신군의 숫자가 대조군보다 약 2.231배 많다는 것을 알 수 있다.
이 경우에도 현재모형이 최대모형이므로 이 지수값들은 각 관측도수의 비와 같게 주어진다.
그리고 분할표의 각 칸에 대한 기대도수를 계산하면 역시 관측도수와 같게 주어진다. □

로그-선형모형에서는 행변수와 열변수의 관련성을 조사하기 때문에 관심이 있는 항은 교호


작용항들이 된다. 따라서 교호작용항들의 계수추정값들의 유의성이 중요하다. 그리고 로그-선
형모형은 계층구조(hierarchical structure)를 가진다고 하는데 이는 제일 높은 차수의 교호작용
항이 포함되면 그보다 낮은 차수의 항들은 유의성 여부에 관계없이 모두 모형에 포함되어야한
다는 의미이다. 예를 들어, 모형에 3차 교호작용항이 포함되면 1차와 2차항은 무조건 모두 포
함시켜야 한다.

12.4 로지스틱모형과 로그-선형모형

10장에서 소개된 로지스틱모형과 분할표에 대한 로그-선형모형은 사실상 같다는 것을 이론적


으로 보일 수 있다. 먼저 예제를 보자.

[예제 12.4] 인플루엔자 백신 예제 (두 번째)


이 예제에서는 새로 개발된 인플루엔자 백신의 효과를 알아보기 위해, 35명에게 백신을 투여
하고, 38명에게 식염수를 투여한 후 생성되는 HIA의 양의 많고, 적음을 관찰한 것이다. 즉, 93
번의 실험에서 결과는 “많음”, “적음”의 2가지로 나오는 경우이다. 따라서 HIA의 양을 새로운
반응변수  로 설정하고, “많음”을 “성공”(  =1)이라 해석하면, 이 문제에 로지스틱모형을 적
용할 수 있게 된다. 즉,       이라 두면 이 문제에 대한 로지스틱모형은

log     

로 설정할 수 있다. 위의 모형에서  은 대조군과 백신군을 나타내는 변수이다.
분할표 경우에는 대부분 그룹화된 자료이기 때문에 로지스틱 분석을 위한 자료의 입력방식
이 달라지게 된다(10장의 살충제 예제 참조).

Freq <- c(25, 13, 6, 29)


Group <- c("control", "vaccine")
HIAlow <- c(25, 6)
HIAhigh <- c(13, 29)
( vaccine2 <- data.frame(Group, HIAlow, HIAhigh) )
Group HIAlow HIAhigh
1 control 25 13
2 vaccine 6 29

vac2.fit1 <- glm( cbind(HIAhigh, HIAlow) ~ Group, family=binomial(link="logit"), data=vaccine2)


summary(vac2.fit1)

- 18 -
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.6539 0.3419 -1.912 0.0558 .
Groupvaccine 2.2295 0.5640 3.953 7.71e-05 ***

Null deviance: 1.8641e+01 on 1 degrees of freedom


Residual deviance: 2.8866e-15 on 0 degrees of freedom
AIC: 11.47

추정된 모형식은


log       

이며, exp(2.2295) = 9.30 이므로 백신군의 오즈가 대조군의 오즈의 약 9.3배가 된다고 할 수
있다. 여기에서 오즈는 HIA가 “많음”과 “적음”의 비로 정의되므로, 백신군에서 HIA 양이 일반
적으로 많다고 할 수 있다. 즉, 백신의 효과가 있다고 할 수 있다. □

위의 백신예제 문제에 대해 적합된 로그-선형모형과 로지스틱모형을 각각 적어보면 다음과 같


다.
log 
         



log       

회귀계수 추정값들을 비교해보면 로지스틱모형에서의 회귀계수들이 로그-선형모형에 있는 일
부 값들과 동일하게 주어짐을 알 수 있다. 이것은 우연한 결과가 아니라 로그-선형모형과 로
지스틱모형의 관계에서 항상 유도되는 결과이다. 위의 모형식의 경우, 로그-선형모형에서
high=1인 식에서 high=0인 식을 빼주면

log 
   log 
               

     

가 된다. 그리고 위 식의 왼쪽항을 확률의 비로 나타내기 위하여 먼저 각 행합을 ⋅   


라 나타내면, 각 칸의 기대도수는 
  = ⋅⋅  
 , 
  = ⋅⋅ 
 이므로



log 
   log 
   log ⋅
  log ⋅   
   log 


이 되어 로그-선형모형에서 로지스틱모형을 도출할 수 있음을 알 수 있다. □

일반적인 분할표에서 행변수와 열변수(또는 3차원 분할표에서는 층변수)들은 로지스틱모형


에서의 관점에서 보면 반응변수 또는 설명변수로 구분할 수 있다. 위의 백신 예제에서는 행변
수는 사전에 대조군과 처리군으로 설정되었으므로 설명변수에 해당되고, HIA의 양은 실험의
결과로 관측되는 변수이므로 반응변수가 된다. 그리고 이들 반응변수에 대해 로지스틱모형을
적합하면 로그-선형모형의 분석과 동일한 결과를 얻을 수 있다. 반응변수가 갖는 값의 종류가

- 19 -
2개인 경우에는 지금까지 배운 로지스틱모형이 적용되고, 값의 종류가 3개 이상인 경우에는
로지스틱모형을 확장한 “기준범주모형”과 “비례오즈모형”을 사용한다.

참고1) 포아송분포, 다항분포, 적다항분포

[표 12.1]에 주어져 있는 2차원 분할표처럼 자료가 생성되었을 때 사용되는 여러 가지 분포를


생각해 보자.
Case 1) 가장 단순한 경우는 주변합에 대한 제약조건이 없을 때 사용가능한 것으로  가 서
로 독립이고 평균이  인 포아송분포를 따른다고 가정한다. 이 경우  들의 결합분포는 다
음과 같이 각 주변분포의 곱으로 주어진다.


     
      
  
  



(12.7)

여기서  와  는 각각  와  들의 벡터이다. 이 경우 기대도수는      로 주어진다.

Case 2) 총합   ⋅⋅  이 정해져 있는 경우가 흔히 있다. [예제 12.3]에 주어져 있는 악성종양


자료가 이런 경우로, 총합이 400으로 정해져 있다. 이때는  의 분포가 총합이  이라는 조건
하에서 구해져야 한다. 이러한 조건부 분포는 다항분포(multinomial distribution)가 된다. 예를
들어, 두 확률변수  과  가 서로 독립이고, 각각 평균이  과  인 포아송분포를 따를 때
   는 평균이    인 포아송분포를 따르고,      으로 주어질 때  의 조건부분
포는 시행횟수가  이고 성공의 확률이       인 이항분포를 따르게 된다. 이와 같은 성
질은 두 개 이상의 포아송 확률변수에 대해서도 성립하며([연습문제 12.1]), 이를 이용하면 
의 총합이  으로 주어졌을 때  들의 조건부분포는 다음과 같이 주어진다.

 
  


  ⋅⋅    ⋅ ⋅
  |   
  
  



 

  
  
  

 

(12.8)

여기서 ⋅⋅ 와  는 각각 ⋅⋅           ⋅⋅ 으로 정의된다. 식 (12.8)은, 한 번

시행에서  개의 가능한 결과 중에서 한 가지가 발생하는 실험에서 각 결과의 성공의 확률이


 라 하면, 이러한 실험을 독립적으로  번 시행했을 때  번째 결과가 나타난 횟수  에 대

한 분포이다. 따라서,        이 된다.

이 경우 기대도수는       ⋅  로 주어지며, 양변에 log 함수를 적용하면


log   log   log 

가 되어 포아송 회귀모형과 같은 형태이나, offset이 모두 동일하게 주어지는 경우이다. 그리고

- 20 -
독립성 검정 하에서는   ⋅ ⋅ 가 된다.

Case 3) 행 또는 열의 주변합이 사전에 정해져 있는 경우가 흔히 있다. [예제 12.4]의 인플루


엔자 백신 자료가 이에 해당하는 것으로, 자료를 조사하기 전에 대조군을 38명 ⋅  , 처리군
을 35명 ⋅  으로 정해놓고 실험을 한 것이다. 이처럼 행의 주변합 ⋅ 이 고정되어 있는 경
우,  번째 행의 각 도수   ⋯  의 조건부분포는

   
  

⋅
 ⋅ ⋅  ⋅
   ⋯  | ‧   

   
   ⋅



 ⋅  


  

로 주어지는 다항분포가 된다. 여기서,      ⋅ 이며 



   이 된다. 또한, 각 행이 서

로 독립이면 모든 도수      ⋯       ⋯   의 조건부 분포는 위의 다항분포 확률함수


의 곱이므로


 
  |⋅     ⋯      
 
⋅


   (12.9)

와 같이 주어지는데 이를 적다항분포(product multinomial distribution)라고 부른다.


이 경우 기대도수는       ⋅⋅  로 주어지며, 양변에 log 함수를 적용하면
log   log ⋅  log  

가 된다. 그리고 동질성 가정 하에서는   ⋅ for       ⋯  가 된다.

일반적으로 모든 경우에 기대도수는 상수(고정된 합계)와 모수의 곱으로 주어지며, 가설들


은 기대도수에 대한 multiplicative model로 나타내어진다. 예를 들어, 전체합이 고정된 경우(즉,
독립성 검정)에는,       ⋅ 이며, 독립성 가설은     ⋅ ⋅ 로 주어지므로
독립성 가정 하에서는     ⋅ ⋅ ⋅ 가 된다. 행합이 고정된 경우(즉, 동질성 검정)에는
기대도수는       ⋅⋅  이며, 동질성 가설은       ⋅  ∀ 이므로, 동질성
가정 하에서는     ⋅⋅ ⋅ 가 된다. 따라서 로그-선형모형은 가설의 종류에 관계없이 최
대모형은
log              

로, 귀무가설 하에서의 모형은


log         

로 주어진다. Birch(1963)는 사전에 설정된 주변합에 해당되는 모수들이 항상 모형에 포함되기


만 하면 이 세 가지 경우에 대한 최대가능도추정량이 모두 동일함을 보였다. 따라서 추정의
목적을 위해서는 제일 간단한 형태인 Case 1을 가정하여 수행하기만 하면 되며, 일반화선형모

- 21 -
형을 위해 통일된 분석방법을 사용할 수 있다.

[연습문제]

12.1 확률변수   ⋯  들은 서로 독립이면서 포아송분포   를 따른다.  들의 합이



 
   로 주어질 때  의 조건부분포는 이항분포가 됨을 보여라. 즉,      의 분

포는 이항분포     임을 보여라.

12.2 [예제 12.1]의 분석에서 고령자(75세-84세)인 경우에는 smoke의 영향력이 반대가 되는 것


을 알 수 있었다. 즉, 이 나이대에서는 흡연을 하는 그룹의 심장동맥사 가능성이 낮게 나
온다. 그 이유는 무엇이라고 생각하는가? (통계 문제가 아니고 상식을 묻는 문제임.)

12.3 [예제 12.2]의 두 번째 예제에서 적합된 최대모형을 이용하여 기대도수들의 예측값을 구


하고 관측도수들과 비교하여라.

12.4 [예제 12.3]의 예제에서


(1) 주효과만 있는 독립모형에서 회귀계수 추정값 ‘1.2010’의 의미를 해석하여라.
(2) 교호작용항이 포함된 모형에서 “허친슨” 종양이 “손발”에서 발생하는 경우에 대한
기대도수를 구하여라.

12.5 다음 자료는 주택의 형태와 이웃 간의 접촉 정도가 어떤 영향을 미치는지 조사한 것이


다. 각 변수 간에 교호작용이 존재하는지 검정하고 최적모형을 적합하여라.

접촉정도
낮음 높음
주택종류\만족도 낮음 보통 높음 낮음 보통 높음
연립주택 65 54 100 34 47 100
아파트 130 76 111 141 116 191
단독주택 67 48 62 130 105 104

- 22 -

You might also like