You are on page 1of 19

제 9 장 회귀분석

9.1 상관분석

상관분석(correlation analysis) : 두 변수 사이의 연관성에 관한 추론

= Corr ( X , Y ) = VarCov (X,Y )


 와  의 상관계수 : ρ
( X ) Var ( Y )
( X , Y )에 대한 관측값 : ( x 1 , y 1 ),⋯,( x n , y n )

∑n
( x i - x )( y i - y )
표본상관계수 : r = i = 1
∑n
i= 1
( x i - x ) 2∑n
i= 1
( y i - y ) 2

표본상관계수의 성질

(1) -1≤r ≤1
(2) | r | 의 값이 1에 가까울수록 강한 상관관계
| r | 의 값이 0에 가까울수록 약한 상관관계

- 1 -
       

        

[그림 9-2] 여러 가지 ρ 값에 대한 산점도

연관성의 검정
귀무가설 : H0 : ρ = 0
검정통계량 : T =
n - 2 2r
1- r
유의수준 α 에서 기각역 :
H 1 : ρ > 0 일 때 T ≥ t (n - 2) α

H 1: ρ < 0 일 때 T ≤ - t (n - 2) α

H 1 : ρ =/ 0 일 때 | T | ≥ t /2 ( n - 2)
α

- 2 -
제곱합과 곱의 합의 기호와 간편계산법 :

S ( xx ) = i∑=n 1 ( x i - x ) 2 = ∑ x 2i - ( ∑ x i ) 2 / n
S ( yy ) = i∑=n 1 ( y i - y ) 2 = ∑ y 2i - ( ∑ y i ) 2 / n
S ( xy ) = i∑=n 1 ( x i - x)( y i - y ) = ∑ x iy i - ( ∑ x i )( ∑ y i )/ n

r= S ( xy )
표본상관계수 :
S ( xx ) S ( yy )

[예제 9.1] <표 9-1>의 자료에서 연관성의 가설 H 0 : ρ = 0, H 1 : ρ =/ 0 을 유의수준 5%


에서 검정하여라.
<표 9-1> 키와 몸무게 자료

번 호 1 2 3 4 5 6 7 8 9 10
키( x )
172 165 157 175 155 168 170 176 162 171
몸 무 게

( y )
63 66 56 70 55 59 60 75 53 68

- 3 -
[풀이] <표 9-1>의 자료에서 r 값을 다음과 같이 구한다.
∑ x i = 1671, ∑ x 2i = 279693
∑ y i = 625, ∑ y 2i = 39525, ∑ x iy i = 104819
S ( xx) = 279693 - ( 1671) 2 /10 = 468.9
S ( yy ) = 39525 - ( 625) 2 /10 = 462.5
S ( xy ) = 104819 - ( 1671)( 62 5)/10 = 381.5
r = S (Sxx( xy) S)( yy ) = 468.9
381.5
× 462.5
= 0.819
T -통계량의 값 : T = n1 -- r2 2r = 101 -- (20.819) ( 0.819)2 = 4.037 > t 0.025 (8) = 2.306
따라서 유의수준 5%에서 H 0 를 기각

- 4 -
9.2 단순선형회귀모형
회귀분석(regression analysis) : 반응변수와 설명변수 사이의 함수관계를 규명
y = f ( x ) 의 함수관계가 있을 때,
x 를 설명변수(explanatory variable) 또는 독립변수(independent variable)
y 를 반응변수(response variable) 또는 종속변수(dependent variable)
⦁단순회귀모형(simple regression) : 설명변수가 1개인 회귀모형
특히 설명변수와 반응변수 사이에 직선관계 (선형관계)가 있는 모형을 단순선형회귀
모형 (simple linear regression) 혹은 직선회귀모형이라 함
⦁중회귀모형(multiple regression) : 설명변수가 2개 이상인 회귀모형

단순선형회귀모형 또는 직선회귀모형 :
y i = α + β x i + ε i , i = 1,⋯ , n
α , β : 회귀모수 ( α : 상수항, β : 기울기)
x1,⋯, xn : 설명변수(독립변수)
y 1,⋯, y n : 반응변수(종속변수)
ε 1,⋯, ε n : 서로 독립인 N ( 0, σ 2 ) 확률변수, 오차항(error term)

- 5 -
y = α + β x : 모회귀직선(population regression line)
ŷ = α̂ + β̂ x : 추정회귀작선 또는 적합된 회귀직선(fitted regression line)
r i = y i - ŷ i : 잔차(residual)
최소제곱법(least squares method) :

잔차제곱합인 ∑n
(
i= 1 i
y - ŷ i ) 2= ∑ n
(y - - x )2
i = 1 i α̂ β̂ i 을 최소로 하는 α̂ , β̂ 을 각각

α , β 의 최소제곱추정량(least squares estimator)이라 하며, 이러한 추정법을 최소제


곱법이라 한다.

최소제곱추정량과 최소제곱회귀직선

∑ n
( x i - x )( y i - y ) S ( xy )
= y - β̂ x ŷ = α̂ + β̂ x
β̂ = = S ( xx )
i= 1
∑ ( x - x)
n ; α̂ ;
2
i= 1 i

- 6 -
참고. ① α̂ = y - β̂ x에서 y = α̂ + β̂ x 가 성립하므로 최소제곱회귀직선은 언제나
( x , y ) 를 지난다.
② 적합된 회귀직선 ŷ = α̂ + β̂ x 에서 가 1단위 증가하면 는 평균 단위 증가함   

을 알 수 있다.

[예제 9.2] <표 9-2>의 자료에 대하여 최소제곱회귀직선을 구하여라.


<표 9-2> 공정시간과 수율의 자료

번호 1 2 3 4 5 6 7 8 9 10
x( 분) 8 8 10 10 12 12 14 14 16 16
y (%) 75 80 84 77 79 85 86 90 87 89

[풀이] 평균과 제곱합의 계산 결과는 다음과 같다.


∑ x i = 120, x = 12, ∑ x 2i = 1520
∑ y i = 832, y = 83.2, ∑ x i y i = 10098
S ( xx) = ∑ x 2i - ( ∑ x i ) 2 / n = 1520 - ( 120) 2 /10 = 80
S ( xy ) = ∑ x i y i - ( ∑ x i )( ∑ y i )/ n = 10098 - ( 120)( 832 )/10 = 114

- 7 -
이들을 이용하면 회귀모수의 추정값은 다음과 같다.

= SS (( xy
β̂
xx)
) = 114 = 1.425
80
α̂ = y - β̂ x = 83.2 - (1.425)(1 2) = 66.1

따라서 추정된 회귀직선 : ŷ = 66.1 + 1.425 x


공정시간을 1분 증가하면 수율은 평균 1.425% 증가

제곱합의 분해
( y i - y ) = ( y i - ŷ i ) + ( ŷ i - y )
∑n
i= 1
( y i - y ) 2= ∑n
i= 1
( y i - ŷ i ) 2+ ∑n
i= 1
( ŷ i - y ) 2

SST SSE SSR


(총제곱합) (잔차제곱합) (회귀제곱합)
제곱합의 계산 :

SST = i∑=n 1 ( y i - y ) 2 = S ( yy )
n
ˆ 2 n
ˆ
β
[ S ( xy
S S R = i∑= 1 ( y - y ) = i∑= 1 [ ( x i - x )] = S ( xx )2) ] 2

- 8 -
SSE = i∑=n 1 ( y i - ˆy i ) 2 = SST - SSR
결정계수(coefficient of determination) : R 2 = SST
SSR
잔차평균제곱(mean square error) : MSE  SSE   
회귀평균제곱(mean square regression):   
오차항의 분산 σ 2 의 추정량 : σ̂
2 = M SE

직선관계의 유의성을 나타내는 가설 : H 0 : β = 0, H 1 : β =/ 0


H 0 하에서 F = MSR
MSE ∼ F (1, n - 2)
<표 9-3> 직선회귀의 분산분석표

요인 제곱합 자유도 평균제곱 값 유의확률


회귀 SSR 1 MSR f = MSR/MSE P ( F≥f )
잔차 SSE n -2 MSE
계 SST n -1

- 9 -
[예제 9.3] <표 9-2>의 자료에 대하여 결정계수 R 2 의 값을 구하고, 분산분석표를 작성하
여 직선회귀의 유의성을 유의수준 5%에서 검정하여라.
[풀이] S ( xx) = 1520 - ( 120) 2 /10 = 80
S ( yy ) = 69462 - ( 832) 2 /10 = 239.6
S ( xy ) = 10098 - ( 120)( 832)/10 = 114
따라서
SST = S ( yy ) = 239.6
SSR = [ SS((xyxx)]) 2 = ( 114
80
) 2 = 162.45
SSE = SST - SSR = 239.6 - 162.45 = 77.15
SSR = 162.45 = 0.678
R 2 = SST
결정계수 : 239.6
직선회귀의 분산분석표 :
요인 제곱합 자유도 평균제곱 F 값
회귀 162.45 1 162.45 16.845
잔차 77.15 8 9.6437
계 239.6 9

F 0.05 (1,8) = 5.32 이므로 유의수준 5%에서 모형이 유의성이 있다고 결론

- 10 -
회귀모수에 대한 추론 :
α̂ 과 β̂ 의 표준오차와 분포

β̂ - β ~ t ( n - 2)
(1) SE ( β̂ ) = M SE / S ( xx ) T = SE
;
( β̂ )
(2) SE ( α̂ ) = 1( x 2
M SE n + S ( xx) ; T = SE ) α̂ - α ~ t ( n - 2)
( α̂ )
β 에 대한 추론

(1) β 의 100(1- )% 신뢰구간 : β±


ˆ t /2 ( n - 2) SE ( ˆβ )
α

(2) H0 : β= β 0 의 검정 :
β̂ - β 0
검정통계량 : T = SE( β̂ )
; 검정법 : t -검정
[예제 9.4] [예제 9.2]와 [예제 9.3]에서 β 의 95% 신뢰구간을 구하여라.

[풀이] MSE=9.6437이므로 SE ( ˆβ ) = MSE /S(xx) = 9.6437/80 = 0.3472


따라서 β 의 95% 신뢰구간 :
β±
ˆ t /2 ( n - 2) SE ( ˆβ ) = 1.425 ± 2.306( 0.3472) = 1.425 ± 0.801 = (0.624, 2.226)
α

- 11 -
x 에서 평균반응값 E ( y ) = α + β x 에 대한 추정
예측값 : ŷ = α̂ + β̂ x

표준오차 : SE ( ŷ ) = (
M SE n1 + ( Sx (-xxx)) 2 )
신뢰구간 : ( α̂ + β̂ x ) ± t /2 ( n - 2) SE ( ŷ )
α

신뢰대(confidence band)의 모양
신뢰대 그래프

92

82

72 x1
7.2 9.2 11.2 13.2 15.2
예측값 9 5%상한 95%하한

[그림 9-4] 신뢰대 그래프

- 12 -
9.3 중회귀모형
중회귀모형 : y i = β 0 + β 1 x 1 i + ⋯ + β k x ki + ε i, i = 1,⋯, n
다만, , , ⋯, β k : 회귀모수
β0 β1

x 1 i,⋯, x ki : 설명변수(독립변수)
y 1,⋯, y n : 반응변수(종속변수)
ε 1,⋯, ε n : 서로 독립인 N ( 0, σ 2 ) 확률변수 (오차항)
중회귀모형의 벡터 형식 : y = X β + ε
X 는 i 번째 행이 ( 1, x 1 i , ⋯ , x ki ) 인 n × ( k + 1) 행렬
β 는 ( β 0 , β 1 ,⋯, β k ) ' 로 된 ( k + 1 ) 열벡터

ε 은 ( ε 1 ,⋯, ε n ) ' 으로 된 n 열벡터

y 는 ( y 1 ,⋯, y n ) ' 으로 된 n 열벡터

최소제곱추정량과 적합된 모형

= ( X 'X ) - 1 X 'y
β̂ ( X' : X 의 전치행렬)
ˆy = X β̂

- 13 -
중회귀모형의 유의성을 검정하기 위하여는 가설
      ⋯           ⋯   가 모두 0은 아니다

<표 9-5> 중회귀의 분산분석표

요인 제곱합 자유도 평균제곱 값 유의확률


회귀 SSR k MSR f =MSR/MSE P(F ≥f )
잔차 SSE n - k-1 MSE
계 SST n -1

결정계수와 수정결정계수(adjusted R 2) :
SSR ;
R 2 = SST adjusted R 2 = 1 - n -n -k -1 1 SST
SSE

[예제 9.5]
<표 9-6> 공정시간과 촉매량에 따른 수율의 자료

번호 1 2 3 4 5 6 7 8 9 10
x1 ( 분 ) 8 8 10 10 12 12 14 14 16 16
x2 ( g) 3.1 3.3 3.5 3.0 3.2 3.4 3.0 3.6 3.2 3.6

y (%) 75 80 84 77 79 85 86 90 87 89

- 14 -
[풀이] KESS에서 출력 결과 :
모형의 유의성에 대한 유의확률은 0.0012
결정계수는 단순회귀의 67.8%에서 85.4%로 증가
추정된 모형 : ŷ = 36.11 + 1.20 x 1 + 9.93 x 2

9.4 잔차분석

선형회귀모형 y i = α + β x i + ε i, i = 1,⋯, n 에서 전제된 주요 가정


(a) 선형성 : y= α + βx
(b) 정규성 : ε i ~ N ( 0, σ 2 )

(c) 등분산성 : ε1 ,⋯, ε n 의 분산은 모두 σ 2


(d) 독립성 : ε 1,⋯, ε n 은 서로 독립

- 15 -
잔차분석(residual analysis) : 잔차를 이용하여 모형의 가정에 대한 검토
오차항인 ε i 들이 서로 독립이고 같은 분포 N ( 0, σ 2 ) 에 따른다면
잔차인 r i = y i - ŷ i 는 0을 중심으로 임의로(랜덤하게) 분포되어 있어야 한다.

(a) 임의로 분포된 예 (b) 경향이 있는 예

[그림 9-6] 예측값에 대한 잔차의 도표

- 16 -
표준화잔차(studentized residual) : 잔차  를 표준편차로 나눈 것

t i = MSEr i 1 - h ii , 다만 h ii 는 hat 행렬  의 대각선 원소 (     ′    ′ )

표준화제외잔차(studentized deleted residual) :


σ̂ ( i) : i 번째 관측값을 제외하고 M SE 를 구한 값일 때,
t ( i ) = σ̂ ( i ) r 1i - h ii , 즉 잔차 r i 를 σ̂ ( i ) 로 나누어 표준화시킨 것

[예제 9.6] <표 9-6>의 자료에서  를  으로 적합시킬 때 KESS를 이용한 잔차분석을 시행하
여라.

[풀이] KESS에서 ‘회귀분석’ 메뉴를 선택하고 ‘회귀진단’ 버튼을 누른 다음 '표준화잔


차'와 '표준화제외잔차' 탭에서 ‘vs 관측순서 그래프' 옵션을 선택

- 17 -
결과 : 이상점이 있는 자료는 아님

[그림 9-7] 표준화잔차와 표준화제외잔차

- 18 -
9.5 변수선택법

(1) 변수추가법(forward selection)


절편만 있는 모형에서 가장 중요한 변수부터 차례로 선택하여 모형에 추가하는 방법 으
로, 가장 큰 부분- F -통계량(partial F -test statistic)에 대응되는 변수가 유의하지
않으면 변수선택을 중단한다.

(2) 변수제거법(backward elimination)


모든 설명변수를 모형에 포함시킨 후에 부분- F -검정에 의해 가장 중요하지 않은 변수가
유의할 때까지 변수를 제거해 나간다.

(3) 변수증감법(stepwise selection)


새로운 변수를 선택하면 기존에 선택된 변수 가운데 제거할 변수가 있는지 확인하는 일
을 반복하면서 변수선택과 변수제거를 반복적으로 시행하는 방법으로, 응용분야에서 가
장 많이 사용되는 변수선택법이다.

(4) 모든 가능한 회귀(all possible regression)


모든 가능한 변수의 조합으로 모형을 적합시킨 후에 가장 ‘좋은’ 모형을 선택하는 방
법이다.

- 19 -

You might also like