Professional Documents
Culture Documents
9.1 상관분석
∑n
( x i - x )( y i - y )
표본상관계수 : r = i = 1
∑n
i= 1
( x i - x ) 2∑n
i= 1
( y i - y ) 2
표본상관계수의 성질
(1) -1≤r ≤1
(2) | r | 의 값이 1에 가까울수록 강한 상관관계
| r | 의 값이 0에 가까울수록 약한 상관관계
- 1 -
연관성의 검정
귀무가설 : H0 : ρ = 0
검정통계량 : T =
n - 2 2r
1- r
유의수준 α 에서 기각역 :
H 1 : ρ > 0 일 때 T ≥ t (n - 2) α
H 1: ρ < 0 일 때 T ≤ - t (n - 2) α
H 1 : ρ =/ 0 일 때 | T | ≥ t /2 ( n - 2)
α
- 2 -
제곱합과 곱의 합의 기호와 간편계산법 :
S ( xx ) = i∑=n 1 ( x i - x ) 2 = ∑ x 2i - ( ∑ x i ) 2 / n
S ( yy ) = i∑=n 1 ( y i - y ) 2 = ∑ y 2i - ( ∑ y i ) 2 / n
S ( xy ) = i∑=n 1 ( x i - x)( y i - y ) = ∑ x iy i - ( ∑ x i )( ∑ y i )/ n
r= S ( xy )
표본상관계수 :
S ( xx ) S ( yy )
번 호 1 2 3 4 5 6 7 8 9 10
키( x )
172 165 157 175 155 168 170 176 162 171
몸 무 게
( y )
63 66 56 70 55 59 60 75 53 68
- 3 -
[풀이] <표 9-1>의 자료에서 r 값을 다음과 같이 구한다.
∑ x i = 1671, ∑ x 2i = 279693
∑ y i = 625, ∑ y 2i = 39525, ∑ x iy i = 104819
S ( xx) = 279693 - ( 1671) 2 /10 = 468.9
S ( yy ) = 39525 - ( 625) 2 /10 = 462.5
S ( xy ) = 104819 - ( 1671)( 62 5)/10 = 381.5
r = S (Sxx( xy) S)( yy ) = 468.9
381.5
× 462.5
= 0.819
T -통계량의 값 : T = n1 -- r2 2r = 101 -- (20.819) ( 0.819)2 = 4.037 > t 0.025 (8) = 2.306
따라서 유의수준 5%에서 H 0 를 기각
- 4 -
9.2 단순선형회귀모형
회귀분석(regression analysis) : 반응변수와 설명변수 사이의 함수관계를 규명
y = f ( x ) 의 함수관계가 있을 때,
x 를 설명변수(explanatory variable) 또는 독립변수(independent variable)
y 를 반응변수(response variable) 또는 종속변수(dependent variable)
⦁단순회귀모형(simple regression) : 설명변수가 1개인 회귀모형
특히 설명변수와 반응변수 사이에 직선관계 (선형관계)가 있는 모형을 단순선형회귀
모형 (simple linear regression) 혹은 직선회귀모형이라 함
⦁중회귀모형(multiple regression) : 설명변수가 2개 이상인 회귀모형
단순선형회귀모형 또는 직선회귀모형 :
y i = α + β x i + ε i , i = 1,⋯ , n
α , β : 회귀모수 ( α : 상수항, β : 기울기)
x1,⋯, xn : 설명변수(독립변수)
y 1,⋯, y n : 반응변수(종속변수)
ε 1,⋯, ε n : 서로 독립인 N ( 0, σ 2 ) 확률변수, 오차항(error term)
- 5 -
y = α + β x : 모회귀직선(population regression line)
ŷ = α̂ + β̂ x : 추정회귀작선 또는 적합된 회귀직선(fitted regression line)
r i = y i - ŷ i : 잔차(residual)
최소제곱법(least squares method) :
잔차제곱합인 ∑n
(
i= 1 i
y - ŷ i ) 2= ∑ n
(y - - x )2
i = 1 i α̂ β̂ i 을 최소로 하는 α̂ , β̂ 을 각각
최소제곱추정량과 최소제곱회귀직선
∑ n
( x i - x )( y i - y ) S ( xy )
= y - β̂ x ŷ = α̂ + β̂ x
β̂ = = S ( xx )
i= 1
∑ ( x - x)
n ; α̂ ;
2
i= 1 i
- 6 -
참고. ① α̂ = y - β̂ x에서 y = α̂ + β̂ x 가 성립하므로 최소제곱회귀직선은 언제나
( x , y ) 를 지난다.
② 적합된 회귀직선 ŷ = α̂ + β̂ x 에서 가 1단위 증가하면 는 평균 단위 증가함
을 알 수 있다.
번호 1 2 3 4 5 6 7 8 9 10
x( 분) 8 8 10 10 12 12 14 14 16 16
y (%) 75 80 84 77 79 85 86 90 87 89
- 7 -
이들을 이용하면 회귀모수의 추정값은 다음과 같다.
= SS (( xy
β̂
xx)
) = 114 = 1.425
80
α̂ = y - β̂ x = 83.2 - (1.425)(1 2) = 66.1
제곱합의 분해
( y i - y ) = ( y i - ŷ i ) + ( ŷ i - y )
∑n
i= 1
( y i - y ) 2= ∑n
i= 1
( y i - ŷ i ) 2+ ∑n
i= 1
( ŷ i - y ) 2
SST = i∑=n 1 ( y i - y ) 2 = S ( yy )
n
ˆ 2 n
ˆ
β
[ S ( xy
S S R = i∑= 1 ( y - y ) = i∑= 1 [ ( x i - x )] = S ( xx )2) ] 2
- 8 -
SSE = i∑=n 1 ( y i - ˆy i ) 2 = SST - SSR
결정계수(coefficient of determination) : R 2 = SST
SSR
잔차평균제곱(mean square error) : MSE SSE
회귀평균제곱(mean square regression):
오차항의 분산 σ 2 의 추정량 : σ̂
2 = M SE
- 9 -
[예제 9.3] <표 9-2>의 자료에 대하여 결정계수 R 2 의 값을 구하고, 분산분석표를 작성하
여 직선회귀의 유의성을 유의수준 5%에서 검정하여라.
[풀이] S ( xx) = 1520 - ( 120) 2 /10 = 80
S ( yy ) = 69462 - ( 832) 2 /10 = 239.6
S ( xy ) = 10098 - ( 120)( 832)/10 = 114
따라서
SST = S ( yy ) = 239.6
SSR = [ SS((xyxx)]) 2 = ( 114
80
) 2 = 162.45
SSE = SST - SSR = 239.6 - 162.45 = 77.15
SSR = 162.45 = 0.678
R 2 = SST
결정계수 : 239.6
직선회귀의 분산분석표 :
요인 제곱합 자유도 평균제곱 F 값
회귀 162.45 1 162.45 16.845
잔차 77.15 8 9.6437
계 239.6 9
- 10 -
회귀모수에 대한 추론 :
α̂ 과 β̂ 의 표준오차와 분포
β̂ - β ~ t ( n - 2)
(1) SE ( β̂ ) = M SE / S ( xx ) T = SE
;
( β̂ )
(2) SE ( α̂ ) = 1( x 2
M SE n + S ( xx) ; T = SE ) α̂ - α ~ t ( n - 2)
( α̂ )
β 에 대한 추론
(2) H0 : β= β 0 의 검정 :
β̂ - β 0
검정통계량 : T = SE( β̂ )
; 검정법 : t -검정
[예제 9.4] [예제 9.2]와 [예제 9.3]에서 β 의 95% 신뢰구간을 구하여라.
- 11 -
x 에서 평균반응값 E ( y ) = α + β x 에 대한 추정
예측값 : ŷ = α̂ + β̂ x
표준오차 : SE ( ŷ ) = (
M SE n1 + ( Sx (-xxx)) 2 )
신뢰구간 : ( α̂ + β̂ x ) ± t /2 ( n - 2) SE ( ŷ )
α
신뢰대(confidence band)의 모양
신뢰대 그래프
92
82
72 x1
7.2 9.2 11.2 13.2 15.2
예측값 9 5%상한 95%하한
- 12 -
9.3 중회귀모형
중회귀모형 : y i = β 0 + β 1 x 1 i + ⋯ + β k x ki + ε i, i = 1,⋯, n
다만, , , ⋯, β k : 회귀모수
β0 β1
x 1 i,⋯, x ki : 설명변수(독립변수)
y 1,⋯, y n : 반응변수(종속변수)
ε 1,⋯, ε n : 서로 독립인 N ( 0, σ 2 ) 확률변수 (오차항)
중회귀모형의 벡터 형식 : y = X β + ε
X 는 i 번째 행이 ( 1, x 1 i , ⋯ , x ki ) 인 n × ( k + 1) 행렬
β 는 ( β 0 , β 1 ,⋯, β k ) ' 로 된 ( k + 1 ) 열벡터
최소제곱추정량과 적합된 모형
= ( X 'X ) - 1 X 'y
β̂ ( X' : X 의 전치행렬)
ˆy = X β̂
- 13 -
중회귀모형의 유의성을 검정하기 위하여는 가설
⋯ ⋯ 가 모두 0은 아니다
결정계수와 수정결정계수(adjusted R 2) :
SSR ;
R 2 = SST adjusted R 2 = 1 - n -n -k -1 1 SST
SSE
[예제 9.5]
<표 9-6> 공정시간과 촉매량에 따른 수율의 자료
번호 1 2 3 4 5 6 7 8 9 10
x1 ( 분 ) 8 8 10 10 12 12 14 14 16 16
x2 ( g) 3.1 3.3 3.5 3.0 3.2 3.4 3.0 3.6 3.2 3.6
y (%) 75 80 84 77 79 85 86 90 87 89
- 14 -
[풀이] KESS에서 출력 결과 :
모형의 유의성에 대한 유의확률은 0.0012
결정계수는 단순회귀의 67.8%에서 85.4%로 증가
추정된 모형 : ŷ = 36.11 + 1.20 x 1 + 9.93 x 2
9.4 잔차분석
- 15 -
잔차분석(residual analysis) : 잔차를 이용하여 모형의 가정에 대한 검토
오차항인 ε i 들이 서로 독립이고 같은 분포 N ( 0, σ 2 ) 에 따른다면
잔차인 r i = y i - ŷ i 는 0을 중심으로 임의로(랜덤하게) 분포되어 있어야 한다.
- 16 -
표준화잔차(studentized residual) : 잔차 를 표준편차로 나눈 것
[예제 9.6] <표 9-6>의 자료에서 를 으로 적합시킬 때 KESS를 이용한 잔차분석을 시행하
여라.
- 17 -
결과 : 이상점이 있는 자료는 아님
- 18 -
9.5 변수선택법
- 19 -