다변인 회귀분석

(Multiple Regression Analysis)
▨ 정의

등간척도 ( 또는 비율척도 ) 로 측정된 두개 이상 여러개의 독립변인이
등간척도 ( 또는 비율처도 ) 로 측정된 한개의 종속 변인에 미치는 영향력을
분석하여 연구가설을 검증하는 통계방법

▨ 조건

1) 독립변인
(1)
(2)
2) 종속변인
(1)
(2)

수 : 두개 이상 여러개
측정 : 등간척도 또는 비율척도 ( 명명척도 : 가변인사용 )
수: 한 개
측정 : 등간척도 또는 비율척도

연구절차
1. 연구가설 선정
2. 통계프로그램 실행
3. 변인의 기술통계값 분석

: 변인의 사례수와 평균값 , 표준편차 값을 분석

4. 변인의 상관관계계수 분석
5. 회귀모델의 변량분석 및 유의도검증
6. 회귀계수 분석 및 유의도 검증
7. 모수치 추정

: 비표준 회귀계수의 신뢰구간을 통해 모수치를 추정

8. 부분 / 편 상관관계 분석

: 독립변인이 종속변인과 얼마나 밀접한 관계를 가지는가

9. 다중 공선성 문제 확인

: multicollinearity

10. 전제 조건 검증

1. 연구가설 선정
예>

연구가설 : 교육과 연령이 텔레비전 시청량에 영향을 줄 것이다 .
독립변인 : 교육 (① 중학교 졸업 ,② 고등학교 졸업 ,③ 대학교 졸업 )
연령 ( 응답자의 실제나이 )
종속변인 : 텔레비전 시청량 ( 일일 평균 텔레비전 시청량 )

▨ 다변인 회귀분석방법의 방정식
1. 원회귀 방정식
Y = A + B1X1 + B2X2 + E
Y : 종속변인 원 점수 ( 텔레비전 시청량 )
X1 : 독립변인 원 점수 ( 교육 )
X2 : 독립변인 원 점수 ( 연령 )
B1,B2 : 비표준 회귀계수
A : 상수
E : 오차
2. 예측 회귀방정식
Y' = A + B1X1 + B2X2 ( 비표준 회귀계수일 경우 )
Y' = B1X1 + B2X2 ( 표준 회귀계수일 경우 )
Y' : 종속변인 예측 점수 ( 텔레비전 시청량 )
X1 : 독립변인 점수 ( 교육 )
X2 : 독립변인 점수 ( 연령 )
B1,B2 : 회귀계수
A : 상수

3. 기술통계
예 > 기술통계

평균

표준편차

TV 시청량

47.2000

14.7930

사례수
(n)
25

연령

28.7600

6.7656

25

교육

2.1200

.7810

25

TV 시청량

연령

4. 상관관계계수
예 > 상관관계계수 행렬표

Pearson
상관

TV 시청

연령
교육

교육

1.000
.449
P=.012

1.000

-.579
P=.001

.006
p=.489

: 단순회귀분석방법과 마찬가지
로 다변인 회귀분석방법도 독립
변인과 종속변인 간의 상관관계
계수를 구한 후 이를 이용하여 변
량분석을 한다 .

1.000

< 연령 > 과 < 텔레비전 시청량 > 은 0.449 로 비교적 관계가 있는 것으로 나타났다 .
반면 < 교육 ) 과 < 연령 > 간의 상관관계계수는 0.006 으로 매우 낮았다 .

5. 회귀모델의 변량 분

(1) 독립변인간 상관관계가 존재하지 않을때 ( 상관관계 =0)

R2( 설명변량 ) = 교육 r2 + 연령 r2
but, 독립변인간 상관관계가 '0' 일 경우 거의 없음

(2) 독립변인간의 상관관계가 존재할때
① 변량 분석

R2 < 교육 r2 + 연령 r2
R2 = 교육 r2 + 연령 r2 - 교육과 연령 r2
즉 , 개별 설명변량을 합한 후에 독립변인간의 겹친 부분인 설명변량을 뺀값이 설
명변량이 된다 .

② 유의도 검증
예 > 회귀모델의 유의도 검증

모형

자승의 합
(Sum of Square)

자유도

평균제곱
(Mean Square)

F

유의확률

선형회귀분석

2837.564

2

1418.782

12.92
8

.000

잔차

2414.436

22

109.747

합계

5252.000

24

▶ 자유도 2 와 22 에서 F 값 12.928 의 유의도는 0.000 으로 통계적으로 유의미 하기
때문에 연구가설을 받아들인다 . 즉 < 교육 > 과 < 연령 > 은 < 텔레비전 시청량 > 에
영향을 주는 것으로 나타났다 .

▶ but,

이 유의도 검증은 변인간의 관계가 있는지 없는지만을 판단해 주기 때문에 변인가
의 관계가 정적인 (+) 관계인지 , 또는 부적인 (-) 관계인지 , 얼마나 밀접한 관계인지는
알 수 없다 . 이를 알기 위해서는 개별 회귀계수의 유의도를 검증해야 한다 .

6. 회귀계수의 유의도 검증

예 > 회귀계수와 신뢰구간

모형


(상
수)
교육
연령

비표준 계수
B

표준오차

42.099

10.960

-11.019

2.738

.990

.316

표준화계수

t

유의확률

베타 (Beta)

B 에 대한 95%
신뢰구간
최소값

최대값

3.841

.001

19.369

64.828

-.582

-4.024

.001

-16.697

-5.340

.453

3.131

.005

.334

1.645

▶ 비표준 회귀방정식 Y’ = 42.099 – 11.019X1 + 0.990X2
-> X1 에 < 교육 >, X2 에 < 연령 > 의 원점수를 넣으면 종속변인 Y’ < 텔레비전 시청량
> 의 예측점수를 구할 수 있다 .
▶ 표준 회귀방정식 Y’ = -0.582X1 + 0.453X2
-> 표준 회귀계수는 상호비교가 가능하기 때문에 < 교육 > 이 < 연령 > 보다 < 텔레비
전 시청량 > 에 더 큰 영향력을 준다는 것을 알 수 있다 .
※ 주의 : 개별 독립변인의 회귀계수는 나머지 독립변인을 통제 (Control) 한 상태에서 구
한 값이다 .

7. 모수치 추정
모든 통계치에는 표본추출 과정에서 생기는 오류 때문에 오차가 포함되며 , 오차를 제거하
고 모수치를 추정해 나가는 통계적 방법이 추리통계

8. 부분 / 편 상관관계계수 분

다른 독립 변인을 제거한 후 남은 독립 변인이 종속 변인과 얼마나 밀접한 관계를 가지는가
를 보여 주는 값
① 단순상관계수 (zero-order correlation coefficient)
: 아무런 변수도 통제되지 않은 상태에서의 두 변수간의 상관계수
② 부분상관관계계수 (part correlation coefficient):

: 나머지 독립변수개의 독립변수에 의한 선형효과를 제거한 후 독립변수
종속변수와의 상관계수

③ 편 상관계수 (partial correlation coefficient)
관계

: 나머지 개의 독립변수로 ** 설명되어지는 부분을 제거한 후 구한 상관
로서 이 값의 절대값이 크면 기존의 모형에 독립변수를 추가적으로 포

7. 다중공선성 (multicollinearity) 문제
- 여러 독립 변인 간의 상관관계가 높을 때 발생하는 문제
- 한 변인이 통계적으로 유의하게 나오면 이 변인과 상관관계가 높은 다른 변인은 거의 통
계적으로 유의하지 않게 나오는 현상 .
※ 일반적으로 독립변인들간의 상관관계계수가 0.5 이상이면 다중 공선성 문제가 있다고
할 수 있다 .

▶ 다중 공선성 문제의 해결책
1. 상관관계가 높은 독립 변인을 합하여 한 변인으로 만든다 .
2. 상관관계가 높은 독립변인 중 가장 적합한 하나의 변인을 두고 다른 변인들은 제외한다 .
3. 연구자의 이론에 따라 독립 변인간의 인과관계를 설정하는 통로분석모델을 만든다 .

전제 조건 검사
1. 선형성과 변량의 동질성 검사
① 무작위 표본 축출
② 변인의 정상적인 분포
③ 독립 변인과 종속 변인과의 관계는 선형적이다 .
④ 변량이 동질적이어야 한다 .
※ ①, ② 의 조건은 표본의 크기가 크면 어느정도 위반해도 문제가 되지 않지만 , ③, ④ 의
조건은 반드시 충족되어야 한다 .

2. 편차가 큰 사례 검사
몇 개 안 되는 편차가 큰 점수 제외 시 설명력이 큰 회귀선 찾을 수 있음
- 편차가 큰 사례를 찾아내기 위해 세 가지 수치를 사용한다 .
① standardized residual (ZRESID 로 표기함 )
② studentized residual (SRESID 로 표기함 )
③ studentized deleted residual (SDRESID 로 표기함 )