You are on page 1of 22

산업경영 빅데이터 공학 < 권 민 수 >

1. 가설검정

여기에 수식을 입력하십시오.


1. 가설검정

[예제 10.1]
새 모델의 자동차를 제작하는 회사에서는 새로 개발된 자동차의 1리터당 평균주행거리가 16km라고 주장한다. 그러나 소비자 단체
에서는 이들의 주장에 회의적이고 이 회사에서 제작하는 차의 평균주행거리가 16km가 되지 않는다고 생각하고 있다. 즉 소비자 단
체에서는 평균주행거리가 과연 16km인지 검정하고자 한다. 이때 이러한 검정에서 귀무가설과 대립가설은 무엇인가?
풀이 귀무가설은 “새 모델 자동차의 1리터당 평균주행거리가 16km이다” 라는 회사의 주장이다. 이때 귀무가설은 모수 𝜇에 대하여
하나의 값 16km를 지정한다. 또한 대립가설은 사실을 확인하는 측은 소비자 단체(연구자)이기 때문에 연구자는 소비자 단체이고,
따라서 대립가설은 소비자 단체가 알아보고자 하는 내용이다. 즉 “새 모델 자동차의 1리터당 평균주행거리가 16km보다 작다”
라는 내용이 대립가설이 된다. 따라서 귀무가설과 대립가설을 표현하면 다음과 같다.
𝐻0 : 𝜇 ≥ 16𝑘𝑚 v.s. 𝐻0 : 𝜇 < 16𝑘𝑚
여기에 수식을 입력하십시오.

검정통계량 : 귀무가설의 판정 수단이 되는 통계량 (예에서는 30대의 평균주행거리 𝑋)



(1) 귀무가설이 사실이라면 이들 30대 자동차들의 평균주행거리는 16km로부터 큰 차이가 없다.
(2) 대립가설이 사실이라면 이들 30대 자동차들의 평균주행거리는 16km보다 훨씬 작다. => 귀무가설이 사실이라는 주장을
의심하게 되고, 이 경우는 대립가설이 사실이라고 믿게 된다.

𝐻0 또는 𝐻1 둘 중에 어느 것을 채택할지를 결정하기 위해서 검정통계량 값의 영역을 구별해 주는 적당한 분기점이 필요하다.


=>𝑋ത ≤ 𝑐 이면 귀무가설을 기각 => c를 ‘임계치(critical value)’
(1) ‘기각역(rejection region)’ : 귀무가설을 기각하는 검정통계량의 영역
(2) ‘채택역(acceptance region)’ : 귀무가설을 채택하는 검정통계량의 영역
1. 가설검정

[예제 10.2]
어떤 자동차의 평균주행거리는 16km라고 알려져 있다. 측정된 자동차 30대의 평균 주행거리 𝑋가 ത 15.8km로 주어졌다고 하고, 모집
단의 표준편차가 𝜎=1.5km라고 하자. 이때 귀무가설이 사실이라는 가정하에서 𝑋의 ത 값이 15.8km보다 작게 될 확률을 구하여라.
풀이 이 값을 구하기 위해서는 확률변수 𝑋의 ത 분포가 필요하며, 이것의 분포는 중심극한정리에 의하여
1.5
평균이 𝜇 = 16, 평균의 표준편차가 𝜎𝑥ҧ = = 0.27 인 정규분포를 따른다. 따라서 확률 𝑃(𝑋ത ≤ 15.8)은 아래의 정규곡선하에서
30
15.8km보다 왼쪽에 있는 면적이고, 이것은 다음과 같이 계산된다. 물론 결과로 나타나는 확률값은 표본정규확률분포표에 의해서
얻어진다.
= 𝑃여기에 수식을= 𝑃 𝑍입력하십시오.

𝑋−16 15.8−16
𝑃 = 𝑃 𝑋ത ≤ 15.8 = 𝑃 ≤ 𝑍 ≤ −0.74 ≥ 0.74 = 0.2296
0.27 0.27

1리터 당 평균주행거리가 𝜇 = 16km일 때 측정된 30대 자동차의 평균주행거리가 15.8보다 작거나 같을 확률은 약 0.23정도
=> 𝜇 = 16km일 때, 𝑋의
ത 값이 15.8보다 작거나 같게 되는 기회는 네 번 중 한번 정도
=> 귀무가설이 거짓이라는 확실한 증거가 되지 못함

만약 30대의 자동차의 평균주행거리가 15km로 주어졌다면, 앞에서처럼 귀무가설이 사실일 때 𝑋의 ത 값이 15km보다 적거나 같게
될 확률 P(𝑋ത ≤15)은 0.0001
=> 모평균 𝜇 = 16km일 때 𝑋의 ത 값이 15보다 작거나 같게 될 가능성은 10,000번 중에 한 번

(1) 귀무가설이 사실이지만, 이것은 일어나기가 매우 어려운 사건이다.


(2) 귀무가설이 거짓이다.

(2)항의 선택이 보다 바람직 => 귀무가설이 거짓임을 강력히 주장하는 증거로 간주 => 귀무가설을 기각
1. 가설검정

일반적으로 가설검정에는 𝑋의 ത 값이 임계치보다 작거나 같게 될 확률은 사전에 정하고, 이것을 만족하는 임계치를 결정한다.
‘유의수준(significant level)’ : 귀무가설이 참인데 귀무가설을 기각하는 오류의 확률로서 임계치를 결정하기 위한 확률
(1) 자연과학 분야 : 1% 또는 5%를 사용
(2) 사회과학분야 : 10%까지 사용
[예제 10.3]
유의수준 5%에서 임계값 c를 결정해 보자. 이 경우 귀무가설이 사실이라는 가정하에 𝑋의ത 값이
c보다 작거나 같게 될 확률이 5%가
되는 c의 값을 결정해야 한다. 실제로 이 값은 여기에
정규분포를 이용하여
수식을 구할 수 있다. [그림 10.1]에
입력하십시오.
서 알 수 있는 것처럼 𝑋의
ത 값과 Z의
값 사이에는 다음과 같은 관계가 주어진다.

𝑋−16
𝑍=
0.27
𝑐−16
따라서 𝑃 𝑋ത ≤ 𝑐 = 𝑃(𝑍 ≤ )이고 유의수준 𝛼 = 0.05이므로 이 확률이 0.05가 되는 z-값을 부록의 표로부터 구하면,
0.27
−𝑧0.05 = −1.645이다.
𝑐−16
−1.645 =
0.27
따라서 임계치 𝑐 = 16 − 1.645 × 0.27 = 15.6으로 주어진다.
 유의수준 5%에서
(1) 𝑋ത ≤ 15.6이면 귀무가설 기각
(2) 𝑋ത > 15.6이면 귀무가설 채택
1. 가설검정

[예시]
연구를 수행하는 연구자와 그 연구결과에 대한 타당성의 여부를 결정하는 심사자가 있다고 하자. 어떤 연구자는 새로운 두통약을
개발하는 실험을 수행하였고, 그 실험결과가 연구자의 의도대로 개발한 약의 효과가 기존의 두통약보다 효과가 뛰어난 결과를 얻었
여기에 수식을
다. 연구자가 연구결과를 바탕으로 주장하는 바(대립가설)를 입력하십시오.
관철시키기 위해서는 심사자의 심사과정(통계적 가설설정)을 거쳐야
한다. 여기서 유의수준은 심사자가 연구자의 주장의 옳고 그름을 판단하기 위한 어떤 기준이다. 즉 심사자가 연구자에게 같은 실험
을 100번 반복하여 100번 중에서 5번 이하로 틀리면 연구자의 가설을 인정해 주겠다고 제시하였다면, 이것은 유의수준 𝛼 = 0.05의
기준을 제시한 것이 된다. 그래서 연구자는 자신의 주장을 인정받기 위해서 100번의 실험을 행한 결과 3번 밖에 틀리지 않았다고
할 때, 이 결과에 대한 확률은 0.03이고, 이것을 유의확률이라고 한다. 패키지를 이용하여 얻어지는 유의확률(P값)이 작으면 작을수
록 대립가설을 채택할 가능성이 높다고 할 수 있다.
2. 오류와 검정의 종류

𝑯𝟎 가 참일 때 𝑯𝟏 이 참일 때
(𝑯𝟏 이 거짓일 때) (𝑯𝟎 가 거짓일 때)
𝑯𝟎 을 채택
옳은 결정 제2종 오류 (𝛽)
(𝑯𝟏 을 기각)
𝑯𝟏 을 채택 여기에제1종
수식을 입력하십시오.
오류(𝛼) 옳은 결정
(𝑯𝟎 을 기각)
2. 오류와 검정의 종류

𝜃 가 어디에 속하는 값이냐에 따라서 다음의 세 가지의 경우로 요약할 수 있다.


(1) 𝜃가 의 점이면 검정력 함수 의 유의수준(𝛼)이 된다.
(2) 𝜃가 의 점이면 대립가설 이 참( 가 거짓)일 여기에 때, 수식을
귀무가설입력하십시오.
을 채택( 을 기각)하는 확률이 된다. 이것은 옳은 결정이며
가설검정에서 검정력(power)이라고 하고 (1-𝛽)로 표현된다. 검정력은 앞의 재판의 예에서 보면 죄인에게 유죄판결을 내리는
확률이 된다.
(3) (2)의 결과를 1에서 빼주게 되면 대립가설 이 참( 가 거짓)일 때, 귀무가설 을 기각( 를 기각)하는 확률이 되고, 이것은
제 2종 오류를 범할 확률 𝛽이다.
2. 오류와 검정의 종류

어떤 연구자가 새로운 두통약을 개발하여 두통약의 효과는 30분 이내라고 주장하


고 있다.
𝜇 ≥ 30 𝑣. 𝑠
이 가설을 검정하기 위한 검정법으로 ‘𝑋ത ≤ 28.5’ 라고 주어 졌을 때, 이 검정법의 유
의수준 𝛼 = 0.05인 검정법인가에 대해서 알아보자. 이것은 제1종 오류를 범할 확률
여기에 수식을 입력하십시오.
이 0.05이하인가를 알아보는 것과 동일하다.

𝑋−𝜇 28.5−𝜇 ത
𝑋−30 28.5−30
𝑃[ ≤ I 𝜇 = 30] = 𝑃[ ≤ ]
5/ 50 5/ 50 5/ 50 5/ 50
28.5−30
= 𝑃[𝑍 ≤ ]
5/ 50
= 𝑃 𝑍 ≤ −2.12 = 0.017 < 0.05
2. 오류와 검정의 종류

여기에 수식을 입력하십시오.


3. 검정의 절차

여기에 수식을 입력하십시오.


4. 모평균의 검정

여기에 수식을 입력하십시오.


4. 모평균의 검정

[예제 10.4]
1회용 커피 포장기계는 한 컵당 6온스의 커피를 포장하도록 되어 있다. 포장된 커피량은 정규분포를 따르며, 표준편차가 𝜎 = 0.2온
스라고 알려져 있다. 우리는 종종 포장되는 함량의 평균 𝜇가 요구하는 기준과 다른지를 검사한다. 최근에 이 기계로부터 추출된 표
본을 검사한 결과가 다음과 같다. 기계가 정상적으로 작동하는지 유의수준 5%에서 검정하여라.
6.1 6.0 6.0 5.7 6.1 5.9 5.6 5.6 5.9 6.1
5.8 6.2 6.1 6.3 6.0 6.0 5.8 5.9 5.6 6.1
풀이 포장된 커피량의 모집단이 정규분포를 따르고,여기에 또한수식을
모분산 입력하십시오.
𝜎 2 이 알려져 있으므로 위의 검정절차를 적용하여 검정한다.,
(1) 귀무가설과 대립가설은 다음과 같다.
𝐻0 : 𝜇 = 6 𝑣. 𝑠. 𝐻1 : 𝜇 ≠ 6
(2) 유의수준은 𝛼 = 0.05이다.
(3) 검정통계량과 그 분포는 다음과 같다.
ത 0
𝑋−𝜇
𝑍= ~𝑁(0,1)
𝜎/ 𝑛
(4) 유의수준 𝛼 = 0.05이고, 양측검정이므로 기각값과 기각역은 다음과 같다
𝑍 ≤ −𝑧0.025 = −1.96 또는 𝑍 ≥ 𝑧0.025 = 1.96
1118.8
(5) 주어진 20개의 자료로부터 𝑋ത = = 5.94온스이므로, 검정통계량의 값은
20
ҧ 0
𝑥−𝜇 5.94−6
𝑍= = = −1.34
𝜎/ 𝑛 0.2/ 20
으로 -1.96보다 크므로(기각역 안에 포함되지 않으므로), 𝐻0 를 기각하지 못한다. 따라서 표본으로 얻어진 결과는 기계가
적절하게 작동하지 않는다고 말할 수 없다.
4. 모평균의 검정

여기에 수식을 입력하십시오.


4. 모평균의 검정

[예제 10.5]
생산자에 의하면 종래의 TV의 브라운관의 수명이 평균 12년이라고 한다. 새로운 방법으로 만들어진 브라운관의 평균수명이 이보다
더 긴지를 알아보기 위하여 7개의 표본의 수명을 가속단축실험으로 측정하여 다음의 자료를 얻었다. 유의수준 𝛼 = 0.05로 가설검정
하여라. 단, 브라운관의 수명은 정규분포를 따른다.

12.3 11.9 12.8 13.0 10.8 12.5 11.6


풀이 주어진 문제에서 모표준편차가 알려져 있지 않고 표본의 크기가 7로서 30보다 작으므로 t 검정을 이용한다. 검정하고자 하는
가설은 𝐻0 : 𝜇 = 12 𝑣. 𝑠. 𝐻1 : 𝜇 > 12 로 여기에 수식을
우측검정에 입력하십시오.
해당한다. 검정통계량의 관측값은
ത 0
𝑋−𝜇 12.13−12
T= = = 0.45
𝑆/ 𝑛 0.76/ 7
그런데 부록의 t분포표로부터 𝑡0.05 6 = 1.943으로 검정통계량의 값이 기각역 안에 포함되지 않기 때문에 귀무가설을 기각할
수 없다. 즉 새로운 브라운관이 더 우수하다고 말할 수 없다.
4. 모평균의 검정

여기에 수식을 입력하십시오.


4. 모평균의 검정

[예제 10.6]
포장에 표시된 정량이 2kg인 밀가루의 무게는 공장에서 평균 2.2kg이 되게 포장한다고 한다. 소비자보호단체에서 이런 밀가루포장
이 정량미달이라는 소비자의 불평을 검정하기 위하여 36개의 무게를 달아 이로부터 표본평균 𝑋ത = 1.98kg, 표본표준편차 S=0.4kg
을 얻었다. 유의수준 𝛼 = 0.05에서 소비자의 불평에 대한 가설검정을 실시하여라.
풀이 검정할 가설은 𝐻0 : 𝜇 = 2.2 𝑣. 𝑠. 𝐻1 : 𝜇 < 2.2 이며 표본이 대표본이고, 𝜎의 값이 주어져 있지 않으므로 검정통계량은
ത 0
𝑋−𝜇
Z=
𝑆/ 𝑛
을 사용하여 검정한다. 따라서 검정통계량의 값은
𝑍=
1.98−2.2
=-3.308
여기에 수식을 입력하십시오.
0.4/ 36
로서 기각값 −𝑧0.05 = −1.645보다 작으므로 귀무가설을 기각한다. 즉 표본으로부터 주어진 결과에 의하여 공장에서 표시한
정량은 믿을 수 없다.
5. 모비율의 검정

여기에 수식을 입력하십시오.


5. 모비율의 검정

[예제 10.7]
지난달 어느 TV 방송국의 저녁 뉴스를 시청한 사람들을 조사한 결과, 임의로 추출된 379명 중 205명이 이 프로그램을 시청한 것으
로 나타났다. 이 자료를 보고 그 프로그램을 시청한 시청자의 비율이 50% 이상이라고 말할 수 있는지를 유의수준 5%에서 가설검정
을 하여라.
풀이 먼저 위의 검정방법을 사용하기 위한 조건을 만족하는지 알아보자. 표본의 크기가 n=379이고 𝑝0 = 0.5이므로 n𝑝0 =189.5이고
𝑛 1 − 𝑝0 = 189.5이다. 따라서 이들은 모두 5보다 크다. 검정하고자 하는 귀무가설과 대립가설은 각각
𝐻0 : 𝑝 = 0.5 𝑣. 𝑠. 𝐻1 : 𝑝 >0.5
𝑋
이며 표본비율 𝑝Ƹ = = 0.541이고 따라서여기에 수식을
검정통계량의 입력하십시오.
계산값은
𝑛
Ƹ 0
𝑝−𝑝 0.541−0.5
𝑍= = = 1.59
𝑝0 (1−𝑝0 )/𝑛 0.5×0.5/379
로서 기각치 𝑧0.05 = 1.645보다 크지 못하므로 귀무가설을 채택한다. 조사에 의해서 주어진 결과는 시청률이 50% 이상이라고
말할 수 없다.
6. 모분산의 검정

여기에 수식을 입력하십시오.


5. 모비율의 검정

[예제 10.8]
다음의 자료는 어떤 공장에서 생산된 볼트 20개의 지름을 측정한 것이다.

10.03 9.89 9.99 9.96 10.10 10.08 9.95 10.00 9.94 10.01
10.05 9.97 10.03 9.98 10.05 10.03 9.99 10.08 10.02 9.98
이 자료를 이용하여 모분산 𝜎 2 이 0.092 𝑚𝑚보다 작다고 할 수 있는지를 유의수준 5%에서 검정하여라.
단, 측정자료는 정규분포를 따른다.
여기에 수식을 입력하십시오.
풀이 (1) 귀무가설과 대립가설을 세운다.
𝐻0 : 𝜎 2 =0.092 𝑚𝑚 v.s. 𝐻0 : 𝜎 2 =0.092 𝑚𝑚
(2) 유의수준 𝛼는 0.05이다.
(3) 검정통계량과 그 분포는 다음과 같다.

𝜎2
(4) 유의수준 𝛼 = 0.05이고, 자유도가 19이므로 기각값과 기각영역은 𝜒0.95
2
19 = 10.117이고, 좌측검정이므로
2
𝜒 ≤ 10.117이다.
𝑛−1 𝑆 2 20−1 0.0027
(5) 주어진 자료로부터 표본의 분산을 계산하면 𝜒 2 = = = 6.333이다. 따라서 검정통계량의 값이
𝜎2 0.092
기각역 안에 포함되므로 귀무가설을 기각한다. 따라서 이 자료로서는 볼트들의 𝜎가 0.09mm보다 작다고 할 수 있다.
즉 공장주는 기계를 대체할 만한 근거가 없다.
표준정규분포표 보는 법

여기에 수식을 입력하십시오.

𝛼 = 0.05 이면 1 − 𝛼 = 0.95
𝑃 𝑍 ≤ 𝑧0.05 = 0.95 이므로 𝑧𝛼 값은 표에서 0.95를 먼저 찾은 뒤 이에 해당하는 행
의 이름 1.6과 열의 이름 0.05을 더해 누적확률 값이 1.65임을 볼 수 있다.

𝛼 = 0.025이면 1 − 𝛼 = 0.975
𝑃 𝑍 ≤ 𝑧0.025 = 0.975 이므로 𝑧𝛼 값은 표에서 0.975를 먼저 찾은 뒤 이에 해당하
는 행의 이름 1.9와 열의 이름 0.06을 더해 누적확률 값이 1.96임을 볼 수 있다.

You might also like