You are on page 1of 56

통계

1 확률분포

2 통계적 추정

단원 열기

센서스의 어원이 된 고대 로마의 켄수스, 신라의 민정문서, 잉글랜드의 둠즈데이 북, 몽골제국의 호구 조사, 고려와
조선의 호구 조사 등 아주 오래전부터 사용된 통계학은 여러 목적으로 활용되어 왔다. 근대 통계학의 아버지라 불리
는 케틀레는 1835년에 인구 통계와 범죄통계로부터 도덕 현상이나 범죄 현상 같은 무질서해 보이는 사회 현상에 있
어서도 일종의 규칙성이 존재한다는 것을 증명하는 연구를 발표하였다. 기존에는 천문학 등 자연 과학에 이용되던
통계학이 사회에도 적용이 가능하다는 사실이 밝혀지면서 근대 통계학이 성립되었다.
현재에는 여론 조사 등과 같은 다양한 정치·사회 현상을 분석하는 데도 통계가 이용되고 있고, 모든 국가에서 각종
산업에서 국민 생활에 이르는 다양한 통계 자료를 조사하고 분석하여 국가 정책은 물론 기업의 사업 방향이나 학자
들의 사회 연구, 우리 사회의 변화와 전망에 이르기까지 폭넓게 활용되고 있다.

236 Ⅵ 통계
Ⅵ 통계 237
1
확률분포
01 확률변수와 확률분포
02 이산확률변수와 확률질량함수
03 이산확률변수의 기댓값(평균), 분산, 표준편차
04 이항분포
05 큰수의 법칙
06 연속확률변수와 확률밀도함수
07 정규분포
08 이항분포와 정규분포의 관계

생각 열기
세 개의 동전을 던지는 시행에서 다음 물음에 답하라.
(1) 표본공간 S 를 집합으로 나타내라.
(2) 표본공간의 각 원소에 대하여 앞면이 나오는 횟수를 대응시키는 X 는 S 에서 실수 전체의
집합으로의 함수인가?
(3) 아래 표를 완성하라.

X 0 1 2 3 합계

P ]X = xg
1
1
8

238 Ⅵ 통계
확률변수와 확률분포
01 학습 목표
• 확률변수와 확률분포를 이해한다.

한 개의 동전을 두 번 던지는 시행에서 앞면을 H , 뒷면을 T 라고 할 때, 표본공


간 S 는 다음과 같다.
S = "]H, H g, ]H, T g, ]T, H g, ]T, T g,
이 시행에서 표본공간의 각 원소에 대하여 앞면이 나온 횟수를 X 라고 할 때, 표
본공간의 원소 ]H, H g , ]H, T g , ]T, H g , ]T, T g 에 대응하는 X 의 값은 각각 2 ,
1 , 1 , 0 이다. 즉, X 는 0 , 1 , 2 중 한 값을 갖는 함수이다.
이와 같이 어떤 시행에서 표본공간의 각 원소가 단 하나의 수와 대응될 때, 이 대
응 X 를 확률변수라고 한다. 따라서 확률변수 X 는 표본공간 S 를 정의역으로 하
고 실수의 집합 R 를 공역으로 하는 함수

X|S " R
로 생각할 수 있다.
확률변수는 보통 알파벳 대문자 X , Y , Z 등으로 나타내고 확률변수가 가지는
값은 숫자 또는 소문자 x , y , z 등으로 나타낸다.
확률변수가 가질 수 있는 값들을 유한수열 x 1 , x 2 , g , x n 또는 무한수열 x 1 ,
x 2 , g 로 표현할 수 있을 때, 그 확률변수를 이산확률변수라 하고, 확률변수가 어
떤 구간 ]a, bg 안의 모든 실수 값을 가질 수 있을 때는 연속확률변수라고 한다.

예제 1 다음 확률변수를 이산확률변수와 연속확률변수로 구분하라.


(1) 새로 구입한 자동차의 수명

(2) 프로 야구를 보기 위해 운동장을 간 관람객의 수

풀이 자동차의 수명은 어떤 구간 안의 모든 실수 값을 가질 수 있으므로 연속확률변

수이다. 또한 관람객의 수는 자연수이므로 이산확률변수이다.


답 풀이 참조

문제 1 선다형 10 문항으로 구성된 어떤 문제에서 맞힌 문항의 수를 확률변수 X 라 할

때, 이산확률변수인지 연속확률변수인지 구분하라.

1. 확률분포 239
문제 2 어느 정류장에 버스가 15 분 간격으로 도착한다. 이때 승객이 기다리는 시간을 확

률변수 X 라 두면, 이산확률변수인지 연속확률변수인지 구분하라.

또, 모든 실수 x 에 대하여
F ]xg = P ]X # xg
로 정의된 함수 F ]xg 을 확률변수 X 의 분포함수라고 한다.
예를 들어, 표본공간 S = "H, T, 에 대하여 X ]"H,g = 0 , X ]"T,g = 1 인 확
률변수 X 에 대한 확률분포가 P ]"H,g = 1 - p , P ]"T,g = p 로 주어졌을 때,
그 분포함수는 다음과 같다.
0 ]x < 0g
F ]xg = *1 - p ]0 # x < 1g
1 ]x $ 1g

예제 2 2 개의 동전을 던지는 시행에서 확률변수 X 를 앞면이 나오는 동전의 개수라


고 하자. 확률변수 X 의 분포함수를 구하라.

풀이 확률변수 X 가 가지는 값과
앞면의 수( X ) 0 1 2 합계
그 확률을 표로 나타내면 오른쪽과 같고,
P ]X = xg
1 1 1
1
확률변수 X 가 이산확률변수임을 알 수 4 2 4

있다. 확률변수 X 의 분포함수 F (x)를 구하면 다음과 같다.


Z]0
]] ]x < 0g
]]] 1 ]0 # x < 1g
F ]xg = [] 4
]
]] 3
]] 4 ]1 # x < 2g
]x $ 2g
]]
]1
\
답 풀이 참조

문제 3 각각의 눈이 나올 가능성이 같은 두 개의 주사위를 던지는 시행에서 나오는 두 눈

의 합을 X 라 할 때, 확률변수 X 의 분포함수를 구하라.

문제 4 4 개의 상품 중 3 개의 불량품이 들어 있는 상자에서 임의로 2 개의 제품을 꺼낼


때, 불량품의 개수 X 의 분포함수를 구하라.

240 Ⅵ 통계
이산확률변수와 확률질량함수
02 학습 목표
• 이산확률변수를 이해한다.
• 확률질량함수의 뜻을 알고 이를 활용할 수 있다.

한 개의 동전을 3 번 던져서 나오는 앞면의 개수를 확률변수 X 라고 할 때, X 가


가지는 각 값과 그에 대한 확률을 대응시켜 표로 나타내면 다음과 같다.

앞면의 개수( X ) 0 1 2 3 합계

P ]X = xg
1 3 3 1
1
8 8 8 8

여기서 X 가 어떤 값 x 를 가질 확률, 곧 X = x 일 확률을 기호로 P ]X = xg


와 같이 나타낸다. 따라서 X 가 0 , 1 , 2 , 3 을 가질 확률은 각각 다음과 같다.

일반적으로 이산확률변수 X 의 각 값 x 1 , x 2 , g , x n 과 X 가 그 값을 취할
확률 p 1 , p 2 , g , p n 사이의 대응 관계를 확률변수 X 의 확률분포라고 하고, 다
음 표와 같이 나타낼 수 있다.

X x1 x2 x3 g xn 합계

P ]X = x ig p1 p2 p3 g pn 1

이때, {p k = 1 이고, 이 표를 확률변수 X 의 확률분포표라고 하며, 확률변수


k=1

X 가 xi 이상 xj 이하인 값이 되는 확률을 P( xi ≤ X ≤ xj )와 같이 나타낸다. 따라

서 X 가 이산확률변수이면

P ]x i # X # x jg =
j

{ Pp
= ii
kk
kk =

1. 확률분포 241
이다. 그리고 이 확률분포를 나타내는 함수 P ]X = x ig = p i , ]i = 1, 2, g, ng 를 이
산확률변수 X 의 확률질량함수라고 한다.
확률변수 X 가 가질 수 있는 값들이 x 1 , x 2 , g 이고, X 가 그 값을 취할 확률
p 1 , p 2 , g 인 경우도 생각할 수 있는데 이때, 확률변수 X 의 확률분포표는 다음과
같다.
X x1 x2 x3 g 합계
P ]X = x ig p1 p2 p3 g 1

확률질량함수 P ]X = x ig = p i ]i = 1, 2, 3, gg 는 어떤 사건에 대한 확률이므


로 확률의 기본 성질에 의하여 다음을 만족한다.

확률질량함수의 성질
❶ 0 # P ]X = x ig # 1 , (i = 1, 2, 3, …)

{ P ]X = x g = 1
3
❷ i
i=1

예제 1 다음 표와 같은 확률분포에 대하여 확률 P ]2 # X # 4g 을 구하라.

X 1 2 3 4 합계

P ]X = xg
1 a 1 a 1
3 6

{ P ]X = ig = 1 이므로
4

풀이 확률질량함수의 성질에 의해서


i=1

1 1
+a+ +a = 1
3 6
1
이다. 따라서 a = 이고
4
P](2
P 2#≤gX ≤ 4 = P ]X = 2g + P ]X = 3g + P ]X = 4g
# 4)
1 1 1 2
= + + =
4 6 4 3
이다.
1 1 1 2
= + + 답=
4 6 4 3

문제 1 어떤 시행의 확률변수 X 에 대하여 실험이 성공하면 X = 1 이고 실험이 실패하

면 X = 0 으로 주어졌다고 하자. 실험이 성공할 확률을 p 라 할 때, X 의 확률질량함수

P ]X = xg 를 구하라.

242 Ⅵ 통계
또한, 이산확률변수 X 의 확률질량함수 P ]X = x ig 와 분포함수 F (x)에는 다
음과 같은 관계가 있음을 알 수 있다.

확률질량함수와 분포함수의 관계
이산확률변수 X 에 대하여

F ]xg 가 X 의 분포함수이고, P ]X = xg 가 X 의 확률질량함수라고 하면


❶ F ]xg = { P ]X = x g i
xi # x

❷ P ]X = x ig = F ]x ig - F ]x i - 1g 이다.

예제 2 다음과 같은 확률질량함수를 가지는 이산확률변수 X 가 주어졌다.

P ]X = 1g = P ]X = 2g = P ]X = 3g =
1 1 1
2, 3, 6
X 의 분포함수 F (x)를 구하고, 그래프로 나타내라.

풀이 X 의 분포함수 F(x)는
F ]1g = P ]X # 1g = P ]X = 1g =
1
,
2
F ]2g = P ]X # 2g = P ]X = 1g + P ]X = 2g =
5
,
6
F ]3g = P ]X # 3g = P ]X = 1g + P ]X = 2g + P ]X = 3g = 1
이므로, 분포함수 F(x)는 다음과 같이 주어진다.

이것을 그래프로 나타내면 아래 그림과 같다.


F(x)

1
5
6
1
2

O 1 2 3 x
답 풀이 참조

문제 2 어떤 시행의 확률변수 X 에 대하여 실험이 성공하면 X = 1 이고 실험이 실패하면

X = 0 으로 주어졌다고 하자. 실험이 성공할 확률을 p 라 할 때, 다음 물음에 답하라.


(1) X 의 분포함수 F(x)를 구하라.

(2) 분포함수 F(x)를 그래프로 나타내라.

1. 확률분포 243
이산확률변수의 기댓값
03 (평균), 분산, 표준편차
학습 목표
• 이산확률변수의 기댓값, 분산, 표준편차의 뜻을 이해하고 이를 구할 수 있다.

이산확률변수 X 의 확률분포가 다음 표와 같이 주어졌다고 하자.

X x1 x2 x3 g xn 합계
P ]X = x ig p1 p2 p3 g pn 1

이때,
n

x1 p1 + x2 p2 + g + xn pn = {x p i i
i=1

를 확률변수 X 의 기댓값 또는 평균이라 하고, 기호로


E ]X g 또는 m
과 같이 나타낸다.
이상을 정리하면 다음과 같다.

이산확률변수 X 의 기댓값(평균)
이산확률변수 X 의 확률질량함수가 P ]X = x ig = p i ]i = 1, 2, g, ng
일 때, X 의 기댓값(평균)은

E ]X g = x 1 p 1 + x 2 p 2 + g + x n p n =
n
{x p i i 이다.
i=1

예제 1 주머니 안에 8 개의 구슬이 있고 이 중 3 개가 흰 구슬이다. 이 주머니에서 임


의로 선택한 3 개의 구슬 중에서 흰 구슬의 개수의 기댓값을 구하라.

풀이 선택된 3 개의 구슬 중에서 흰 구슬의 개수를 X 라고 하면 확률변수 X 가

가지는 값은 0 , 1 , 2 , 3 이고 X 가 각각의 값을 가질 확률은 다음과 같다.


X 0 1 2 3 합계

P ]X = xg
5 C3 10 3 C1 : 5 C2 30 3 C2 : 5 C1 15 3 C3 1
= = = = 1
8 C3
56 8 C3
56 8 C3
56 8 C3 56

244 Ⅵ 통계
따라서 X 의 기댓값은

E ]X g = 0 :
10 30 15 1 9
+1: +2: +3: =
56 56 56 56 8
답 풀이 참조

문제 1 이산확률변수 X 의 확률질량함수가

P ]X = xg = kx , ]x = 1, 2, 3, 4, 5g
일 때, X 의 기댓값을 구하라.

이산확률변수 X 의 확률질량함수를
P ]X = x ig = p i ]i = 1, 2, g, ng
라고 하고, X 의 기댓값(평균)을 E ]X g = m 이라고 하면 ]X - mg2 의 평균, 즉
E "]X -
E[(X -m g22,]= ]x 1 - mg2 p 1 + ]x 2 - mg2 p 2 + g + ]x n - mg2 p n
m)

{ ]x - mg2 p i
n
= i
i=1

를 확률변수 X 의 분산이라 하고 하며, 기호로


V ]X g
와 같이 나타낸다.
또한, 분산의 음이 아닌 제곱근 V ]X g 를 X 의 표준편차라 하고 하며, 기호로
v ]X g 또는 v
와 같이 나타낸다.
이상을 정리하면 다음과 같다.

이산확률변수 X 의 분산, 표준편차


이산확률변수 X 의 확률질량함수가

P ]X = x ig = p i ]i = 1, 2, g, ng
이고 E ]X g = m 일 때,

X 의 분산은

V ]X g = E 6]X - mg2@ = { ]x - mg2 p i


n

i
i=1

이고, X 의 표준편차는

v ]X g = V ]X g
이다.

1. 확률분포 245
이산확률변수 X 의 확률질량함수가
P ]X = x ig = p i ]i = 1, 2, g, ng
이고 E ]X g = m 일 때, X 의 분산을 다음과 같이 구하면 편리하다.

V ]X g = { ]x - mg2 p i
n

i
i=1

n n n

= {x 2
i p i - 2m
{ xi pi + m 2
{p i
i=1 i=1 i=1

= {x 2
i p i - 2m + m
2 2

i=1

= E ]X g - 6E ]X g@2
2

즉,

V ]X g = E ]X g - 6E ]X g@2
2

이다.

예제 2 확률변수 X 의 확률질량함수 P ]X = xg 가 다음과 같이 주어졌을 때, 기

댓값 E ]X g 와 V ]X g 을 구하라.
2

P ]X = 0g = 0.2 , P ]X = 1g = 0.5 , P ]X = 2g = 0.3

풀이 E ]X g 를 구하면
E ]X g = 0 # 0.2 + 1 # 0.5 + 2 # 0.3 = 1.1
이고, E ]X g = 0 # 0.2 + 1 # 0.5 + 4 # 0.3 = 1.7 이다.
2

따라서 V ]X g = E ]X g - 6E ]X g@2 = 1.7 - 1.1 2 = 0.49 이다.


2

답 E(X 2) = 1.7, V(X) = 0.49

문제 2 확률변수 X 의 분포함수 F(X)가 다음과 같을 때,


]Z]0 ]x < 0g
]]
]] 1 ]0 # x < 1g
F ]xg = [] 4
]
]] 1
]] 2 ]1 # x < 2g
]x $ 2g
]]
]1
\
E ]X g 와 V ]X g 를 같게 하여라.

예제 3 이산확률변수 X 의 확률질량함수가 다음과 같을 때 X 의 기댓값을 구하라.

P ]X = xg = p ]1 - pgx - 1 , x = 1, 2, g , 0 < p < 1

246 Ⅵ 통계
풀이 확률변수 X 의 기댓값은
E ]X g = { x : P ]X = xg = { x : p ]1 - pg
3 3
x-1

x=1 x=1

이고, 이 무한급수의 부분합을 S n 라고 하면

{ x : p ]1 - pg
n
x-1
Sn =
x=1

]1 - pg S n = { x : p ]1 - pg
n
x

x=1

이다. 그러므로 위의 식에서 아래의 식을 빼면

61 - ]1 - pg@ S n = p + p ]1 - pg + p ]1 - pg2 + g + p ]1 - pgn - 1

-np ]1 - pgn

이고, 이다.

이므로

1
E (X) = nlim
"3
SSn = p
1
S답= p

문제 3 동전을 세 번 던져서 나오는 앞면의 수를 a 라고 하고, 뒷면의 수를 b 라고 하자.

a 와 b 를 비교하여 작지 않은 값을 확률변수 X 라고 할 때, X 의 분산을 구하라.

이제 이산확률변수 X 와 두 상수 a , b 에 대하여 확률변수 Y = aX + b 의 평


균, 분산, 표준편차를 구하여 보자.
X 가 확률변수이므로 aX + b 도 확률변수이다. 확률변수 X 의 확률분포표가
다음과 같으므로

X x1 x2 x3 g xn 합계
P ]X = x ig p1 p2 p3 g pn 1

확률변수 Y = aX + b 의 확률분포표는 아래와 같다.

Y ax 1 + b ax 2 + b ax 3 + b g ax n + b 합계
P ]Y = y ig p1 p2 p3 g pn 1

확률변수 Y = aX + b 의 평균과 분산, 표준편차는 각각 다음과 같다.

E ]Y g = aE]]ax
X gi + bg p i = a { x i p i + b { p i
n n n n
{y p i i ={
=
i=1 i=1 i=1 i=1

1. 확률분포 247
V ]Y g = { 6y - E ]Y g@2 p i
n

i
i=1

{ 6]ax + bg - ]aE ]X g + bg@2 p i


n

= i
i=1

= a 2 { 6x i - E ]X g@2 p i
n

i=1

= a V ]X g
2

v ]Y g = V ]Y g = a V ]X g = a v ]X g
2

평균, 분산, 표준편차의 성질


❶ E(aX + b) = aE(X) + b

❷ V ]aX + bg = a V ]X g
2

❸ v ]aX + bg = a v ]X g

이산확률변수일 때, 위의 성질이 성립함을 보였지만 이 성질은 모든 확률변수일


때도 성립한다.

예제 4 확률변수 X 의 평균과 분산이 E ]X g = 5 , V ]X g = 20 일 때, 다음 확률

변수의 평균과 분산을 구하라.

-2X + 5

풀이 

E ]-2X + 5g = -2 E ]X g + 5 = -5
V ]-2X + 5g = ]-2g2 V ]X g = 80
답 평균 -5, 분산 80

문제 4 확률변수 X 에 대하여 확률변수 Y = -2X + 4 의 평균과 분산이

E ]Y g = -12 , V(Y)=48일 때, 확률변수 X 의 평균과 분산을 구하라.

MEMO

248 Ⅵ 통계
이항분포
04 학습 목표
• 이항분포를 이해하고, 이를 활용할 수 있다.

이항분포
한 번의 시행에서 사건 A 가 일어날 확률이 p 로 일정할 때, n 번의 독립시행에
서 사건 A 가 일어나는 횟수를 X 라고 하면 X 는 0 , 1 , 2 , g , n 의 값을 가지
는 이산확률변수이다.이때 독립시행의 정리에 의하여 확률변수 X 의 확률질량함
수는
P ]X = xg = n C x p ]1 - pgn - x (단, x = 0, 1, 2, g, n )
x

이와 같은 확률분포를 이항분포라고 하며, 이것을 기호로


B ]n, pg
와 같이 나타낸다. 여기서 n 은 시행 횟수이고, p 는 각 시행에서 사건 A 가 일어날
확률이다. B ]n, pg 의 B 는 Binomial Distribution (이항분포)의 첫 글자이다.

예제 1 한 개의 주사위를 4 번 던져서 1 또는 3 의 눈이 나온 횟수를 확률변수 X 라

고 할 때, 다음을 구하라.
(1) 확률변수 X 의 확률질량함수 (2) P ]X = 2g

풀이 
1
(1) 한 개의 주사위를 4 번 던져서 1 또는 3 의 눈이 나올 확률은 이므로 확률변수 X
3
는 이항분포 B b 4,
1l
을 따른다. 따라서 확률변수 X 의 확률질량함수는
3
1 x 2 4-x ]
P ]X = xg = 4 C x b l b l x = 0, 1, 2, 3, 4g
3 3

(2) P ]X = 2g = 4 C 2 b 1 l b 2 l 8
2 4-2
=
3 3 27

-]X
답 (1) P ]X = xg = n C x p ]1 P pgn= 2]gx= 0,21b, 2,l3b, 4gl
-xx 1 2
2 4-2
8
=4 C =
(2)
3 3 27

문제 1 어느 자동차 보험 회사에 전화하는 사람들 중에서 실제로 자동차 보험에 가입하는

사람은 30% 라고 한다. 이 보험 회사에 전화한 5 명의 사람 중에서 보험에 가입한 사람이

3 명일 확률을 구하라.

1. 확률분포 249
이제 확률변수 X 가 이항분포 B ]n, pg 를 따를 때, 평균과 분산을 구해 보자.
확률변수 X 가 이항분포 B ]n, pg 를 따를 때,
P ]X = xg = n C x p ]1 - pgn - x (단, x = 0, 1, 2, g, n )
x

이고, 0 # P ]X = 0g = 0 이므로, 평균은

E ]X g = C x p ]1 - pgn - x
n
{ x: n
x

x=1

여기서

n! ]n - 1g !
x! ]n - xg ! ]x - 1g ! ]n - xg !
x : n Cx = x : = n:

]n - 1g !
]x - 1g ! "]n - 1g - ]x - 1g, !
= n:

= n : n-1 Cx-1
이므로

E ]X g = C x - 1 p ]1 - pgn - x
n
{ n: n-1
x

x=1

]1 - pg]n - 1g-]x - 1g
n

= np : { n-1 Cx-1 p
x-1

x=1

=np{ p + (1 - p)}n-1 = np
또한

E ]X g = : n C x p ]1 - pgn - x
n
2
{x 2 x

x=1

{ "x ]x - 1g + x, : C x p x ]1 - pgn - x
n

= n
x=1
2

{ x ]x - 1g : C x p x ]1 - pgn - x + C x p x ]1 - pgn - x
n n

= n { x: n
x=2 x=1

{ x ]x - 1g : C x p x ]1 - pgn - x + E ]X g
n

= n
x=2

여기서

x ]x - 1g : n C x p ]1 - pgn - x = n ]n - 1g p : n - 2 C x - 2 p ]1 - pgn - x
x 2 x-2

이므로

{ x ]x - 1g : C x p ]1 - pgn - x
n
x
n
2
x=1

= n ]n - 1g p : ]1 - pg
n n-x
2
{ n-2 Cx-2 p
x-2

x=2

= n(n - 1)p { p + (1 - p)}n - 2 = n(n - 1) p2


2

따라서 분산은 다음과 같다.


V(X) = E(X2) - {E(X)}2 = np(1 - p)
이다. 따라서 이항분포의 평균, 분산, 표준편차는 다음과 같다.

250 Ⅵ 통계
이항분포의 평균, 분산, 표준편차
확률변수 X 가 이항분포 B ]n, pg 를 따를 때,

❶ E ]X g = np

❷ V ]X g = np ]1 - pg

❸ v ]X g = np ]1 - pg

예제 2 확률변수 X 가 이항분포 B b 20, 1 l 를 따른다고 할 때,


2

{ ]x - 2xg : 20 C x b l
20
2 1 20
x=0 2
의 값을 구하라.

확률변수 X 는 이항분포 B b 20,


1 l 을 따르므로 의 확률질량함수는
풀이 X
2

P ]X = xg = 20 C x b l b l = 20 C x b l
1 x 1 20 - x 1 20
2 2 2
이고, X 의 평균과 분산은 각각

E ]X g = np = 20 :
1
= 10
2 ,

V ]X g = np ]1 - pg = 20 :
1 1
: =5
2 2
이다. 또한

E ]X g = V ]X g + 6E ]X g@2 = 105
2

이다. 이제

{ ]x - 2xg : 20 C x b l = : 20 C x b l - 2 { x : 20 C x b l
20 20 20
1 20 1 20 1 20
2

2
{x 2

2 2
x=0 x=0 x=0

= E ]X g - 2 E ]X g
2

= 105 - 2·10 = 85
답 85

문제 2 한 개의 주사위를 360 회 던질 때, 5 의 눈이 나오는 횟수의 평균과 분산을 구하라.

1. 확률분포 251
이항분포 B ]n, pg 에서 n 의 값이 커지면 확률분 n 10 30 50
P(X=0) 0.1615 0.0042 0.0001
포의 그래프는 어떤 모양이 되는지 알아보자.
P(X=1) 0.3230 0.0253 0.0011
한 개의 주사위를 n 번 던질 때, 2 의 눈이 나오 P(X=2) 0.2907 0.0733 0.0054
P(X=3) 0.1550 0.1368 0.0172
는 횟수를 X 라고 하자. 확률변수 X 는 이항분포 P(X=4) 0.0543 0.1847 0.0405

B b n, l 을 따르고, n = 10 , 30 , 50인 경우의


1 P(X=5) 0.0130 0.1921 0.0745
6 P(X=6) 0.0022 0.1601 0.1118

P ]X = xg 의 값은 오른쪽 표와 같다. 또 이 표를 P(X=7) 0.0002 0.1098 0.1405


P(X=8) 0.0000 0.0631 0.1510
그래프로 나타내면 다음과 같다. P(X=9) … 0.0309 0.1410
P(X=10) … 0.0130 0.1156
P(X=11) … 0.0047 0.0841
P(X=x) n=10
P(X=12) … 0.0015 0.0546
0.3
P(X=13) … 0.0004 0.0319
0.2 P(X=14) … 0.0001 0.0169
n=30
n=50 P(X=15) … 0.0000 0.0081
0.1 P(X=16) … … 0.0035
P(X=17) … … 0.0014
5 10 15 20 x P(X=18) … … 0.0005
P(X=19) … … 0.0002
P(X=20) … … 0.0001
P(X=21) … … 0.0000
P(X=22) … … …

위의 그래프에서 볼 수 있듯이 이항분포 B ]n, pg 를 따르는 확률분포의 그래프는


n 이 커질수록 좌우가 대칭인 모양의 곡선에 근접해진다.

예제 3 한 개의 주사위를 50 회 던져서 3 의 눈이 3 회 이하로 나올 확률을 위의 표를


이용하여 구하라.

풀이 한 개의 주사위를 50 회 던져서 3 의 눈이 나오는 횟수를 확률변수 X 라고

하면, X 는 이항분포 B b 50, P ]X # 3g 이다.


1 l 을 따르고 구하고자 하는 확률은
6
위의 표를 이용하면 다음과 같다.

P ]X # 3g = P ]X = 0g + P ]X = 1g + P ]X = 2g + P ]X = 3g
= 0.0001 + 0.0011 + 0.0054 + 0.0172
= 0.0238
이다.
답 0.0238

문제 3 한 개의 주사위를 30 회 던질 때, 5 의 눈이 4 회 이상으로 나올 확률을 위의 표를

이용하여 구하라.

252 Ⅵ 통계
큰수의 법칙
05 학습 목표
• 큰수의 법칙을 이해하고 이를 활용할 수 있다.

한 개의 주사위를 n 회 던지는 시행에서 1 의 눈이 나오는 횟수를 X 라고 할 때,


1
상대도수 X 와 한 개의 주사위를 1 회 던질 때 1 의 눈이 나올 수학적 확률 과의
n 6
관계를 알아보자.
확률변수 X 는 이항분포 B b n, l 을 따르며, X 의 확률질량함수는 다음과 같다.
1
6

P ]X = xg = nnnC xxx b l b l ]x = 0, 1, 2, 3, g, ng
x n-x
1 xx 5 nn--xx
6 6
위의 표에서 n = 10, 30, 50 일 때, P ]X = xg 의 근삿값을 알 수 있다.
이때, 시행의 횟수 n 이 커짐에 따라 1 의 눈이 나오는 상대도수 X 와 수학적 확
n
의 차가 0.1 보다 작을 확률 P d n - < 0.1 n 이 시행 횟수 n 이 커질 때
1 X 1

6 6
어떻게 변화하는지 알아보자.

Pd n - < 0.1 n = P b -
X 1 1 X 1 1 l
< n - <
6 10 6 10

= Pb
n 4n l
<X<
15 15
이므로, 위의 표에 의해 다음이 성립한다.
(ⅰ) n = 10 일 때,

Pd < 0.1 n = P b < X < l


X 1 2 8
-
10 6 3 3
= P ]X = 1g + P ]X = 2g = 0.6137
(ⅱ) n = 30 일 때,

Pd < 0.1 n = P ]2 < X < 8g = { P ]X = kg


7
X 1
-
n = 10
30 6 k=3

= 0.7835
(ⅲ) n = 50 일 때,

Pd < 0.1 n = P b = { P ]X -
= kkgg
X 1 10 40 l 7
13

- <X<
n = 10
50 6 3 3 k=3 4

= 0.9455

이상에서 n 의 값이 커질 때 P d X n - 6 < 0.1 n 은 1 에 가까워짐을 알 수 있


1

다. 즉, 수학적 확률과 통계적 확률의 차가 0.1 보다 작아지는 것은 n 의 값이 커질

1. 확률분포 253
수록 확실해진다. 이 사실로부터 충분히 많은 시행을 하게 되면 0.1 뿐만이 아니고
0.01 , 0.001 , g 로 바뀌어도 성립하리라는 예측이 가능하다.

일반적으로 어떤 시행에서 사건 A 가 일어날 수학적 확률이 p 일 때, n 번의 독


립시행에서 사건 A 가 일어나는 상대도수는 n 이 커짐에 따라 p 를 중심으로 아무
리 작은 범위를 잡아도 상대도수 X 가 그 안에 들어갈 확률이 1 에 한없이 가까워
n
짐을 알 수 있다. 이것을 큰수의 법칙이라고 한다.
이상을 정리하면 다음과 같다.

큰수의 법칙
매회의 시행에서 A 가 일어날 확률이 p 일 때, n 번의 독립 시행에서 사건 A 가 일
어나는 횟수를 X 라고 하면, 임의의 양수 h 에 대하여

limP c n - p < h m = 1
X
n"3

이다.

큰수의 법칙에 의하여 상대도수의 극한값인 통계적 확률은 수학적 확률과 같음을
알 수 있다. 또한 수학적 확률을 구하기 곤란할 때, 충분히 큰 자연수 n 에 대하여
상대도수 X 를 그 사건의 확률로 사용할 수 있다.
n

예제 1 앞의 표를 이용하여 n = 30 일 때, P d X - 1 < 0.05 n 의 값을 구하


n 6
여라.

풀이 n = 30 이면

Pd < 0.05 n = P b < X <


X 1 7 13 l
-
10 6 2 2
= P ]X = 4g + P ]X = 5g + P ]X = 6g
= 0.1847 + 0.1921 + 0.1601 = 0.5369
답 0.5369

문제 1 앞의 표를 이용하여 n = 50 일 때,

Pd n - < 0.05 n
X 1
6
의 값을 구하고, 예제 1의 결과와 비교하라.

254 Ⅵ 통계
연속확률변수와 확률밀도함수
06 학습 목표
• 연속확률변수를 이해한다.
• 확률밀도함수의 뜻을 알고 이를 활용할 수 있다.

앞 절에서는 동전의 앞면의 개수, 주사위의 눈과 같이 확률변수가 가질 수 있는


값이 유한개이거나 자연수와 같이 셀 수 있는 이산확률변수에 대하여 알아보았다.
이제 길이, 시간, 무게 등과 같이 어느 구간 내의 모든 실수 값을 가지는 확률변수와
그 확률분포에 대하여 알아보자.

이처럼 확률변수 X 가 구간 6a, b@ 사이의 모든 실수 값을 가지면 X 를 연속확률


변수라고 한다. 또한 구간 6a, b@ 에서 정의된 함수 f ]xg 가 다음의 세 조건을 만족할
때, 함수 f ]xg 를 연속확률변수 X 의 확률밀도함수라 하고, X 는 확률밀도함수가
f ]xg 인 확률분포를 따른다고 한다.

확률밀도함수의 성질은 다음과 같다.

확률밀도함수의 성질
연속확률변수 X 가 구간 6a, b@ 에 속하는 모든 실수 값 P (a # X # b)

을 가지면 확률밀도함수 f ]xg 는 다음을 만족한다. y=f(x)

❶ f ]xg $ 0

f ]xg dx = 1
aa bb x
#
b

a

❸ a # a # b # b & P ]a # X # bg = # f ]xg dx
b

연속확률변수 X 가 구간 6a, b@ 에 속하는 모든 실수 값을 가지며 X 의 확률밀도


함수가 f ]xg 이면 다음을 만족한다. 구간 6a, b@ 에 속하는 임의의 실수 a에 대하여

P ]X = ag = # f ]xg dx = 0
a

이다. 따라서
P ]a # X # bg = P ]a # X < bg + P ]X = bg = P ]a # X < bg
이고, 마찬가지로
P ]a # X # bg = P ]a # X < bg =
= PP]]aa <
<X < bg = P ]a < X < bg
X#
이 성립한다.

1. 확률분포 255
예제 1 연속확률변수 X 의 확률밀도함수가 f ]xg = kx ]1 # x # 3g 일 때,

P ]1 # X # 2g 을 구하라.

풀이 확률밀도함수의 성질에 의하여

f ]xg dx = kxdx = : x D = 4k
k 23
# #
3 3
1=
1 1 2 1
1
이므로 k =
4
따라서 P ]1 # X # 2g = # x 3
2
dx = 이다.
1 4 8

P ]1 # X # 2g =
x 답 3
#
2
dx =
1 4 8

문제 1 다음 함수 f ]xg 중에서 확률밀도함수가 되는 것을 찾고, 그 이유를 말하라.

(1) f ]xg = 2 - x ]0 # x # 1g (2) f ]xg = x ]-1 # x # 1g

(3) f ]xg = 2 b # x # 1l (4) f ]xg = 2 - x ]1 # x # 3g


1
2

연속확률변수 X 가 구간 6a, b@ 의 모든 실수 값을 가지며, X 의 확률밀도함수


가 f ]xg 이면 X 의 평균, 분산, 표준편차를 각각 다음과 같이 정의한다.

연속확률변수 X 의 평균, 분산, 표준편차


연속확률변수 X 의 평균이 E ]X g = m 이면

❶ E ]X g = # xf ]xg dx
b

❷ V ]X g = E 6]X - mg2@ = # ]x - mg2 f ]xg dx


b

v]X g =
❸a V ]X g 이다.

연속확률변수 X 에 대하여 V ]X g = E ]X g - 6E ]X g@2 임을 보이라.


2
예제 2

풀이 연속확률변수 X 가 구간 6a, b@ 의 모든 실수 값을 가지며, X 의 확률밀도


함수가 f ]xg 이라 하자.

V ]X g = E 6]X - mg2@ = # ]x - mg2 f ]xg dx


b

256 Ⅵ 통계
# ]x 2 - 2mx + m 2g f ]xg dx
b
=
a

# x f ]xg dx - 2m # xf ]xg dx + m # f ]xg dx


b b b
2 2
=
a a a

= E ]X g - 2m + m
2 2 2

= E ]X g - 6E ]X g@2
2

답 풀이 참조

연속확률변수 X 의 확률밀도함수가 f ]xg = x ]-2 # x # 1g 일


1 2
예제 3
3
때, X 의 평균과 분산을 구하라.

풀이 연속확률변수 X 의 평균은

E ]X g = xf ]xg dx = x dx = : x D
1 2 1 41
# #
b 1
x:
a -2 3 12 -2

5
=-
4
이고,
E ]X g = x dx = : x D
1 2 1 51
#
2 1 2
x :
-2 3 15 -2

1 + 32 11
=
15 5
이므로 연속확률변수 X 의 분산은

V ]X g = E ]X g - 6E ]X g@2 = - b- l
2 11 5 2
5 4
51
=
80
이다.

답 풀이 참조

문제 2 연속확률변수 X 와 임의의 상수 a , b 에 대하여 다음이 성립함을 보이라.

(1) E ]aX + bg = a E ]X g + b (2) V ]aX + bg = a 2 V ]X g

MEMO

1. 확률분포 257
정규분포
07 학습 목표
• 정규분포를 이해하고 이를 활용할 수 있다.

강수량, 시험 점수, 신생아의 체중 등과 같은 자연 현상이나 사회 현상을 관찰하여


얻은 자료의 상대도수를 계급의 크기를 작게 하여 히스토그램으로 나타내면 자료의
개수가 커질수록 아래 그림과 같이 어떤 값을 중심으로 대칭적으로 분포하며 중심에
서 멀어질수록 도수가 작아지는 종 모양의 곡선에 가까워진다.

연속확률변수 X 가 모든 실수 값을 가지고, 그 확률밀도함수가


]x - mg
f ]xg = ]-3 < x < 3g
2
1 -
e 2v 2

2r v

일 때, 확률변수 X 는 정규분포를 따른다고 하고 기호로

N _ m, v i
2

과 같이 나타낸다. 이때, m 과 v ]v > 0g 는 상수이며 각각 확률변수 X 의 평균과


표준편차이다.
오른쪽 그림은 함수
]x - mg
f ]xg =
2
1 -
e 2v 2

]x - mg
f ]xg =
1 -
2
2r v
e 2v 2

2r v

의 그래프이다. 여기서 e 는 e = 2.718281828g 인 무


리수이다.
m x

정규분포의 확률밀도함수의 그래프는 평균과 표준편차의 값에 따라 다음과 같은


성질을 갖는다.

[그림 1]은 표준편차는 같지만 평균이 다른 세 정규분포의 확률밀도함수의 그래프

이다. 세 곡선의 모양은 같고 대칭축의 위치만 다르다는 것을 알 수 있다.


[그림 2]는 평균은 같지만 표준편차가 다른 세 정규분포의 확률밀도함수의 그래

프이다. 표준편차가 클수록 곡선의 가운데 부분은 낮고 옆으로 퍼진다는 것을 알 수


있다.

258 Ⅵ 통계
f(x) f(x)
1 m=0
3 2 2
m=2 v= 3
2rv m=5 2 2r 3
1
2r
1 v=1
2 2r v=2
O 2 5 x O 2 4 6 8 10 x

[그림 1] [그림 2]

일반적으로 정규분포 N _m, v i 을 따르는 확률변수 X 의 확률밀도함수 f ]xg 는


2

다음과 같은 특징이 있다.

(1) 직선 x = m 에 대하여 대칭이다.

1
(2) x = m 일 때 최댓값 을 갖는다.
2r v
(3) 이 곡선과 x 축 사이의 넓이는 1 이다. 즉,

# f ]xg dx = 1 이다.
3

-3

확률변수 X 가 정규분포 N _4, 2 i 을 따 P ]m # X # ag


2
예제 1 a
를 때, 오른쪽 표를 이용하여 다음을 구하라. m + 0.5v 0.1915
= ]X $ 3)
(1)PP(X m - 0.5 : vg m+v 0.3413

F ]xgF=
](2)
g P(2
xP ]X P#]X
= xg# 7)
X xg m + 1.5v 0.4332

풀이

(1) P ]X $ 3g = P b X $ 4 - : 2l
1
2
 = P ]X $ m - 0.5 : vg
= 0.5 + P ]m # X # m + 0.5 : vg
= 0.5 + 0.1915 = 0.6915

F ]xg = ]xPgP(2
F(2) ]=
X# P ]X
xg # 7)=
xg P(4 - 2 ≤ X ≤ 4 + 1.5•2)
= P ]m - v # X # m + 1.5•v)
2 : vg
= P ]m # X # m + vg + P ]m # X # m + 1.5•v)
2 : vg
= 0.3413 + 0.4332 = 0.7745

답 (1) 0.6915 (2) 0.7745

1. 확률분포 259
확률변수 X 가 정규분포 N _m, v 2i 을 따르
P ]m # X # ag
문제
1
a
고, P ]X $ 55g = P ]X # 65g , m + 0.5v 0.1915
E ]X g = 3616 을 만족한다. 오른쪽 표를 이용하여
2
m+v 0.3413

P ]X $ 54g 의 값을 구하라. m + 1.5v 0.4332

평균이 0 이고 표준편차가 1 인 정규분포를 표준정규분포라 하고, 이것을 기호로


N ]0, 1g
과 같이 나타낸다.
확률변수 Z 가 표준정규분포 N ]0, 1g 을 따를 때, Z 의 확률밀도함수는 다음과 같다.

f ]zg = ]-3 < z < 3g


2
1 - z2
e
2r

확률변수 X 가 정규분포 N _m, v i 를 따를 때, 확률변수


2

X-m
Z= v
는 표준정규분포 N ]0, 1g 을 따른다.

이와 같이 정규분포를 따르는 확률변수 X 를 표준정규분포에 따르는 확률변수


Z 로 변환하는 것을 표준화한다고 한다.
이상을 정리하면 다음과 같다.

확률변수의 표준화
확률변수 X 가 정규분포 N _m, v 2i 을 따를 때,

N ]0, 1g 을 따른다.
❶ 확률변수 Z =
X - m 은 표준정규분포
v

❷ P ]a # X # bg = P b
a-m b-ml
v #Z# v

임의의 양수 a 에 대하여 0 # Z # a 일 확률 f(z)

P ]0 # Z # ag 는

P ]0 # Z # ag =
2
1 - z2
#
a
e dz
0 2r
O a z
이고 오른쪽 그림에서 색칠된 부분의 넓이와 같다.

260 Ⅵ 통계
확률변수 Z 가 표준정규분포 N ]0, 1g 을 따를 z 0.00 … 0.06 …
때, 확률 P ]0 # Z # ag 는 부록에 있는 표준정


규분포표를 이용하여 구할 수 있다. 예를 들어, 1.4 0.4279
확률 P ]0 # Z # 1.46g 은 표준정규분포표의 왼


쪽에 있는 수의 열에서 1.4 를 찾은 다음 위쪽에
있는 수의 행에서 0.06 을 찾아 행과 열이 만나는 곳의 수를 찾으면 된다. 즉,

P ]0 # Z # 1.46g = 0.4279
이다.

예제 2 확률변수 X 가 정규분포 N _m, v 2i 을 따를 때, 확률변수


X-m
Z= v
에 대하여 E ]Z g = 0 임을 보이라.

E ]Z g = E b = v E ]X g - v = 0
풀이
X-ml 1 m
v
답 풀이 참조

문제 2 예제 2에서 확률변수 Z 의 분산을 구하라.

예제 3 확률변수 Z 가 표준정규분포 N ]0, 1g 을 따를 때, 표준정규분포표를 이용하

여 확률 P ]-1.65 # Z # 1.24g 를 구하라.

풀이 f(z)

= P ]-1.65 # Z # 0g + P ]0 # Z # 1.24g
= P ]0 # Z # 1.65g + P ]0 # Z # 1.24g
= 0.8430
-1.65 O 1.24 z

답 풀이 참조

문제 3 확률변수 Z 가 표준정규분포 N ]0, 1g 을 따를 때, 확률 P ]Z 2 + Z - 2 $ 0g

을 구하라.

1. 확률분포 261
확률변수 X 가 정규분포 N _m, v i 을 따를 때,
2

X - m 은 표준정규분포 N ]0, 1g 을 따르
Z= v
f(x)
므로 다음을 알 수 있다.

P ]m - v # X # m + vg = P ]-1 # Z # 1g
m-2v m m+2v x
= 2 P ]0 # Z # 1g = 2 # 0.3413 m-3v m-v m+v m+3v

= 0.6826 ]] 68.3%g
68.3%
95.4%
99.7%
같은 방법으로
P ]m - 2v # X # m + 2vg = 0.9544 ]] 95.4%g
P ]m - 3v # X # m + 3vg = 0.9974 ]] 99.7%g
임을 알 수 있다.

확률변수 X 가 정규분포 N _m, v i 을 따를 때,


2
예제 4
P ]m - kv # X # m + kvg = 0.9902 를 만족하는 상수 k 의 값을 구하라.

풀이 X - m 라고 하면
Z= v
P ]m - kv # X # m + kvg = 0.9902 에서

P b -k # # k l = 0.9902 이고, P ]-k # Z # kg = 0.9902 이다.


X-m
v
그러므로 P ]0 # Z # kg = 0.4951 이다. 따라서 k = 2.58 다.

답 풀이 참조

문제 4 어느 고등학교 학생들의 키는 평균이 169.8 cm 이고, 표준편차가 4 cm 인

정규분포를 따른다고 한다. 키가 173.0 cm 이상인 학생들은 전체의 몇 % 인지 구하라.

MEMO

262 Ⅵ 통계
이항분포와 정규분포의 관계
08 학습 목표
• 이항분포와 정규분포의 관계를 이해하고 이를 활용할 수 있다.

이항분포 B ]n, pg 에서 p 의 값을 고정시키고 n 의 값을 증가시킬 때, 확률질량함


수의 그래프 모양이 어떻게 변하는지 알아보자.
[그림 3]은 주사위를 던지는 횟수가 n = 10, 30, 50일 때, 이항분포를 그래프로 나
타낸 것이고, 점들을 부드럽게 연결하면[그림 4] 를 얻을 수 있다.
일반적으로 이항분포 B ]n, pg 의 그래프는 n 이 커지면 np 를 평균, np ]1 - pg 를
분산으로 하는 정규분포 N ]np, np ]1 - pgg 의 곡선에 가까워진다는 것이 알려져 있다.

P(X=x) n=10 P(X=x) n=10


0.3 0.3

0.2 n=30 0.2 n=30


n=50 n=50
0.1 0.1

O 5 10 15 20 x O x

[그림 3] [그림 4]

따라서 다음과 같은 성질이 성립한다.

이항분포와 정규분포의 관계
확률변수 X 가 이항분포 B ]n, pg 를 따르고 n 이 충분히 클 때, X 는 근사적으로

정규분포 N ]np, np ]1 - pgg 를 따른다.

보통 np $ 5 이고 n ]1 - pg $ 5 를 만족할 때 n 을 충분히 큰 값으로 생각한다.

예제 1 한 개의 주사위를 450 회 던졌을 때, 3 의 z P ]0 # Z # zg


배수의 눈이 나오는 횟수가 130 회 이상 170 회 이하 1.5 0.4332
일 확률을 구하라.
2.0 0.4773.
20

2.5 0.4938

1. 확률분포 263
풀이 450 회의 시행에서 3 의 배수의 눈이 나오는 횟수를 확률변수 X 라고 하면

X 는 이항분포 B b 450,
1 l 을 따른다.
3
따라서 평균 m 과 표준편차 v 는

1 1 2
m = 450 # = 150 , v = 450 # # = 10
3 3 3
n 이 충분히 크므로 X 는 정규분포 N _150, 10 2i 을 따른다. 따라서 구하는 확률은

P ]130 # X # 170g = P b
130 - 150 170 - 150 l
#Z#
10 10
= P ]-2 # Z # 2g = 2 P ]0 # Z # 2g
= 2 # 0.4772 = 0.9544
답 0.9544

문제
1 어떤 회사의 제품 가운데 10% 가 불량품이라고 한다. 이 제품 10000 개 가운데

970 개 이하가 불량품일 확률을 구하라.

예제 2 오른쪽 표준정규분포표를 이용하여 한 개의 z P ]0 # Z # zg


주사위를 180 회 던질 때, 1 의 눈이 20 회 이하가 나 1.0 0.3413
2.0 0.4772
올 확률을 구하라. 3.0 0.4987

풀이 1 의 눈이 나오는 횟수를 확률변수 X 라 하면 X 는 이항분포


B b 180, l
1
6
을 따르므로 근사적으로 정규분포

N b 180 # , 180 # # l
1 1 5
6 6 6
을 따른다. 즉, X 는 정규분포 N _30, 5 i 을 따르므로,
2

P ]X # 20g = P b = P ]Z # -2g
X - 30 20 - 30 l
#
5 5
= 0.5 - P ]0 # Z # 2g = 0.0228
답 풀이 참조

문제 2 어느 고등학교 학생 중 25% 가 안경을 쓰고 있다고 한다. 이 학교 학생 48 명을

임의로 뽑을 때, 안경을 쓴 학생이 18 명 이상일 확률을 구하라.

264 Ⅵ 통계
중단원 평가

1 한 번의 시행에서 사건 A 가 일어나면 2 점, 그렇지 않으면 1 점을 얻는다고 한다. 이 시행에


서 얻을 수 있는 점수의 표준편차가 최대일 때 사건 A 가 일어날 확률을 구하라.

2 확률변수 X 가 이항분포 B ]20, pg 를 따르고,

P ]X = 0g =
1 ]
P X = 1g
5
일 때, E ]7X + 1g 와 V ]-5X - 2g 의 값을 구하라. (단, 0 < p < 1 )

3 확률변수 X 의 확률분포가 오른쪽 표와 X -1 0 1 합계

P ]X = xg
같을 때, 다음을 구하라. a
a a
2
1
2
(1) E ]X g
2n
(2) V ]X g

4 오른쪽 표준정규분포표를 이용하여 z P ]0 # Z # zg

Cx b l b l
170 450 -x
1x
2 k
{ 450 3 3
0.75 0.2734
x = 140 1.00 0.3413
의 값을 구하라. 1.25 0.3944
1.50 0.4332
2.00 0.4772

5 환자가 어떤 병으로부터 치유될 확률이 0.4 라고 한다. 이 병에 감염된 환자 600 명 중 치유될 환


자의 수가 보다 작을 확률을 구하라.

6 확률밀도함수가 f ]xg = ax ]0 # x # bg 로 주어지는 확률변수 X 의 분산이 5 일 때, 확률


P ]0 # X # 3g 의 값을 구하라.

1. 확률분포 265
7 P ]0 # Z # zg
한 개의 주사위를 180 번 던질 때, 5 가 나온 횟수를 확률변수 z
X 라 하자. 오른쪽 표준정규분포표를 이용하여 1 0.3413
P ]X # kg = 0.0228 를 만족시키는 상수 k 의 값을 구하라. 2 0.4772

3 0.4987

8 모양과 크기가 같은 흰 구슬 6 개, 붉은 구슬 4 개가 들어 있는 주머니가 있다. 이 구슬들을 잘


섞은 후, 동시에 3 개의 구슬을 꺼낼 때 다음 물음에 답하라.

(1) 이
 시행을 1 회 할 때, 꺼낸 구슬 중에서 붉은 구슬의 수
를 X 라 하자. X 의 확률질량함수를 구하고 평균과 분
산을 구하라.

(2) 이
 시행을 독립적으로 5 회 반복할 때, 붉은 구슬이 2 개 미만 포함된 경우가 일어난 횟수
를 Y 라 하자. Y 의 확률분포와 평균 E ]Y g 를 구하라.

9 확률밀도함수가 아래와 같이 주어지는 확률변수 X 는 구간 6a, b@ 에서 균일분포를 가진다고


한다.
1
]a # x # bg
f ]xg = * b - a
0 ]x < a, x > bg

어느 정류장에 버스들은 오전 5 시에 시작하여 15 분 간격으로 도착한다. 승객이 버스 정류장


에 도착하는 시간이 오전 7 시와 7 시 30 분 사이에서 균일분포를 따를 때 다음을 구하라.

(1) 버스를 기다리는 시간의 평균과 분산


(2) 버스를 기다리는 시간이 5 분 미만일 확률
(3) 버스를 기다리는 시간이 12 분 이상일 확률

266 Ⅵ 통계
2
통계적 추정
01 모집단과 표본
02 모평균과 표본평균
03 모평균의 추정
04 모비율과 표본비율
05 모비율의 구간추정
06 가설검정

생각 열기
한 개의 주사위를 180 번 던져서 4 의 배수의 눈이 나오는 횟수를 확률변수 X 라 하자. 다음에
답하라.
(1) X 의 평균과 표준편차를 구하라.

(2) 확률변수 X 가 근사적으로 따르는 정규분포를 N ^m, v h 라 할 때, P ]26 # X # 33g 을


2

구하라.
(3) 한 개의 주사위를 180 번 던져서 4 의 배수의 눈이 나오는 횟수가 37 회였다면 이 주사위에
서 4 의 배수의 눈이 나올 확률이 1 이라고 할 수 있는지 생각해 보라.
6

2. 통계적 추정 267
모집단과 표본
01 학습 목표
• 모집단과 표본의 뜻을 안다.

우리나라 전체 인구의 동향을 파악하기 위하여 국민 전체를 대상으로 5 년마다 인


구 조사를 실시하고 있다. 이와 같이 집단 전체를 조사하는 것을 전수조사라고 한다.

그런데 여론 조사와 같이 비용이나 시간 면에서 전수조사가 불가능한 경우도 있


고, 공장에서 생산되는 제품의 수명 조사와 같이 조사를 받은 제품을 상품으로 판매
할 수가 없기 때문에 전수조사가 불가능한 경우도 있다. 이러한 경우에는 조사하고
자 하는 집단으로부터 일부 대상을 뽑아 성질을 조사하고, 그 결과로부터 전체 집단
의 성질을 추측하는 방법이 사용된다. 이러한 방법을 표본조사라고 한다.

표본조사에서 조사하고자 하는 집단 전체를 모집단 모집단


추출 표본
이라고 한다. 그리고 모집단에서 뽑은 대상의 모임을
표본이라 하고, 표본에 포함된 대상의 개수를 표본의
크기라고 한다. 그리고 모집단에서 표본을 뽑는 것을
추측
추출이라고 한다.

표본조사의 목적은 모집단에서 뽑은 표본을 바탕으로 모집단의 특성, 즉 모집단


의 평균 또는 분산, 표준편차 등을 추측하는 데 있다. 이러한 경우에는 표본에서 얻
는 추측값과 모집단의 참값 사이에 차이가 발생하기 마련인데 이 차이를 표본오차라
고 한다.

표본으로부터 모집단의 성질을 잘 추정하려면, 모집단을 대표할 수 있도록 표본


을 치우침 없이 추출해야 한다.
표본 X 1 , X 2 , g , X n 이 서로 독립적이고 각각 모집단과 같은 확률분포를 가
지도록 임의추출될 때, X 1 , X 2 , g , X n 을 모집단의 분포로부터 추출된 크기가
n 인 확률표본(random sample)이라고 한다.
모집단의 분포를 확률밀도함수 f ]xg 로 나타내면, 모집단 f ]xg 로부터의 확률표
본 X 1 , X 2 , g , X n 이란 f ]xg 를 확률밀도함수로 갖는 서로 독립인 확률변수를
뜻한다.

268 Ⅵ 통계
모집단의 평균, 분산, 표준편차를 각각 모평균, 모분산, 모표준편차라 부르고,
이와 같이 모집단의 특징을 나타내는 값을 모수라고 한다.
모수의 참값은 전수조사를 하지 않는 한 알 수 없는 값이다. 따라서, 우리는 이러
한 값을 표본 자료를 이용하여 추정하고자 한다. 이때, 표본의 값을 사용하여 계산
될 수 있는 값을 통계량이라 하고, 통계량의 확률분포를 표본분포라고 한다.

예제 1 모집단의 분포가 아래 표와 같고 이 모집단에서 임의추출한 확률표본 X 1 ,

X 2 에 대하여 X 1 + X 2 의 확률분포를 구하라.

x 0 1 2 합계

f ]xg 0.3 0.5 0.2 1

풀이 확률표본의 정의에 의하여 X 1 , X 2 는 서로 독립이므로 X 1 , X 2 의 확률분


포는 다음과 같다.

X2 X1 0 1 2 합계

0 0.09 0.15 0.06 0.3

1 0.15 0.25 0.10 0.5

2 0.06 0.10 0.04 0.2

합계 0.3 0.5 0.2 1

따라서, X 1 + X 2 의 확률분포를 구하면 다음과 같다.

X1 + X2 0 1 2 3 4 합계

확률 0.09 0.30 0.37 0.20 0.04 1

답 풀이 참조

문제 1 모집단의 분포가 아래 표와 같고 이 모집단에서 임의추출한 확률표본 X 1 , X 2 에

X1 + X2
대하여 의 확률분포를 구하라.
2

x 1 2 3 합계

f ]xg 0.4 0.4 0.2 1

2. 통계적 추정 269
모평균과 표본평균
02 학습 목표
• 모평균과 표본평균의 관계를 이해할 수 있다.

모집단의 어떤 특성을 나타내는 확률변수의 확률분포를 모집단분포라 하고, 그


확률변수의 평균, 분산, 표준편차를 각각 모평균, 모분산, 모표준편차라고 한다.
한편, 어떤 모집단에서 크기가 n 인 표본 X 1, X 2 , g , X n 을 임의추출하였을 때,

X = n ]X 1 + X 2 + g + X ng
1

1 #
_X 1 - X i + _X 2 - X i + g + _X n - X i -
2 2 2 2
S =
n-1
을 각각 표본평균, 표본분산이라 하고, S ]$ 0g 를 표본표준편차라고 한다.

모집단에서 크기가 같은 표본을 임의추출하였을 때, 표본평균 X 는 추출한 표본


에 따라 달라지는 확률변수이다.
예를 들어, 1 , 2 , 3 의 숫자가 각각 적힌 3 개의 공이 들어 있는 주머니에서 복
원 추출로 한 개의 공을 임의추출한다고 하자.

X 1 2 3 합계

P ]X = xg
1 1 1
1
3 3 3

임의추출한 공에 적힌 숫자를 X 라고 하면 확률변수 X 는 위의 표와 같은 모집


단분포를 이룬다.

2
이때, X 의 모평균 m 과 모분산 v 을 구하면 P(X=x)

1 1 1 1
m = 1# +2# +3# = 2 3
3 3 3
2 2 1 2 1 2 1 2 2
v =1 # +2 # +3 # -2 =
3 3 3 3
이다. O 1 2 3 x

이제, 표본평균 X 의 평균과 분산을 구해 보자.


앞의 예제에서 크기가 2 인 표본을 복원 추출할 때, 공에 적힌 숫자의 평균 X 가 가
지는 경우의 수를 살펴보면 다음과 같기 때문에

270 Ⅵ 통계
X 1 1.5 2 2.5 3
]1, 3g
]1, 2g ]2, 3g
]1, 1g ]2, 2g ]3, 3g
]2, 1g ]3, 2g
경우
]3, 1g

X 의 확률분포를 표로 나타내면 다음과 같다.

X 1 1.5 2 2.5 3 합계

P ]X = x g
1 2 3 2 1
9 1
9 9 9 9

또한, X 의 확률질량함수 P ]X = x g 의 그래프 P(X=x )


는 오른쪽 그림과 같다. 이때, X 의 평균과 분산을 1
3
구하면 2
9
1
E ]X g = 1 #
1 2 1 9
+ 1.5 # + g + 3 # = 2
9 9 9 x
O 1 2 3

V ]X g = 1 #
2 1 2 2 2 1 2 1
+ 1.5 # + g + 3 # - 2 =
9 9 9 3
1
따라서 표본평균 X 의 평균은 2 로 모평균 2 와 같고, 표본평균 X 의 분산
3
2
은 모분산 를 표본의 크기 2 로 나눈 것과 같다.
3
일반적으로 다음과 같은 성질이 성립한다.

표본평균의 성질과 분포
모평균 m , 모표준편차 v 인 모집단에서 크기가 n 인 표본을 임의추출할 때,

표본평균 X 에 대하여 다음이 성립한다.

❶ E ]X g = m , V ]X g = , v ]X g =
2
v v
n n

❷ 모집단이 정규분포를 따르면 표본의 크기 n에 관계없이 X 는 정규분포 N c m,


v m을
2

n
따른다.

 집단의 분포가 정규분포가 아닐 때에도 표본의 크기 n 이 충분히 크면 X 의 분포는


❸모

정규분포 N c m,
v m 에 가까워진다.
2

2. 통계적 추정 271
이 이론을 중심극한정리(Central Limit Theorem)이라고 한다.

n 이 충분히 크면 표본평균 X 는 근사적으로 정규분포 N c m, vn m 을 따르므로,


2

이를 표준화시키면
X-m
v
n

는 근사적으로 표준정규분포 N ]0, 1g 을 따른다.

예제 1 어느 조경업체에서 파는 특정 묘목의 길이는 평균 50 cm , 분산이 4 cm 인


정규분포를 따른다고 한다. 이 중 25 그루를 임의추출할 때, 다음을 구하라.

(1) 표본평균 X 의 평균과 분산

(2) P ]X $ 51g

풀이

(1) 표본평균 X 의 평균과 분산은

E ]X g = 50 , V ]X g = =b l
4 2 2
25 5

(2) X 는 정규분포 N c 50, b


2 l2 m 을 따르므로 X - 50 이라고 하면 확률변수
Z=
5 2
5

Z 는 표준정규분포 N ]0, 1g 을 따른다.


P ]X $ 51g 의 값은

P ]X $ 51g = P Z $ ] g
51 - 50
f 2 p = P Z $ 2.5
5

= 0.5 - P ]0 # Z # 2.5g = 0.5 - 0.4938 = 0.0062


답 0.0062

문제 1 어느 도시에 살고 있는 봉급생활자의 연간 소득 분포는 평균이 2000 만 원이고,

표준편차가 500 만 원이라고 한다. 이들 중 100 명을 임의로 추출할 때 그 평균이 2100

만원 이상일 확률을 구하라.

272 Ⅵ 통계
모평균의 추정
03 학습 목표
• 구간추정의 뜻을 알고 모평균에 대한 구간추정을 할 수 있다.

과자의 실제 중량의 모집단의 분포는 이 회사가 생산하는 모든 과자 봉지를 뜯어


내용물의 무게를 재지 않는 한 알 수가 없다. 따라서, 몇 개의 과자 봉지를 표본으로
추출하여 이의 중량을 잰 결과를 바탕으로 모집단의 분포를 추측하는 방법이 필요하
다. 그런데 표본을 이용한 방법은 전수조사를 하지 않고 모수를 추정하기 때문에 항
상 오차를 수반하게 된다. 모수를 추정하는 방법에는 단 하나의 추측값만을 제시하
는 점추정과 모수가 속해 있을 가능성이 있는 구간을 추측하는 구간추정이 있다. 이
때, 모수를 추정하는 데 사용되는 통계량을 점추정량 또는 간단히 추정량이라 한다.

이제, 평균이 m 이고 표준편차가 v 인 모집단으로부터 임의추출된 확률표본 X 1 ,


X 2 , g , X n 을 이용하여 모평균 m 의 값을 추정하여 보자.
큰수의 법칙에 따르면 표본평균

1 n
X = n { Xi
i=1

의 값은 n 이 커짐에 따라 모평균 m 에 가까워지므로 m 의 점추정량으로 X 를 택


하는 것은 매우 자연스럽다.

이제 모집단이 정규분포 N _m, v i 을 따를 때, 크기 n 인 표본을 임의추출하여


2

얻은 표본 평균 X 으로부터 모평균 m 의 구간추정(신뢰구간)을 구하는 방법을 알


아보자.

모집단의 분포가 정규분포 N _m, v i 일 때, 크기 n 인 표본을 임의추출하면 표본


2

평균 X 는 정규분포 N c m, vn m 을 따르므로 확률변수


2

X-m
Z= v
n

은 표준정규분포 N ]0, 1g 을 따른다.


표준정규분포에서

P ]-1.96 # Z # 1.96g = 0.95

2. 통계적 추정 273
이므로

가 된다. 이를 정리하면

P c X - 1.96 m = 0.95
v v
# m # X + 1.96
n n

즉, 구간 ;X - 1.96 E 에 모평균이 포함될 확률은 95% 이다.


v v
, X + 1.96
n n
표준편차가 v 인 모집단으로부터 크기가 n 인 하나의 표본을 임의추출하여 얻은
표본평균을 X 라고 할 때, 구간

;X - 1.96 E
v v
, X + 1.96
n n
를 모평균 m 에 대한 신뢰도 95% 의 신뢰구간이라고 한다.
마찬가지로, P ]-2.58 # Z # 2.58g = 0.99 이므로 모평균에 대한 신뢰도 99%
의 신뢰구간은 다음과 같다.

;X - 2.58 E
v v
, X + 2.58
n n

이상을 정리하면 다음과 같다.

모평균 m 의 신뢰구간

모집단의 분포가 정규분포 N _m, v i 을 따를 때, 크기 n 인 표본을 임의추출하여


2

구한 표본평균의 값을 X 라고 하면 모평균 m 에 대한 신뢰구간은 다음과 같다.

❶ 신뢰도 95% : ;X - 1.96 v , X + 1.96 v E


n n

❷ 신뢰도 99% : ;X - 2.58 v , X + 2.58 v E


n n

모평균의 신뢰구간을 구하려면 모표준편차 v 의 값을 알아야 한다. 그러나 실제로


v 의 값은 알 수 없는 경우가 대부분이다. 이러한 경우, 표본의 크기가 충분히 크면 모
집단의 흩어진 정도와 표본의 흩어진 정도가 비슷하므로 모표준편차 v 대신 표본표준
편차 S

_X
x -Xi
1 n

S2 = {
n - 1 i = 1 ii
2

를 사용할 수 있다.

274 Ⅵ 통계
3
예제 1 하천의 오염도 조사를 위해 하천 밑바닥에서 각각 1000 cm 의 침전물 25
표본을 채취하여 납의 밀도를 조사하였더니 평균과 표준편차가 각각 0.38, 0.06 으로 나
타났다. 납의 평균 밀도에 대한 99% 신뢰구간을 추정하라.

v 0.06
풀이 X = 0.38 , = = 0.03 이므로
n 5
신뢰도 99% 의 모평균에 대한 신뢰구간은

;X - 2.58 E = 60.38 - 2.58 : 0.03, 0.38 + 2.58 : 0.03@


v v
, X + 2.58
n n
;X - 2.58 E = 60.38 - 2.58 : 0.03, 0.38 + 2.58 : 0.03@
v v
, X + 2.58
n n
이다.
답 풀이 참조

문제 1 한 화학 약품 공장의 하루 생산량은 표준편차가 21 톤인 정규분포를 따른다고

한다. 이 공장에서 50 일간의 하루 생산량을 기록한 결과 평균이 500 톤이었다고 한다. 하

루 생산량의 평균에 대한 95% 신뢰구간을 구하라.

MEMO

2. 통계적 추정 275
모비율과 표본비율
04 학습 목표
• 모비율과 표본비율의 관계를 이해할 수 있다.

어느 공장에서 생산한 제품의 불량률, 어느 지역의 신문 구독률, 어느 도시의 비만


율 등과 같이 모집단에서 어떤 특성을 가진 것의 비율을 생각할 수 있다.
이와 같이 모집단에서 어떤 특성을 가진 것의 비율을 모비율이라 하고, 기호로 p 와
같이 나타낸다. 한편, 모집단에서 임의추출하여 얻은 크기가 n 인 표본에서 어떤 특성
을 가진 것이 추출된 횟수를 X 라고 할 때,
X
n
를 표본비율이라 하고, 표본비율의 값을 기호로

tp = X
n
과 같이 나타내고, 이 표본비율을 모비율의 점추정량으로 사용한다.

X
표본비율 tp = n 에서 확률변수 X 는 크기가 n 인 표본에서 어떤 특성을 가진
것이 추출된 횟수이므로 확률변수 X 가 가질 수 있는 값은 0 , 1 , 2 , g , n 이고,

모집단에서 그 특성을 가진 것이 추출될 확률은 p 이다. 즉, 확률변수 X 는 어떤


사건이 일어날 확률이 p 인 시행을 n 번 독립시행하였을 때 그 사건이 일어난 횟수
이므로, 이항분포 B ]n, pg 를 따른다. 그러므로 확률변수 X 의 평균과 분산은 각각
다음과 같다.
E ]X g = np , V ]X g = np ]1 - pg
이때, 표본비율 tp 의 평균과 분산 및 표준편차를 구하면 각각 다음과 같다.

E ]tpg = E a n k = n E ]X g = n : np = p
X 1 1

p ]1 - pg
V ]tpg = V a n k = 2 V ]X g = 2 : np ]1 - pg =
X 1 1
n n n

p ]1 - pg
v ]tpg = V ]tpg = n
일반적으로 표본의 크기 n 이 충분히 클 때, tp 의 분포는 근사적으로 정규분포
p ]1 - pg m
N c p, n 를 따르는 것으로 알려져 있으므로, 표준화된 확률변수

276 Ⅵ 통계
tp - p
p ]1 - pg
Z=
n
는 근사적으로 표준정규본포 N ]0, 1g 을 따른다.
따라서 표본비율 tp 의 분포를 정리하면 다음과 같다.

표본비율 tp 의 분포
표본의 크기 n 이 충분히 클 때, 표본비율 t
p 은 근사적으로 정규분포
p ]1 - pg m
N c p,
tp - p
p ]1 - pg
를 따르고 Z = 는 근사적으로 표준정규분포
n
n
N ]0, 1g 을 따른다.

일반적으로 np $ 5 이고, n ]1 - pg $ 5 이면 표본의 크기 n 이 큰 것으로 본다.

예제 1 어느 회사에서 판매하는 벼의 씨앗의 발아율이 90% 라 할 때, 이 씨앗 100


개를 땅에 심을 때, 85% (또는 개) 이상 발아할 확률을 구하라.

p ]1 - pg m
풀이 p = 0.9, n = 100 이고, tp 는 근사적으로 정규분포 N c p, n
을 따른다.

주어진 조건으로부터
p ]1 - pg 0p.]09
1 - pg
V ]tpg = n ]pg = V ]tpg = , v ]t g=
t =00.9.9, : 0.1 0.90.:
3 0.1 0.09
E p= = 0=.03
100 100n 100
10 100
이다.

그러므로
tp - p
P b tp $
85 l
= P f pq $
0.03 p
0.85 - 0.9
100
n
= P ]Z $ -1.67g = 1 - P ]Z $ 1.67g = 1 - ]0.5 - 0.4525g = 0.9525
이다.

95.85
따라서 씨앗 100 개를 땅에 심을 때, 25% (또는 개) 이상 발아할 확률은 95.25% 이다.
답 풀이 참조

문제 1 어느 보험 회사의 자동차 보험 가입자 중 지난 1 년 동안 자동차 사고가 난 사람의

비율은 2% 라고 한다. 이 자동차 보험 가입자 중에서 400 명을 임의추출하여 조사하였을

때, 사고가 난 사람이 12 명 이상일 확률을 구하라.

2. 통계적 추정 277
모비율의 구간추정
05 학습 목표
• 구간추정의 뜻을 알고 모비율에 대한 구간추정을 할 수 있다.

표본비율을 이용하여 모비율 p 의 구간을 추정하는 방법을 알아보자.


모평균에 대한 신뢰구간은 표본평균을 이용하여 추정하였듯이 모비율에 대한 신뢰
구간은 표본비율을 이용하여 추정할 수 있다. 앞 절에서 살펴보았듯이
tp - p
p ]1 - pg
Z=
n
는 근사적으로 표준정규본포 N ]0, 1g 을 따르므로
P ]-1.96 # Z # 1.96g = 0.95
이므로

p ]1 - pg p ]1 - pg n
= P d tp - 1.96 n # p # tp + 1.96 n = 0.95

따라서 모비율 p 가 구간

<tp - 1.96 p ]1 - pg p ]1 - pg F
n , tp + 1.96 n
에 속할 확률은 0.95 이다.
이때, 큰수의 법칙에 의하여 표본의 크기 n 이 커지면서 표본비율 tp 은 모비율 p
에 가까워지므로, 모르는 p 의 값 대신 모집단으로부터 실제로 얻은 표본비율의 값
을 택하면 다음과 같은 구간으로 근사할 수 있다.
tp ]1 - tpg tp ]1 - tpg
;tp - 1.96 , tp + 1.96 E
n n
이 구간을 모비율 p 에 대한 신뢰도 95% 의 신뢰구간이라고 한다.
마찬가지로 P ]-2.58 # Z # 2.58g = 0.99 이므로, 모비율 p 에 대한 신뢰도
99% 의 신뢰구간은 다음과 같다.
tp ]1 - tpg tp ]1 - tpg
;tp - 2.58 , tp + 2.58 E
n n
모집단에서 크기가 n 인 표본을 임의추출하면 추출되는 표본에 따라 표본비율의

278 Ⅵ 통계
값이 달라지고 그에 따라 신뢰구간도 달라진다. 이렇게 해 p1
p2
서 구한 신뢰구간 중에는 오른쪽 그림과 같이 모비율을 포함
p3
하는 것과 포함하지 않는 것이 있을 수 있다. p4
모비율 p 에 대한 신뢰도 95% 의 신뢰구간이라는 말은
.
.
크기가 n 인 표본의 추출을 되풀이하여 신뢰구간을 구하는 .
.
.

일을 반복할 때 구한 신뢰구간 중에 약 95% 가 모비율 p 를 pk-1


pk
포함할 것으로 기대된다는 것을 뜻한다.
p
이상을 정리하면 다음과 같다.

모비율의 신뢰구간
모집단에서 크기 n 인 표본으로부터 구한 표본비율의 값이 t
p 일 때, n 이 크면
모비율 p 에 대한 신뢰도 95% , 99% 의 신뢰구간은 각각 다음과 같다.

❶ 신뢰도 95% : ;t
tp ]1 - tpg tp ]1 - tpg
p - 1.96 , tp + 1.96 E
n n

tp ]1 - tpg tp ]1 - tpg
❷ 신뢰도 99% : ;t
p - 2.58 , tp + 2.58 E
n n

예제 1 어느 도시 유권자 중에서 100 명을 임의추출하여 찬반을 묻는 여론 조사를


실시하였다. 80% 의 사람이 찬성을 하였고 나머지는 모두 반대하였을 때, 유권자 전체
에 대한 찬성자의 비율의 95% 신뢰구간을 구하라.

풀이 n = 100 , tp = 0.8 이므로 유권자 전체에 대한 찬성자에 대한 신뢰도

95% 의 신뢰구간은

;0.8 - 1.96 0.8 : 0.2


, 0.8 + 1.96
0.8 : 0.2 E 6
= 0.7216, 0.8784@
100 100

답 풀이 참조

문제 1 한 도시의 취업 가능 인원 중 1600 명을 임의추출하여 조사한 결과 96 명이 실업

자였다. 이 도시의 취업률을 추정하고 이에 대한 90% 신뢰구간을 구하라.

2. 통계적 추정 279
가설검정
06 학습 목표
• 가설검정의 뜻과 절차를 알고 이를 활용할 수 있다.

가설검정의 원리
통계적 추론 중에는 앞에서 다룬 모수의 추정 이외에 어떤 추측이나 가설의 타당
성을 조사하는 가설검정의 문제가 있다.
어떤 수학적인 추측이나 주장을 검정하기 위하여 이를 수학적으로 증명하든지 또
는 반례를 들어 부정하면 된다. 이때, 얻어진 결론은 100% 의 확신도를 가진다.
한편, 모수에 대한 예상이나 주장 또는 단순한 추측 등을 통계적 가설이라고 한
다. 통계적 가설은 항상 오류의 가능성을 가지고 있으며, 이들의 옳고 그름을 판정
하는 과정을 통계적 가설검정 또는 간단히 검정이라고 한다.

가설을 검정하기 위해서는 서로 대립되는 두 개의 통계적 가설을 세우고, 이 중


어느 가설이 참인지를 판정한다. 가설검정의 목적이 모집단에 대하여 새롭게 제기
된 이론이나 주장의 사실 여부를 확인하는 것이므로, 표본을 이용하여 입증하고자
하는 가설을 대립가설이라 하고, 그와 반대되는 가설을 귀무가설이라고 한다. 흔히,
귀무가설은 H 0 , 대립가설은 H 1 으로 나타낸다.

예를 들어, 어떤 질병을 치료하기 위해 기존에 개발된 약물을 사용하면 치료율이


40% 라고 하고, 신약이 개발되어 이를 사용하면 치료율이 기존의 치료율보다 높을
것으로 예상된다고 하자. 20명의 환자에게 신약을 투여한 결과 14 명이 치료되었다
고 할 때, 귀무가설과 대립가설은 다음과 같다.

· 귀무가설 ]H 0g : 신약의 치료율이 기존 약물의 치료율보다 높지 않다.


· 대립가설 ]H 1g : 신약의 치료율이 기존 약물의 치료율보다 높다.

신약의 치료율을 p 로 나타내면 귀무가설과 대립가설은 각각


H 0 | p = 0.4
H 1 | p > 0.4
와 같이 나타낼 수 있다.

280 Ⅵ 통계
가설검정의 절차는 모집단으로부터 표본을 뽑아 H 0 와 H 1 중 어느 것이 참인지
를 판정하는 과정이다. 여기서 표본의 결과를 보고 특정 가설이 참이라고 판정하는
것을 그 가설을 채택한다고 하며, 거짓이라고 판정하는 것을 그 가설을 기각한다고
한다.
가설검정은 입증하고자하는 가설을 뒷받침할 만한 뚜렷한 증거가 표본에서 나타
나는지를 보는 것으로, 뚜렷한 증거가 나타나지 않으면 기존의 이론 또는 주장이 그
대로 통용되게 되므로 귀무가설을 위주로 하여 ‘ H 0 을 채택한다’ 또는 ‘ H 0 를 기각한
다’라는 방식으로 표현하는 것이 일반적이다.

가설검정에서 표본의 결과에 따른 판정 기준이 되는 확률을 유의수준이라 하고,


흔히 a 로 나타내며 1% , 5% 를 주로 사용한다. 유의수준을 기준으로 표본공간을
기각역과 채택역으로 나누어 표본의 결과가 기각역에 들어가면 귀무가설 H 0 를 기
각하고 그렇지 않으면 H 0 을 채택한다.

가설검정의 방법을 정리하면 다음과 같다.

가설검정의 방법
[단계1] 검정하고자 하는 목적에 따라서 귀무가설 H 0 과 대립가설 H 1 을 설정한다.

[단계2] 검정통계량을 구하고 그 통계량의 분포를 구한다.

[단계3] 유의수준을 결정하고 검정통계량의 분포에서 가설의 형태에 따라

유의수준에 해당하는 기각역을 설정한다.

[단계4] 귀무가설이 옳다는 전제하에서 표본관찰에 의한 검정통계량의 값을 구한다.

[단계5] [단계4]에서 구한 검정통계량의 값이 기각역에 속하는가를 판단하여

기각역에 속하면 귀무가설 H 0 을 기각하고 기각역에 속하지 않으면 귀무가

설 H 0 을 채택한다.

H 0 에 대한 통계적 검정의 목적은 H 0 가 참인지 거짓인지를 결정짓는 것보다는


뽑은 표본이 귀무가설 H 0 에 부합되는지 결정하려는 것이다. 따라서 H 0 가 참일 때
표본이 발생할 확률이 아주 낮을 때만 H 0 를 기각해야 한다.

MEMO

2. 통계적 추정 281
모평균에 대한 가설검정
정규분포 N _m, v 2i 을 따르는 모집단에서 크기 n 인 표본을 임의추출하면 표본

평균 X 는 정규분포 N c m, vn m 을 따르므로, 확률변수


2

X-m
Z= v
n
은 표준정규분포 N ]0, 1g 을 따른다. 모표준편차 v 의 값을 안다고 할 때, 모평균
m 의 가설검정 방법을 알아보자.

1. 양측검정

귀무가설과 대립가설이
H0 | m = m0
Y m0
H1 | m =
과 같은 가설검정을 양측검정이라고 부른다. 0.025 0.025

이 경우, m = m 0 라는 귀무가설을 검정함에 있 -1.96 1.96


기각역 기각역
어 X 가 m 0 에서 너무 멀리 떨어져 있으면 귀무가
(a) 양측검정( H 1 : m ≠ m0)
설을 기각하게 된다. 즉, X 의 값이 너무 작거나
너무 크면 m 이 m 0 와 같을 가능성이 거의 없어 보이므로 귀무가설을 기각한다. 앞

에서 배운 모평균의 구간추정에서 정규분포 N _m, v i 을 따르는 모집단에서 임의추


2

출한 크기 n 인 표본의 표본평균을 X 라 할 때,

f p
X - m0
P -1.96 # v # 1.96 = 0.95
n

이다. 이 식을 변형하면

Pf # 1.96p = 0.95 P f $ 1.96p = 0.05


X - m0 X - m0
v , v
n n

이므로

X - m0
Z = v $ 1.96
n

282 Ⅵ 통계
인 영역을 유의수준 5% 의 양측검정의 기각역이라고 한다. 즉, 양측검정은 기각역
이 양쪽으로 주어진다.

2. 단측검정

귀무가설과 대립가설이
H0 | m = m0
H1 | m < m0
또는
H0 | m = m0
H1 | m > m0

과 같은 가설검정을 단측검정이라고 부른다.


이 경우, m = m 0 라는 귀무가설을 검정할 때 X 가 m 0 보다 훨씬 크거나 작은
경우에 귀무가설을 기각해야 한다.

정규분포 N _m, v i 을 따르는 모집단에서 임의추출한 크기 n 인 표본의 표본평


2

균을 X 라 할 때, 표준정규분포표에 의해

또는

즉,
P(Z ≥ 1.645) = 0.05 또는 P(Z ≤ -1.645) = 0.05
이고, 이 영역을 유의수준 5% 의 단측검정의 기각역이라고 한다. 즉, 단측검정은
기각역이 한쪽으로만 주어진다.

이상을 정리하면 다음과 같다.

0.05 0.05

-1.645 1.645
기각역 기각역

(b) 왼쪽 단측검정( H 1 : m ‹ m0) (c) 오른쪽 단측검정( H 1 : m › m0)

2. 통계적 추정 283
모평균의 가설검정 방법
정규분포 N _m, v i 을 따르는 모집단에서 크기 n 인 표본을 임의추출하여 구한
2

표본평균을 X , 모표준편차 v 라 할 때, 모평균 m 의 가설검정 방법은 다음과


같다.

❶ 모평균 m 에 대한 귀무가설 H 0 과 대립가설 H 1 을 세운다.

X - m0
❷ Z = 의 값을 구한다.
v/ n
❸ ⒤ 유의수준 5% 에서는 다음의 경우 H 0 를 기각한다.

양측검정 ; z $ 1.96 단측검정 ; z ≥ 1.645 또는 z ≤ -1.645

기각역(2.5%) 기각역(2.5%) 기각역(5%)


채택역 채택역 채택역

-1.96 O 1.96 zx O 1.645 z x z -1.645 O x

(ii) 유의수준 1% 에서는 다음의 경우에 H 0 를 기각한다.

양측검정 ; z $ 2.58 단측검정 ; z $ 2.33 또는 z # -2.33

기각역(0.5%) 기각역(0.5%) 기각역(1%)


채택역 채택역 채택역

-2.58 O 2.58 zx O 2.33 zx z -2.33 O x

모집단의 분포가 정규분포를 따르지 않아도, n 이 충분히 크면 Z = X - m 는


v/ n
근사적으로 N ]0, 1g 을 따르므로, 같은 가설검정 방법을 사용할 수 있다.

예제 1 어느 공장에서 생산하는 공의 무게가 평균이 100 g 이고 분산이 25 g 이라 한


다. 최근에 생산 공정의 일부를 새로운 설비로 교체하였는데 이로 인해 제품의 평균 무게에

변화가 생겼는지 알아보기 위해 제품 100 개를 뽑아 조사하였더니 평균이 100.64 g 이었


다. 설비 교체로 인해 평균 무게에 변화가 있는지 유의수준 5% 로 검정하라.

풀이 공의 평균 무게를 m 이라 하자. 설비 교체로 인해 평균 무게가 변하였는지 아


닌지를 검정하는 문제이므로 다음과 같이 가설을 세운다.
H0 : m = 100
Y 100
H1 | m =

284 Ⅵ 통계
조건에서 m 0 = 100 , n = 100 , x = 100.64 , v = 5 이므로

100.64 - 100
Z = = 1.28
5
100

이 경우는 평균 무게의 변화가 있었는지 없었는지에 관심이 있기 때문에 양측검정의 경

우에 해당된다. 따라서

Z = 1.28 < 1.96


이므로 H 0 는 채택된다.

그러므로 설비를 교체했어도 공의 평균 무게는 변하지 않았다고 판단한다.

답 풀이 참조

문제 1 건강한 성인의 콜레스테롤 수치는 220 미만라고 한다. 콜레스테롤이 높은 사람은

심장마비가 발생할 가능성이 더 높은 것으로 알려져 있다. 이를 확인해 보기 위해 30 명의

심장마비 환자를 조사하여 표본평균 콜레스테롤이 231 이며 표본표준편차가 20 인 것을 알

아냈다. 심장마비 환자들의 평균 콜레스테롤은 정상인의 평균 콜레스테롤보다 높은 수치인

지 유의수준 5% 로 가설검정하라.

모비율에 대한 가설검정
모비율이 p 인 모집단에서 크기 n 인 표본을 임의추출한다고 하자. 이때 표본의
크기 n 이 크면, 표본비율 tp 은 근사적으로 정규분포

p ]1 - pg m
N c p, n
를 따르므로
tp - p
p ]1 - pg
Z=
n
는 근사적으로 표준정규분포 N ]0, 1g 을 따른다.

따라서 모평균의 가설검정과 같은 방법으로 모비율의 가설검정을 한다.

2. 통계적 추정 285
모비율의 가설검정
표본의 크기를 n , 표본비율을 t
p , 모비율을 p 라 하면, 모비율 p 의 가설검정 방
법은 다음과 같다.

❶ 모평균 p 에 대한 귀무가설 H 0 과 대립가설 H 1 을 세운다.


tp - p 0
p 0 ]1 - p 0g
❷ Z = 의 값을 구한다.

n
❸ (i) 유의수준 5% 에서는 다음의 경우 H 0 를 기각한다.

양측검정 ; z $ 1.96 단측검정 ; z ≥ 1.645 또는 z ≤ -1.645

기각역(2.5%) 기각역(2.5%) 기각역(5%)


채택역 채택역 채택역

-1.96 O 1.96 zx O 1.645 z x z -1.645 O x

(ii) 유의수준 1% 에서는 다음의 경우에 H 0 를 기각한다.

양측검정 ; z $ 2.58 단측검정 ; z $ 2.33 또는 z # -2.33

기각역(0.5%) 기각역(0.5%) 기각역(1%)


채택역 채택역 채택역

-2.58 O 2.58 zx O 2.33 zx z -2.33 O x

모비율의 양측검정은
H0 | p = p0
Y p0
H1 | p =
와 같이 가설을 세우고 모비율의 단측검정은
H0 | p = p0
H1 | p < p0
또는
H0 | p = p0
H1 | p > p0
와 같이 가설을 세운다.

286 Ⅵ 통계
예제 3 어떤 동전을 네 번 던져서 네 번 모두 앞면이 나왔다고 할 때 이 동전은 앞면이
많이 나오는 동전이라고 볼 수 있는가? 유의수준 5% , 10% 로 각각 검정하라.

풀이
동전의 앞면이 나올 확률을 p 라 하면, 일반적인 동전의 앞면이 나올 확률은 0.5 이므로

H 0 | p = 0.5
H 1 | p > 0.5
와 같이 나타낼 수 있다.

확률은 b l =
1 4 1
  즉, 6.25% 이다.
2 16
유의수준 5% 에서는 6.25% > 5% 이므로 H 0 를 채택하고 이 동전은 앞면이 많이
나오는 동전이라고 볼 수 없다.

한편, 유의수준 10% 에서는 6.25% < 10% 이므로 H 0 를 기각하고 이 동전은 앞면이
많이 나오는 동전이라고 볼 수 있다.
답 풀이 참조

문제 2 대통령 선거나 국회의원 선거가 있을 때면 각 방송사에서는 출구 조사를 통하여 한

선거구의 당선자를 예측한다. 후보자가 2 명인 한 선거구에서 임의로 뽑힌 한 출구 조사의

응답자는 1 번과 2 번 후보 중에 자기가 투표하였던 후보를 답하게 된다. 총 1000 명의 출

구 조사 응답자 중 1 번 후보의 투표자는 530 명이었다. 1 번 후보의 득표율은 50% 를 초

과하여 당선되었다고 말할 수 있는지에 대하여 유의수준 5% 에서 가설검정하라.

MEMO

2. 통계적 추정 287
중단원 평가

1 주머니에 두 개의 빨간 공, 한 개의 파란 공, 그리고 한 개의 노란 공이 들어 있다. 이 주머니


에서 임의로 두 개의 공을 꺼낼 때, 빨간 공의 개수를 X 라 하고 다음 물음에 답하라.
(1) X 의 확률분포를 구하라.
(2) 위의 실험을 독립적으로 108 번 시행하여 얻은 값의 평균을 X 라 할 때, P ]X $ 1.1g 을
구하라.

2 세척제 A 의 시장 점유율을 추정하기 위하여 여러 상점을 조사해 본 결과, 전체 450 통의 세


척제 중 120 통이 A 제품이었다. 다음 물음에 답하라.
(1) 세척제 A 의 시장 점유율의 추정값을 구하라.
(2) 95% 신뢰구간을 구하라.

3 한 개의 동전을 100 회 던져서 앞면이 62 회 나왔다면 공정한 동전이라고 할 수 있는지


없는지를 유의수준 1% , 5% 로 각각 검정하라.

288 Ⅵ 통계
4 어느 대학교 수험생 중에서 100 명의 답안지를 임의추출하여 채점하였더니 평균 58 점, 표준
편차 10 점이었다. 다음 물음에 답하라.
(1) 수험생 전체의 평균에 대한 신뢰도 95% 의 신뢰구간을 구하라.
 뢰도 95% 로 수험생 전체의 평균과 표본평균과의 차를 1 점 이하로 추정할 때 필요한 표
(2) 신
본의 최소 크기를 구하라.

5 어느 종합 병원에서 환자 400 명을 임의추출하여 특정 질병에 대한 항체 보유 비율을 조사한


결과 80 명이 항체를 보유하고 있었다. 이 종합 병원의 환자 중에서 항체를 보유하고 있는 환
자의 비율에 대한 신뢰도 95% 의 신뢰구간을 구하라.

6 어느 필기구 회사에서 생산되는 볼펜, 연필, 형광펜을 각각 한 개씩 뽑아 하나의 세트 상품으


1 1
로 만들어 판매하고 있다. 이때, 볼펜의 불량률이 , 연필의 불량률이 , 형광펜의 불량률
9 25
1
이 이라고 한다. 다음 물음에 답하라.
16
(1) 세트 상품 하나를 구입하였을 때 정상인 상품일 확률을 구하라.
(2) 세트 상품 625 개를 임의추출하였더니 정상인 상품은 525 개였다.
(1) 에서 구한 확률과 같다고 할 수 있는가? 유의수준 5% 로 검정하라.

2. 통계적 추정 289
대단원 평가

1 연속확률변수 X 의 확률밀도함수 f ]xg 가


ax + b ]0 # x # 3g 이고 E ]X g = 2 를 만족시킨다. V ]X g 를 구하라.
f ]xg = (
0 ](x
x< > 3g
< 00, x >x 3)

2 좌표평면에서 O ]0, 0g , A ]1, 0g , B ]1, 32g 을 꼭짓점으로 하는 삼각형 OAB 의 내부에 임의


로 한 점을 찍을 때, 찍힌 점의 x 좌표를 확률변수 X 라 하자. 다음 물음에 답하라.
(1) P ]0 # X # xg 의 값을 구하라.

 률밀도함수 f ]xg 가 # f ] t g dt = P ]0 # X # xg 를 만족할 때, 확률변수 X 의 평균


x
(2) 확
0

과 분산을 구하라.

3 확률 p 로 1 의 값을, 확률 1 - p 로 0 의 값을 가지는 확률변수 X 가 있다. 실수 t 에 대하


여, 확률변수 Y = X + t 라 할 때, 다음을 구하라.
(1) E ]Y g (2) E ]Y 2g

4 A , B 두 사람이 각각 공정한 동전을 4 번씩 던지는 시행을 할 때 다음을 구하라.


(1) 두 사람이 같은 앞면의 횟수를 얻게 될 확률
(2) A 가 B 보다 많은 앞면의 횟수를 얻게 될 확률

5 어떤 공장에서 제조되는 제품 중 3000 개를 임의추출하여 검사한 결과 불량품 50 개가


발견되었다. 전체 제품 중 불량품이 몇 % 정도 있다고 보아야 하는가?
(1) 신뢰도 95% 로 구간추정하라.
(2) 신뢰도 99% 로 구간추정하라.

290 Ⅵ 통계
6 숫자 1, 1, 2, 3에서 크기가 2인 표본을 임의추출할 때 뽑힌 숫자의 표본평균 X 의 평균과 분
산을 구하라.

7 어떤 사람이 병아리 10 마리의 성별을 감별하여 그중 8 마리를 적중시켰다. 이 사람에


게 감별 능력이 있는지 없는지를 유의수준 1% , 5% 로 각각 검정하라.

8 어느 회사에서 생산되는 통조림의 무게는 평균이 500 g , 표준편차가 20 g 이라 한다.


이 중에서 100 개의 통조림을 임의로 추출하여 측정한 무게의 평균이 495 g 이상 504 g 이하일
확률을 표준정규분포표를 이용하여 구하라.

9 크기가 n 인 표본평균 X 로 모집단의 평균 m 을 신뢰도 z P ]0 # Z # zg


95% 로 추정한 결과 X - h # m # X + h 로 나타났다. 0.49 0.188
0.98 0.337
이때 모평균 m 을 X - h # m # X + h 로 추정하기 위 1.96 0.475
2 2
한 신뢰도를 오른쪽 표준정규분포표를 이용하여 구하라. 2.58 0.495

10 정규분포를 이루는 모집단에서 크기 n 인 표본에 의하여 모비율을 신뢰도 95% 로 추정할 때의

신뢰구간의 폭을 d 라 한다. 신뢰구간의 폭을 로 하기 위한 표본의 크기를 구하라.

11 평균이 2.348 이고 표준편차가 1 인 정규분포를 따르는 모집단에서 크기가 100 인 표본을 임의


추출하여 얻는 표본평균이 2.124 이었다고 한다. 이 표본으로 z P ]0 # Z # zg
는 모평균이 2.348 이 아니라고 할 수 있는 유의수준 a 의 최 1.96 0.4750
솟값을 오른쪽 표준정규분포표를 이용하여 구하라. 2.17 0.4850
2.24 0.4875
2.58 0.4951

Ⅵ 통계 291

You might also like