You are on page 1of 13

산업경영 빅데이터 공학 < 권 민 수 >

1. 확률표본과 통계량

여기에 수식을 입력하십시오.


1. 확률표본과 통계량

[예제 8.1]
크기가 n인 확률표본을 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑛 이라고 하자. 이때 표본평균(sample mean)은
𝑛
𝑋ത = ෍ 𝑋𝑖 /𝑛
𝑖=1
으로 정의되며, 모평균 𝜇의 추론에 사용되는 통계량이다. 또한 모집단의 분산 𝜎 2 에 관심이 있는 경우에는
𝑚𝑎𝑥𝑋𝑖 − 𝑚𝑖𝑛𝑋𝑖 , σ𝑛𝑖=1 𝑋𝑖 − 𝑋ത 2 /(𝑛 − 1)
등과 같은 통계량을 사용할 수 있다. 특히 표본분산(sample variance)이라고 불리는
𝑛
여기에
𝑆 2수식을
= ෍ 𝑋𝑖 입력하십시오.
− 𝑋ത 2 /(𝑛 − 1)
𝑖=1
은 모분산 𝜎 2 의 추론에 가장 많이 쓰이는 통계량이다.
2. 평균에 대한 표본분포

여기에 수식을 입력하십시오.


3. 중심극한정리

확률변수 제n항까지의 합의 분포가 n → ∞일 때 정규분포에 가까워지는 것을 보이는 정리

여기에 수식을 입력하십시오.


1. 확률표본과 통계량

[예제 8.2]
어느 내과의사가 20세에서 39세 사이의 남녀 25명을 임의추출하여 연구하려고 한다. 그 의사는 그들로부터 평균 심장 수축 혈압이
124mmHg임을 알아냈다. 한편, 정상인의 혈압은 평균이 120mmHg이고, 표준편차가 10mmHg인 정규분포를 따른다는 것이 알려져
있다. 이때 만일 25명의 표본을 반복하여 추출했을 때 평균 혈압이 124mmHg 이상일 비율을 구하여라.
풀이 혈압의 모집단 분포가 정규분포이므로 평균의 표본분포는 역시 정규분포이다. 평균이 120mmHg이고 평균의 표준오차 SE는
10 124−120
= 2이므로 표준화 점수 z = = 2.0
25 10/ 25
여기에
결국 부록의 표준정규분포표를 이용하면 2.0이상일 수식을
확률은 입력하십시오.
0.023임을 알 수 있다. 이것은 확률표본들의 2.3%가 평균 심장 수축 혈압이
124mmHg 이상일 것이라고 기대된다.

[예제 8.3]
앞 예의 의사가 혈관 수축을 유발하는 약을 사용한 25명의 환자들로부터 거부 반응 효과를 찾으려고 한다. 그는 분포의 상위 5% 이
내에 포함되는 평균 혈압을 기준으로 경고선을 결정하였다. 즉 그는 표본분포에서 상위 5%에 해당하는 값을 찾고자한다.

풀이 답은 표준정규곡선의 면적(확률)의 역관계로 구해야한다. 즉 주어진 확률에 해당하는 평균값을 찾는 문제이다. 부록의
표준정규분포표를 이용하면 상위 5%에 해당하는 표준화 점수(z-score)는 1.645임을 알 수 있다. 그러므로 아래의 식에 z점수를 대입하면
𝑥ҧ = 123.29를 구할 수 있다.
𝑥ҧ − 120
z = 1.645 =
10/ 25
1. 확률표본과 통계량

[예제 8.4]
앞 예의 의사가 약 효과를 연구하기 위하여 몇 명의 환자를 조사해야 하는지 알아보고자 한다. 상황을 고려한 후 의사는 평균 혈압
이 122mmHg를 넘지 않는 비율이 90%가 되도록 하는 표본크기를 원한다.

풀이 답은 표본평균들이 모평균 120mmHg보다 2mmHg 이상 초과하는 비율이 10%가 되도록 하는 표본크기 n을 구하면 된다. 부록의
표준정규분포표에서 상위 10%에 해당하는 z점수는 1.28이므로 다음 식에서 n에 대해서 풀면 된다.
122 − 120 2 ( 𝑛)
여기에 수식을10/
1.28 = 입력하십시오.
𝑛
=
10
이제 n에 대하여 식을 전개하면 n=40.96이 된다.
4. 카이제곱, t, F 분포

ㄷ여기에 수식을 입력하십시오.


자유도에 따라 모양이 달라짐
• 자유도 1에서 확률변수 X = 𝑍 2 가 카이제곱 분포를 따르게 됨
• 자유도 n에 따라, 확률분포의 형태가 다르게 결정되는, 비대칭적인 분포
(오른쪽으로 긴 꼬리를 갖음) .
• 자유도 n이 작을수록, 왼쪽으로 치우치는 비대칭 모양
(0 주변에 데이터가 집중되는 경향)
• 원점에서 양의 축 방향으로 늘어진(긴 꼬리를 갖는) 곡선을 갖는 형태를 띔 .
• 자유도 n ≥ 3 부터, 단봉 형태(unimodal shape : 최고점이 1개인 분포) .
• 자유도 n이 클수록, 정규분포에 근사되는 대칭 모양
4. 카이제곱, t, F 분포

[예제 8.5]
여기에
확률변수 V가 자유도 4인 카이제곱분포를 따른다고 수식을 입력하십시오.
할 때,
𝑃𝑉 ≥ 𝑣 = 0.05
가 성립하는 v의 값을 구하여라.

풀이 부록의 표에서 자유도(d.f.=4)가 4이고 𝛼 = 0.05인 경우이므로 v=9.49의 값을 얻을 수 있다.


4. 카이제곱, t, F 분포

여기에
모집단 표준편차를 알 수 없을 때 수식을 입력하십시오.
표본 평균과 모집단 평균 사이 표준화된 거리를 설명
4. 카이제곱, t, F 분포

[예제 8.5]
확률변수 T가 자유도 4인 t분포를 따를 때
𝑃𝑉 ≥ 𝑡 = 0.01
가 성립하는 t의 값을 구하여라.

풀이 부록의 표에서 자유도(d.f.=4)가 4이고 𝛼 = 0.01 인 경우이므로 t=3.747의 값을 얻을 수 있다.

두 표본의 분산을 비교하는여기에 수식을


데 많이 이용 입력하십시오.
된다.

(F통계량은 서로 독립인 두 카이제곱변수를 각각의 자유도로 나는 비)


4. 카이제곱, t, F 분포

[예제 8.6]
확률변수 F가 자유도 (3,4)인 F분포를 따를 때
𝑃𝐹 ≥ 𝑓 = 0.05
가 되는 f의 값을 구하여라.

풀이 부록의 표에서 v1 = 3, 𝑣2 = 4, 𝛼 = 0.05 인 경우이므로 f=6.59의 값을 얻을 수 있다.


여기에 수식을 입력하십시오.
4. 카이제곱, t, F 분포

여기에 수식을 입력하십시오.

You might also like