You are on page 1of 34

Chapter 1.

자료의 정리
Chapter 1. 자료의 정리

1. 1 개 요
 통계학 (statistics)

 관심의 대상에 대해 관련된 자료를 수집하고 그


자료를 요약 , 정리하여 이로부터 불확실한 사실에
대한 결론이나 일반적인 규칙성을 추구하는 학문

※ Statistic : 통계치 , 통계량

Honggie Kim CH 1 - 2
Chapter 1. 자료의 정리 1. 1 개 요

통 계 학 (statistics)
 기술통계학 (descriptive stat)
 수집된 자료의 정리 및 요약 방법을 다룸

 추측 통계학 (inferential stat)


 자료를 통한 모수의 추정 및 모수에 대한 가설 검정

추정 검정


선결정
결정

선자료수집 후
자료수집 후자료
자료

후결정 수집
결정 수집및및교정
교정

Honggie Kim CH 1 - 3
Chapter 1. 자료의 정리 1. 1 개 요

통 계 학 (statistics)
 Infer : 추측하다 . 추론하다 .

선 자료수집 , 후 결정
선 결정 , 후 자료수집 및 교정
부분 전 체 (?)

( 부분을 보고 전체에 대해 결론을 내림 )


 Ex) 신중히 맴돌다 교제 여부 결정 ( 신중형 )
연애
일단 교제후 계속 교제 여부 결정 ( 카사노바 형 )
도청 , 시청 이전 계획 등을 확인하고 땅 구입
투자 여기저기 도청 이전 가능성 높은 곳들을 구매 후
Honggie Kim 도청이전이 안된 곳은 매각 CH 1 - 4
Chapter 1. 자료의 정리

1. 2 변수의 종류
 변 수 (Variable)
 조사대상의 관심이 되는 특성

 Ex) 조사대상 변 수 조사대상 변 수


라면값
I Q
몸무게 월 세
수 입
사 람 분식집 성업여부
미 모

※ 모수 : 충대남학생 전체의 키평균 , 모수 : 모든 궁동분식집 라면값의 평균 or 최소값

Honggie Kim CH 1 - 5
Chapter 1. 자료의 정리 1. 2 변수의 종류

변 수 (Variable)
 질적변수 (qualitative variable)
 명의적 (nominal) 질적변수 : 고향 , 색깔 등
 순서적 (ordinal) 질적변수 : 선호도 , 외모 등

 양적변수 (quantitative)
 연속 (continuous): 몸무게 , 나이 , 시간 , 온도 등
 이산 (discrete): 사람수 , 불량품 수

크게 질적 , 양적 분류로 충분
※ 나이 : 연속이지만 이산취급 ( 보통 2 세 , 신생아실 , 2.1 시간 )
Honggie Kim CH 1 - 6
Chapter 1. 자료의 정리

자료 요약법

줄기그림

도수분포표와
histogram
그 림 OR
도표
원그래프

자 료
상자그림
요약법

수치요약

숫 자
대표값과
산포도
Honggie Kim CH 1 - 7
Chapter 1. 자료의 정리

1.3 줄기그림 (stem plot)

 Ex) 충남대 남학생 15 명의 몸무게 자료

 Data
( 단위 : Kg)

62 65 58 71 48

56 60 71 68 100

69 57 53 67 72

Honggie Kim CH 1 - 8
Chapter 1. 자료의 정리 1. 3 줄기그림

줄기그림 ( 남학생 )

4 8
5 3 6 7 8
6 0 2 5 7 8 9 ● 분포의 중심 파악

7 1 1 2
● 분포의 전체적인 모양
8
● 이상치 유무 판단
9
10 0
Honggie Kim CH 1 - 9
Chapter 1. 자료의 정리 1. 3 줄기그림
서로 맞댄 줄기그림
(back to back stem plot)
 Ex) 충남대 여학생 20 명의 몸무게 자료
 Data : 45, 48, ···
남학생 여학생
8 4 1 1 3 5 8 9
8 7 6 3 5 0 1 1 2 4 8 9 9
8 8 7 5 2 0 6 0 1 2 3 7
2 1 1 7 2
8 “ 두 그룹의

9 점
자료비교”
0 10
Honggie Kim CH 1 - 10
Chapter 1. 자료의 정리 1. 3 줄기그림

줄기의 세분
 Ex) 충남대 남학생 15 명의 키 자료
 Data
( 단위 : cm)
170 171 175 174 173
172 174 173 181 178
168 171 173 174 173

16 8
17 0112333344468 분포형태

18 1 파악불가




Honggie Kim CH 1 - 11
Chapter 1. 자료의 정리 1. 3 줄기그림

줄기의 세분

16. 8
17* 0 1 1
또는
17t 2 3 3 3 3
16. 8
17f 4 4 4
17 0 1 1 2 3 3 3 3 4 4 4
17s 6 *
17. 6 8
17. 8
18 * 1
18 1
*

“ 줄기의 세분은 5 개 혹은 2 개로만 가능”


10 = 5× 2
Honggie Kim CH 1 - 12
Chapter 1. 자료의 정리

1. 4 도수분포표와 Histogram
 Ex) 200 쌍 부부의 자녀 수 조사
 Data : 0, 2, 1, 2, 3, ··· ( 이산형 양적자료 )
 도수분포표 임의로 뽑은
부부의 자녀수에
대한 확률 추정치
도 수 상대도수
자녀수
(frequency) (relative freq.)
0 24 0.12
히스토그램
1 66 0.33 0.5

2 82 0.41 0.4

0.3
3 18 0.09
0.2
4 8 0.04
0.1
5 2 0.01
0

합 계 200 1.00 0 1 2 3 4 5

Honggie Kim CH 1 - 13
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?
 Ex) 충남대생 1000 명의 키 측정
 Data : 167, 171, · · · ·
 Ordered data: 155, · · ·, 189
min max
 Stem plot( 줄기그림 )
15 ∙ ∙ ∙ 15 ∙ ∙ ∙
*
16 ∙ ∙ ∙ 15. ∙ ∙ ∙ Too
17 ∙ ∙ ∙ 16 ∙ ∙ ∙ many
*
16. ∙ ∙ ∙ leaves
17* ∙ ∙ ∙

Honggie Kim
17. ∙ ∙ ∙ CH 1 - 14
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?

도수분포표 히스토그램

키 도수

155 1
156 2 “Pancake” graph
. .
. . …………………..
. . 1 1 1 1 ………………….. 1 1
5 5 5 5 8 8
5 6 7 8 8 9
189 1

합 계 1000
가지수가 너무 많음

Honggie Kim CH 1 - 15
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?

자료의 grouping ( 계급화 ) 필요 .


계급의 수는 관측 값의 수에 따라 6-20 개
만약 7 개로 하면

Max - Min 189 - 155 34


= = ~
~ 5 가 계급의 폭
7 7 7

Honggie Kim CH 1 - 16
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?

계 급 도수 상대도수 도수밀도

155 ~ 160 12 0.012 2.4


160 ~ 165 95 0.095 19.0
165 ~ 170 220 0.220 44.0
170 ~ 175 376 0.376 75.2
175 ~ 180 162 0.162 32.4
180 ~ 185 90 0.090 18.0
185 ~ 190 45 0.045 9.0

합 계 1000 1

155 ~ 160 은 155 이상 160 미만 임


Honggie Kim CH 1 - 17
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?

Histogram

상대도수 도수밀도
0.4 80
0.35 70
0.3 60
0.25 50
0.2 40
0.15 30
0.1 20
0.05 10
0 0

155~ 160

160~ 165

165~ 170

170~ 175

175~ 180

180~ 185

185~ 190
155~ 160

160~ 165

165~ 170

170~ 175

175~ 180

180~ 185

185~ 190

Honggie Kim CH 1 - 18
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?
 도수밀도 (freq density) = 도수 / 계급폭
 계급이 등간격이면 , 도수 , 상대도수 , 도수밀도 상관 없음 .

 Ex) Odered data


2, 6, 7, 7, 7, 7, 8, 8, 8, 9,
11, 11, 11, 11, 11, 11, 11, 11, 12, 12,
12, 12, 12, 13, 13, 13, 14, 14, 14, 14,
16, 16, 17, 17, 17, 17, 18, 18, 19, 19

Honggie Kim CH 1 - 19
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?

계 급 도수 상대도수 도수밀도

0~5 1 0.025 0.2


5 ~ 10 9 0.225 1.8
10 ~ 15 20 0.500 4.0
15 ~ 20 10 0.250 2.0
합 계 40 1

도수 상대도수
30 0.75

20 0.5

10 0.25

0 0
Honggie Kim 0~ 5 5~ 10 10~ 15 15~ 20 0 ~5 5 ~1 0 1 0 ~1 5 1 5 ~2 0 CH 1 - 20
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?

계 급 도수 상대도수 도수밀도

0 ~ 10 10 0.250 1.0
10 ~ 15 20 0.500 4.0
15 ~ 20 10 0.250 2.0
합 계 40 1

도수 도수밀도
30
6

20
4

10 2

0 0
0 ~5 5 ~1 0 1 0 ~1 5 1 5 ~2 0 0~ 5 5~ 10 10~ 15 15~ 20
Honggie Kim CH 1 - 21
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

분포파악이 가장 유리한 그림 ?
도수 상대도수
30 0.75

20 0.5

10 0.25

0 0
0~ 5 5~ 10 10~ 15 15~ 20 0 ~5 5 ~1 0 1 0 ~1 5 1 5 ~2 0

도수 도수밀도
30
6

20
4

10 2

0 0
0 ~5 5 ~1 0 1 0 ~1 5 1 5 ~2 0 0~ 5 5~ 10 10~ 15 15~ 20
Honggie Kim CH 1 - 22
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

질적변수 도수분포표 원 그래프

 Ex) 200 쌍 이혼부부의 이혼사유 조사

사 유 도 수

성격차이 80
고부갈등 35
배우자 부정 25
가정폭력 20
주 벽 10
기 타 30

합 계 200
각종 그래프들

Honggie Kim CH 1 - 23
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

잘못 그려진 그래프

출처 Statistics,
: Concepts and Controrersies by Pavid S.Moore
Honggie Kim CH 1 - 24
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram

잘못 (?) 그려진 그래프

출처 Statistics,
: Concepts and Controrersies by Pavid S.Moore
Honggie Kim CH 1 - 25
Chapter 1. 자료의 정리
1. 5 수치요약과 상자그림
(number summary and box plot)
 다섯 수치
 최소값
 제 1 사분위수 (1st Quartile)
 중위수 (Median)
 제 3 사분위수 (3rd Quartile)
 최대값
 Ex) Ordered data
0 5 10 11 12 16 18 21 22

최소값 Q1 중위수 Q3 최대값


Ex) 세 수치 , 아홉 수치 요약도 가능
Note : 자료가 다섯 개면 각 값들이 다섯 수치가 됨
Honggie Kim CH 1 - 26
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림

수치요약
 관측값의 깊이
 순서화된 자료에서 중앙의 왼편에 있을 때에는 왼쪽부터 ,
오른쪽에 있을 때에는 오른쪽부터의 순서 .
 ( 단 , 같은 값이 있을 때는 해당 순서를 나누어 가짐 )

 Ordered
data 3 5 5 7 10 15 30 35 41

깊이 1 2.5 2.5 4 5 4 3 2 1

Honggie Kim CH 1 - 27
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림

수치의 깊이
 중위수의 깊이
n+
d(M) =
1
2

 Q1, Q3 의 깊이
[d(M)] + 1
2 x 를 x넘지 않는 최대정수
,[ ]는

Honggie Kim CH 1 - 28
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림

수치의 깊이
 Ex) 충남대 남학생 12 명의 한달 평균용돈 조사
(n=12)( 단위 : 만원 )

 Ordered data
3 10 11 13 15 18 20 21 25 29 36 40

 d(M) = n + 1= 13= 6.5  18=+19


20
2 2 2

 Q1, Q3 의 깊이 = [d(M)] + 1= [6.5]=+3.5


1
2 2

 Q1 = 11 + 13= 12 Q3 = 25=+27
29
2 2
Honggie Kim CH 1 - 29
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림

상자그림
 용돈조사 데이터를 다섯 수치로 요약 .
( 3 , 12 , 19 , 27 , 40 )

0 10 20 30 40
< 위의 다섯수치로 얻은 상자그림 >

Honggie Kim CH 1 - 30
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림

상자그림
 Ex) 만약 최대가 100 ( 40 대신 ) 이면 ,
최소 , Q1, M, Q3 는 불변
다섯수치 요약 : ( 3 , 12 , 19 , 27 , 100 )

Min Max

-20 -10 0 10 20 30 40 ………… 90 100


< 위의 다섯수치로 얻은 상자그림 >

Honggie Kim CH 1 - 31
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림

상자그림의 중요 수치
 IQR (Interquartile range ; 사분위범위 )
 Q₃– Q₁ = 27 - 12 = 15
 IL (Inner Lower fence)
 Q₁- 1.5 ㆍ IQR = 12 – 1.5 x 15 = -10.5
 IU (Inner Upper fence)
 Q₃+ 1.5 ㆍ IQR = 27 + 1.5 x 15 = 49.5
 OL (Outer Lower fence)
 Q₁– 3 ㆍ IQR = 12 – 3 x 15 = -33
 OU (Outer Upper fence)
 Q₃+ 3 ㆍ IQR = 27 + 3 x 15 = 72
 AL (Adjacent Lower value) Inner fence 안에서
 AU (Adjacent Upper value) 가장 큰 값들

Honggie Kim CH 1 - 32
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림

상자그림
 다시 작성된 상자그림

OL IL AL AU IU OU

-30 -20 -10 0 10 20 30 40 ………… 90 100


< 위의 다섯수치로 얻은 상자그림 >

Honggie Kim CH 1 - 33
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림

2 개의 상자그림 Data 비교

상자그림의 사용 예

Honggie Kim CH 1 - 34

You might also like