Professional Documents
Culture Documents
( ) CH01
( ) CH01
자료의 정리
Chapter 1. 자료의 정리
1. 1 개 요
통계학 (statistics)
Honggie Kim CH 1 - 2
Chapter 1. 자료의 정리 1. 1 개 요
통 계 학 (statistics)
기술통계학 (descriptive stat)
수집된 자료의 정리 및 요약 방법을 다룸
추정 검정
선
선결정
결정
선
선자료수집 후
자료수집 후자료
자료
후
후결정 수집
결정 수집및및교정
교정
Honggie Kim CH 1 - 3
Chapter 1. 자료의 정리 1. 1 개 요
통 계 학 (statistics)
Infer : 추측하다 . 추론하다 .
선 자료수집 , 후 결정
선 결정 , 후 자료수집 및 교정
부분 전 체 (?)
1. 2 변수의 종류
변 수 (Variable)
조사대상의 관심이 되는 특성
키
라면값
I Q
몸무게 월 세
수 입
사 람 분식집 성업여부
미 모
Honggie Kim CH 1 - 5
Chapter 1. 자료의 정리 1. 2 변수의 종류
변 수 (Variable)
질적변수 (qualitative variable)
명의적 (nominal) 질적변수 : 고향 , 색깔 등
순서적 (ordinal) 질적변수 : 선호도 , 외모 등
양적변수 (quantitative)
연속 (continuous): 몸무게 , 나이 , 시간 , 온도 등
이산 (discrete): 사람수 , 불량품 수
크게 질적 , 양적 분류로 충분
※ 나이 : 연속이지만 이산취급 ( 보통 2 세 , 신생아실 , 2.1 시간 )
Honggie Kim CH 1 - 6
Chapter 1. 자료의 정리
자료 요약법
줄기그림
도수분포표와
histogram
그 림 OR
도표
원그래프
자 료
상자그림
요약법
수치요약
숫 자
대표값과
산포도
Honggie Kim CH 1 - 7
Chapter 1. 자료의 정리
Data
( 단위 : Kg)
62 65 58 71 48
56 60 71 68 100
69 57 53 67 72
Honggie Kim CH 1 - 8
Chapter 1. 자료의 정리 1. 3 줄기그림
줄기그림 ( 남학생 )
4 8
5 3 6 7 8
6 0 2 5 7 8 9 ● 분포의 중심 파악
7 1 1 2
● 분포의 전체적인 모양
8
● 이상치 유무 판단
9
10 0
Honggie Kim CH 1 - 9
Chapter 1. 자료의 정리 1. 3 줄기그림
서로 맞댄 줄기그림
(back to back stem plot)
Ex) 충남대 여학생 20 명의 몸무게 자료
Data : 45, 48, ···
남학생 여학생
8 4 1 1 3 5 8 9
8 7 6 3 5 0 1 1 2 4 8 9 9
8 8 7 5 2 0 6 0 1 2 3 7
2 1 1 7 2
8 “ 두 그룹의
장
9 점
자료비교”
0 10
Honggie Kim CH 1 - 10
Chapter 1. 자료의 정리 1. 3 줄기그림
줄기의 세분
Ex) 충남대 남학생 15 명의 키 자료
Data
( 단위 : cm)
170 171 175 174 173
172 174 173 181 178
168 171 173 174 173
16 8
17 0112333344468 분포형태
18 1 파악불가
줄
기
를
세
분
Honggie Kim CH 1 - 11
Chapter 1. 자료의 정리 1. 3 줄기그림
줄기의 세분
16. 8
17* 0 1 1
또는
17t 2 3 3 3 3
16. 8
17f 4 4 4
17 0 1 1 2 3 3 3 3 4 4 4
17s 6 *
17. 6 8
17. 8
18 * 1
18 1
*
1. 4 도수분포표와 Histogram
Ex) 200 쌍 부부의 자녀 수 조사
Data : 0, 2, 1, 2, 3, ··· ( 이산형 양적자료 )
도수분포표 임의로 뽑은
부부의 자녀수에
대한 확률 추정치
도 수 상대도수
자녀수
(frequency) (relative freq.)
0 24 0.12
히스토그램
1 66 0.33 0.5
2 82 0.41 0.4
0.3
3 18 0.09
0.2
4 8 0.04
0.1
5 2 0.01
0
합 계 200 1.00 0 1 2 3 4 5
Honggie Kim CH 1 - 13
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
분포파악이 가장 유리한 그림 ?
Ex) 충남대생 1000 명의 키 측정
Data : 167, 171, · · · ·
Ordered data: 155, · · ·, 189
min max
Stem plot( 줄기그림 )
15 ∙ ∙ ∙ 15 ∙ ∙ ∙
*
16 ∙ ∙ ∙ 15. ∙ ∙ ∙ Too
17 ∙ ∙ ∙ 16 ∙ ∙ ∙ many
*
16. ∙ ∙ ∙ leaves
17* ∙ ∙ ∙
Honggie Kim
17. ∙ ∙ ∙ CH 1 - 14
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
분포파악이 가장 유리한 그림 ?
도수분포표 히스토그램
키 도수
155 1
156 2 “Pancake” graph
. .
. . …………………..
. . 1 1 1 1 ………………….. 1 1
5 5 5 5 8 8
5 6 7 8 8 9
189 1
합 계 1000
가지수가 너무 많음
Honggie Kim CH 1 - 15
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
분포파악이 가장 유리한 그림 ?
Honggie Kim CH 1 - 16
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
분포파악이 가장 유리한 그림 ?
계 급 도수 상대도수 도수밀도
합 계 1000 1
분포파악이 가장 유리한 그림 ?
Histogram
상대도수 도수밀도
0.4 80
0.35 70
0.3 60
0.25 50
0.2 40
0.15 30
0.1 20
0.05 10
0 0
155~ 160
160~ 165
165~ 170
170~ 175
175~ 180
180~ 185
185~ 190
155~ 160
160~ 165
165~ 170
170~ 175
175~ 180
180~ 185
185~ 190
Honggie Kim CH 1 - 18
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
분포파악이 가장 유리한 그림 ?
도수밀도 (freq density) = 도수 / 계급폭
계급이 등간격이면 , 도수 , 상대도수 , 도수밀도 상관 없음 .
Honggie Kim CH 1 - 19
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
분포파악이 가장 유리한 그림 ?
계 급 도수 상대도수 도수밀도
도수 상대도수
30 0.75
20 0.5
10 0.25
0 0
Honggie Kim 0~ 5 5~ 10 10~ 15 15~ 20 0 ~5 5 ~1 0 1 0 ~1 5 1 5 ~2 0 CH 1 - 20
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
분포파악이 가장 유리한 그림 ?
계 급 도수 상대도수 도수밀도
0 ~ 10 10 0.250 1.0
10 ~ 15 20 0.500 4.0
15 ~ 20 10 0.250 2.0
합 계 40 1
도수 도수밀도
30
6
20
4
10 2
0 0
0 ~5 5 ~1 0 1 0 ~1 5 1 5 ~2 0 0~ 5 5~ 10 10~ 15 15~ 20
Honggie Kim CH 1 - 21
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
분포파악이 가장 유리한 그림 ?
도수 상대도수
30 0.75
20 0.5
10 0.25
0 0
0~ 5 5~ 10 10~ 15 15~ 20 0 ~5 5 ~1 0 1 0 ~1 5 1 5 ~2 0
도수 도수밀도
30
6
20
4
10 2
0 0
0 ~5 5 ~1 0 1 0 ~1 5 1 5 ~2 0 0~ 5 5~ 10 10~ 15 15~ 20
Honggie Kim CH 1 - 22
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
사 유 도 수
성격차이 80
고부갈등 35
배우자 부정 25
가정폭력 20
주 벽 10
기 타 30
합 계 200
각종 그래프들
Honggie Kim CH 1 - 23
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
잘못 그려진 그래프
출처 Statistics,
: Concepts and Controrersies by Pavid S.Moore
Honggie Kim CH 1 - 24
Chapter 1. 자료의 정리 1. 4 도수분포표와 Histogram
출처 Statistics,
: Concepts and Controrersies by Pavid S.Moore
Honggie Kim CH 1 - 25
Chapter 1. 자료의 정리
1. 5 수치요약과 상자그림
(number summary and box plot)
다섯 수치
최소값
제 1 사분위수 (1st Quartile)
중위수 (Median)
제 3 사분위수 (3rd Quartile)
최대값
Ex) Ordered data
0 5 10 11 12 16 18 21 22
수치요약
관측값의 깊이
순서화된 자료에서 중앙의 왼편에 있을 때에는 왼쪽부터 ,
오른쪽에 있을 때에는 오른쪽부터의 순서 .
( 단 , 같은 값이 있을 때는 해당 순서를 나누어 가짐 )
Ordered
data 3 5 5 7 10 15 30 35 41
깊이 1 2.5 2.5 4 5 4 3 2 1
Honggie Kim CH 1 - 27
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림
수치의 깊이
중위수의 깊이
n+
d(M) =
1
2
Q1, Q3 의 깊이
[d(M)] + 1
2 x 를 x넘지 않는 최대정수
,[ ]는
Honggie Kim CH 1 - 28
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림
수치의 깊이
Ex) 충남대 남학생 12 명의 한달 평균용돈 조사
(n=12)( 단위 : 만원 )
Ordered data
3 10 11 13 15 18 20 21 25 29 36 40
Q1 = 11 + 13= 12 Q3 = 25=+27
29
2 2
Honggie Kim CH 1 - 29
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림
상자그림
용돈조사 데이터를 다섯 수치로 요약 .
( 3 , 12 , 19 , 27 , 40 )
0 10 20 30 40
< 위의 다섯수치로 얻은 상자그림 >
Honggie Kim CH 1 - 30
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림
상자그림
Ex) 만약 최대가 100 ( 40 대신 ) 이면 ,
최소 , Q1, M, Q3 는 불변
다섯수치 요약 : ( 3 , 12 , 19 , 27 , 100 )
Min Max
Honggie Kim CH 1 - 31
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림
상자그림의 중요 수치
IQR (Interquartile range ; 사분위범위 )
Q₃– Q₁ = 27 - 12 = 15
IL (Inner Lower fence)
Q₁- 1.5 ㆍ IQR = 12 – 1.5 x 15 = -10.5
IU (Inner Upper fence)
Q₃+ 1.5 ㆍ IQR = 27 + 1.5 x 15 = 49.5
OL (Outer Lower fence)
Q₁– 3 ㆍ IQR = 12 – 3 x 15 = -33
OU (Outer Upper fence)
Q₃+ 3 ㆍ IQR = 27 + 3 x 15 = 72
AL (Adjacent Lower value) Inner fence 안에서
AU (Adjacent Upper value) 가장 큰 값들
Honggie Kim CH 1 - 32
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림
상자그림
다시 작성된 상자그림
OL IL AL AU IU OU
Honggie Kim CH 1 - 33
Chapter 1. 자료의 정리 1. 5 수치요약과 상자그림
2 개의 상자그림 Data 비교
상자그림의 사용 예
Honggie Kim CH 1 - 34