Professional Documents
Culture Documents
3장. 데이터의 정리와 요약
3장. 데이터의 정리와 요약
강원대학교
이학박사 통계학전공
김문주
보건통계 및 실습
의학 데이터의 통계분석
제3장. 데이터의 정리와 요약
목 차
1 2
표와 그래프
기술통계량
2
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 표와 그래프
• 그래프나 표를 이용하여 표현
• 통계량을 이용하여 표현
3
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 표와 그래프
4
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
1. 질적 자료의 경우
• 백분율(percentage)=상대도수×100(%)
5
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
도수분포표
2. 양적 자료의 경우
• 계급폭 = 상한-하한
하한 + 상한
• 계급값(계급평균) =
2
6
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
• 도수분포표 작성방법
7
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
번호 연령 단계 번호 연령 단계 번호 연령 단계 번호 연령 단계
1 51 3 11 68 3 21 71 2 31 75 2
2 56 4 12 45 2 22 83 3 32 89 3
3 81 3 13 70 2 23 58 4 33 76 4
4 64 3 14 58 2 24 70 2 34 85 4
5 82 4 15 54 3 25 83 2 35 53 3
6 88 2 16 52 2 26 88 3 36 72 3
7 58 1 17 60 3 27 73 3 37 72 4
8 56 3 18 63 3 28 79 2 38 77 4
9 61 1 19 74 3 29 62 3 39 80 3
10 64 2 20 73 2 30 73 2 40 48 2
8
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
연령 병의 진행단계
18
계급 빈도수 누적 %
16
14
49 2 5.00%
12
59 9 27.50% 10
8
69 7 45.00% 6
4
79 13 77.50% 2
0
89 9 100.00% 1 2 3 4
계급
9
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
보통 받지 않음 보통 매우 매우 받지 않음
매우 보통 보통 매우 보통 보통
매우 보통 받지 않음 매우 받지 않음 보통
보통 매우 보통 보통 매우 받지 않음
보통 매우 매우 보통 받지 않음 보통
10
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
히스토그램
계급 빈도수
16
14 1 10
12
10 2 14
빈도수
8
6 3 6
4
2 기타 0
0
1 2 3 기타
계급
11
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
12
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
번호 연령 단계 번호 연령 단계 번호 연령 단계 번호 연령 단계
1 51 3 11 68 3 21 71 2 31 75 2
2 56 4 12 45 2 22 83 3 32 89 3
3 81 3 13 70 2 23 58 4 33 76 4
4 64 3 14 58 2 24 70 2 34 85 4
5 82 4 15 54 3 25 83 2 35 53 3
6 88 2 16 52 2 26 88 3 36 72 3
7 58 1 17 60 3 27 73 3 37 72 4
8 56 3 18 63 3 28 79 2 38 77 4
9 61 1 19 74 3 29 62 3 39 80 3
10 64 2 20 73 2 30 73 2 40 48 2
13
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
14
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
15
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
16
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
연령 병의 진행단계
히스토그램 히스토그램
14 120.00% 18 120.00%
16
12 100.00% 100.00%
14
10
80.00% 12 80.00%
8 10
빈도수
빈도수
60.00% 60.00%
6 빈도수 8 빈도수
40.00% 누적 % 6 40.00% 누적 %
4
4
2 20.00% 20.00%
2
0 0.00% 0 0.00%
49 59 69 79 89 기타 1 2 3 4 기타
계급 계급
17
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
• 분포(distribution)의 모양
• 대칭형(symmetric)
• 기운형(skewed)
a)오른쪽으로 기움
b)왼쪽으로 기움
• 균일형(uniform)
18
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
19
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림
• 줄기 잎 그림
• 잎의 길이는 도수에 비례하게 되므로 데이터의 대강
의 모습을 살피는데 유용
21
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 3. 차트의 작성과 수정
• X축에 항목이 지정
22
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 4. 여러 가지 차트
연령 9, 23%
병의 진행상태 7, 18%
9, 22%
14, 35%
49 59 69 79 89 1 2 3 4
23
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 4. 여러 가지 차트
24
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 4. 여러 가지 차트
25
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 5. 앱 지원 차트
• People graph
• 사람 모양의 그림을 이용하여 시각화
• Bing maps
• 지도에 크기나 비율을 표시할 수 있음
26
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 표와 그래프
27
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 기술통계량
• 산포 : 자료의 분포를 의미
28
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 1. 중심의 척도
1 n
표본평균 : x = ∑ xi
n i =1
30
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 1. 중심의 척도
31
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 1. 중심의 척도
• 평균 vs 중앙값 vs 최빈값
• 하나의 정점을 갖는 대칭형 분포에 대하여는 평
균, 중앙값과 최빈값은 동일하고 분포의 중심에
위치
• 오른쪽 꼬리가 긴 분포
평균> 중앙값>최빈값
• 왼쪽 꼬리가 긴 분포
평균<중앙값<최빈값
32
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 2. 산포의 척도
표본분산 : s =
1 n
∑
2
n − 1 i=1
x −x ( )
2
=
1 n 2 1 n 2
∑ x − (∑ x )
n − 1 i=1 n i=1
35
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 3. 왜도와 첨도
∑ (x − x ) / n
3
왜도계수 =
(x − x ) / n
3/2
2
∑
36
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 3. 왜도와 첨도
첨도>0
∑ (x − x ) / n
4
첨도=0 첨도계수 = −3
(x − x ) / n
2
2
∑
37
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 4. Excel을 이용한 기술통계
• 데이터 분석 기능을 이용
통계량 함수 통계량 함수
평균 AVERAGE 범위 MAX-MIN
중앙값 MEDIAN 최솟값 MIN
최빈값 MODE 최댓값 MAX
표본 분산 VAR.S 관측 수 COUNT
표준편차 STDEV.S N번째 큰 값 LARGE
표준 오차 STDEV.S/√n N번째 작은 값 SMALL
첨도 KURT 신뢰수준(1-α) CONFIDENCE
왜도 SKEW 4분위 수 QUARTILE
38
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 기술통계량
39
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 기술통계량
• 상자그림 그리는 순서
① 자료를 크기 순으로 정렬 후, 사분위수(Q1, Q2 및 Q3)를 계산
② 사분위수 범위를 계산 IQR = Q3 − Q1
③ 아래 울타리와 위 울타리를 구한다.
아래쪽 안 울타리 = Q1 − 1.5 × IQR
위쪽 안 울타리 = Q3 + 1.5 × IQR
예제> 상자그림의 작성
다음 자료는 표본 12명에 대한 한 주 동안 흡연량을 나타
낸다. 상자그림을 작성하시오.
35 29 44 72 34 64 41 50 54 104 39 58
35 29 44 72 34 64 41 50 54 104 39 58
42
Moonju Kim, Ph.D in Statistics, KNU
Q&A
43