You are on page 1of 43

2023 년도

강원대학교
이학박사 통계학전공
김문주

보건통계 및 실습
의학 데이터의 통계분석
제3장. 데이터의 정리와 요약
목 차

1 2
표와 그래프

기술통계량

2
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 표와 그래프

• 데이터의 특성을 잘 나타낼 수 있도록 효과적으로 정리


하고 표현하는 방법에 대해서 알아보자.

• 그래프나 표를 이용하여 표현

• 통계량을 이용하여 표현

3
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 표와 그래프

• 원자료(raw data) : 수집된 차례로 기록되어 처리되지


않고 순서화되지 않은 자료

• 표/그래프는 데이터의 유형에 따라 효과적으로 표현


하는 방법이 다름
막대그래프 vs. 히스토그램
기술통계표 vs. 빈도표

4
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

 도수분포표(frequency distribution) : 모든 범주와 해당


범주 각각에 속하는 원소의 수를 열거한 것

1. 질적 자료의 경우

• 흔히 상대도수나 누적상대도수가 같이 사용.


해당범주의 도수
• 한 범주의 상대도수 =
전체도수

• 백분율(percentage)=상대도수×100(%)

5
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

 도수분포표

2. 양적 자료의 경우

• 계급경계(class boundary) : 한 계급의 상한과 다음


계급의 하한의 중앙값

• 계급폭 = 상한-하한
하한 + 상한
• 계급값(계급평균) =
2

6
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

• 도수분포표 작성방법

① 관측치 중 최댓값과 최솟값을 찾는다.

② 최댓값과 최솟값의 차이, 즉 범위를 구한다.

③ 몇 개의 구간으로 나눌 것인지 결정한다.

④ 구간이 중복되지 않도록 범위를 정한다.

⑤ 각 구간에 속하는 관측치의 수를 세어 도수를 구한다.

7
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

예제3.1> 다음은 40명의 직장암 환자의 연령과 병의 진행


단계(stage)에 관한 자료이다.

번호 연령 단계 번호 연령 단계 번호 연령 단계 번호 연령 단계
1 51 3 11 68 3 21 71 2 31 75 2
2 56 4 12 45 2 22 83 3 32 89 3
3 81 3 13 70 2 23 58 4 33 76 4
4 64 3 14 58 2 24 70 2 34 85 4
5 82 4 15 54 3 25 83 2 35 53 3
6 88 2 16 52 2 26 88 3 36 72 3
7 58 1 17 60 3 27 73 3 37 72 4
8 56 3 18 63 3 28 79 2 38 77 4
9 61 1 19 74 3 29 62 3 39 80 3
10 64 2 20 73 2 30 73 2 40 48 2

8
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

예제3.1> 다음은 40명의 직장암 환자의 연령과 병의 진행


단계(stage)에 관한 자료이다.

연령 병의 진행단계
18
계급 빈도수 누적 %
16
14
49 2 5.00%
12

59 9 27.50% 10
8
69 7 45.00% 6
4
79 13 77.50% 2
0
89 9 100.00% 1 2 3 4
계급

9
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

예제> 어느 회사에서 30명의 종업원을 표본으로 뽑아 업


무에 관련하여 얼마나 스트레스를 받는지를 물었다. 종업
원들의 반응을 스트레스를 매우 많이 받는 경우를 “매우”,
보통 정도인 경우를 “보통”, 전혀 받지 않는 경우를 “받지
않음”으로 기록하였다. 이 자료를 이용하여 도수분포표를
작성하시오.

보통 받지 않음 보통 매우 매우 받지 않음

매우 보통 보통 매우 보통 보통

매우 보통 받지 않음 매우 받지 않음 보통

보통 매우 보통 보통 매우 받지 않음

보통 매우 매우 보통 받지 않음 보통

10
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

예제> 어느 회사에서 30명의 종업원을 표본으로 뽑아 업


무에 관련하여 얼마나 스트레스를 받는지를 물었다. 종업
원들의 반응을 스트레스를 매우 많이 받는 경우를 “매우”,
보통 정도인 경우를 “보통”, 전혀 받지 않는 경우를 “받지
않음”으로 기록하였다. 이 자료를 이용하여 도수분포표를
작성하시오.

히스토그램
계급 빈도수
16
14 1 10
12
10 2 14
빈도수

8
6 3 6
4
2 기타 0
0
1 2 3 기타
계급

11
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

• 분할표(contingency table) : 한 개체에 대해 두 가지 변


수를 조사하고 이것이 모두 질적 범주인 경우에는 두 변
수를 각기 행과 열에 배치하고 해당되는 관측치를 세어
서 정리한 표
Var2
A B Total
Var1
C n11 n12 n1*

D n21 n22 n2*


E n31 n32 n3*
Total n*1 n*2 n

12
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

예제3.1> 다음은 40명의 직장암 환자의 연령과 병의 진행


단계(stage)에 관한 자료이다.(연령대ⅹ병의 진행단계)

번호 연령 단계 번호 연령 단계 번호 연령 단계 번호 연령 단계
1 51 3 11 68 3 21 71 2 31 75 2
2 56 4 12 45 2 22 83 3 32 89 3
3 81 3 13 70 2 23 58 4 33 76 4
4 64 3 14 58 2 24 70 2 34 85 4
5 82 4 15 54 3 25 83 2 35 53 3
6 88 2 16 52 2 26 88 3 36 72 3
7 58 1 17 60 3 27 73 3 37 72 4
8 56 3 18 63 3 28 79 2 38 77 4
9 61 1 19 74 3 29 62 3 39 80 3
10 64 2 20 73 2 30 73 2 40 48 2

13
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

예제3.2> 다음은 141명의 뇌종양 환자들을 종양의 위치와


종류, 나이, 성별, 수치를 기록한 가상의 데이터이다. 이 데
이터를 이용하여 다양한 피벗 테이블 기능을 활용하여 보
자.
번호 위치 종류 나이 성별 수치
1 측두엽 C 37 M 145
2 전두엽 B 38 F 153
3 전두엽 C 42 F 125
4 다른 위치 A 65 F 167
5 전두엽 A 53 F 168
︙ ︙ ︙ ︙ ︙ ︙
141 전두엽 A 36 F 138

14
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

• 막대그래프(bar chart) : 명목형이나 순서형 자료의 빈


도를 그림으로 표현하기 위해서 사용.

• 수평축으로는 범주를, 수직축에 각 범주에 해당하는 도


수나 상대도수를 막대의 높이로 표현
• 단순 : 한 개 변수의 범주에 대한 요약값으로 그래프의 막대를
표현
• 수평누적: 두 개 변수 중 나머지 한 변수의 범주 내에서 다른
변수의 범주에 대한 요약치로 막대를 표시
• 수직누적: 한 개 변수의 범주에 대한 막대에 대하여 다른 변수
범주의 요약치를 수직적으로 구분하여 표시

15
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

• 히스토그램(histogram) : 도수분포표를 그림으로 표현


가로축에 구간을 표시하고 세로축에 도수를 표시
• 다각형(polygon) : 히스토그램에서 막대의 위쪽 중간을
직선으로 연결한 그래프

16
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

예제3.1> 다음은 40명의 직장암 환자의 연령과 병의 진행


단계(stage)에 관한 자료이다.

연령 병의 진행단계
히스토그램 히스토그램
14 120.00% 18 120.00%

16
12 100.00% 100.00%
14
10
80.00% 12 80.00%
8 10
빈도수

빈도수
60.00% 60.00%
6 빈도수 8 빈도수

40.00% 누적 % 6 40.00% 누적 %
4
4
2 20.00% 20.00%
2

0 0.00% 0 0.00%
49 59 69 79 89 기타 1 2 3 4 기타
계급 계급

17
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

• 분포(distribution)의 모양

• 대칭형(symmetric)

• 기운형(skewed)
a)오른쪽으로 기움
b)왼쪽으로 기움

• 균일형(uniform)

18
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

• 줄기-잎 그림(stem and leaf plot) : 값들은 두 부분(줄


기와 잎)으로 나누어 그리는 그래프

• 줄기-잎 그림을 그리는 순서


① 각 관측값을 줄기와 잎으로 구분
② 줄기를 수직으로 열거하고 오른쪽에 수직선을 작성
③ 각 관측값에 대응하는 줄기와 같은 열에 잎 부분에 해당되는
관측값을 기록
④ 각 줄기에 잎을 크기 순으로 정렬

19
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 1. 도수분포표, 히스토그램, 줄기와 잎 그림

• 줄기 잎 그림
• 잎의 길이는 도수에 비례하게 되므로 데이터의 대강
의 모습을 살피는데 유용

• 단순 분포뿐 아니라 정확한 수치를 보여주므로 더 많


은 정보를 줄 수 있으며, 그리기 간편

Stem-leaf plot in SPSS


20
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 2. 피벗테이블

• 분할표(contingency table)로 정리하여야 할 경우 활용

• 명목형 자료의 각 분류에 대한 평균과 합계, 최솟값과


최대값에 대해서도 피벗 테이블을 이용해 쉽게 계산

21
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 3. 차트의 작성과 수정

• 데이터를 시각화하여 요약하는 방법

• 워크시트의 행은 차트의 데이터 계열이 되고 열은 차트


의 항목

• X축에 항목이 지정

22
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 4. 여러 가지 차트

• 원도표(pie chart) : 원을 그리고 각 조각의 각도가 도수


에 비례하도록 중심각을 나누어 그림
• 원도표를 이용하면 각 범주가 차지하는 비율을 한눈에
파악이 용이
2, 5% 2, 5%

연령 9, 23%
병의 진행상태 7, 18%

9, 22%

14, 35%

13, 33% 7, 17% 17, 42%

49 59 69 79 89 1 2 3 4

23
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 4. 여러 가지 차트

• 산점도(scatter plot) : 데이터의 값이 쌍으로 이루어지


는 경우에 이러한 이변량 데이터를 그래프로 표현
• 한 변수는 x축, 다른 변수는 y축에 지정

이변량 산점도 일변량 산점도

24
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 4. 여러 가지 차트

예제3.3> 다음은 선천성 심장 질환을 갖고 있는 16명의


유아에 대한 폐혈액량(pulmonary blood volume: PBV,
단위 L/min/sqM)을 조사한 자료이다. 폐혈액량에 따라 폐
혈류량이 어떻게 변화하는지 산점도를 이용하여 알아보자.

PBV PBF PBV PBF PBV PBF PBV PBF

4.31 168 12.30 303 5.87 224 19.41 531

3.40 280 13.99 429 5.00 291 16.61 516

6.20 391 8.73 605 3.51 233 7.21 211

17.30 420 8.90 522 4.24 370 11.60 439

25
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 5. 앱 지원 차트

• People graph
• 사람 모양의 그림을 이용하여 시각화

• Bing maps
• 지도에 크기나 비율을 표시할 수 있음

26
Moonju Kim, Ph.D in Statistics, KNU
3. 1. 표와 그래프

Q. 그래프의 왜곡(distortion)에는 어떤 것들이 있을까?

Q. 왜곡을 줄이기 위해 어떠한 노력을 해야하는가?

27
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 기술통계량

• 기술통계량(descriptive statistic) : 연속형 데이터를 전


반적인 특성을 파악하는 의미 있는 수치

• 중심의 척도 : 자료의 대푯값을 의미

• 산포 : 자료의 분포를 의미

28
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 1. 중심의 척도

• 평균(mean) : 중심위치에 대한 척도로써 대중적인 척도


1 N
모평균 : µ =
N
∑x
i =1
i

1 n
표본평균 : x = ∑ xi
n i =1

• 평균은 데이터의 분포가 한 쪽으로 치우치지 않고 하


나의 축을 중심으로 좌우 대칭으로 흩어진 형태를 가
진 데이터의 특성을 표현하기 적합
• 이상점(outlier)에 의해 영향을 많이 받음
Q. 왜 평균이어야 하는가?
29
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 1. 중심의 척도

• 중앙값(median) : 데이터를 크기 순으로 정렬하였을 때,


가운데 오는 값
 X ( n +1) / 2 , n : odd

Med = 
( X n / 2 + X n / 2+1 ) / 2 , n : even

• 최빈값(mode) : 가장 빈번히 나타난 데이터 값


• 하나의 봉우리를 갖는 형태가 아니고 두 개 이상의
봉우리모양으로 흩어진 경우(다봉분포)에 유용

30
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 1. 중심의 척도

• 사분위 수(quartile) : 데이터를 크기 순으로 정렬하였을


때, 4등분하는 위치에 오는 값
• 하위 25%에 해당하는 값: 제1사분위수(Q1)
• 상위 25%에 해당하는 값: 제3사분위수(Q3)
• 중앙값 = 제2사분위수(Q2)

• 백분위수(percentile) : k번째 백분위수는 크기 순으로


 kn 
정렬한 자료에서 
100
 번째 값
 

31
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 1. 중심의 척도

• 평균 vs 중앙값 vs 최빈값
• 하나의 정점을 갖는 대칭형 분포에 대하여는 평
균, 중앙값과 최빈값은 동일하고 분포의 중심에
위치
• 오른쪽 꼬리가 긴 분포
평균> 중앙값>최빈값
• 왼쪽 꼬리가 긴 분포
평균<중앙값<최빈값

32
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 2. 산포의 척도

• 분산(variance) : 각 데이터 값들과 평균과의 차이(편차)


에 근거를 둔 통계량
n 1n 2 1 n
모분산 : σ = 2 1
∑ (x − µ )
2
= ∑ x − (∑ x ) 
2

N i=1 N  i=1 N i=1 

표본분산 : s =
1 n

2

n − 1 i=1
x −x ( )
2
=
1  n 2 1 n 2
∑ x − (∑ x ) 
n − 1  i=1 n i=1 

• 표준편차(standard deviation) : 분산의 제곱근


• 표본분산을 구할 때, n으로 나누지 않고 n-1로 나누는 것은 표
본평균이 알 때, 자유도가 1 생기기 때문.
• 통계적 추론을 위한 수학적 성질인 불편성(unbias)이 좋기 때문
Q. 왜 표준편차이어야 하는가?
33
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 2. 산포의 척도

• 범위(range) : 최대값과 최소값의 차이.


• 이상점에 의한 영향이 큼

• 사분위수 범위(interquartile range; IQR) : 제3사분위수


와 제1사분위수의 차이
• 이상점에 의한 영향이 크지 않으므로 산포의 측도로 사용

• 변동계수(coefficient of variation; CV) : 이질적인 두 집


단의 산포를 비교할 때 사용
s
CV = × 100(%)
x

Q. 두 집단의 표준편차를 단순비교하면 안 되는가?


34
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 2. 산포의 척도

• 흔히 평균과 표준편차를 함께 기술하는 경우가 많은데,


만약 중심척도로 중앙값을 쓴다면 산포의 척도로 표준
편차는 적절하지 않으며, 사분위 범위(IQR) 또는 이를 2
로 나눈 사분위 편차(quartile deviation)를 기술

35
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 3. 왜도와 첨도

• 왜도(skewness) : 데이터의 분포형태가 기울어진 정


도를 의미.
• 분포의 형태가 좌우대칭: 0, 오른쪽으로 긴 꼬리: (+),
왼쪽으로 긴 꼬리: (-)

∑ (x − x ) / n
3

왜도계수 =
 (x − x ) / n 
3/2
2
∑ 
 

36
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 3. 왜도와 첨도

• 첨도(kurtosis) : 분포가 평균치주변에 몰려 있는 형태


인지 멀리 퍼져있는 형태인지 그 뾰족한 정도를 의미.
• 정규분포는 0, 뾰족하면 (+), 완만하면 (-)

첨도>0

∑ (x − x ) / n
4

첨도=0 첨도계수 = −3
 (x − x ) / n 
2
2
∑ 
 

37
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 4. Excel을 이용한 기술통계

• 데이터 분석 기능을 이용
통계량 함수 통계량 함수
평균 AVERAGE 범위 MAX-MIN
중앙값 MEDIAN 최솟값 MIN
최빈값 MODE 최댓값 MAX
표본 분산 VAR.S 관측 수 COUNT
표준편차 STDEV.S N번째 큰 값 LARGE
표준 오차 STDEV.S/√n N번째 작은 값 SMALL
첨도 KURT 신뢰수준(1-α) CONFIDENCE
왜도 SKEW 4분위 수 QUARTILE

38
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 기술통계량

• 상자그림(box plot) : 자료의 중심위치, 산포와 왜도를


나타내는 그림. 5가지 측도, 중앙값, 제1사분위수, 제3
사분위수, 아래쪽 안 울타리와 위쪽 안 울타리에 속하
는 자료의 최대값, 최소값을 사용하여 상자와 두 개의
수명으로 구성
아래 울타리 위 울타리
Q1 Q3
Q2 이상점
유효최소 유효최대

39
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 기술통계량

• 상자그림 그리는 순서
① 자료를 크기 순으로 정렬 후, 사분위수(Q1, Q2 및 Q3)를 계산
② 사분위수 범위를 계산 IQR = Q3 − Q1
③ 아래 울타리와 위 울타리를 구한다.
아래쪽 안 울타리 = Q1 − 1.5 × IQR
위쪽 안 울타리 = Q3 + 1.5 × IQR

④ 울타리 안에서 최대(유효최대)와 최소(유효최소)를 확인


⑤ 제1사분위수와 제3사분위수를 이용하여 상자를 그리고 상자 안에
중앙값의 위치에 수직선을 표시
⑥ 유효최대 및 유효최소를 상자에 연결
⑦ 이상점(outlier)은 별표로 표시
40
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 기술통계량

예제> 상자그림의 작성
다음 자료는 표본 12명에 대한 한 주 동안 흡연량을 나타
낸다. 상자그림을 작성하시오.

35 29 44 72 34 64 41 50 54 104 39 58

Q. 만약 이상점이 존재한다면 이상점은 어떻게 처리해야


하는가?
41
Moonju Kim, Ph.D in Statistics, KNU
3. 2. 기술통계량

35 29 44 72 34 64 41 50 54 104 39 58

42
Moonju Kim, Ph.D in Statistics, KNU
Q&A

1. 간호학과 학생들의 성적을 효과


적으로 나타낼 수 있는 방법은?

2. 간호학과 학생들의 통계학 중간


고사 성적의 평균과 분산이 각
각 83.5와 24.7이었는데, 평균
과 분산의 의미는?

43

You might also like