You are on page 1of 20

[7th gimLAB-TMI for Biologist Series] Statistics using R

Chapter02. 생물통계 기본 + R 기초

1
P-value
공이 10 개가 있을 때 , 흰 공과 검은 공의 비율은 ?

내가 주머니에서 뽑은 거
? ? ? 공을 4 개씩 뽑는다고 가정

?
? ?
? ? ? ?

모집단 표본
귀무가설 : 흰공과 검은공의 비율이 5 대 5 다
대립가설 : 흰공과 검은공의 비율이 다르다

영가설이 참이라는 가정하에 그려진 분포

2
유의수준
귀무가설 : 대한민국 전체 여성의 평균키는 165 다 .
대립가설 : 대한민국 전체 여성의 평균키는 165 보다 작다

모집단 표본

𝑃 − 𝑣𝑎𝑙𝑢𝑒=𝑃𝑟 ( 𝑋 ≥ ¿ 𝑋 𝐶 ∨¿ 𝐻 0 =𝑇 )
: 내가 얻어낸 통계치 , 변수
: 특정한 값 (155)
: 영가설 5%
유의수준
유의수준 = 내가 정하는 값 ( 보통 5% 로
잡음 )
귀무가설의 기각 여부를 정함
5% 의 유의수준이라는 뜻 = 넓이가 0.05 155 165
155 보다 더 낮게 나올 수 있는 확률을 더한 것 = P-value
3
유의수준
귀무가설 : A 라는 유전자는 알츠하이머라는 질병에 영향을 주지 않는다 .
대립가설 : A 라는 유전자는 알츠하이머라는 질병에 영향을 준다 .

95% 신뢰구간

모집단 표본

5%
유의수준
5%
넓이 = 0.025 유의수준

-1.96 0 1.96
유의수준 = 내가 정하는 값 ( 보통 5% 로 잡음 )
귀무가설의 기각 여부를 정함
5% 의 유의수준이라는 뜻 = 넓이가 0.05
양측검정일 경우 , 각각의 넓이는 0.025 더하면 0.05

4
모집단의 평균

• 생물학적 변수를 비롯한 많은 변수는 정규분포를 따르는 경향이


있다 .
모집단의 평균 =
모집단의 크기가 N 이라고 했을 때 ,

평균

5
모집단의 분산

• 평균값 주위의 퍼져 있는 정도 ( 산포 ) 가 증가할수록 분산은


증가한다 .
• 4 명으로 이루어진 여자 모집단의 평균 키는 165cm  = 165
• 여자 X1 의 키는 158cm
• 여자 X2 의 키는 166cm
• 여자 X3 의 키는 172cm
• 여자 X4 의 키는 164cm 모집단의 분산

= =

6
모집단의 분산

7
정규분포

• 특성
• 평균 확률밀도함수의 최빈값과 일치한다 .
• 평균 를 중심으로 좌우 대칭을 이루며 , 평균과 중앙값이 일치한다 .
= 평균 ( 분포의 중심을 나타냄 )
= 분산 ( 평균으로부터 퍼져 있는 정도를 나타냄 )

8
정규분포 (Normal distribution)
X ~ N(, )

68.3%
, 인 정규분포  표준 정규분포
95%
Z~N(0,1)

-2 -1 0 1 2

9
표본

• 표본평균 : 추정량 , (N 이 아닌 n 으로 쓰이며 , n 은 표본의 크기 )


• 표본분산 :

• 자유도 자유가 없음

5 개의 숫자가 있다면 자유도는 4


표본크기가 n 인 경우 표본 평균을 이미 추정했으므로 자유도는 n-1

10
표본

• 표본 평균의 분포는 모평균 값을 중심으로 분포


• 표준오차 (standard error, SE)
: 표본들이 모평균에서 얼마나 떨어져 있는지를 표준적으로
나타내 주는 값
: 표본 통계량의 표준편차
하지만 알 수 없기 때문에 표본을 이용하여 추정해야 한다 .

따라서 로 계산할 수 있다 .

11
중심경향 (central tendancy)
? ?

왜 중심을 볼까 ? 집단의 특정한 성격이 모이는 곳이 중심이므로 그것을 비교하기 위해서

• 최빈값

• 평균

• 중앙값

12
최빈값

• 가장 많이 관찰되는 값
• 히스토그램을 그려보면 최빈값을 찾을 수 있다 .

13
평균

• 데이터 값을 모두 더한 것을 데이터 수 n 으로 나눈 값

ȳ =

• 이상치에 영향을 많이 받기 때문에 극단적으로 크거나 작은


데이터 (outlier) 가 결과에 큰 영향을 미칠 수 있다 .

14
중앙값

• 전체 관측값을 크기 순서로 배열했을 때 가운데 위치하는 값


• 자료의 개수가 홀수  (n+1)/2 번째 관측값
• 자료의 개수가 짝수  n/2 번째 관측값과 (n+1)/2 번째 관측값의 평균

• 평균과 달리 outlier 에 영향을 받지 않는다 .

88 74 91 86 72 의 중앙값은 ?

72 74 86 88 91 중 가운데에 있는 86 이 중앙값

56 68 52 64 67 50 의 중앙값은 ?

50 52 56 64 67 68 중 가운데에 있는 56, 64 의 평균인 60 이 중앙값

15
분산
분 =

16
신뢰구간

17
R

18
실습

• iris 데이터에서 Sepal.width 의 빈도를 구하고 히스토그램을


그려라

• mean 을 함수로 만들어 보기 ( 함수이름은 mean_func)


• function 사용

• iris 데이터의 Sepal.width 의 평균을 구하라

• iris 데이터를 모집단으로 생각하고 , 이 중 30 개씩 표본을 뽑아


Sepal.Width 의 평균을 구하고 , 이 과정을 100 번 수행하여
iris_tmp 라는 벡터에 100 개의 평균값을 넣어라 .
19
• iris 데이터에서 Sepal.Width 의 빈도를 구하고 히스토그램을 그려라
table(iris$Sepal.Width)
hist(iris$Sepal.Width)

• mean 을 함수로 만들어 보기 ( 함수이름은 mean_func)


• function 사용
mean_func <- function(x){
sum(x)/length(x)
}

• iris 데이터의 Sepal.Width 의 평균을 구하라


mean(iris$Sepal.Width)

• iris 데이터를 모집단으로 생각하고 , 이 중 30 개씩 표본을 뽑아 Sepal.Width 의 평균을


구하고 , 이 과정을 100 번 수행하여 iris_tmp 라는 벡터에 100 개의 평균값을 넣어라 .
iris_tmp <- c()
for(i in 1:100){
iris_tmp[i] <- mean(sample(iris$Sepal.Width,30,replace=T))
} 20

You might also like