chapter2 강의자료

[7th gimLAB-TMI for Biologist Series] Statistics using R
Chapter02. 생물통계 기본 + R 기초
1
P-value
공이 10 개가 있을 때 , 흰 공과 검은 공의 비율은 ?
내가 주머니에서 뽑은 거
? ? ? 공을 4 개씩 뽑는다고 가정
?
? ?
? ? ? ?
모집단 표본
귀무가설 : 흰공과 검은공의 비율이 5 대 5 다
대립가설 : 흰공과 검은공의 비율이 다르다
영가설이 참이라는 가정하에 그려진 분포
2
유의수준
귀무가설 : 대한민국 전체 여성의 평균키는 165 다 .
대립가설 : 대한민국 전체 여성의 평균키는 165 보다 작다
모집단 표본
𝑃 − 𝑣𝑎𝑙𝑢𝑒=𝑃𝑟 ( 𝑋 ≥ ¿ 𝑋 𝐶 ∨¿ 𝐻 0 =𝑇 )
: 내가 얻어낸 통계치 , 변수
: 특정한 값 (155)
: 영가설 5%
유의수준
유의수준 = 내가 정하는 값 ( 보통 5% 로
잡음 )
귀무가설의 기각 여부를 정함
5% 의 유의수준이라는 뜻 = 넓이가 0.05 155 165
155 보다 더 낮게 나올 수 있는 확률을 더한 것 = P-value
3
유의수준
귀무가설 : A 라는 유전자는 알츠하이머라는 질병에 영향을 주지 않는다 .
대립가설 : A 라는 유전자는 알츠하이머라는 질병에 영향을 준다 .
95% 신뢰구간
모집단 표본
5%
유의수준
5%
넓이 = 0.025 유의수준
-1.96 0 1.96
유의수준 = 내가 정하는 값 ( 보통 5% 로 잡음 )
귀무가설의 기각 여부를 정함
5% 의 유의수준이라는 뜻 = 넓이가 0.05
양측검정일 경우 , 각각의 넓이는 0.025 더하면 0.05
4
모집단의 평균
• 생물학적 변수를 비롯한 많은 변수는 정규분포를 따르는 경향이

있다 .
모집단의 평균 =
모집단의 크기가 N 이라고 했을 때 ,
평균
5
모집단의 분산
• 평균값 주위의 퍼져 있는 정도 ( 산포 ) 가 증가할수록 분산은

증가한다 .
• 4 명으로 이루어진 여자 모집단의 평균 키는 165cm  = 165
• 여자 X1 의 키는 158cm
• 여자 X4 의 키는 164cm 모집단의 분산
= =
6
모집단의 분산
7
정규분포
• 특성
• 평균 확률밀도함수의 최빈값과 일치한다 .
• 평균 를 중심으로 좌우 대칭을 이루며 , 평균과 중앙값이 일치한다 .
= 평균 ( 분포의 중심을 나타냄 )
= 분산 ( 평균으로부터 퍼져 있는 정도를 나타냄 )
8
정규분포 (Normal distribution)
X ~ N(, )
68.3%
, 인 정규분포  표준 정규분포
95%
Z~N(0,1)
-2 -1 0 1 2
9
표본
• 표본평균 : 추정량 , (N 이 아닌 n 으로 쓰이며 , n 은 표본의 크기 )

• 표본분산 :
• 자유도 자유가 없음
5 개의 숫자가 있다면 자유도는 4

표본크기가 n 인 경우 표본 평균을 이미 추정했으므로 자유도는 n-1
10
표본
• 표본 평균의 분포는 모평균 값을 중심으로 분포

• 표준오차 (standard error, SE)
: 표본들이 모평균에서 얼마나 떨어져 있는지를 표준적으로
나타내 주는 값
: 표본 통계량의 표준편차
하지만 알 수 없기 때문에 표본을 이용하여 추정해야 한다 .
따라서 로 계산할 수 있다 .
11
중심경향 (central tendancy)
? ?
왜 중심을 볼까 ? 집단의 특정한 성격이 모이는 곳이 중심이므로 그것을 비교하기 위해서
• 최빈값
• 평균
• 중앙값
12
최빈값
• 가장 많이 관찰되는 값
• 히스토그램을 그려보면 최빈값을 찾을 수 있다 .
13
평균
• 데이터 값을 모두 더한 것을 데이터 수 n 으로 나눈 값
ȳ =
• 이상치에 영향을 많이 받기 때문에 극단적으로 크거나 작은

데이터 (outlier) 가 결과에 큰 영향을 미칠 수 있다 .
14
중앙값
• 전체 관측값을 크기 순서로 배열했을 때 가운데 위치하는 값

• 자료의 개수가 홀수  (n+1)/2 번째 관측값
• 자료의 개수가 짝수  n/2 번째 관측값과 (n+1)/2 번째 관측값의 평균
• 평균과 달리 outlier 에 영향을 받지 않는다 .
88 74 91 86 72 의 중앙값은 ?
72 74 86 88 91 중 가운데에 있는 86 이 중앙값
56 68 52 64 67 50 의 중앙값은 ?
50 52 56 64 67 68 중 가운데에 있는 56, 64 의 평균인 60 이 중앙값
15
분산
분 =
16
신뢰구간
17
R
18
실습
• iris 데이터에서 Sepal.width 의 빈도를 구하고 히스토그램을

그려라
• mean 을 함수로 만들어 보기 ( 함수이름은 mean_func)

• function 사용
• iris 데이터의 Sepal.width 의 평균을 구하라
• iris 데이터를 모집단으로 생각하고 , 이 중 30 개씩 표본을 뽑아

Sepal.Width 의 평균을 구하고 , 이 과정을 100 번 수행하여
iris_tmp 라는 벡터에 100 개의 평균값을 넣어라 .
19
• iris 데이터에서 Sepal.Width 의 빈도를 구하고 히스토그램을 그려라
table(iris$Sepal.Width)
hist(iris$Sepal.Width)
• mean 을 함수로 만들어 보기 ( 함수이름은 mean_func)

• function 사용
mean_func <- function(x){
sum(x)/length(x)
}
• iris 데이터의 Sepal.Width 의 평균을 구하라

mean(iris$Sepal.Width)
• iris 데이터를 모집단으로 생각하고 , 이 중 30 개씩 표본을 뽑아 Sepal.Width 의 평균을

구하고 , 이 과정을 100 번 수행하여 iris_tmp 라는 벡터에 100 개의 평균값을 넣어라 .
iris_tmp <- c()
for(i in 1:100){
iris_tmp[i] <- mean(sample(iris$Sepal.Width,30,replace=T))
} 20

chapter2 강의자료

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

chapter2 강의자료

Uploaded by

Copyright:

Available Formats

[7th gimLAB-TMI for Biologist Series] Statistics using R

영가설이 참이라는 가정하에 그려진 분포

• 생물학적 변수를 비롯한 많은 변수는 정규분포를 따르는 경향이

• 평균값 주위의 퍼져 있는 정도 ( 산포 ) 가 증가할수록 분산은

• 표본평균 : 추정량 , (N 이 아닌 n 으로 쓰이며 , n 은 표본의 크기 )

5 개의 숫자가 있다면 자유도는 4

• 표본 평균의 분포는 모평균 값을 중심으로 분포

왜 중심을 볼까 ? 집단의 특정한 성격이 모이는 곳이 중심이므로 그것을 비교하기 위해서

• 이상치에 영향을 많이 받기 때문에 극단적으로 크거나 작은

• 전체 관측값을 크기 순서로 배열했을 때 가운데 위치하는 값

• 평균과 달리 outlier 에 영향을 받지 않는다 .

50 52 56 64 67 68 중 가운데에 있는 56, 64 의 평균인 60 이 중앙값

• iris 데이터에서 Sepal.width 의 빈도를 구하고 히스토그램을

• mean 을 함수로 만들어 보기 ( 함수이름은 mean_func)

• iris 데이터의 Sepal.width 의 평균을 구하라

• iris 데이터를 모집단으로 생각하고 , 이 중 30 개씩 표본을 뽑아

• mean 을 함수로 만들어 보기 ( 함수이름은 mean_func)

• iris 데이터의 Sepal.Width 의 평균을 구하라

• iris 데이터를 모집단으로 생각하고 , 이 중 30 개씩 표본을 뽑아 Sepal.Width 의 평균을

You might also like