Professional Documents
Culture Documents
0 통계학 기초
윤성민
1. 확률 (probability)
예)
어느 주식투자 전문가가 다섯 가지 주식종목을 추천했는데 ,
네 종목의 주식가격이 상승하였다고 하면 ,
그 전문가의 주가 예상이 적중할 확률이 팔십 퍼센트라고
말할 수 있는가 ?
Ch. 0 통계학 기초 2
실험 (experiment)
- 어떤 결과를 관찰하기 위한 일련의 잘 정의된 행위
• 임의실험 (random experiment)
- 발생 가능한 결과들 중 하나가 임의적으로 결정되는 과정
• 원소 (element)
사건 ( 사상 , event)
- 임의실험으로 얻게 되는 특정 결과들의 모임
- 표본공간의 부분집합
Ch. 0 통계학 기초 3
확률 (probability)
NA N A : 사건 A 가 발생할 횟수
P ( A) lim
N N
N : 임의실험 횟수
Ch. 0 통계학 기초 4
2. 확률변수 (random variable)
Ch. 0 통계학 기초 6
2. 확률변수
• Examples:
Gross domestic product (GDP)
money supply
interest rates
price of eggs
household income
expenditure on clothing
Ch. 0 통계학 기초 7
2. 확률변수
Ch. 0 통계학 기초 8
3. 확률분포 , 확률 ( 밀도 ) 함수
• 확률분포 (probability distribution)
: 어떤 확률변수가 취할 수 있는 모든 가능한 값들에
대응하는 확률을 나타낸 것
• 이산적 확률변수 경우와 연속적 확률변수 경우는
확률분포를 나타내는 방식이 조금 다름
• 표현방법
- 그래프
- 도표
- 확률밀도함수 (probability density function)
Ch. 0 통계학 기초 9
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >
• When the values of a discrete random variable are
listed with their chances of occurring,
the resulting table of outcomes is called
a probability function or a probability density function.
( 예 ) (= 동전 한 번 던져 나올 앞면의 수 ) 의 확률분포
동전면
앞면 1 0.5
뒷면 0 0.5
표본공간 그래프로도 표현 가능
확률밀도함수
Ch. 0 통계학 기초 10
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >
• For a discrete random variable the value of the
probability density function is the probability that the
random variable takes the value ,
Ch. 0 통계학 기초 11
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >
Ch. 0 통계학 기초 12
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >
표본공간 :
확률밀도함수 :
Ch. 0 통계학 기초 13
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >
•
•
•
•
Ch. 0 통계학 기초 14
3. 확률분포 , 확률함수 ,
확률밀도함수
< 연속적 확률변수의 확률밀도함수 >
• For the continuous random variable the probability
density function can be represented by an equation,
which can be described graphically by a curve.
• For continuous random variables, the area under the
probability density function corresponds to probability.
Ch. 0 통계학 기초 15
3. 확률분포 , 확률함수 ,
확률밀도함수
< 연속적 확률변수의 확률밀도함수 >
• Probability is represented by area.
• Height alone has no area.
• An interval for is needed to get an area under the curve.
Ch. 0 통계학 기초 16
4. 결합확률분포
Ch. 0 통계학 기초 17
4. 결합확률분포 f ( x, y ) P ( X x, Y y )
• Given two random variables and ,
the joint distribution of and is the distribution of
and together.
남성 여성
오바마 지지
힐러리 지지
Ch. 0 통계학 기초 18
4. 결합확률분포
Ch. 0 통계학 기초 19
4. 결합확률분포
• Independence
• random variables are independent
if their joint pdf is the product of their respective
marginal pdfs.
Independence:
Dependence:
Ch. 0 통계학 기초 20
4. 결합확률분포
Ch. 0 통계학 기초 21
5. 조건부확률 (conditional probability)
• 조건부확률
: 확률변수 가 어떤 특정한 값 를 취한 것이 전제가 된
상태에서 , 확률변수 가 어떤 특정한 값 를 취할 확률
Ch. 0 통계학 기초 22
<표> 학생 100 명의 분포
안경 착용 안경 미착용 합계
남 20 40 60
여 30 10 40
합계 50 50 100
20 1
P (안경착용 | 남자 )
60 3
Ch. 0 통계학 기초 23
5. 조건부확률분포
𝑓 (𝑥 , 𝑦 )
𝑓 (𝑥∨ 𝑦 )=
𝑓 (𝑦 ) conditional PDF
Ch. 0 통계학 기초 24
6. 모집단과 표본
• 모집단 (population)
: 연구대상의 전체집단
- 유한모집단 (finite population)
- 무한모집단 (infinite population)
• 표본 (sample)
: 모집단의 일부
: 모집단과 가장 유사한 모습 ( 특성 ) 을 가질수록 좋음
⇒ 임의표본 (random sample)
Ch. 0 통계학 기초 25
7. 모수와 통계량
• 모수 (parameter)
: 모집단의 어떤 특성을 수치로 나타낸 것 ( 통계치 )
: 전수조사를 하지 않는 이상 알아낼 수 없음 , 미지수
( 예 ) 모평균 , 모분산 , 모표준편차 , 모비율 등
• 통계량 (statistic)
: 표본의 어떤 특성 ( 통계치 ) 을 계산하는 공식
: 표본이 어떻게 뽑히는가에 따라 통계치가 다름 , 확률변수
( 예 ) 표본평균 , 표본분산 , 표본표준편차 , 표본비율 등
Ch. 0 통계학 기초 26
8. 평균 (mean)
• 유한 모집단에서의 평균 :
• 무한 모집단에서의 평균 :
• 표본의 평균 :
Ch. 0 통계학 기초 27
9. 분산 (variance), 표준편차 (standard deviation)
• 유한 모집단에서의 분산 :
• 무한 모집단에서의 분산 :
• 표본의 분산 :
• 표준편차 : ( 모집단 ), ( 표본 )
Ch. 0 통계학 기초 28
10. 기대치
• 기대치 혹은 기대값 (expected value)
: 같은 일이 무한히 반복될 때 , 해당 확률변수의 평균
• 산술평균을 나타냄
: 관측치의 수
• Analytical mean:
: 가능한 그룹의 수
Ch. 0 통계학 기초 29
10. 기대치
Ch. 0 통계학 기초 30
10. 기대치
① ( 는 상수 )
④,
⑤+
Ch. 0 통계학 기초 31
11. 분산 (variance)
: 확률변수의 값들이 중심으로부터 얼마나 퍼져 있는가를
나타냄
• 계산식
𝑉𝑎𝑟 ( 𝑋 )= 𝐸 ¿
2 2
¿ 𝐸 [ 𝑋 −2 𝜇 𝑋 +𝜇 ]
2 2
¿ 𝐸 ( 𝑋 ) − 2 𝜇 𝐸 ( 𝑋 )+𝜇
2 2
¿ 𝐸 ( 𝑋 )−𝜇
Ch. 0 통계학 기초 32
11. 분산
< 분산 관련 공식 >
① ( 는 상수 )
Ch. 0 통계학 기초 33
12. 조건부 확률 , 조건부 기대값 , 조건부 분산
• 조건부 확률
• 조건부 기대값
• 조건부 분산
Ch. 0 통계학 기초 34
13. 정규분포 (normal distribution, Gaussian distribu-
tion)
Ch. 0 통계학 기초 35
• 정규분포 :
Ch. 0 통계학 기초 36
< 확률밀도함수의 모수 >
• 정규분포 : 두 개의 모수
• 이차함수 : 세 개의 모수
Ch. 0 통계학 기초 37
: 원주율
< 정규분포의 확률밀도함수 > exp: 자연상수
Ch. 0 통계학 기초 38
13. 정규분포
2
𝑋 𝑁 (𝛽 ,1 )
Ch. 0 통계학 기초 39
13. 정규분포
2
𝑋 𝑁 (0 , 𝜎 )
Ch. 0 통계학 기초 40
< 정규분포의 표준화 >
• 정규분포
• 표준화
Ch. 0 통계학 기초 41
13. 정규분포
Ch. 0 통계학 기초 42
13. 정규분포
Ch. 0 통계학 기초 43
13. 정규분포
2
𝑍 𝑁 (0 , 1 )
Ch. 0 통계학 기초 44
13. 정규분포
2
𝑋 𝑁 (𝜇, 𝜎 )
(예) )
Ch. 0 통계학 기초 45
13. 정규분포
2
𝑌 𝑁 (𝜇 , 𝜎 )
𝑃 ( 𝑌 > 𝑎 ) =𝑃 ( σ
>
σ) (
𝑌 − μ 𝑎−μ
=𝑃 𝑍 >
σ)
𝑎− μ
(
=1− Φ
𝑎− μ
σ )
Ch. 0 통계학 기초 46
13. 정규분포
2
𝑌 𝑁 (𝜇 , 𝜎 )
(
𝑃 ( 𝑎≤ 𝑌 ≤ 𝑏 )=𝑃
𝑎−μ
σ
≤𝑍≤
𝑏−μ
σ
=Φ
σ) (
𝑏−μ
−Φ ) (
𝑎− μ
σ )
Ch. 0 통계학 기초 47
14. 카이제곱 분포
Ch. 0 통계학 기초 48
< 자유도 (degrees of freedom, df) >
, df=1
, df=2
, df=?
Ch. 0 통계학 기초 49
14. - 분포
2
𝑞=1
𝑞=2
𝑞=3
𝑞=4
𝑞=5
Ch. 0 통계학 기초 50
14. - 분포
2
2
𝜒 (𝑑𝑓 )
Ch. 0 통계학 기초 51
15. - 분포
• Student’s -distribution
Ch. 0 통계학 기초 52
15. t- 분포
Ch. 0 통계학 기초 53
15. t- 분포
𝑚=1
𝑚=2
𝑚=5
0
𝑚=∞
Ch. 0 통계학 기초 54
16. - 분포
• -distribution
Ch. 0 통계학 기초 55
16. F- 분포
𝑞1 =1 ,𝑞 2=1
𝑞1 =2 ,𝑞 2=1
𝑞1 =5 , 𝑞2=2
𝑞1 =100 , 𝑞2= 1
𝑞1 =100 , 𝑞2=100
Ch. 0 통계학 기초 56
17. Rules of Summation
• ( 는 상수 )
57
17. Rules of Summation ( 계속 )
Ch. 0 통계학 기초 58
18. 공분산 ,
• 유한 모집단의 공분산 :
• 무한 모집단의 공분산 :
• 표본의 공분산 :
Ch. 0 통계학 기초 59
18. 공분산
양의 공분산 :
Ch. 0 통계학 기초 60
18. 공분산
음의 공분산 :
Ch. 0 통계학 기초 61
18. 공분산
공분산 계산식
Ch. 0 통계학 기초 62
18. 공분산
63
19. 상관계수
• Correlation coefficient
• positive correlation if
• negative correlation if
• no correlation if
Ch. 0 통계학 기초 64
19. 상관계수
0 0.7
0.3 0.95
Ch. 0 통계학 기초 65
19. 상관계수
Ch. 0 통계학 기초 66
19. 상관계수
Independence
⇔ zero covariance or zero correlation
Ch. 0 통계학 기초 67
< 과제 >
Ch. 0 통계학 기초 68
R_code(1)
# 작업 디렉토리 확인 , 변경
>getwd() # 현재 작업중인 working directory 확인
>setwd("E:/R_code") #working directory 변경
# 작업할 데이터 준비
>install.packages("xlsx")
>library(xlsx)
>data51<-read.xlsx("E:/R_code/Table_5-1(Hamberger).xls", sheet-
Name="Hamberger") # 첫행의 변수명 읽음
# 데이터 파일 내용 확인
>names(data51) # 데이터 파일의 변수명만 보여 줌
>str(data51) # 데이터 파일의 전체적인 구조 보여 줌
>View(data51) # 데이터 파일 전체 보여 줌
>head(data51)
Ch. 0 통계학 기초 69
R_code(2)
#2 변수 plot 그리기
>plot(data51$Sales, data51$price) #data$Sales (x 축 ), data$price (y
축)
>plot(data51$Sales, data51$price, main="Plot of Sales and Price") #
제목 넣기
# 히스토그램
>hist(data51$Sales, main="Histogram of Sales") # 제목 넣기
70
R_code(3)
71
R_code(4)
# 다음과 같은 방식도 가능
>total=sum(data51$Sales) # 총합계
>total # 혹은 print(total)
>sm=mean(data51$Sales) # 평균
>sm # 혹은 print(sm)
Ch. 0 통계학 기초 72
R_code(5)
#quantile
>install.packages("Hmisc")
>library(Hmisc)
>seq <- seq(0, 1, 0.25) #0.25 구간으로 계산할 경우
>quantile(data51$Sales, probs = seq, na.rm = FALSE, names =
TRUE)
Ch. 0 통계학 기초 73
R_code(6)
>attach(data51)
>data51$sum2 <- data51$Sales + data51$price
>data51$mean2 = (data51$Sales + data51$price)/2
>detach(data51)
Ch. 0 통계학 기초 74
R_code(6)
# 변수명 줄이는 방법
>Sales = data51$Sales
>price = data51$price
# 새로 정의된 변수들 사용 후 버림
>sum4 <- Sales + price
>mean4 = (Sales + price)/2
Ch. 0 통계학 기초 75