You are on page 1of 75

Ch.

0 통계학 기초

윤성민
1. 확률 (probability)

예)
어느 주식투자 전문가가 다섯 가지 주식종목을 추천했는데 ,
네 종목의 주식가격이 상승하였다고 하면 ,
그 전문가의 주가 예상이 적중할 확률이 팔십 퍼센트라고
말할 수 있는가 ?

Ch. 0 통계학 기초 2
 실험 (experiment)
- 어떤 결과를 관찰하기 위한 일련의 잘 정의된 행위
• 임의실험 (random experiment)
- 발생 가능한 결과들 중 하나가 임의적으로 결정되는 과정

 표본공간 (sample space)

-실험에 의해 나타날 수 있는 실현 가능한 모든 결과들의 집합

• 원소 (element)

- 실험에서 나타날 수 있는 개개의 결과

 사건 ( 사상 , event)
- 임의실험으로 얻게 되는 특정 결과들의 모임
- 표본공간의 부분집합
Ch. 0 통계학 기초 3
 확률 (probability)

• Probability is the likelihood or chance


that something is the case or will happen.

NA N A : 사건 A 가 발생할 횟수
P ( A)  lim
N  N
N : 임의실험 횟수

Ch. 0 통계학 기초 4
2. 확률변수 (random variable)

• A random variable is a variable


whose value is unknown until it is observed. ( 대문자 )

• The value of a random variable results from an


experiment; it is not perfectly predictable. ( 소문자 )

( 예 ) 공장에서 생산한 두 개의 제품의 불량 여부


임의실험   {(불, 불), (불, 정), (정, 불), (정, 정)}
표본공간 X:
확률변수 : 불량품의
x  0, 1, 2수
확률변수의 값 :
Ch. 0 통계학 기초 5
2. 확률변수

< 이산적 확률변수 >


• A discrete random variable can take only a finite
number of values, that can be counted by using
the positive integers.

Ch. 0 통계학 기초 6
2. 확률변수

< 연속적 확률변수 >


• A continuous random variable can take
any real value (not just whole numbers)
in at least one interval on the real line.

• Examples:
Gross domestic product (GDP)
money supply
interest rates
price of eggs
household income
expenditure on clothing

Ch. 0 통계학 기초 7
2. 확률변수

< 더미변수 >

• A discrete random variable that is restricted to


two possible values (usually 0 and 1) is called a
dummy variable (also, binary or indicator variable).
 Dummy variables account for qualitative differences:

(예) gender (0=male, 1=female)


race (0=white, 1=nonwhite)
citizenship (0=U.S., 1=not U.S.)
income class (0=poor, 1=rich)

Ch. 0 통계학 기초 8
3. 확률분포 , 확률 ( 밀도 ) 함수
• 확률분포 (probability distribution)
: 어떤 확률변수가 취할 수 있는 모든 가능한 값들에
대응하는 확률을 나타낸 것
• 이산적 확률변수 경우와 연속적 확률변수 경우는
확률분포를 나타내는 방식이 조금 다름

• 표현방법
- 그래프
- 도표
- 확률밀도함수 (probability density function)

Ch. 0 통계학 기초 9
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >
• When the values of a discrete random variable are
listed with their chances of occurring,
the resulting table of outcomes is called
a probability function or a probability density function.

( 예 ) (= 동전 한 번 던져 나올 앞면의 수 ) 의 확률분포

동전면
앞면 1 0.5
뒷면 0 0.5

표본공간 그래프로도 표현 가능
확률밀도함수

Ch. 0 통계학 기초 10
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >
• For a discrete random variable the value of the
probability density function is the probability that the
random variable takes the value ,

• 누적분포함수 (cumulative distribution function: CDF)

cf. 교과서 p.4 정리문제 0.1 참조 바람 .

Ch. 0 통계학 기초 11
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >

( 예 ) (: 주사위를 한 번 던져 나올 윗면의 숫자 ) 의 확률분포

Ch. 0 통계학 기초 12
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >

( 예 ) (: 주사위를 한 번 던져 나올 윗면의 숫자 ) 의 확률분포

표본공간 :
확률밀도함수 :

Ch. 0 통계학 기초 13
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >

• Probability, , for a discrete random variable, , can be


represented by height.




Ch. 0 통계학 기초 14
3. 확률분포 , 확률함수 ,
확률밀도함수
< 연속적 확률변수의 확률밀도함수 >
• For the continuous random variable the probability
density function can be represented by an equation,
which can be described graphically by a curve.
• For continuous random variables, the area under the
probability density function corresponds to probability.

Ch. 0 통계학 기초 15
3. 확률분포 , 확률함수 ,
확률밀도함수
< 연속적 확률변수의 확률밀도함수 >
• Probability is represented by area.
• Height alone has no area.
• An interval for is needed to get an area under the curve.

Ch. 0 통계학 기초 16
4. 결합확률분포

• Given two random variables and ,


the joint distribution of and is the distribution of
and together.

Ch. 0 통계학 기초 17
4. 결합확률분포 f ( x, y )  P ( X  x, Y  y )
• Given two random variables and ,
the joint distribution of and is the distribution of
and together.
남성 여성

오바마 지지

힐러리 지지

Ch. 0 통계학 기초 18
4. 결합확률분포

• marginal probability density function ( 주변확률밀도함수 )

𝑓 (𝑥 𝑖 )=∑ 𝑓 (𝑥𝑖 , 𝑦 𝑗 ) 𝑓 ( 𝑦 𝑗 )=∑ 𝑓 (𝑥 𝑖 , 𝑦 𝑗 )(


𝑗 𝑖 한계확
률)

Ch. 0 통계학 기초 19
4. 결합확률분포

• Independence
• random variables are independent
if their joint pdf is the product of their respective
marginal pdfs.

Independence:

Dependence:

Ch. 0 통계학 기초 20
4. 결합확률분포

Ch. 0 통계학 기초 21
5. 조건부확률 (conditional probability)

• 조건부확률
: 확률변수 가 어떤 특정한 값 를 취한 것이 전제가 된
상태에서 , 확률변수 가 어떤 특정한 값 를 취할 확률

𝑓 (𝑥∨ 𝑦 )=𝑃 ( 𝑋=𝑥∨𝑌 =𝑦 )


𝑓 (𝑥 , 𝑦 )
𝑓 (𝑥∨ 𝑦 )=
𝑓 (𝑦 )

Ch. 0 통계학 기초 22
<표> 학생 100 명의 분포

안경 착용 안경 미착용 합계

남 20 40 60

여 30 10 40

합계 50 50 100

• 임의로 한 학생을 선택했을 때 , 50 1


P (안경착용)  
이 학생이 안경을 끼고 있을 확률은 ? 100 2

• 선택된 학생이 남학생이라는 사전정보를 알고 있었다면 ,


이 학생이 안경을 끼고 있을 확률은 ?

20 1
P (안경착용 | 남자 )  
60 3
Ch. 0 통계학 기초 23
5. 조건부확률분포
𝑓 (𝑥 , 𝑦 )
𝑓 (𝑥∨ 𝑦 )=
𝑓 (𝑦 ) conditional PDF

Ch. 0 통계학 기초 24
6. 모집단과 표본

• 모집단 (population)
: 연구대상의 전체집단
- 유한모집단 (finite population)
- 무한모집단 (infinite population)

• 표본 (sample)
: 모집단의 일부
: 모집단과 가장 유사한 모습 ( 특성 ) 을 가질수록 좋음
⇒ 임의표본 (random sample)

 계량경제학이 분석하는 경제통계자료는 거의 대부분


임의표본임

Ch. 0 통계학 기초 25
7. 모수와 통계량
• 모수 (parameter)
: 모집단의 어떤 특성을 수치로 나타낸 것 ( 통계치 )
: 전수조사를 하지 않는 이상 알아낼 수 없음 , 미지수
( 예 ) 모평균 , 모분산 , 모표준편차 , 모비율 등

• 통계량 (statistic)
: 표본의 어떤 특성 ( 통계치 ) 을 계산하는 공식
: 표본이 어떻게 뽑히는가에 따라 통계치가 다름 , 확률변수
( 예 ) 표본평균 , 표본분산 , 표본표준편차 , 표본비율 등

cf. 통계학 (statistics)


: 통계량을 이용하여 미지의 모수를 추정하는 학문

Ch. 0 통계학 기초 26
8. 평균 (mean)

• mean or arithmetic average of a random variable


= mathematical expectation or expected value

• 유한 모집단에서의 평균 :

• 무한 모집단에서의 평균 :

• 표본의 평균 :

Ch. 0 통계학 기초 27
9. 분산 (variance), 표준편차 (standard deviation)

• 유한 모집단에서의 분산 :

• 무한 모집단에서의 분산 :

• 표본의 분산 :

• 표준편차 : ( 모집단 ), ( 표본 )

Ch. 0 통계학 기초 28
10. 기대치
• 기대치 혹은 기대값 (expected value)
: 같은 일이 무한히 반복될 때 , 해당 확률변수의 평균
• 산술평균을 나타냄

• Empirical (sample) mean:

: 관측치의 수

• Analytical mean:

: 가능한 그룹의 수

Ch. 0 통계학 기초 29
10. 기대치

< 기대치 관련 공식 >

• The expected value of :

• The expected value of -squared and -cubed :


,

• The expected value of function of :

Ch. 0 통계학 기초 30
10. 기대치

< 기대치 관련 공식 >

① ( 는 상수 )

④,

⑤+

Ch. 0 통계학 기초 31
11. 분산 (variance)
: 확률변수의 값들이 중심으로부터 얼마나 퍼져 있는가를
나타냄

• 계산식

𝑉𝑎𝑟 ( 𝑋 )= 𝐸 ¿
2 2
¿ 𝐸 [ 𝑋 −2 𝜇 𝑋 +𝜇 ]
2 2
¿ 𝐸 ( 𝑋 ) − 2 𝜇 𝐸 ( 𝑋 )+𝜇
2 2
¿ 𝐸 ( 𝑋 )−𝜇

Ch. 0 통계학 기초 32
11. 분산

< 분산 관련 공식 >

① ( 는 상수 )

Ch. 0 통계학 기초 33
12. 조건부 확률 , 조건부 기대값 , 조건부 분산

• 조건부 확률

• 조건부 기대값

• 조건부 분산

Ch. 0 통계학 기초 34
13. 정규분포 (normal distribution, Gaussian distribu-
tion)

Ch. 0 통계학 기초 35
• 정규분포 :

Ch. 0 통계학 기초 36
< 확률밀도함수의 모수 >

• 정규분포 : 두 개의 모수

• 이차함수 : 세 개의 모수

Ch. 0 통계학 기초 37
: 원주율
< 정규분포의 확률밀도함수 > exp: 자연상수

• 정규분포 (normal distribution, Gaussian distribution)

Ch. 0 통계학 기초 38
13. 정규분포

2
𝑋 𝑁 (𝛽 ,1 )

Ch. 0 통계학 기초 39
13. 정규분포

2
𝑋 𝑁 (0 , 𝜎 )

Ch. 0 통계학 기초 40
< 정규분포의 표준화 >

• 정규분포

• 표준화

• 표준정규분포 (standard normal distribution)

Ch. 0 통계학 기초 41
13. 정규분포

Ch. 0 통계학 기초 42
13. 정규분포

Ch. 0 통계학 기초 43
13. 정규분포
2
𝑍 𝑁 (0 , 1 )

Ch. 0 통계학 기초 44
13. 정규분포

2
𝑋 𝑁 (𝜇, 𝜎 )

(예) )

Ch. 0 통계학 기초 45
13. 정규분포

2
𝑌 𝑁 (𝜇 , 𝜎 )

𝑃 ( 𝑌 > 𝑎 ) =𝑃 ( σ
>
σ) (
𝑌 − μ 𝑎−μ
=𝑃 𝑍 >
σ)
𝑎− μ
(
=1− Φ
𝑎− μ
σ )
Ch. 0 통계학 기초 46
13. 정규분포

2
𝑌 𝑁 (𝜇 , 𝜎 )

(
𝑃 ( 𝑎≤ 𝑌 ≤ 𝑏 )=𝑃
𝑎−μ
σ
≤𝑍≤
𝑏−μ
σ

σ) (
𝑏−μ
−Φ ) (
𝑎− μ
σ )
Ch. 0 통계학 기초 47
14. 카이제곱 분포

• distribution, chi-square distribution

: 확률변수 가 표준정규분포를 따를 때 이 변수들의 제곱의


합 은 자유도가 인 - 분포를 함

• - 분포의 모양은 자유도 (degrees of freedom) 에 따라


달라짐
• 자유도가 커질수록 정규분포에 가까운 모양을 가짐

Ch. 0 통계학 기초 48
< 자유도 (degrees of freedom, df) >

다음 수식에서 자유롭게 결정될 수 있는 변수는 몇 개인가요 ?

, df=1

, df=2

, df=?

Ch. 0 통계학 기초 49
14.  - 분포
2

𝑞=1
𝑞=2
𝑞=3
𝑞=4
𝑞=5

Ch. 0 통계학 기초 50
14.  - 분포
2

2
𝜒 (𝑑𝑓 )

Ch. 0 통계학 기초 51
15. - 분포

• Student’s -distribution

• - 분포의 모양은 보다 덜 뾰족하고 꼬리가 두터움 (fat-tail)


• 자유도 함에 따라 - 분포는 에 수렴함

Ch. 0 통계학 기초 52
15. t- 분포

Ch. 0 통계학 기초 53
15. t- 분포

𝑚=1
𝑚=2
𝑚=5
0
𝑚=∞

Ch. 0 통계학 기초 54
16. - 분포

• -distribution

: 각각 자유도가 인 카이제곱분포를 갖는 두 확률변수의


비율은 - 분포를 따름

Ch. 0 통계학 기초 55
16. F- 분포

𝑞1 =1 ,𝑞 2=1
𝑞1 =2 ,𝑞 2=1
𝑞1 =5 , 𝑞2=2
𝑞1 =100 , 𝑞2= 1
𝑞1 =100 , 𝑞2=100

Ch. 0 통계학 기초 56
17. Rules of Summation

• ( 는 상수 )

57
17. Rules of Summation ( 계속 )

Ch. 0 통계학 기초 58
18. 공분산 ,

• 유한 모집단의 공분산 :

• 무한 모집단의 공분산 :

• 표본의 공분산 :

 분산 (variance) 은 공분산 (covariance) 의 특수한 경우임

Ch. 0 통계학 기초 59
18. 공분산

 양의 공분산 :

Ch. 0 통계학 기초 60
18. 공분산

 음의 공분산 :

Ch. 0 통계학 기초 61
18. 공분산

 공분산 계산식

Cov(X,Y) = E [{X – E(X)}{Y-E(Y)}]


= E [XY - X E(Y) - Y E(X) + E(X) E(Y)]
= E(XY) – E(X) E(Y) – E(Y) E(X) + E(X) E(Y)
= E(XY) - 2 E(X) E(Y) + E(X) E(Y)
= E(XY) - E(X) E(Y)

Cov(X,Y) = E(XY) – E(X) E(Y)

Ch. 0 통계학 기초 62
18. 공분산

63
19. 상관계수

• Correlation coefficient

• positive correlation if

• negative correlation if

• no correlation if

Ch. 0 통계학 기초 64
19. 상관계수

 0   0.7

  0.3   0.95

Ch. 0 통계학 기초 65
19. 상관계수

Ch. 0 통계학 기초 66
19. 상관계수

 Independence
⇔ zero covariance or zero correlation

• Independent random variables have zero covariance and,


therefore, zero correlation.

• The converse is not true.

(예) 경우 , , but dependent

Ch. 0 통계학 기초 67
< 과제 >

(1) 0.5 ( 교과서 28-29 쪽 )

(2) 기대값 및 분산의 특성을 이용하여 , 경우 ,


다음의 관계가 있다는 것을 증명하시오 .

Ch. 0 통계학 기초 68
R_code(1)

 R_code(1): 디렉토리 변경 , 데이터 파일의 준비

# 작업 디렉토리 확인 , 변경
>getwd() # 현재 작업중인 working directory 확인
>setwd("E:/R_code") #working directory 변경

# 작업할 데이터 준비
>install.packages("xlsx")
>library(xlsx)
>data51<-read.xlsx("E:/R_code/Table_5-1(Hamberger).xls", sheet-
Name="Hamberger") # 첫행의 변수명 읽음

# 데이터 파일 내용 확인
>names(data51) # 데이터 파일의 변수명만 보여 줌
>str(data51) # 데이터 파일의 전체적인 구조 보여 줌
>View(data51) # 데이터 파일 전체 보여 줌
>head(data51)

Ch. 0 통계학 기초 69
R_code(2)

 R_code(2): 그래프 그리기


#1 변수 plot 그리기
>plot(density(data51$Sales)) #empirical pdf
>plot(ecdf(data51$Sales)) #empirical cdf(cumulative distribution
function)
>boxplot(data51$Sales)

#2 변수 plot 그리기
>plot(data51$Sales, data51$price) #data$Sales (x 축 ), data$price (y
축)
>plot(data51$Sales, data51$price, main="Plot of Sales and Price") #
제목 넣기

# 히스토그램
>hist(data51$Sales, main="Histogram of Sales") # 제목 넣기

70
R_code(3)

 R_code(3): 모든 변수의 기초통계량 계산


#summary() : 최소 , 최대 , 평균 , 중위값 , 1st and 3rd quantile 계산
>summary(data51)

#describe() : # 가장 다양한 기초통계량 계산해 줌


n mean sd median min max range skew (Excess) kurtosis se
>install.packages("psych")
>library(psych)
>describe(data51)

71
R_code(4)

 R_code(4): 특정 변수의 기초통계량 계산 ( 합 , 평균 , 표준편차 ,


분산 )
# 합계 , 평균 , 최대값 , 최소값 , 표준편차 , 분산
>sum(data51$Sales) # 합계
>mean(data51$Sales) # 평균
>max(data51$Sales) # 최대값
>min(data51$Sales) # 최소값
>sd(data51$Sales) # 표준편차
>var(data51$Sales) # 분산

# 다음과 같은 방식도 가능
>total=sum(data51$Sales) # 총합계
>total # 혹은 print(total)
>sm=mean(data51$Sales) # 평균
>sm # 혹은 print(sm)
Ch. 0 통계학 기초 72
R_code(5)

 R_code(5): 특정 변수의 기초통계량 계산 ( 왜도 , 첨도 , quantile)


# 왜도 , 첨도
>install.packages("moments")
>library(moments)
>skewness(data51$Sales)
>kurtosis(data51$Sales)

#quantile
>install.packages("Hmisc")
>library(Hmisc)
>seq <- seq(0, 1, 0.25) #0.25 구간으로 계산할 경우
>quantile(data51$Sales, probs = seq, na.rm = FALSE, names =
TRUE)

Ch. 0 통계학 기초 73
R_code(6)

 R_code(6): 새로운 변수의 생성 , 저장 (1)


# Three examples for doing the same computations

>data51$sum1 = data51$Sales + data51$price


>data51$mean1 <- (data51$Sales + data51$price)/2

>attach(data51)
>data51$sum2 <- data51$Sales + data51$price
>data51$mean2 = (data51$Sales + data51$price)/2
>detach(data51)

> data51 <- transform(data51, sum3 = Sales + price, mean3 =


(Sales + price)/2)

Ch. 0 통계학 기초 74
R_code(6)

 R_code(6): 새로운 변수의 생성 , 저장 (2)

# 변수명 줄이는 방법
>Sales = data51$Sales
>price = data51$price

# 새로 정의된 변수들 사용 후 버림
>sum4 <- Sales + price
>mean4 = (Sales + price)/2

# data51 파일에 새로 정의된 변수들 저장


> data51 <- transform(data51, sum5 = Sales + price, mean5 =
(Sales + price)/2)

Ch. 0 통계학 기초 75

You might also like