Statistics Basic

Ch.
0 통계학 기초
윤성민
1. 확률 (probability)
예)
어느 주식투자 전문가가 다섯 가지 주식종목을 추천했는데 ,
네 종목의 주식가격이 상승하였다고 하면 ,
그 전문가의 주가 예상이 적중할 확률이 팔십 퍼센트라고
말할 수 있는가 ?
Ch. 0 통계학 기초 2
 실험 (experiment)
- 어떤 결과를 관찰하기 위한 일련의 잘 정의된 행위
• 임의실험 (random experiment)
- 발생 가능한 결과들 중 하나가 임의적으로 결정되는 과정
 표본공간 (sample space)
-실험에 의해 나타날 수 있는 실현 가능한 모든 결과들의 집합
• 원소 (element)
- 실험에서 나타날 수 있는 개개의 결과
 사건 ( 사상 , event)
- 임의실험으로 얻게 되는 특정 결과들의 모임
- 표본공간의 부분집합
 확률 (probability)
• Probability is the likelihood or chance

that something is the case or will happen.
NA N A : 사건 A 가 발생할 횟수
P ( A)  lim
N  N
N : 임의실험 횟수
2. 확률변수 (random variable)
• A random variable is a variable

whose value is unknown until it is observed. ( 대문자 )
• The value of a random variable results from an

experiment; it is not perfectly predictable. ( 소문자 )
( 예 ) 공장에서 생산한 두 개의 제품의 불량 여부

임의실험   {(불, 불), (불, 정), (정, 불), (정, 정)}
표본공간 X:
확률변수 : 불량품의
x  0, 1, 2수
확률변수의 값 :
2. 확률변수
< 이산적 확률변수 >

• A discrete random variable can take only a finite
number of values, that can be counted by using
the positive integers.
2. 확률변수
< 연속적 확률변수 >

• A continuous random variable can take
any real value (not just whole numbers)
in at least one interval on the real line.
• Examples:
Gross domestic product (GDP)
money supply
interest rates
price of eggs
household income
expenditure on clothing
2. 확률변수
< 더미변수 >
• A discrete random variable that is restricted to

two possible values (usually 0 and 1) is called a
dummy variable (also, binary or indicator variable).
 Dummy variables account for qualitative differences:
(예) gender (0=male, 1=female)

race (0=white, 1=nonwhite)
citizenship (0=U.S., 1=not U.S.)
income class (0=poor, 1=rich)
3. 확률분포 , 확률 ( 밀도 ) 함수
• 확률분포 (probability distribution)
: 어떤 확률변수가 취할 수 있는 모든 가능한 값들에
대응하는 확률을 나타낸 것
• 이산적 확률변수 경우와 연속적 확률변수 경우는
확률분포를 나타내는 방식이 조금 다름
• 표현방법
- 그래프
- 도표
- 확률밀도함수 (probability density function)
3. 확률분포 , 확률함수 ,
확률밀도함수
< 이산적 확률변수의 확률밀도함수 >
• When the values of a discrete random variable are
listed with their chances of occurring,
the resulting table of outcomes is called
a probability function or a probability density function.
( 예 ) (= 동전 한 번 던져 나올 앞면의 수 ) 의 확률분포
동전면
앞면 1 0.5
뒷면 0 0.5
표본공간 그래프로도 표현 가능
확률밀도함수
확률밀도함수
• For a discrete random variable the value of the
probability density function is the probability that the
random variable takes the value ,
• 누적분포함수 (cumulative distribution function: CDF)
cf. 교과서 p.4 정리문제 0.1 참조 바람 .
확률밀도함수
( 예 ) (: 주사위를 한 번 던져 나올 윗면의 숫자 ) 의 확률분포
확률밀도함수
( 예 ) (: 주사위를 한 번 던져 나올 윗면의 숫자 ) 의 확률분포
표본공간 :
확률밀도함수 :
확률밀도함수
• Probability, , for a discrete random variable, , can be

represented by height.
•
•
•
•
확률밀도함수
< 연속적 확률변수의 확률밀도함수 >
• For the continuous random variable the probability
density function can be represented by an equation,
which can be described graphically by a curve.
• For continuous random variables, the area under the
probability density function corresponds to probability.
확률밀도함수
< 연속적 확률변수의 확률밀도함수 >
• Probability is represented by area.
• Height alone has no area.
• An interval for is needed to get an area under the curve.
4. 결합확률분포
• Given two random variables and ,

the joint distribution of and is the distribution of
and together.
4. 결합확률분포 f ( x, y )  P ( X  x, Y  y )
• Given two random variables and ,
the joint distribution of and is the distribution of
and together.
남성 여성
오바마 지지
힐러리 지지
• marginal probability density function ( 주변확률밀도함수 )
𝑓 (𝑥 𝑖 )=∑ 𝑓 (𝑥𝑖 , 𝑦 𝑗 ) 𝑓 ( 𝑦 𝑗 )=∑ 𝑓 (𝑥 𝑖 , 𝑦 𝑗 )(

𝑗 𝑖 한계확
률)
• Independence
• random variables are independent
if their joint pdf is the product of their respective
marginal pdfs.
Independence:
Dependence:
5. 조건부확률 (conditional probability)
• 조건부확률
: 확률변수 가 어떤 특정한 값 를 취한 것이 전제가 된
상태에서 , 확률변수 가 어떤 특정한 값 를 취할 확률
𝑓 (𝑥∨ 𝑦 )=𝑃 ( 𝑋=𝑥∨𝑌 =𝑦 )

𝑓 (𝑥 , 𝑦 )
𝑓 (𝑥∨ 𝑦 )=
𝑓 (𝑦 )
<표> 학생 100 명의 분포
안경 착용 안경 미착용 합계
남 20 40 60
여 30 10 40
합계 50 50 100
• 임의로 한 학생을 선택했을 때 , 50 1

P (안경착용)  
이 학생이 안경을 끼고 있을 확률은 ? 100 2
• 선택된 학생이 남학생이라는 사전정보를 알고 있었다면 ,

이 학생이 안경을 끼고 있을 확률은 ?
20 1
P (안경착용 | 남자 )  
60 3
5. 조건부확률분포
𝑓 (𝑥 , 𝑦 )
𝑓 (𝑥∨ 𝑦 )=
𝑓 (𝑦 ) conditional PDF
6. 모집단과 표본
• 모집단 (population)
: 연구대상의 전체집단
- 유한모집단 (finite population)
- 무한모집단 (infinite population)
• 표본 (sample)
: 모집단의 일부
: 모집단과 가장 유사한 모습 ( 특성 ) 을 가질수록 좋음
⇒ 임의표본 (random sample)
 계량경제학이 분석하는 경제통계자료는 거의 대부분

임의표본임
7. 모수와 통계량
• 모수 (parameter)
: 모집단의 어떤 특성을 수치로 나타낸 것 ( 통계치 )
: 전수조사를 하지 않는 이상 알아낼 수 없음 , 미지수
( 예 ) 모평균 , 모분산 , 모표준편차 , 모비율 등
• 통계량 (statistic)
: 표본의 어떤 특성 ( 통계치 ) 을 계산하는 공식
: 표본이 어떻게 뽑히는가에 따라 통계치가 다름 , 확률변수
( 예 ) 표본평균 , 표본분산 , 표본표준편차 , 표본비율 등
cf. 통계학 (statistics)

: 통계량을 이용하여 미지의 모수를 추정하는 학문
8. 평균 (mean)
• mean or arithmetic average of a random variable

= mathematical expectation or expected value
• 유한 모집단에서의 평균 :
• 무한 모집단에서의 평균 :
• 표본의 평균 :
9. 분산 (variance), 표준편차 (standard deviation)
• 유한 모집단에서의 분산 :
• 무한 모집단에서의 분산 :
• 표본의 분산 :
• 표준편차 : ( 모집단 ), ( 표본 )
10. 기대치
• 기대치 혹은 기대값 (expected value)
: 같은 일이 무한히 반복될 때 , 해당 확률변수의 평균
• 산술평균을 나타냄
• Empirical (sample) mean:
: 관측치의 수
• Analytical mean:
: 가능한 그룹의 수
10. 기대치
< 기대치 관련 공식 >
• The expected value of :
• The expected value of -squared and -cubed :

,
• The expected value of function of :
10. 기대치
< 기대치 관련 공식 >
① ( 는 상수 )
④,
⑤+
11. 분산 (variance)
: 확률변수의 값들이 중심으로부터 얼마나 퍼져 있는가를
나타냄
• 계산식
𝑉𝑎𝑟 ( 𝑋 )= 𝐸 ¿
2 2
¿ 𝐸 [ 𝑋 −2 𝜇 𝑋 +𝜇 ]
2 2
¿ 𝐸 ( 𝑋 ) − 2 𝜇 𝐸 ( 𝑋 )+𝜇
2 2
¿ 𝐸 ( 𝑋 )−𝜇
11. 분산
< 분산 관련 공식 >
① ( 는 상수 )
12. 조건부 확률 , 조건부 기대값 , 조건부 분산
• 조건부 확률
• 조건부 기대값
• 조건부 분산
13. 정규분포 (normal distribution, Gaussian distribu-
tion)
• 정규분포 :
< 확률밀도함수의 모수 >
• 정규분포 : 두 개의 모수
• 이차함수 : 세 개의 모수
: 원주율
< 정규분포의 확률밀도함수 > exp: 자연상수
• 정규분포 (normal distribution, Gaussian distribution)
13. 정규분포
2
𝑋 𝑁 (𝛽 ,1 )
13. 정규분포
2
𝑋 𝑁 (0 , 𝜎 )
< 정규분포의 표준화 >
• 정규분포
• 표준화
• 표준정규분포 (standard normal distribution)
13. 정규분포
13. 정규분포
13. 정규분포
2
𝑍 𝑁 (0 , 1 )
13. 정규분포
2
𝑋 𝑁 (𝜇, 𝜎 )
(예) )
13. 정규분포
2
𝑌 𝑁 (𝜇 , 𝜎 )
𝑃 ( 𝑌 > 𝑎 ) =𝑃 ( σ
>
σ) (
𝑌 − μ 𝑎−μ
=𝑃 𝑍 >
σ)
𝑎− μ
(
=1− Φ
𝑎− μ
σ )
13. 정규분포
2
𝑌 𝑁 (𝜇 , 𝜎 )
(
𝑃 ( 𝑎≤ 𝑌 ≤ 𝑏 )=𝑃
𝑎−μ
σ
≤𝑍≤
𝑏−μ
σ
=Φ
σ) (
𝑏−μ
−Φ ) (
𝑎− μ
σ )
14. 카이제곱 분포
• distribution, chi-square distribution
: 확률변수 가 표준정규분포를 따를 때 이 변수들의 제곱의

합 은 자유도가 인 - 분포를 함
• - 분포의 모양은 자유도 (degrees of freedom) 에 따라

달라짐
• 자유도가 커질수록 정규분포에 가까운 모양을 가짐
< 자유도 (degrees of freedom, df) >
다음 수식에서 자유롭게 결정될 수 있는 변수는 몇 개인가요 ?
, df=1
, df=2
, df=?
14.  - 분포
2
𝑞=1
𝑞=2
𝑞=3
𝑞=4
𝑞=5
14.  - 분포
2
2
𝜒 (𝑑𝑓 )
15. - 분포
• Student’s -distribution
• - 분포의 모양은 보다 덜 뾰족하고 꼬리가 두터움 (fat-tail)

• 자유도 함에 따라 - 분포는 에 수렴함
15. t- 분포
15. t- 분포
𝑚=1
𝑚=2
𝑚=5
0
𝑚=∞
16. - 분포
• -distribution
: 각각 자유도가 인 카이제곱분포를 갖는 두 확률변수의

비율은 - 분포를 따름
16. F- 분포
𝑞1 =1 ,𝑞 2=1
𝑞1 =2 ,𝑞 2=1
𝑞1 =5 , 𝑞2=2
𝑞1 =100 , 𝑞2= 1
𝑞1 =100 , 𝑞2=100
17. Rules of Summation
• ( 는 상수 )
57
17. Rules of Summation ( 계속 )
18. 공분산 ,
• 유한 모집단의 공분산 :
• 무한 모집단의 공분산 :
• 표본의 공분산 :
 분산 (variance) 은 공분산 (covariance) 의 특수한 경우임
18. 공분산
 양의 공분산 :
18. 공분산
 음의 공분산 :
18. 공분산
 공분산 계산식
Cov(X,Y) = E [{X – E(X)}{Y-E(Y)}]

= E [XY - X E(Y) - Y E(X) + E(X) E(Y)]
= E(XY) – E(X) E(Y) – E(Y) E(X) + E(X) E(Y)
= E(XY) - 2 E(X) E(Y) + E(X) E(Y)
= E(XY) - E(X) E(Y)
Cov(X,Y) = E(XY) – E(X) E(Y)
18. 공분산
63
19. 상관계수
• Correlation coefficient
• positive correlation if
• negative correlation if
• no correlation if
19. 상관계수
 0   0.7
  0.3   0.95
19. 상관계수
19. 상관계수
 Independence
⇔ zero covariance or zero correlation
• Independent random variables have zero covariance and,

therefore, zero correlation.
• The converse is not true.
(예) 경우 , , but dependent
< 과제 >
(1) 0.5 ( 교과서 28-29 쪽 )
(2) 기대값 및 분산의 특성을 이용하여 , 경우 ,

다음의 관계가 있다는 것을 증명하시오 .
R_code(1)
 R_code(1): 디렉토리 변경 , 데이터 파일의 준비
# 작업 디렉토리 확인 , 변경
>getwd() # 현재 작업중인 working directory 확인
>setwd("E:/R_code") #working directory 변경
# 작업할 데이터 준비
>install.packages("xlsx")
>library(xlsx)
>data51<-read.xlsx("E:/R_code/Table_5-1(Hamberger).xls", sheet-
Name="Hamberger") # 첫행의 변수명 읽음
# 데이터 파일 내용 확인
>names(data51) # 데이터 파일의 변수명만 보여 줌
>str(data51) # 데이터 파일의 전체적인 구조 보여 줌
>View(data51) # 데이터 파일 전체 보여 줌
>head(data51)
R_code(2)
 R_code(2): 그래프 그리기

#1 변수 plot 그리기
>plot(density(data51$Sales)) #empirical pdf
>plot(ecdf(data51$Sales)) #empirical cdf(cumulative distribution
function)
>boxplot(data51$Sales)
#2 변수 plot 그리기
>plot(data51$Sales, data51$price) #data$Sales (x 축 ), data$price (y
축)
>plot(data51$Sales, data51$price, main="Plot of Sales and Price") #
제목 넣기
# 히스토그램
>hist(data51$Sales, main="Histogram of Sales") # 제목 넣기
70
R_code(3)
 R_code(3): 모든 변수의 기초통계량 계산

#summary() : 최소 , 최대 , 평균 , 중위값 , 1st and 3rd quantile 계산
>summary(data51)
#describe() : # 가장 다양한 기초통계량 계산해 줌

n mean sd median min max range skew (Excess) kurtosis se
>install.packages("psych")
>library(psych)
>describe(data51)
71
R_code(4)
 R_code(4): 특정 변수의 기초통계량 계산 ( 합 , 평균 , 표준편차 ,

분산 )
# 합계 , 평균 , 최대값 , 최소값 , 표준편차 , 분산
>sum(data51$Sales) # 합계
>mean(data51$Sales) # 평균
>max(data51$Sales) # 최대값
>min(data51$Sales) # 최소값
>sd(data51$Sales) # 표준편차
>var(data51$Sales) # 분산
# 다음과 같은 방식도 가능
>total=sum(data51$Sales) # 총합계
>total # 혹은 print(total)
>sm=mean(data51$Sales) # 평균
>sm # 혹은 print(sm)
R_code(5)
 R_code(5): 특정 변수의 기초통계량 계산 ( 왜도 , 첨도 , quantile)

# 왜도 , 첨도
>install.packages("moments")
>library(moments)
>skewness(data51$Sales)
>kurtosis(data51$Sales)
#quantile
>install.packages("Hmisc")
>library(Hmisc)
>seq <- seq(0, 1, 0.25) #0.25 구간으로 계산할 경우
>quantile(data51$Sales, probs = seq, na.rm = FALSE, names =
TRUE)
R_code(6)
 R_code(6): 새로운 변수의 생성 , 저장 (1)

# Three examples for doing the same computations
>data51$sum1 = data51$Sales + data51$price

>data51$mean1 <- (data51$Sales + data51$price)/2
>attach(data51)
>data51$sum2 <- data51$Sales + data51$price
>data51$mean2 = (data51$Sales + data51$price)/2
>detach(data51)
> data51 <- transform(data51, sum3 = Sales + price, mean3 =

(Sales + price)/2)
R_code(6)
 R_code(6): 새로운 변수의 생성 , 저장 (2)
# 변수명 줄이는 방법
>Sales = data51$Sales
>price = data51$price
# 새로 정의된 변수들 사용 후 버림
>sum4 <- Sales + price
>mean4 = (Sales + price)/2
# data51 파일에 새로 정의된 변수들 저장

> data51 <- transform(data51, sum5 = Sales + price, mean5 =
(Sales + price)/2)

Statistics Basic

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistics Basic

Uploaded by

Copyright:

Available Formats

Ch.

 표본공간 (sample space)

-실험에 의해 나타날 수 있는 실현 가능한 모든 결과들의 집합

- 실험에서 나타날 수 있는 개개의 결과

• Probability is the likelihood or chance

• A random variable is a variable

• The value of a random variable results from an

( 예 ) 공장에서 생산한 두 개의 제품의 불량 여부

< 이산적 확률변수 >

< 연속적 확률변수 >

< 더미변수 >

• A discrete random variable that is restricted to

(예) gender (0=male, 1=female)

• 누적분포함수 (cumulative distribution function: CDF)

cf. 교과서 p.4 정리문제 0.1 참조 바람 .

( 예 ) (: 주사위를 한 번 던져 나올 윗면의 숫자 ) 의 확률분포

( 예 ) (: 주사위를 한 번 던져 나올 윗면의 숫자 ) 의 확률분포

• Probability, , for a discrete random variable, , can be

• Given two random variables and ,

• marginal probability density function ( 주변확률밀도함수 )

𝑓 (𝑥 𝑖 )=∑ 𝑓 (𝑥𝑖 , 𝑦 𝑗 ) 𝑓 ( 𝑦 𝑗 )=∑ 𝑓 (𝑥 𝑖 , 𝑦 𝑗 )(

𝑓 (𝑥∨ 𝑦 )=𝑃 ( 𝑋=𝑥∨𝑌 =𝑦 )

• 임의로 한 학생을 선택했을 때 , 50 1

• 선택된 학생이 남학생이라는 사전정보를 알고 있었다면 ,

 계량경제학이 분석하는 경제통계자료는 거의 대부분

cf. 통계학 (statistics)

• mean or arithmetic average of a random variable

• Empirical (sample) mean:

< 기대치 관련 공식 >

• The expected value of :

• The expected value of -squared and -cubed :

• The expected value of function of :

< 기대치 관련 공식 >

• 정규분포 (normal distribution, Gaussian distribution)

• 표준정규분포 (standard normal distribution)

• distribution, chi-square distribution

: 확률변수 가 표준정규분포를 따를 때 이 변수들의 제곱의

• - 분포의 모양은 자유도 (degrees of freedom) 에 따라

다음 수식에서 자유롭게 결정될 수 있는 변수는 몇 개인가요 ?

• - 분포의 모양은 보다 덜 뾰족하고 꼬리가 두터움 (fat-tail)

: 각각 자유도가 인 카이제곱분포를 갖는 두 확률변수의

 분산 (variance) 은 공분산 (covariance) 의 특수한 경우임

Cov(X,Y) = E [{X – E(X)}{Y-E(Y)}]

Cov(X,Y) = E(XY) – E(X) E(Y)

• Independent random variables have zero covariance and,

• The converse is not true.

(예) 경우 , , but dependent

(1) 0.5 ( 교과서 28-29 쪽 )

(2) 기대값 및 분산의 특성을 이용하여 , 경우 ,

 R_code(1): 디렉토리 변경 , 데이터 파일의 준비

 R_code(2): 그래프 그리기

 R_code(3): 모든 변수의 기초통계량 계산

#describe() : # 가장 다양한 기초통계량 계산해 줌

 R_code(4): 특정 변수의 기초통계량 계산 ( 합 , 평균 , 표준편차 ,

 R_code(5): 특정 변수의 기초통계량 계산 ( 왜도 , 첨도 , quantile)

 R_code(6): 새로운 변수의 생성 , 저장 (1)

>data51$sum1 = data51$Sales + data51$price

> data51 <- transform(data51, sum3 = Sales + price, mean3 =

 R_code(6): 새로운 변수의 생성 , 저장 (2)

# data51 파일에 새로 정의된 변수들 저장

You might also like