You are on page 1of 25

生物統計學及實習(一)

---- 常用機率分配
(1)二項分配
(2)卜瓦松分配
(3)常態分配
陳怡樺 教授
臺北醫學大學公共衛生學系
聯絡方式:yichen@tmu.edu.tw
1

機率分配的概念

兩個孩子的家庭中,性別
的樣本空間為S={(B,B), 男孩個數 機率

Xi (隨機變數) P(Xi) (機率分配函數)


(B,G), (G,B,), (G,G)}
0 1/4
可能有 0, 1, 或 2 個男
1 2/4
孩的機率為:
2 1/4
P(Xi)的值都在0~1間,且 合計 1
總和必為 1

1
機率分配
Probability Distribution
隨機變數(random variable):隨機試驗中,出現不
同結果之對應的實數值,即稱為隨機變數。

隨機變數X 隨機變數X 機率f(x)


隨機試驗
擲 反反
兩 X=0 1/4 機
正反 率
枚 X=1 2/4
硬 反正 分
X=2 1/4 佈
幣 正正

變數:出現正面的次數

機率分配
分立性(間斷性、離散性)機率 連續機率分配: 若隨機變數
分配: 若隨機變數只能是幾個 可以是任意的實數,與其相
特定的數值,與其相對應的機 對應的機率分即為連續機率
率分即為間斷機率分配,例如 分配,例如常態分布、t分布、
二項式分布、卜瓦松分布 卡方分布、F分布

2
分立性機率分配
Discrete probability distribution
Example: Coin Flips
When you flip a 1st Toss 2nd Toss 3rd Toss
coin three times, H H H
the sample space H H T
has eight equally H T H
likely simple events. H T T
They are: T H H
T H T
T T H
T T T
5
5
6-5

分立 性機率分配

Example: Coin Flips


If X is the number of heads, then X is a random variable
whose probability distribution is as follows:
Possible Events x P(x)
TTT 0 1/8
HTT, THT, TTH 1 3/8
HHT, HTH, THH 2 3/8
HHH 3 1/8
Total 1 6
6
6-6

3
分立性機率分配

Example: Coin Flips


Note that the values of
X need not be equally 0.40
0.35
likely. However, they 0.30
must sum to unity.
Probability
0.25
0.20
0.15
0.10
Note also that a 0.05
discrete probability 0.00
0 1 2 3
distribution is defined Num ber of Heads (X)
only at specific points
on the X-axis. 7
7
6-7

分立性機率分配

What is a PDF or CDF?

• A probability distribution function (PDF) is a


mathematical function that shows the
probability of each X-value.
• A cumulative distribution function (CDF) is a
mathematical function that shows the
cumulative sum of probabilities, adding from
the smallest to the largest X-value, gradually
approaching unity.
8
8
6-8

4
分立 性機率分配
What is a PDF or CDF?
Consider the following illustrative histograms:
0.25 1.00
0.90
0.20 0.80
0.70
Probability

Probability
0.15 0.60
0.50
0.10 0.40
0.30
0.05 0.20
0.10
0.00 0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Value of X Value of X

Illustrative PDF Cumulative CDF


(Probability Density Function) (Cumulative Density Function)
PDF=P(X=x) CDF=P(X≦x) 9
9
6-9

連續機率分配
Continuous Probability Distribution
• Probability Density Function (PDF) –
For a continuous
random variable,
the PDF is an
equation that shows
the height of the
curve f(x) at each
possible value of X
over the range of X.

10

5
連續機率分配

Continuous CDF’s:
• Denoted F(x)
• Shows P(X < x), the
cumulative proportion
of scores
• Useful for finding
probabilities

11

二項分布
(Binomial Distribution)

12

6
分立性機率分布
(Discrete Probability Distribution)

二項族群( Bernoulli Population )

二項分配( Binomial Distribution )

^
p
13

二項族群
實驗結果只有兩種類別 (例如: 成功或失敗,正面或

反面,男或女,是或否….等)

通常以數值表達實驗的兩種結果

例如1為成功,0

常用於比例(proportion)的推論

14

7
例如:一族群N=5,觀測值為0、1、0、1、1
(1表成功,0表失敗)

變數 x 次數 f xf x-μ (x-μ)2 (x-μ)2f


1 3(=5×0.6) 3(=5×0.6) 1-0.6 (1-0.6)2 5×0.6× (1-0.6)2

0 2(=5×0.4) 0 0-0.6 0.62 5×0.62× (1-0.6)

合計 5 3(=5×0.6) 5×0.6× (1-0.6)

族群變異數:
族群平均數:
2 = 
( xi −  ) 2
1 1
 =  xi = (0 + 1 + 0 + 1 + 1) N
N 5 1
= [ xi − ( xi ) 2 N ]
2

3 N
= = 0.6 = p 1
5 = (0 2 + 12 + 0 2 + 12 + 12 − 32 5)
5
1 1.2
= (3 − 1.8) = = 0.24 = 0.6  0.4 = 15p  q
5 5

變數 x 次數 f xf x-μ (x-μ)2 (x-μ)2f


1 3(=5×0.6) 3(=5×0.6) 1-0.6 (1-0.6)2 5×0.6× (1-0.6)2

0 2(=5×0.4) 0 0-0.6 0.62 5×0.62× (1-0.6)

合計 5 3(=5×0.6) 5×0.6× (1-0.6)

變數 x 次數 f xf x-μ (x-μ)2 (x-μ)2f


1 Np Np 1-p (1-p)2 Np(1-p)2
0 Nq 0 0-p p2 Np2 (1-p)
合計 N Np Np(1-p)

2 = 
2
Np ( x −  ) 2 f ( x) Np (1 − p)
 =  f i xi = =p N
=
N
i =1 N
= P(1 − P) = pq
(1) 以二項族群而言:
二項族群的平均數=成功的機率=p
二項族群的變異數=族群中兩種特性相對次數之乘積(p×q)

8
(2) 以樣本平均數(即成功的機率)而言:
n
樣本平均數的平均數x =  xi n
i =1
樣本變異數S 2 =  ( xi − x) 2 (n −1)
1 n
樣本平均數 X (即成功的機率)期望值為 E ( x) = E
n
 xi = n  = 
^
因此樣本平均數為族群平均數的不偏估計值,以 p = X 代表

2 p (1 − p ) pq
樣本平均數的變異數為 V ( x) =  x = = =
2

n n n

(3) 以n個觀察值的合計(即成功的次數)而言:
若以樣本中n個觀測值之總和T=Σxi
Σxi之平均數=np
pq
 = V (n x) = n 2V ( x) = n 2 = npq
2
Σxi之變異數= T
n

ÿ ÿ ÿ ÿ ÿ ÿ ÿ ÿ 二項族群平均數與變異數表

分布 平均數 變異數 標準差


二項族群  =p p(1- p) = pq pq

樣本平均數
x = pˆ pˆ (1 − pˆ ) n = pˆ qˆ n pˆ qˆ n
(成功機率)

樣本合計 T = n x = npˆ npˆ qˆ


npˆ (1 − pˆ ) = npˆ qˆ
(成功次數)

由二項族群可得兩種分布:
(1)樣本平均數(成功機率)分布
以pˆ ~B(p, pq / n)代表之
(2) 樣本合計分布 (成功次數分布,又稱二項分配)
以X~B(n, p)代表之

9
二項分配(1)
二項:即實驗結果只有兩種類別
當由一無限母群體中抽取n個樣本
p表示某一事件發生的機率
q表示不發生的機率
則在n個樣本中,某一事件正好出現x次的機率分
配,稱為二項分配
二項分配中,出現x次的機率為
n!
p ( x) = C xn p x q n − x = p x q n− x
x!(n − x)!
由於樣本空間僅包含兩類事件,因此p+q=1
二項分配之平均數為np,變異數為npq 19

二項分配 (2)
例:投一枚硬幣4次,求正面出現0次、1次、2次、3次及4次
之機率。(p=0.5,q=0.5)
此即一完整二項分配,解:
正面出現0次:
p( x = 0) = C04 (0.5) (0.5)
4−0
= 0.0625
0

正面出現1次: 二項分配圖

p( x = 1) = C14 (0.5) (0.5)


4−1
= 0.25
1
0.4

正面出現2次: 0.3

p( x = 2) = C24 (0.5) (0.5)


4− 2
= 0.375
2
f(x) 0.2

0.1
正面出現3次:
p( x = 3) = C34 (0.5) (0.5)
4−3 0
= 0.25
3
0 1 2 3 4

正面出現4次: x

p( x = 4) = C44 (0.5) (0.5)


4− 4
= 0.0625
4
20

10
例題: Quick Oil Change Shop

• What is the probability that exactly 2 of the


next n = 10 cars serviced are late (P(X = 2))?
• P(car is late) = p= .10
• P(car not late) =1-p= .90

p (1− p)
n! x n− x
P( x) =
x!(n − x)!

10!
P(X = 2) = (.1)2(1-.10)10-2 = .1937
2!(10-2)!
21
21
6-21

例題:有一醫學試驗進行某新藥品對某疾病的治
療效果,我們希望新藥品治癒率達90%,今試驗20
位病人,若治癒率可靠,應有多少病人治癒?而最
多有15位病人治癒之機率為何?

例題:有一醫療保健意見調查,若設80%居民贊成,
今獨立隨機訪問15位居民,8個以上居民贊成之機
率為何?有10至14個居民贊成之機率為何?

11
卜瓦松分配(Poisson Distribution)

23

卜瓦松分配--Introduction
分立性(間斷)機率分配
適用於某一特定空間或時間內計算成功次數的機率分配
當一個單位空間或時間可分成許多小部份 (即 n 很大) 而在依次
實驗中成功機率又很小時 (即 p 很小),符合卜瓦松分配
設在n次事件中成功次數為隨機變數,以X代表之,X=0,1,2,…,
其平均數或期望值設為μ=np,則X之機率分配公式為:
μx
−μ
p =e
x x!

其中e=2.718為自然對數,X為隨機變數中任意可能發生之值
24

12
卜瓦松機率分配公式之推導(1)
設每一試驗結果有一事件發生機率為p=μ/n,而無事
件發生之機率q=1- μ/n
在n次試驗中恰有X事件發生之機率為二項分布,為
n− x
n(n − 1) (n − x + 1)      
x

( )p q
n
x
x n− x
=   1 − 
x! n  n
式中,當n增大至無窮大時,可以nx代替n(n-1)…(n-x+1)
以(1- μ/n)n代替(1- μ/n)n-x,因(1- μ/n)x接近1
而(1- μ/n)n近似e-μ
故有x事件發生之近似機率為:
nx    x
x

Px =   e −  = e − 
x!  n  x! 25

卜瓦松機率分配公式之推導(2)
故有x事件發生之近似機率為
n x    − − 
x

Px =   e =e
x
式中僅一母數μ,故卜瓦
x!  n  x! 松分布型態皆由μ決定:
故隨機變數X為0, 1, 2 之序列機率為:
P0 = e −  若μ=1,為偏斜分布
P1 = e −  若μ=30,近似對稱分布
1
P2 =  2 e − 
2

P0 + P1 + P2 + 
1
= e −  (1 +  +  2 + )
2
= e− e  = 1 26

13
卜瓦松分配之平均數與變異數
卜瓦松分布隨機變數之
x −
平均數(期望值) E ( X ) =  xPx =  x e
 

x =0 x =0 x!
x − x −1 − 

 e 
 e
= =  =
x =0 ( x − 1)! x =1 ( x − 1)!
變異數
Ex ( x − 1) = E ( x) 2 − E ( x)

及 Ex( x − 1) =  x( x − 1) Px
x =0

x( x − 1) x − 
=  e
x =0 x! 故
x−2 −

 e 變異數 Var ( x) = E ( x −  ) 2 = Ex 2 −  2 =  2 +  −  2 = 
= 2
x=2 ( x − 2)!
=  2 = E ( x 2 ) − E ( x) & 標準差為 μ
E ( x ) =  2 + E ( x) =  2 + 
2

例題:某醫院經幾年調查統計,平均一天有2位車禍病
人求診,若車禍病人屬卜瓦松分布,試求一天超過3位
車禍病人求診之機率?
μ=2,車禍病人x=0,1,2,3之機率如下表
機率 累計機率
車禍病人 x
Px = e −   x x! P( X  x) 右表中Px可由卜瓦松分布公式或直
接由機率表查出
0 20
e− 2
0!
= 0.13534 0.13534 •全部病人中,完全沒有車禍病人之
機率只有13.534%
1 21 0.40601
e− 2
1!
= 0.27067 •有一個車禍病人之機率為27.067%
•有二個車禍病人之機率為27.067%
2 22 0.67668
e −2
2!
= 0.27067 •有三個車禍病人之機率為18.045%
•大於三個車禍病人之機率為:
3 23 0.85713
e −2 = 0.18045
3! P( X  3) = 1 − p( X  3) = 1 − 0.85713
= 0.14287 = 14.287%
28

14
例題:設在高速公路上平均每天有5次車禍發生,
若x為某天發生車禍之隨機變數,求下列各項機率:

(a) 沒有車禍發生,(b) 最多3次車禍,(c) 超過3次車



高速公路來往車輛很多,平均一天發生5次車禍應屬
卜瓦松分布,因此 x
(a) P( X = 0) = e − 
x!
= 0.00674 = 0.674%
50 51 52 53
(b) P( X  3) = e −5 + e −5 + e −5 + e −5
0! 1! 2! 3!
= 0.00674 + 0.03369 + 0.08422 + 0.14037
= 0.26502 = 26.502%
(c) P( X  3) = 1 − p( X  3) = 1 − 0.26502
= 0.73498 = 73.3498% 29

例題: Credit Union Customers

• On Thursday morning between 9 A.M. and 10 A.M.


customers arrive and enter the queue at the Oxnard
University Credit Union at a mean rate of 1.7
customers per minute.

• Find the PDF, mean and standard deviation:


 x e− (1.7) x e−1.7
PDF = P( x) = =
x! x!
Mean =  = 1.7 customers per minute.

Standard deviation =  = 1.7 = 1.304 cust/min


30
30
6-30

15
二項分布與卜瓦松分布
二項分布之n很大,p很小時即近似卜瓦松分布
ÿ ÿ ÿ ÿ ÿ ÿ ÿ μ=5 時二項分布與卜瓦松分布比較表
p 0.5 0.10 0.05 卜瓦松分布
n 10 50 100 機率
x
0 0.0010 0.0052 0.0059 0.0067
1 0.0098 0.0286 0.0312 0.0337
2 0.0439 0.0779 0.0812 0.0842
3 0.1172 0.1386 0.1396 0.1404
4 0.2051 0.1809 0.1781 0.1755
5 0.2461 0.1849 0.1800 0.1755
6 0.2051 0.1541 0.1500 0.1462
7 0.1172 0.1076 0.1060 0.1044
8 0.0439 0.0643 0.0649 0.0653
9 0.0098 0.0333 0.0349 0.0363
10 0.0010 0.0152 0.0167 0.0181
> 10 0 0.0094 0.0115 0.0137
31
1.0000 1.0000 1.0000 1.0000

常態分布(Normal Distribution)
及其應用

32

16
常態分配 (Normal Distribution)
由連續的隨機變數所構成的鐘形 (bell-shaped) 曲線,
稱為常態曲線,常態分布機率密度函數為:
1
f ( x) = e −( x −  ) / 2 −   x  
2 2

2 
X為隨機變數,f(x)代表機率
e=2.71828
常態分配的重要性
–可作為在統計推論程序中的基本模式 (常態分配是生活中最
常見的現象)
–可進行許多統計推論 (許多統計量的抽樣分配如 t 分配、卡
方分配等,必須假設母體為常態分配方可獲得)
–常態分配構成大樣本推論統計的基礎 (當樣本數增大時,參
數的估計式的抽樣分配為常態分配)
–間斷機率分配在某些條件下可利用常態分配求其近似值

常態分布特性
單峰的對稱分配,分界點在 x=µ 處
算術平均數µ = 中位數Me = 眾數Mo,且均在最高
點處
連續隨機變數x的函數,其變值範圍可由- 至+
常態曲線在 µ1 處為反折點,在此二點之間曲
線為向下彎,之外為向上彎
常態曲線與橫座標之間所包含之總面積為1 (100%)
若平均數為µ,標準差為,則在常態曲線下,µ及
之相對關係內所包含的面積為固定
34

17
常態分布曲線下之機率

範圍 所佔面積
µ ± 1σ 68.27%
µ ± 1.64σ 90.00%
µ ± 1.96σ 95.00%
µ ± 2σ 95.45%
µ ± 2.58σ 99.00%
µ ± 3σ 99.73% 35

常態分配的標準化
目的
將各種不同 µ &  的常態曲線,,轉換成一條特定的常態曲線,
以方便製表與查表
可用來比較不同單位或不同平均數和標準差的各種常態分配
此轉換過程為常態分配的標準化 (standardization)
標準常態曲線 (standardized normal curve):標準化後的常態
x −  (即Z分配)
Z=

即原變數 x 距離平均數 µ 有幾個(倍)標準差
2
標準常態分配常以 N (0, 1 )
證明:
(2) 標準差:1
(1) 平均數: 0 1 
V (Z ) = V ( x−
x− 1   
)
E (Z ) = E ( ) = E( x− )

  =
1 
V ( x) + V ( ) =
2
=1
  2
  
2
1
= E ( x) − = − =0 
    ( 為常數其變異數為0)

18
標準常態分布

X −
Z =
一般常態分佈

標準常態分布
 =1

 X = 0 Z
如此只需要一張表One table! 37

例題:設成人男性體重接近常態分布,其平均值
μ =60公斤,標準差σ =5公斤
(1)求體重小於65公斤者佔全體成人男性之機率

解 x− 65 − 60
Pr ( X  65) = Pr (  )
 5
= Pr ( Z  1) = 0.8413 = 84.13%

查標準常態累計機率表
•當Z=1時,查得P值(機率)為0.8413
•表示在標準常態分布曲線下,Z值小於1之機率
84.13%
38

19
例題:設成人男性體重接近常態分布,其平均值
μ =60公斤,標準差σ =5公斤
(2)成年男性體重小於55公斤者之機率為多少?

(3)成人男性體重介於55至62公斤者之機率為多少?

39

例題:設成人男性體重接近常態分布,其平均
值μ =60公斤,標準差σ =5公斤
(4) 在常態分布中,成人男性體重應為多少,其佔的
機率有95%,且超過此體重者為5% (百分位數法) 。

佔有95%之體重稱為95%百分位數。在標準常態
分布,以Z P=Z 0.95代表之
由附表查得Z 0.95=1.645
x- x - 60
Z0.95 = 1.645 = =
 5
x = 60 + 1.645 5 = 68.225
即小於68.225公斤之成人男性體重佔有95%,因
此68.225公斤即為第95百分位數 40

20
二項式分配近似常態
二項式分配由 n 與 p 決定,由中央極限定理可
知,當 n 增大時,二項分布近似常態分布
當 p 既不很小,又不接近 1 (q 很小) , 即
np ≧5 & nq 5,可使用常態分配來近似

當二項式分配樣本資料n夠大時,其近似標準常
態分布之Z值公式為 pˆ -p
Z=
pq
n
npˆ -np
或Z =
npq

例題:根據報告,對某藥物有過敏的人約有10%,今
隨機抽取650人,求至少有70人有過敏之機率為何?

42

21
二項式分布Z值連續性矯正
當二項式分布(間斷分布)樣本不夠大,若以
連續性之常態分配處理,結果會有出入,可
採連續性矯正後再用Z值求機率
^
即在n<30,而 n p <5時,必須做連續性矯正

^
矯正公式為:
| n p − np | −0.5
Z=
npq
43

例題:設X為二項分布隨機變數,當n=15,
p=0.4,以常態分布近似法求Pr(X≧10)之機率

由n = 15, p = 0.4, 則np = 15  0.4 = 6


 2 = npq = 15  0.4  0.6 = 3.6
 = 1 .9
10 − 6 − 0.5
Pr ( X  10) = Pr ( Z  )
3.6
3 .5
= Pr ( Z  ) = Pr ( Z  1.84)
1 .9
= 1 − Pr ( Z  1.84) = 1 − 0.9671 = 0.0329
44

22
例題:設X為二項分布隨機變數,當n=15,p=0.4,
以常態分布近似法求Pr(2≦ X≦ 4)之機率

若欲求Pr(2≦ X≦ 4)之機率,則X轉換為連續性變
數Y如下式:
Pr (a − 0.5  Y  b + 0.5)
= Pr (2 − 0.5  Y  4 + 0.5)
0.5稱為半單位連續性矯正值,故得常態分布近
似機率為 Pr (1.5  Y  4.5)
1.5 − 6 4.5 − 6
= Pr ( Z )
1.9 1.9
= Pr (−2.37  Z  −0.79)
= Pr ( Z  −0.79) − Pr ( Z  −2.37)
= 0.2148 − 0.0089 = 0.2059 45

卜瓦松分配近似常態分布
(Normal Distribution Approximation to Poisson
Distribution)

46

23
卜瓦松分配近似常態分布的概算
卜瓦松分布近似常態之處理與二項式分布相似
例題一:X~P(60)分布中,求x ﹦50~80的機率?

Pr(50  X  80)
= Pr ( 49.5  Y  80.5)
49.5 − 60 80.5 − 60
= Pr ( Z  )
60 60
= Pr ( −1.36  Z  2.65)
= Pr ( Z  2.65) − Pr ( Z  −1.36)
= 0.9959 − 0.0869 = 0.9090

卜瓦松分配近似常態分布的概算
卜瓦松分布近似常態之處理與二項式分布相似
例題一:X~P(60)分布中,求x ﹦50~80的機率?

48

24
卜瓦松分配近似常態分布
卜瓦松分布近似常態之處理與二項式分布相似
例題:健康成人男性紅血球每立方公厘平均為
5,400,000個,今檢查一滴血,約為1/10000立方公
厘,求紅血球數目在500至600之間的機率?
紅血球每立方公厘平均數為
若不經連續性校正,則得
1
 = S = 5,400,000  = 540
10000 Pr (500  X  600)
標準偏差 =  = 540 = 23.24
− 40 60
由連續性校正公式可得 = Pr ( Z )
Pr (500  X  600) = Pr (499.5  Y  600.5) 23.24 23.24
= Pr (
499.5 − 540
Z
600.5 − 540
)
= Pr (−1.72  Z  2.58)
23.24 23.24
= Pr ( Z  2.58) − Pr ( Z  −1.72)
= Pr (−1.74  Z  2.60)
= Pr ( Z  2.60) − Pr(Z  −1.74) = 0.9951 − 0.0427
= 0.9953 − 0.0409 = 0.9544 = 0.9524 49

25

You might also like