You are on page 1of 15

Statistic (I)

Chapter 3 Describing Bivariate Data

對單一個實驗個體兩個變數時,就可以說是雙變量資料(Bivariate Data),兩個
變量當然可以使用上一章的手法分開做呈現,但是可能就沒有辦法探求到它們之
間的關係。
3.1 描述雙變量類別型資料
當雙變量中至少有一個變量是類別型變數時,即可使用圓餅圖或是趨勢圖來
描述資料,若是資料來自兩個不同的母體,也可透過併排的圓餅圖(Side-by-side
pie charts)或是併排的長條圖(Side-by-side bar charts)作比較。另一種方式就是以堆
疊的長條圖(stacked bar chart)作呈現。

Example 3.1 大專院校教師的薪水,根據職級的不同而有所分別,下表為 400 位


公私立大學大專院校教師的年平均薪資表(千元):

資料是否有顯示出私立大學的教師薪水比較高?
Sol:
如要比較不同職級下的平均薪資高低,可以在 X 軸畫職級,得到併排的長條圖:

從圖中可以看得出來正教授的薪水差異比較明顯,其他兩個職等差距比較小。

1
Example 3.2 使用與前例相同的 400 位大專院校教師,依職級與公私立大學分為
下表:

資料是否有顯示出私立大學有聘比較多高職等的教師?
Sol:
如要比較來自兩個不同母體的資料佔比,可以用併排的圓餅圖:

從圖中可以看得出來私立學校的正教授佔比真的比較高,同樣的現象以堆疊長條
圖也可以看得出來。

若不透過圖形,上表也可以透過條件分佈(Conditional Distributions)來作比較,分
別在公私立類別下,計算每個職級的佔比,得出下表:
2
可以看得出來,私立學校的 24%正教授比,真的有比較高。

3.2 描述雙變量數值型資料
當雙變量都是數值型變量時,最簡單而基本的問題,就是兩者有什麼樣的關
係?若將兩資料點在 X-Y 平面上,會形成一個散佈圖(Scatterplots)。

散佈圖(Scatterplots)
散佈圖可以快速的告訴我們「資料可能存在什麼樣的趨勢」、「兩個變數之
間存在的關係強度」、「是否有可能異常值存在」、「是否有群集的存在」。

Example 3.3 下表為六個家庭的家庭成員個數 x 與其家庭每週的雜貨費開銷 y,


試畫出此六個資料點的散佈圖。
Sol:

1. 有家庭成員越多,雜貨費開銷越大的趨勢
2. 如果蒐集到新的資料為藍色的 X 點,可能是離群值

3
有時,在散佈圖看到的 x-y 關係,有可能不是直線,例如:

Example 3.5 下表資料是 12 間房子的大小 x(平方英尺)與對應的房屋售價 y,以


及它的散佈圖。

從圖中可以看出房價與房屋大小有概略線性的關係,兩組資料的「線性關係」強
度可以透過相關係數的大小反映出來。

相關係數(Correlation Coefficient)
透過兩組資料的樣本平均值 x , y 與樣本標準差 S x , S y ,相關係數 r 是一
個介在-1 至+1 之間的數值,定義如下:
1 n 1  n 
s  i
n  1 i 1
 x  x  yi  y  
n  1  i 1
xi y i  nxy 
.
r  xy  
sx s y sx s y sx s y

4
分子的部份 s xy 又特別被稱為共變異數(Covariance),相關係數反應出兩者關係
的邏輯基礎,可以用下圖作說明:

當相關係數的值為 1時,表示資料點呈一直線。當相關係數為 0 時,表示兩組資


料點沒有明顯「線性關係」。

Example 3.6 以範例 3.5 的房屋資料進行相關係數計算:


Sol:
x=c(1360,1940,1750,1550,1790,1750,2230,1600,1450,1870,2210,1480)
y=c(278.5,375.7,339.5,329.8,295.6,310.3,460.5,305.2,288.6,365.7,425.3,268.8)
covxy=sum((x-mean(x))*(y-mean(y)))/(length(x)-1) # 15545.2
sd(x) # 281.4842
sd(y) # 59.7592
r= covxy/sd(x)/sd(y)=0.9241
算出來的相關係數很接近 1,表示兩組資料之間存在著很強的線性正相關。

最小平方直線(The Least-Squares Line)


散佈圖可以表現出兩個變量之間的相關強度與變化趨勢,若要透過變數 x 來
解釋或預測 y,就需要將兩者之間的關係數學化成為一個方程式。此時 x 稱為獨
立 變 數 (Independent/Predictor/Explanatory Variable) 、 y 稱 為 應 變 數
(Dependent/Response/Outcome Variable),直線方程式
y  a  bx ,
則稱為最小平方直線(或稱為最小平方迴歸直線)。a 稱為 y 軸截距(y-intercept)、
b 稱為斜率(Slope),兩者的計算公式如下。
s  s
b  r  y   xy2 , a  y  bx .
 sx  sx
從式子中可以看出,斜率 b 與相關係數 r 將會有相同的正負號。

5
Example 3.7 針對下列資料 y=起始時薪工資、x=累積工作年資,畫出散佈圖並計
算出最小平方迴歸直線,畫在同一張圖中。如果現在有一位年資三年的求職者,
他的起始時薪工資推估應該為多少?

Sol:
x=2:7; y=c(8,9.5,10,14,15,17.5)
b=cor(x,y)*sd(y)/sd(x) # 1.942857
a=mean(y)-b*mean(x) # 3.590476
所以最小平方迴歸直線為 y=3.590+1.943x,三年的求職者起始時薪工資推估
應該為 3.590+1.943(3)=9.419。
plot(x,y); abline(lm(y~x))

Summary Table:
合併圓餅圖
合併趨勢圖
描述雙類別型資料
合併/堆疊長條圖
條件分佈表
散佈圖:關係型態、關係強度、存在群集或離群值
描述雙類別型資料

共變異數 s xy
1 n
線性相關性測量
sxy   xi  x  yi  y 
n  1 i 1
相關係數: r  
sx s y sx s y
s  s
y  a  bx , b  r  y   xy2 , a  y  bx .
 sx  sx
最小平方迴歸直線

6
Statistic (I)
Chapter 4 Probability

機率是統計學上一個重要的工具,尤其是在研究隨機變數的特性時,例如銅
板骰子公正性、亂數隨機性、品質檢驗可靠度等,都可以透過隨機實驗的設計來
進行確認。例如:丟一個銅板 10 次,得到 10 個都是正面,是否可以合理的懷疑
這個銅板不公正?這個問題可以引導出推論統計上最重要的兩個領域:「估計」
(Estimation)與「檢定」(Testing)。

4.1 事件與樣本空間
要明確的定義並計算機率,我們需要先針對一些機率論中的名詞作說明。
 隨機實驗(Random Experiment):表示一個觀察值被蒐集的過程;
 簡單事件(Simple Event):單一次實驗可能產生的結果;
 複合事件(Composite Event):簡單事件的組成集合;
 互斥(Mutually Exclusive):兩個事件最多只能有一個成立,交集為空集合;
 樣本空間(Sample Space):所有簡單事件構成的集合。
 餘(補)事件(Complement):除了我以外的所有樣本空間元素構成的事件。

Example 4.1 以丟一個六面骰子之結果為例,請列出一個「簡單事件」


、一個「複
合事件」及其「餘事件」、 「互斥的例子」、「樣本空間」

Sol:
一個簡單事件:”1”
一個複合事件:”偶數” (餘事件就是”奇數”)
互斥的例子:”奇數” 與 “偶數”
樣本空間:{“1”, ”2”, “3”, “4”, “5”, “6”}

資料蒐集方式,基本可以分為觀察型或實驗型等兩類。在計算不同事件的機
率時,我們常會使用范氏圖(Venn Diagram)或樹狀圖(Tree Diagram)作輔助。此外,
也可以使用列表的方式來呈現所有事件(Table of Outcomes)之可能性,例如:


 
4.2 使用簡單事件計算機率
以古典機率學派的觀點,一個事件的機率等於它所包含的所有簡單事件之機
率的總合。任何簡單事件的機率都滿足下列兩點條件:
 每個簡單事件的機率介於 0 到 1 之間;
 樣本空間中所有簡單事件的機率總合,必需等於 1。

Example 4.8 一個袋中共有一個黃色糖果與兩個紅色糖果,現在在袋中隨機取出


兩顆,取到的兩顆都是紅色的機率有多少?
Sol:
透過樹狀圖把所有可能的情況列出來,如下圖:

所以,兩顆都是紅色的機率為 1/6+1/6=1/3。

4.3 常用的計數規則
在將要計算機率的事件拆解成簡單事件的過程中,常會需要使用到一些「排
列」與「組合」的技巧,說明如下:

 排列(Permutations):
在一個 n 個相異物品的集合中,取出 r 個物品並排成一列
n!
Prn  , r  n, n!  n  n  1 ...(2)(1), 0!  1.
 n  r !

 組合(Combinations):
在一個 n 個相異物品的集合中,一次抓取出 r 個物品
n! Prn
C 
n
  Cnnr , r  n.
r ! n  r ! r !
r


 
Example 4. 13 目前公司內共有 50 位員工,如果有三張樂透彩券要隨機發給其中
3 位員工,在此實驗中,順序性是很重要的。請問此實驗共會產出多少個簡單事
件的成果?
Sol:
50!
P350  =50  49  48  117,600.
47!

Example 4.15 一種 PCB 板共有五個供應商,現在要向其中三個供應商進貨,請


問共有多少種可能選法?
Sol:
在本例子中,順序是不重要的,所以以組合作計算
5!
C35 
=10.
3!2!
透過「排列」與「組合」,可以知道有興趣的事件 A 與樣本空間 S 分別含有多少
個簡單事件,兩者的比值即為事件 A 的機率。

Example 4.16 現在有五個製造商都生產同一種電子零件,但彼此的品質不相同,


若隨機選擇三個製造商,有多少機會恰巧有兩個是前三優質的製造商?
Sol:
在本例子中,順序是不重要的,所以以組合作計算
5!
C35 
=10.
3!2!
透過「排列」與「組合」,可以知道有興趣的事件 A 與樣本空間 S 分別含有多少
個簡單事件,兩者的比值即為事件 A 的機率。

4.4 計算機率的規則
計算機率時,會使用到事件集合之間的運算,以兩個事件 A 與 B,說明如下:
 聯集(Union): P  A  B  , A 或 B 其中一者發生即可;
 交集(Intersection): P  A  B  , A 與 B 兩者事件同時發生;
 餘(補)(Complement):Ac, A 的餘事件,表示非 A。


 
計算聯集與餘集的機率(Calculating Probabilities for Unions and Complements)
在計算兩個事件的聯集機率時,常使用以下式子:
P  A  B   P  A  P  B   P  A  B  .
當兩個事件互斥時,兩者的交集為空集合,即 P  A  B   0 。特定一個事件 A 的
餘事件 Ac 之機率,可以定為 P  Ac   1  P  A 。

計算交集的機率(Calculating Probabilities for Intersections)


在計算兩個事件的交集機率時,會先考慮兩者是否為「獨立」事件。A 與 B
兩個事件如果獨立,則
P  A  B   P  A P  B  .
延伸至多個相互獨立事件之形式,如果 A1, A2 ... An 彼此相互獨立,則
P  A1  A2 ...  An   P  A1  P  A2  ...P  An  .

Example 丟一個公平的六面骰子,令 A 為「點數 2」的事件,令 B 為「偶數點數」


的事件,A 與 B 兩個事件是否獨立?
Sol:
可以先計算出
P  A  1 / 6 、 P  B   1 / 2 、 P  A  B   P  A  1 / 6  1 / 6  1 / 2
所以兩個事件並不獨立。

在上例中,既然已經知道 A 與 B 兩個事件不獨立,那如果已經知道 B 事件發生


了,A 事件的發生機率是不是會有所改變?

條件機率(Conditional Probability)
對於兩個事件 A 與 B,在已知 B 事件發生下,探討 A 事件的發生機率,稱為
B 發生下的條件機率,定義如下;
P A  B  
P A | B  , P B  0  P A  B  P A | B P B .
P B
所以,如果兩個事件是獨立的,我們可以得到
P  A  B  P  A P  B 
P A | B    P  A .

P B  
P B 
在貝氏 (Bayesian) 機率學派中, P  A 與 P  A | B  又分別被稱為事前機率 (Prior
Probability)與事後機率(Posterior Probability)。

 
Example 丟一個公平的六面骰子,令 A 為「點數 2」的事件,令 B 為「偶數點數」
的事件,試計算 P  A | B  。
Sol:
從定義可以得到
P A  B 1 / 6 1 1
P A | B     P  A  .
P B 1/ 2 3 6
Note: 條件機率依然滿足機率加總=1 的公理, P  A | B   P  Ac | B   1, P  B   0 。

Example 假設某統計學教室中的同學,按照近視與否及性別分類,得到下表:
近視 沒有近視
男生 20 40
女生 30 60
令 A 表示「近視」的事件、令 B 表示「女生」的事件,請計算下列機率值:
 P A  B
 P  A  Bc 
 P  A | Bc 
Sol:
從表中可知:
P  A  B c  20 1
 c
, P A| B  
  30 1 90
P A B   , P A B  c
  .
150 5 150 P  Bc  60 3
互斥事件與獨立事件的差別
(Difference between Mutually Exclusive and Independent Events)
 當兩個事件互斥時,表示兩者一定不會是獨立事件,因為
「A 發生 B 的發生率就歸零,反之亦然。」
 當兩個事件獨立時,不一定是互斥事件,只能說
P  A  B   P  A P  B  與 P  A  B   P  A  P  B   P  A P  B  .


 
4.5 貝氏定理
有時候,特定事件的機率會因為資訊片面的問題而無法直接進行計算,此時
可以透過條件機率的累加來得到,以條件機率混合計算機率的定理,稱為貝式定
理(Bayes’ Rule):

貝氏定理的構想來源是將樣本空間 S 進行切割。以上圖為例,得到的切割集合
(Partition )為 S1 , S 2 , S3 ,具有彼此互斥及耗盡(Exhaustive)的特質,可以作為機
率計算時使用。

總合機率定理(Law of Total Probability)


給定 S1 , S 2 ,..., Sk  是樣本空間的切割集合,則特定的事件 A 之機率,可以被
改寫為
P  A   P  A  S   P  A  S1   P  A  S2   ...  P  A  Sk 
 P  A | S1  P  S1   P  A | S 2  P  S 2   ...  P  A | Sk  P  Sk 
k
  P  A | Si  P  Si 
i 1

透過以上性質,若我們要計算給定 A 已發生下的 S j 條件機率,可推論為:

P  S j  A P A| S j  PS j 
P  S j | A   k , j  1, 2,..., k .
P  A
 P  A | Si  P  Si 
i 1


 
Example 假設下表為大學部同學的比例及該年級下同學的近視比例:
比例 近視
大一 40% 40%
大二 30% 50%
大三 20% 60%
大四 10% 70%
隨機選取一位大學部同學,試計算:
 如果已知是大三的同學,請問他/她近視的機率是多少?
 如果已知是他/她沒有近視,請問他/她是大二的同學的機率是多少?
Sol:
定義 S1 , S2 , S3 , S4 為大一到大四的事件,成為樣本空間的一個切割。令 A
代表近視的事件,則想要得到的機率如下
P(近視|大三)= P(A| S3 )=60%

P(大二|沒有近視)= P( S2 | Ac )=

P  S2  Ac  P  Ac | S2  P  S2  0.5  0.3
   0.3
P A  0.6  0.4  0.5  0.3  0.4  0.2  0.3  0.1
 P A | Si  P  Si 
c 4
c

i 1

此表中近視機率加總破百的原因,因為它是條件機率。

Example 在一個工廠裡,有機台 I~III 都生產相同長度的彈簧,三台機台的不良


率分別為 2%、1%、3%。在這個廠內,機台 I~III 的生產佔比分別為 35%、25%
與 40%。試推論
 整廠的不良率為多少?
 若抽樣得一件彈簧,已知為不良品,它是由三號機台所產出的機率有多少?
Sol:
定義 D 為不良品的事件, M 1 , M 2 , M 3 分別表示產品來自三個機台的事件

P  D   P  D  M1   P  D  M 2   P  D  M 3 
 P  D M1  P  M1   P  D M 2  P  M 2   P  D M 3  P  M 3 
215
 0.35  0.02  0.25  0.01  0.40  0.03 
10000

P  D  M 3  P  D M 3  P  M 3  0.03  0.40 120


P M3 D     .
P D P D 0.0215 215

 
Example 子宮頸抹片檢查是用於檢測子宮頸癌的篩查程序。 對於患有這種癌症
的女性,大約有 16%的假陰性。對於沒有子宮頸癌的女性,有 10%的假陽性機率。
在美國,每 10 萬位女性大約有 8 人會罹患子宮頸癌。試著推論得到陽性檢驗結
果後,其正確的機率是多少。
Sol:
定義 C  與 C  分別為罹患與沒有子宮頸癌的事件,由題目的描述,可以得知

P  Negative C    0.16 , P  Positive C    0.10 , P  C   


8
,
100000

P C  Positive 

P  Positive C   P  C  
P  C  Positive   
P  Positive  P  Positive C   P  C    P  Positive C   P  C  
0.00008  0.84 672
   0.000672
0.00008  0.84  0.99992  0.10 672  999920
表示:
(1) 每百萬個陽性病人中,只有 672 位是真的癌症,檢測程序精確度要提昇。
(2) (1)原因是因為,患病率很低(8/10 萬),且檢測程序錯誤率 0.16 & 0.10 太高。
(3) 但此檢測還是有給些資訊,給定陽性下的癌症後驗機率(Posterior) 67.2/10 萬
大約是先驗機率(Prior) 8/10 萬的八倍之多。


 
Summary Table:
隨機實驗
事件與 簡單事件
樣本空間 複合事件
樣本空間
排列 Permutations:
n!
Prn  , r  n, n!  n  n  1 ...(2)(1), 0!  1.
 n  r !
計數技巧 組合 Combinations:
n! Prn
C  n
  Cnnr , r  n.
r ! n  r ! r !
r

交集事件
聯集事件
事件關係 獨立事件
互斥事件
餘事件
條件機率(Conditional Probability)
P A  B  
 P A | B  , P B  0  P A  B  P A | B P B
P B
總合機率定理(Law of Total Probability)
k
條件機率計算  P  A    P  A | Si  P  Si 
i 1
與貝氏定理
貝式定理 Bayes’ Rule
P A | S j  PS j 
 P  S j | A  k
, j  1, 2,..., k .
 P A | S  PS 
i 1
i i


 

You might also like