Professional Documents
Culture Documents
對單一個實驗個體兩個變數時,就可以說是雙變量資料(Bivariate Data),兩個
變量當然可以使用上一章的手法分開做呈現,但是可能就沒有辦法探求到它們之
間的關係。
3.1 描述雙變量類別型資料
當雙變量中至少有一個變量是類別型變數時,即可使用圓餅圖或是趨勢圖來
描述資料,若是資料來自兩個不同的母體,也可透過併排的圓餅圖(Side-by-side
pie charts)或是併排的長條圖(Side-by-side bar charts)作比較。另一種方式就是以堆
疊的長條圖(stacked bar chart)作呈現。
資料是否有顯示出私立大學的教師薪水比較高?
Sol:
如要比較不同職級下的平均薪資高低,可以在 X 軸畫職級,得到併排的長條圖:
從圖中可以看得出來正教授的薪水差異比較明顯,其他兩個職等差距比較小。
1
Example 3.2 使用與前例相同的 400 位大專院校教師,依職級與公私立大學分為
下表:
資料是否有顯示出私立大學有聘比較多高職等的教師?
Sol:
如要比較來自兩個不同母體的資料佔比,可以用併排的圓餅圖:
從圖中可以看得出來私立學校的正教授佔比真的比較高,同樣的現象以堆疊長條
圖也可以看得出來。
若不透過圖形,上表也可以透過條件分佈(Conditional Distributions)來作比較,分
別在公私立類別下,計算每個職級的佔比,得出下表:
2
可以看得出來,私立學校的 24%正教授比,真的有比較高。
3.2 描述雙變量數值型資料
當雙變量都是數值型變量時,最簡單而基本的問題,就是兩者有什麼樣的關
係?若將兩資料點在 X-Y 平面上,會形成一個散佈圖(Scatterplots)。
散佈圖(Scatterplots)
散佈圖可以快速的告訴我們「資料可能存在什麼樣的趨勢」、「兩個變數之
間存在的關係強度」、「是否有可能異常值存在」、「是否有群集的存在」。
1. 有家庭成員越多,雜貨費開銷越大的趨勢
2. 如果蒐集到新的資料為藍色的 X 點,可能是離群值
3
有時,在散佈圖看到的 x-y 關係,有可能不是直線,例如:
從圖中可以看出房價與房屋大小有概略線性的關係,兩組資料的「線性關係」強
度可以透過相關係數的大小反映出來。
相關係數(Correlation Coefficient)
透過兩組資料的樣本平均值 x , y 與樣本標準差 S x , S y ,相關係數 r 是一
個介在-1 至+1 之間的數值,定義如下:
1 n 1 n
s i
n 1 i 1
x x yi y
n 1 i 1
xi y i nxy
.
r xy
sx s y sx s y sx s y
4
分子的部份 s xy 又特別被稱為共變異數(Covariance),相關係數反應出兩者關係
的邏輯基礎,可以用下圖作說明:
5
Example 3.7 針對下列資料 y=起始時薪工資、x=累積工作年資,畫出散佈圖並計
算出最小平方迴歸直線,畫在同一張圖中。如果現在有一位年資三年的求職者,
他的起始時薪工資推估應該為多少?
Sol:
x=2:7; y=c(8,9.5,10,14,15,17.5)
b=cor(x,y)*sd(y)/sd(x) # 1.942857
a=mean(y)-b*mean(x) # 3.590476
所以最小平方迴歸直線為 y=3.590+1.943x,三年的求職者起始時薪工資推估
應該為 3.590+1.943(3)=9.419。
plot(x,y); abline(lm(y~x))
Summary Table:
合併圓餅圖
合併趨勢圖
描述雙類別型資料
合併/堆疊長條圖
條件分佈表
散佈圖:關係型態、關係強度、存在群集或離群值
描述雙類別型資料
共變異數 s xy
1 n
線性相關性測量
sxy xi x yi y
n 1 i 1
相關係數: r
sx s y sx s y
s s
y a bx , b r y xy2 , a y bx .
sx sx
最小平方迴歸直線
6
Statistic (I)
Chapter 4 Probability
機率是統計學上一個重要的工具,尤其是在研究隨機變數的特性時,例如銅
板骰子公正性、亂數隨機性、品質檢驗可靠度等,都可以透過隨機實驗的設計來
進行確認。例如:丟一個銅板 10 次,得到 10 個都是正面,是否可以合理的懷疑
這個銅板不公正?這個問題可以引導出推論統計上最重要的兩個領域:「估計」
(Estimation)與「檢定」(Testing)。
4.1 事件與樣本空間
要明確的定義並計算機率,我們需要先針對一些機率論中的名詞作說明。
隨機實驗(Random Experiment):表示一個觀察值被蒐集的過程;
簡單事件(Simple Event):單一次實驗可能產生的結果;
複合事件(Composite Event):簡單事件的組成集合;
互斥(Mutually Exclusive):兩個事件最多只能有一個成立,交集為空集合;
樣本空間(Sample Space):所有簡單事件構成的集合。
餘(補)事件(Complement):除了我以外的所有樣本空間元素構成的事件。
資料蒐集方式,基本可以分為觀察型或實驗型等兩類。在計算不同事件的機
率時,我們常會使用范氏圖(Venn Diagram)或樹狀圖(Tree Diagram)作輔助。此外,
也可以使用列表的方式來呈現所有事件(Table of Outcomes)之可能性,例如:
1
4.2 使用簡單事件計算機率
以古典機率學派的觀點,一個事件的機率等於它所包含的所有簡單事件之機
率的總合。任何簡單事件的機率都滿足下列兩點條件:
每個簡單事件的機率介於 0 到 1 之間;
樣本空間中所有簡單事件的機率總合,必需等於 1。
所以,兩顆都是紅色的機率為 1/6+1/6=1/3。
4.3 常用的計數規則
在將要計算機率的事件拆解成簡單事件的過程中,常會需要使用到一些「排
列」與「組合」的技巧,說明如下:
排列(Permutations):
在一個 n 個相異物品的集合中,取出 r 個物品並排成一列
n!
Prn , r n, n! n n 1 ...(2)(1), 0! 1.
n r !
組合(Combinations):
在一個 n 個相異物品的集合中,一次抓取出 r 個物品
n! Prn
C
n
Cnnr , r n.
r ! n r ! r !
r
2
Example 4. 13 目前公司內共有 50 位員工,如果有三張樂透彩券要隨機發給其中
3 位員工,在此實驗中,順序性是很重要的。請問此實驗共會產出多少個簡單事
件的成果?
Sol:
50!
P350 =50 49 48 117,600.
47!
4.4 計算機率的規則
計算機率時,會使用到事件集合之間的運算,以兩個事件 A 與 B,說明如下:
聯集(Union): P A B , A 或 B 其中一者發生即可;
交集(Intersection): P A B , A 與 B 兩者事件同時發生;
餘(補)(Complement):Ac, A 的餘事件,表示非 A。
3
計算聯集與餘集的機率(Calculating Probabilities for Unions and Complements)
在計算兩個事件的聯集機率時,常使用以下式子:
P A B P A P B P A B .
當兩個事件互斥時,兩者的交集為空集合,即 P A B 0 。特定一個事件 A 的
餘事件 Ac 之機率,可以定為 P Ac 1 P A 。
條件機率(Conditional Probability)
對於兩個事件 A 與 B,在已知 B 事件發生下,探討 A 事件的發生機率,稱為
B 發生下的條件機率,定義如下;
P A B
P A | B , P B 0 P A B P A | B P B .
P B
所以,如果兩個事件是獨立的,我們可以得到
P A B P A P B
P A | B P A .
P B
P B
在貝氏 (Bayesian) 機率學派中, P A 與 P A | B 又分別被稱為事前機率 (Prior
Probability)與事後機率(Posterior Probability)。
4
Example 丟一個公平的六面骰子,令 A 為「點數 2」的事件,令 B 為「偶數點數」
的事件,試計算 P A | B 。
Sol:
從定義可以得到
P A B 1 / 6 1 1
P A | B P A .
P B 1/ 2 3 6
Note: 條件機率依然滿足機率加總=1 的公理, P A | B P Ac | B 1, P B 0 。
Example 假設某統計學教室中的同學,按照近視與否及性別分類,得到下表:
近視 沒有近視
男生 20 40
女生 30 60
令 A 表示「近視」的事件、令 B 表示「女生」的事件,請計算下列機率值:
P A B
P A Bc
P A | Bc
Sol:
從表中可知:
P A B c 20 1
c
, P A| B
30 1 90
P A B , P A B c
.
150 5 150 P Bc 60 3
互斥事件與獨立事件的差別
(Difference between Mutually Exclusive and Independent Events)
當兩個事件互斥時,表示兩者一定不會是獨立事件,因為
「A 發生 B 的發生率就歸零,反之亦然。」
當兩個事件獨立時,不一定是互斥事件,只能說
P A B P A P B 與 P A B P A P B P A P B .
5
4.5 貝氏定理
有時候,特定事件的機率會因為資訊片面的問題而無法直接進行計算,此時
可以透過條件機率的累加來得到,以條件機率混合計算機率的定理,稱為貝式定
理(Bayes’ Rule):
貝氏定理的構想來源是將樣本空間 S 進行切割。以上圖為例,得到的切割集合
(Partition )為 S1 , S 2 , S3 ,具有彼此互斥及耗盡(Exhaustive)的特質,可以作為機
率計算時使用。
P S j A P A| S j PS j
P S j | A k , j 1, 2,..., k .
P A
P A | Si P Si
i 1
6
Example 假設下表為大學部同學的比例及該年級下同學的近視比例:
比例 近視
大一 40% 40%
大二 30% 50%
大三 20% 60%
大四 10% 70%
隨機選取一位大學部同學,試計算:
如果已知是大三的同學,請問他/她近視的機率是多少?
如果已知是他/她沒有近視,請問他/她是大二的同學的機率是多少?
Sol:
定義 S1 , S2 , S3 , S4 為大一到大四的事件,成為樣本空間的一個切割。令 A
代表近視的事件,則想要得到的機率如下
P(近視|大三)= P(A| S3 )=60%
P(大二|沒有近視)= P( S2 | Ac )=
P S2 Ac P Ac | S2 P S2 0.5 0.3
0.3
P A 0.6 0.4 0.5 0.3 0.4 0.2 0.3 0.1
P A | Si P Si
c 4
c
i 1
此表中近視機率加總破百的原因,因為它是條件機率。
P D P D M1 P D M 2 P D M 3
P D M1 P M1 P D M 2 P M 2 P D M 3 P M 3
215
0.35 0.02 0.25 0.01 0.40 0.03
10000
P C Positive
P Positive C P C
P C Positive
P Positive P Positive C P C P Positive C P C
0.00008 0.84 672
0.000672
0.00008 0.84 0.99992 0.10 672 999920
表示:
(1) 每百萬個陽性病人中,只有 672 位是真的癌症,檢測程序精確度要提昇。
(2) (1)原因是因為,患病率很低(8/10 萬),且檢測程序錯誤率 0.16 & 0.10 太高。
(3) 但此檢測還是有給些資訊,給定陽性下的癌症後驗機率(Posterior) 67.2/10 萬
大約是先驗機率(Prior) 8/10 萬的八倍之多。
8
Summary Table:
隨機實驗
事件與 簡單事件
樣本空間 複合事件
樣本空間
排列 Permutations:
n!
Prn , r n, n! n n 1 ...(2)(1), 0! 1.
n r !
計數技巧 組合 Combinations:
n! Prn
C n
Cnnr , r n.
r ! n r ! r !
r
交集事件
聯集事件
事件關係 獨立事件
互斥事件
餘事件
條件機率(Conditional Probability)
P A B
P A | B , P B 0 P A B P A | B P B
P B
總合機率定理(Law of Total Probability)
k
條件機率計算 P A P A | Si P Si
i 1
與貝氏定理
貝式定理 Bayes’ Rule
P A | S j PS j
P S j | A k
, j 1, 2,..., k .
P A | S PS
i 1
i i
9