You are on page 1of 164

統計學

蔡馬良
1-1 何謂統計學
在社會的各個角落中,到處充滿了數據,而這些數
據到底可以告訴我們什麼訊息呢?我們必須藉由一
些工具來解釋、分析這些數據以幫助我們做決策,
而統計就是一個非常有用的工具。因此,我們可以
說,統計 (Statistic) 是一種用來解決不確定性問題
的工具,更精確地說,統計是指收集資料、整理資
料、表示資料、分析資料,並進而推論分析結果的
一種科學方法。有關不同領域統計的應用,會有不
同的名稱,例如教育統計、工業統計、生物統計⋯
⋯等,雖然不同領域的名稱不同,但其本質是完全
相同的。
統計學 (Statistics) 就是從觀察到的數據資料中,找出數據所
要呈現的訊息,再根據這些訊息的資訊來進行決策的一門科
學,也就是說,統計是一門量化的科學研究方法。因此,凡
是有資料的地方,就可以使用統計方法來幫忙解決一些問
題。中央研究院統計科學研究所趙民德教授認為,「統計的
本質和乳牛差不多」 ( 如圖 1-1 所示 ) ,真是一語道破統計
的精髓!
簡而言之,
統計就是在進行資料分析,既然在
進行資料分析,則必須藉助統計軟
體的幫忙,常用的統計軟體有
SPSS 、 SAS 、 STATISTICA 、 R
⋯⋯ 等。

近代由於統計軟體迅速發展,使得資料分析
的工作可以更簡單地執行,因此,有些人覺
得統計分析並不難,只要將資料丟進統計軟
體中執行就可以得到想要的分析結果,殊不
知,這些統計套裝軟體只會「跑」資料,它
並無法知道資料背後的意涵。
所以,隨意將一些資料丟進統
計軟體中進行分析所得到的結
果,可能是 ( 如圖 )
「 Garbage In, Garbage
Out 」
唯有具備深厚統計觀念背景的
人來進行統計資料分析,才是
一個懂得運用資料、善待資料
的途徑。
1-2 統計的概念
統計
是收集資料、整理資料、表
示資料、分析資料並進而推
論資料的一種科學方法,也
就是說,統計學是一個系統
化的資料處理過程。
其過程我們可以用圖 1-3 的
流程圖來說明之。
由圖 1-3 可以看出,統計學分為敘述統計學 (Descriptive
Statistics) 與推論統計學 (Inferential Statistics) 兩大類。
敘述統計學是在描述資料的收集、資料的整理與資料的表
示;推論統計學則是描述資料的分析與資料的推論。
茲分別說明上述流程圖內容如下:

一、研究主題與對應母體
二、資料的收集
三、資料的整理與表示
四、資料分析
五、統計推論
一、研究主題與對應母體

統計分析之首
確定研究主題
統計的概念

母體 參數 統計量 樣本
(Population) (Parameter) (Statistic) (Sample)
我們想要研究 描述母體特徵 描述樣本特徵 母體的部分
的對象所形成 的量 的量 集合

 針對母體中的每一個人進行調查,稱為普查 (Census) 。
統計量是一個會因為所抽取的樣本不同而變動的
量,所以,統計量是一個會變動的量,不會是一個
固定的常數。母體與樣本之間的關係,如圖 1-4 所
示。
課堂練習 1-1
某休閒與管理學系的統計學老師欲瞭解修課 62 位同學的平均身高為
何?隨機抽取班上 15 位同學的身高資料如下:
169 159 161 151 171 156 168 162 157 165 173 158 163 155 180
計算上述 15 位同學的平均身高為 163.2 公分,試定義母體、樣本、參
數與統計量。

母體:修課的 62 位同學。
樣本:抽出的 15 位同學。
參數: 62 位同學的平均身高。
統計量: 15 位同學的平均身高 163.2 公分。
二、資料的收集

調查法 觀察法 實驗法

• 行為科學的研究 • 自然科學
• 教育、心理與社會
• 優點: • 操控一個自變數觀
科學領域
• 經常使用到「問 可在自然的情境下觀 察對其他變數的影
察受訪者的行為模式 響,其他變數常稱
卷」做為資料收集
• 缺點: 為應變數。
的工具。
抽樣的量無法太多且 • 「實驗組」與「對
會花費相當多的時 照組」
間。
三、資料的整理與表示
統計資料整理的原則為周延與互斥,
所謂周延就是「不遺漏」,互斥就是「不重複」。
資料的表示方法主要有下列三種:
● 統計表:例如次數分配表、相對次數分配表等。
● 統計圖:例如長條圖、圓形圖、直方圖、次數多邊形圖、點
圖、線圖等。
● 統計量:例如平均數、中位數、眾數、變異數、標準差等。
四、資料分析

● 視資料類型來採用不同的資料分析方法
● 進行統計資料分析的首要工作在於選擇合適且正確
的統計方法
● 變數的型態不同,資料型態的有所不同,不同的統
計分析方法來進行資料分析
● t 檢定、卡方檢定、變異數分析、迴歸分析⋯⋯等。
五、統計推論
所謂統計推論,乃是根據樣本的結果而去推論
母體的未知狀況。一般而言,統計推論的範疇
有下列三種:
1. 點估計 (Point Estimate)
2. 區間估計 (Interval Estimate)
3. 假設檢定 (Hypothesis Testing)
綜合以上所述,我們可用圖 1-5 來說明統計學在做什麼。
簡而言之,即利用合適
的抽樣方法對母體抽取
一組樣本,根據樣本所
得到統計量的訊息來對
母體的參數進行統計推
論,再根據推論的結果
來進行決策。
1-3 變數與資料
為了要進行後續的統計分析工作,
我們需要清楚地瞭解
什麼是變數、什麼是資料。
以表 1-1 所列有關某醫生收集了 15 位病患的基本資料與
膽固醇數值為例,在研究或瞭解任何議題之前,我們面
對到的第一個問題就是「如何將上述資料以資料檔呈
現」。
為了建檔的方便性,類別變數的值通常會使用代碼來表示。
例如:
「性別」變數「男」以「 1 」表示,「女」以「 2 」表示;
「有沒有抽菸」變數「有」以「 1 」表示,「沒有」則以
「 0 」。而以此種形式建檔,即為了之後方便統計分析。
編碼完畢後,
就可以將表 1-1 的資料以 Excel 軟體來進行建檔,如圖 1-6 所
示。
圖 1-6 所建檔好的資料檔中,
共有組別、性別、年齡、是否有
抽菸與膽固醇等 5 個變數。
每個變數的值稱為資料,所有變
數與資料的集合稱為資料集。
每一個樣本提供的 5 個變數資料
稱為觀察值,因為有 15 個樣
本,故這個資料集共有 15 筆觀
察值。因此,上述資料共有 5 個
變數、 15 個觀察值與 75 個資
料。
1-4 變數的分類
一般而言,
統計資料可以分為屬
性資料與屬量資料兩
大類。
屬量資料可進一步細
分成間斷資料與連續
資料,如圖 1-7 所
示,茲分別說明如
下:
凡是資料可以依照某一種特 凡是資料可以依照「量」的
性來進行分類,每一種分類 大小來進行衡量者,其中可
間無法有運算關係者,稱為 以有運算關係存在者,稱為
屬性資料。由於屬性資料只 屬量資料。由於屬量資料存
可做為分類之用,因此也可 在「量」的大小,表示這樣
以稱為類別資料 的資料會是一個數值,所以
(Categorical Data) 。 也可以稱為數值資料
(Numerical Data) 。
屬性資料 屬量資料
(Qualitative Data) (Quantitative Data)
屬量資料依照資料是否可以分割,
又區分為離散資料 (Discrete Data) 與
連續資料 (Continuous Data) :

離散資料 連續資料
凡數值資料可以一個點、一個 凡資料是落在一個區間中,每
點來算,每一點是一個體,不 一點可以再加以無數次細分者
能再加以細分者稱之。 稱之。
例如: 例如:
兄弟姊妹人數、班上同學擁有 身高、體重、所得⋯⋯等。
汽車駕照的數量⋯⋯等。
1-5 資料的衡量尺度
常用的資料衡量

名目尺度 比率尺度
(Nominal Scale) (Ratio Scale)
根據變數的資料 順序尺度 區間尺度 具有區間尺度外,
來進行分類 (Ordinal Scale) (Interval Scale)
還具絕對原點
(Absolute Origin) 的
「類別」的意義外, 「類別」與「順序」的意義 特性
還多了一個「順序」 外,它還可以衡量出各分類
間的差距
不同的衡量尺度適用的變數類
型不同,意義、尺度高低與資
料收集的難易度也有所不同。
如表 1-2 與圖 1-8 所示。
針對要詢問一個人的月
所得資料,我們可以分
別以四種不同的尺度來
進行資料的收集,詢問
方式如表 1-3 所示。
在問卷調查上,我們
經常詢問一些問題,
不論進行任何的問卷
調查,在問卷中都會
使用到基本資料,如
表 1-4 所示就使用基
本資料來說明資料的
衡量的尺度。
統計萬花筒
餐飲業的滿意度調查
滄海餐廳為瞭解來餐廳用餐顧客對餐廳的整體滿意度。
針對每日來用餐的客人進行調查,以用餐環境、送餐速度與服務態度三個項
目來瞭解整體。相加得到整體滿意度的分數,分數越高,表示滿意度越高。
統計萬花筒
基本概念
( C ) 1. 餐廳為什麼要做顧客滿意度問卷調查?
(A) 老闆看起來專業 (B) 賺太多錢 (C) 永續經營 (D) 氣走顧
(A) 客
2. 該滿意度問卷中,哪些是名目尺度?
(C) (A) 性別 (B) 年齡 (C) 教育程度 (D) 以上皆非
3. 該滿意度問卷中,哪些是順序尺度?
(B) (A) 性別 (B) 年齡 (C) 教育程度 (D) 以上皆非
4. 該滿意度問卷中,哪些是比率尺度?
(D) (A) 性別 (B) 年齡 (C) 教育程度 (D) 以上皆非
5. 該滿意度問卷中,哪些是區間尺度?
(A) 性別 (B) 年齡 (C) 教育程度 (D) 以上皆非
為方便之後的統計分析,資枓均需以數字來重新編碼。
性別欄中,「 1 」表「男」、「 2 」表「女」;
教育程度欄中,「 1 」表「國中以下」、「 2 」表「高中 ( 職 ) 」、「 3 」
表「大專、大學」、「 4 」表「研究所以上」;
如何知道本餐廳的用餐資訊欄中,「 1 」表「親朋好友介紹」、「 2 」表
「網路資訊」、「 3 」表「報章雜誌報導」、「 4 」表「餐廳宣傳單」。
針對個案應用,可試著瞭解以下問題:

1. 研究的母體與參數為何?

2. 研究的樣本與統計量為何?

3. 樣本資料中,變數的類型為何?

4. 樣本資料中,變數的衡量尺度為何?
1. 研究的母體與參數
● 因餐廳進行此份問卷調查的目的是想要瞭解用餐顧客對餐廳的整體
滿意度,因此研究的對象為來餐廳用餐的所有顧客,故母體為「來
餐廳用餐的所有顧客」所成的集合。
● 從研究問卷中可以看出想要研究的特徵有很多,但本研究問卷最主
要研究的特徵為到餐廳用餐的滿意度,因此,參數為「到餐廳用餐
的滿意度」。
● 由於問卷中有關滿意度的衡量為 0∼100 分,因此我們可以更進一
步地定義研究參數為「到餐廳用餐滿意度的平均分數」,我們可用
符號表示「到餐廳用餐滿意度的平均分數」,所以,即為研究的
「參數」。
2. 研究的樣本與統計量
● 由於研究的母體為來餐廳用餐的所有顧客,我們不可能對
所有顧客進行調查,只針對某日用餐的 10 位客人進行滿
意度調查,因此這 10 位顧客即為研究的「樣本」。
● 由資料中可以求出,我們可以求出所有樣本滿意度的平均
分數如下:表示 10 個樣本對餐廳整體滿意度的平均分數
為 87.1 分,我們可以符號表示 10 位顧客「到餐廳用餐
滿意度的平均分數」,所以,即為研究的「統計量」。
3. 變數的類型 4. 變數的衡量尺度
研究問卷的變數與變數的屬性 研究問卷的變數的衡量尺度
Thanks!
Any questions?
第 2 章
資料的表示方法
《牛涵錚、楊文著 / 統計學 - 生活與休閒實務應用》
本章架構
學習重點

01 02 03 04

瞭解統計表的 瞭解統計圖的 瞭解統計量的 瞭解統計量的


資料表示法 資料表示法 資料表示法 一些應用
基本概念 統計異想世界
( C ) 1. 以行李箱顏色來看性格和收入是依據?
(A) 統計量分配 (B) 平均分配 (C) 眾數呈現 (D) 沒有依據
( A ) 2. 統計圖形的描述何者不正確?
(A) 連續性的數量資料 (B) 表示有關數量的多少 (C) 適合於對各數量進
行對比 (D) 以上皆非
( D ) 3. 延續第 2. 題,以下何者為非?
(A) 同寬度長條的不同長短來表示數量資料 (B) 用不同顏色或陰影表示研
究對象中不同的各組 (C) 能直觀地進行數量多少的對比 (D) 以上皆非
( B ) 4. 個案呈現的圖中顏色比例越大表示?
(A) 顏色漂亮 (B) 人數越多 (C) 繪圖者喜歡 (D) 沒意義
( D ) 5. 個案中所呈現的是何種圖?
(A) 折線圖 (B) 圓餅圖 (C) 直條圖 (D) 橫條圖
某大型餐飲連鎖集團旗下有 16 個餐飲品牌,這 16 位品
牌經理的性別、血型與在職年資,如下圖所示。

上述這些資料,我們稱為原始資料 (Raw Data) ,無法從


這些資料中看出什麼訊息,必須將這些資料進行整理,讓
別人可以看出這些資料的一些面貌,而這些整理好的資料
稱為次級資料 (Secondary Data) 。常用的資料的表示方
法有統計表、統計圖與統計量三種,茲分別說明於 2-
1∼2-3 節。
2-1 統計表
次數分配表
(Frequency Distribution Table)
是最常用來表示資料的方法之一,
不論是類別性變數或數值性變數,
均可使用它來表示資料。
一、類別性變數
● 考慮上述有關餐飲連鎖集團 16 位品牌經理的血型資料如
下:

● 我們可將上述資料以類別的方式來描述血型的次數分配表
二、數值性變數
考慮上述有關餐飲連鎖集團 16 位品牌經理的在職年資資料如
下:
32 4 14 4 12 4 9 26
20 1 17 10 17 22 18 30
在上述的原始資料中,並沒有辦法看出有關資料的一些樣貌,
只可約略地看出在職年資最多的為 32 年,最少的為 1 年,除
此之外,並沒有辦法從資料中獲得其他相關的訊息。因此,我
表 2-3 的次數分配表中
● 每一組的最小值稱為下限,最大
值稱為上限。
○ 例如, 0, 10, 20, 30 即為下限,
9, 19, 29, 39 即為上限。
● 每一組的上限跟下一組的下限中
間有間隙,這種分組的方式稱為
組限 (Group Limit) 。
○ 例如, 0∼9 與 10∼19 兩組
中,上限 9 與下限 10 中間並沒
有連在一起。
另一種次數分配表的分法稱為組界 (Group
Boundary) ,如表 2-4 所示。每一組的最小值稱為下
界,最大值稱為上界。
組界與組限的差異在於:
● 組限:
前一組的上限跟下一組的下限中間會有間
隙,並沒有連在一起。
● 組界:
前一組的上界跟下一組的下界中間不會有間
隙存在。
● 資料是連續型:
則不可以用組限來進行分組,必須使用
組界的方式來進行分組。
● 資料是間斷型:
則可以考慮用組限或組界來進行分組。
值得注意,利用組界來進行分組時,由於前一組
的上界跟下一組的下界是相同的數值,如果資料
剛好是上界或下界,則應該分在前一組還是後一
組呢?
通常組界分組的區間中,有包含左邊的端點 ( 下
界 ) ,但沒有包含右邊的端點 ( 上界 ) 。例如,如
果有一個數值為「 20 」,則這個資料要分到
「 20∼30 」這一組,而不是分到「 10∼20 」這
一組。
如何針對數值性資料編製一張次數分配表
呢?
除了一般性的次數分配表,亦有
1. 累積次數分配表
2. 相對次數分配表
3. 累積相對次數分配表
累積次數分配表
(Cumulative Frequency Distribution Table)
針對次數分配表而言,有時候我們會將各組的資料予以累
加,這種就稱為累積次數分配表。可分為以上累積次數分配
表與以下累積次數分配表。
● 純粹的次數分配型態,採次數分配
相對次數分配表 表。
(Relative Frequency ● 比較兩組資料的差異,採相對次數
Distribution Table) 分配表。
● 相對次數分配表,是將各組的次數
全部都除以總次數。

累積相對次數分配表 • 可以將累積次數的觀念應用於相
(Cumulative Relative 對次數上,並發展出以上累積相
Frequency Distribution 對次數與以下累積相對次數。
Table)
相對次數分配表和累積相對次數分配表
2-2 統計圖
統計圖 (Statistical Chart) 是另外一種資
料的表示方法,由於它可以清楚地呈現資
料的面貌,因此,無論是在寫報告或簡報
的時候,會經常採用許許多多的統計圖來
呈現資料的樣貌。
將依據不同資料的類型來分別說明不同的
統計圖形。
一、類別性資料
針對類別性資料而
言,常用的統計圖形
1.長條圖
2.圓形圖
3.柏拉圖
1. 長條圖 (Bar Chart)
 長條圖是以長方形來代表某一類 如果要進行群組比較時,可
以將比較群組的長方形同時
別所發生的次數 ( 或相對次數 ) 放在一起

直式長條圖 橫式長條圖 複式長條圖


2. 圓形圖 (Pie Chart)
 計算出每個類別所發生次數的百分比,利用這個
百分比,將一個 360 度的原分割成不同的部分。
3. 柏拉圖 (Pareto
 Chart)
在品管的應用上,經常聽過品管七大工具,柏拉圖就是其
中一個常用的品管圖形。
 將長條圖次數 ( 或相對次數 ) 由大而小排列,並在長條圖
上加上一條累積百分比 ( 或累積相對次數 ) 的曲線而成。
二、數值性資料
針對數值性資料而言,常用的統計圖形
1.直方圖 4. 肩形圖
2.次數多邊形圖 5. 點圖
3.肩形圖 6. 莖葉圖
1. 直方圖 (Histogram)
 在以組界方式編製的次數分配表中,將每一組畫出一個長
方形後,將每個長方形並列後即可。其中 X 軸表示組
界, Y 軸表示次數 ( 或相對次數 ) 。
 若 Y 軸呈現的是次數,則稱為次數直方圖,若 Y 軸呈現
的是相對次數,則稱為相對次數直方圖。
2. 次數多邊形圖 (Frequency Polygon)
 在直方圖的最前面設一假設組,其組次數為 0 ,最後面也
設一假設組,其組次數亦為 0 ,再將各組的組中點求出來
後,連線而成的圖形,如圖 2-6 所示。
3. 肩形圖
 又稱為累積次數曲線圖,以累積次數 ( 或累積相對次數 ) 的資料所繪
製出來的圖形。 (Ogive)
 使用以上累積次數 ( 或累積相對次數 ) 分配表,就稱以上累積次數
( 或累積相對次數 ) 曲線圖, X 軸表下界, Y 軸表累積次數 ( 或累積
相對次數 ) 。
 使用以下累積次數分配表,就稱以下累積次數 ( 或累積相對次數 ) 曲
線圖, X 軸表上界, Y 軸表累積次數 ( 或累積相對次數 ) 。
4. 點圖 (Dot Plot) 5. 線圖 (Line Chart)
 將資料的數值直接點在 X 軸  將資料的數值直接以一條直線
上的圖形,一個點表示資料 畫在 X 軸上,線條的長短表示
出現一次。 該資料發生的次數 ( 或相對次
數)。
6. 莖葉圖 (Stem-and-Leaf Plot)
1) 將數字 0∼9 寫成一直行 ( 視需要增減 ) ,
並在其右邊畫一垂直線,這些前置數字即
為「莖」的部分。
2) 記錄每個資料的個位數部分於垂直線的右
邊,並對應該資料「莖」的部分所在的橫
列上,這些個位數即「葉」的部分。
3) 將「葉」部分的數字由小至大排列。
課堂練習 2-1
某大型餐飲連鎖集團旗下有 16 個餐飲品牌,這
16 位品牌經理的在職年資如下:

32 、 4 、 14 、 4 、 12 、 4 、 9 、 26 、 20 、
1 、 17 、 10 、 17 、 22 、 18 、 30

試繪製 16 位品牌經理在職年資的莖葉圖。

由於年資資料只有兩位數,因此,將十位數視為
「莖」,個位數視為「葉」,又年資中,最少的為 1
年,最大的為 32 年,「莖」的數值為 0 、 1 、 2 、 3
等四個數,表示 0 、 10 、 20 與 30 歲;再將年資的個
位數寫在相對應的「莖」列上,繪製好的莖葉圖如 1. :

1 2
. .
最後將「葉」的資料由小而大排列後即可,如 2. :
我們也可以利用莖葉圖來比較不同類別資料的差
異,例如,某大型餐飲連鎖集團旗下有 16 個餐飲
品牌,這 16 位品牌經理的性別與在職年資,如表
2-7 所示:

我們繪製比較性的莖葉 最後,將「葉」的資料
圖來比較不同性別的年 由小而大排列後即可,
資差異,圖形如下: 如下:
2-3 統計量
用來描述所抽出來樣本特
徵的一種屬性 ( 例如樣本
平均值、樣本標準差、樣
本比例⋯⋯等 ) 。
即透過對樣本資料進行某
種統計運算後得到的值,
是母體參數的點估計量。
「母體」 (Population) 是指研究者有興趣的所有研究對象
( 例如台灣全體國民 ) ,但母體個數太多 ( 例如 2,600 萬
人 ) ,無法一一進行調查,因此可以運用有系統的科學方法
來抽取部分資料,例按照 22 縣市人口比例抽出共 1,000
人,此 1,000 人可以代表母體 ( 台灣全體國民 ) ,也是「代
表性樣本」。
研究者可以從這 1,000 人的樣本得到有興趣的資料 ( 例如平
均年齡、平均身高、男性比例等 ) ,而這些資料就是樣本
「統計量」。此外,相對於母體資料 ( 全民平均年齡、平均
身高、男性比例等 ) ,即為母體參數。故若抽取的樣本是
「代表性樣本」,則「統計量」可以推估「參數」。
案例一 為什麼需要不同的統計量來描述資料 ?
有兩個資料集 A 與
B

將兩個資料集的資料
畫成點圖
由兩個圖形可看出,平均數都是 50 ,表集中程度是一樣
的,但圖形可以看出來散布範圍不一樣,表離散程度不一
樣。
如要描述任何資料的時候,必須描述集中程度與離散程度,
方可看出資料的差異。
案例二 你要選擇哪一位做為培訓選手呢 ?
甲、乙兩人打靶,每人打 5 發:
甲共打了 15 分,乙僅打了 5 分, 就分
數甲的分數顯然大於乙。
可說甲打的比較「準」,但甲的分散程度
較乙來得大。因此,可說乙比較「精」。

針對兩個圖形,甲「準但是不精」、乙「精但是
不準」。如果要「又精又準」,如左圖所示。
 使用單一種統計量來描述樣本時,並不能完全
瞭解樣本結構的訊息,因此同時考慮不同的統
計量,可減少錯誤的解讀。
在描述資料的時候,基本上需要描述兩個面
向 ~資料的集中程度與離散程度,
相同的集中程度,也會呈現不同的離散程
度。
一、集中趨勢
最常用來衡量一群資料
集中趨勢的統計量為
1. 平均數
2. 中位數
3. 眾數
1. 平均數 (Mean)
平均數是用來衡量資料集中程度最常用的指標,在統計學上所指的平
均數乃指算術平均數。
原理是將所有資料加總再除以資料的個數,如果資料來自母體,就稱
為母體平均數;如果資料來自樣本,就稱為樣本平均數。

母體平均數 樣本平均數
一母體有有 X1, X2, …, XN 由一母體隨機抽取樣本數為
等 N 個數,其母體平均數 n 的一組簡單隨機樣本有
的定義如下 : X1, X2, …, XN ,則樣本平均
數的定義如下 :

 平均數具有唯一性,但平均數容易受到極端值的影響。
有一群母體資料,其母體平均數為 μ ,標準差為 σ ,若將
母體的每個資料都加上一個常數 k ,新資料的母體平均數會
增加 k ,變成 μ + k ; 若將母體的每個資料都乘以一個常數
k ,新資料的母體平均數會增加 k 倍,成 kμ 。觀念彙整如
下所示。
上表中,原始資料為 (1, 2, 3) ,
首先,將資料加上 3 後,新的資料變為 (4, 5, 6) ,其
平均數就變成 5 ,原來資料的平均數為 2 ,增加了
3。
因此,如果將原始資料全部都加 上 k 後,新的資料就
變成 (1 + k, 2 + k, 3 + k) ,其平均數就變成 2 + k 。
其次,將資料乘以 3 後,新的資料變為 (3, 6, 9) ,其
平均數就變成 6 ,原來資料的平均數為 2 ,增加了 3
倍,因此,如果將原始資料全部都乘上 k 後,新的資
料就變成 (k, 2k, 3k) ,其平均數就變成 2k 。
2. 中位數 (Median)
一群資料中,位於最中間的那一個數,即稱為中位數,通常以符號
m 表之。其意義為大於中位數的資料佔 1/2 ,小於中位數的資料亦
佔 1/2 。由於中位數只在求位於最中間的數,因此它不受極端值的
影響。同時,一群資料中只會有一個中位數,所以中位數具有唯一
性。
母體隨機抽取樣本數為 n 的簡單隨機樣本 X1, X2, …, XN ,將
資料由小至大排列為 X(1), X(2), …, X(N) ,則此群資料的中位數
為位於最中間的那一個數,通常以符號 m 表之,其定義如
下:
上述有關中位數的定義乃指,當資料個數為奇數個
時,中間的數只有一個,中位數就是最中間的這一個
數;當資料個數為偶數個時,中間的數有兩個,中位
數就是這兩個數相加除以 2 ,如表 2-10 所示。
課堂練習 2-2
續課堂練習 2-1 題目,試求 16 位品牌經理年資的中位數。

首先,將資料由小至大排列如下 :

因為資料個數為 16 個,故中位數
3. 眾數 (Mode)
所謂眾數,乃指一群資料中出現次數最多的數,通常以符號
mo 表之。
一群資料的眾數可以有一個、也可以有多個,所以眾數不具
有唯一性。當資料只有一個眾數,則稱此群資料為單峰分
配,如果資料具有兩個眾數,則稱此群資料為雙峰分配,當
資料有多個眾數,則稱此群資料為多峰分配。

由一母體隨機抽取樣本數為 n 的一組簡單隨
機樣本 X1, X2, …, XN ,則此群資料的眾 數為
出現次數最多的那一個數,通常以符號 mo 表
之。
課堂練習 2-3
續課堂練習 2-1 題目,試求 16 位品牌經理年資的眾數。


由資料中可以看到,出現次數最多的數
為 4 ,故眾數為 4 ,即 mo = 4 。
二、離散趨勢
經常用來衡量一群資料離散程
度的統計量,茲分別說明如
下:
1. 全距
2. 平均絕對偏差
3. 變異數
1. 全距 (Range)
全距是用來衡量一群資料離散程度最簡單的統計量,它的定
義很簡單,就是將一群資料的最大值與最小值相減即可。由
於一群資料中只使用到最大值與最小值而已,因此全距非常
容易受到極端值的影響。

由一母體隨機抽取樣本數為 n 的一組簡單隨
機樣本 X1, X2, …, XN ,將資料由小至大排列
為 X(1), X(2), …, X(N) ,則此樣本資料的全距通
常以符號 R 表之,其定義如下:
課堂練習 2-4
續課堂練習 2-1 題目,試求 16 位品牌經理年資的全距。

由資料中可以看出,最大值為 32 ,最小
值為 1 ,故 16 位品牌經理在職年資的全
距為
2. 平均絕對偏差
(Mean Absolute Deviation, MAD)
前述的全距,只使用到兩個數值,只由這兩個數值的差異來判斷
所有資料的離散程度,經常會受到極端值的影響。因此,如果我
們要使用所有的數值來判斷資料的離散程度時,就必須使用到其
他的統計量了。考慮圖 2-13 有關 N 個母體資料的散布狀況:
 圖中的母體平均數 μ 為中間套色
的點,在外圍的資料點 Xi ,每一
個點 Xi 與母體平均數 μ 的差異
為 Xi – μ ,即圖形中虛線的部
分,則所有點的總差異為
,稱這個值為離差。
但由於有些資料的值 Xi 大於母體平均數 μ ,則 Xi – μ
的值為正,但有些資料的值 Xi 小於母體平均數 ,則
Xi – μ 的值為負,正負相互抵銷後,可以證明
,因此,無法看出所有資料的總差異為何。所以可將 Xi
– μ 的值加上絕對值後求得每一個點 Xi 與平均數 μ 間
的距離
|Xi – μ| ,故可得總距離為 ,再將總距離除以資料
的個數 N ,就可以得到平均距離,這個平均距離就稱為
平均絕對偏差。
平均絕對偏差:
一母體有 N 個數 X1, X2, …, XN ,其母體
平均數為 μ ,則此母體資料的平均絕對偏
差以符號 MAD 表之,其定義如下 :
課堂練習 2-5
續課堂練習 2-1 題目,試求 16 位品牌經理年資的平均
絕對偏差。
解 首先,我們可以求出年資的平均
數:
接下來,計算每一點與平均數 μ 的距離,如下表所示。

故可以求得平均絕對偏差 MAD 的值:


3. 變異數 (Variance)
平均絕對偏差 MAD 採用絕對值來求資料點與平均數的平均距離。但
絕對值在代數的處理上較為麻煩。在代數的處理上,平方會比絕對值
要容易處理,因此,可以採 用平方的方式來求兩點間的距離,亦可將
平均絕對偏差 MAD 中的總距離 以 來代替後所得
到的值就稱為母體變異數。此時,稱 為離差平方和。
母體變異數 樣本變異數
一母體有 X1, X2, …, XN 等 N 由一母體隨機抽取樣本數為 n 的
個數,則此母體資料的變異數 一組簡單隨機樣本 X1, X2, …,
σ2 ,其定義如下: XN ,則此樣本資料的變異數
S2 ,其定義如下:

 母體變異數通常不知道,因此要以樣本變異數估計。
 注意:樣本變異數的分母必須除以 n-1 而不是 n 。
如果利用上述定義來求變異數會相當地
繁複,因此,可以將離差平方和
進一步地化簡如下:
課堂練習 2-6
續課堂練習 2-1 題目,試求 16 位品牌經理年資的的
變異數。
解 首先,我們可以求出年資的平均
數:
接下來,計算每一點與平均數 μ 的距離平方和,如下表所示。

故可以求得母體變異數的值:
表 2-13 中
原始資料為 (1, 2, 3) ,其變異數為 2/3 。
 首先,將資料加上 3 後,新的資料 變為 (4, 5, 6) ,
其平均數就變成 5 ,變異數仍然為 2/3 。
 如果將原始資料全部都加上 k 後,新的資料就變成
(1 + k, 2 + k, 3 + k) ,變異數仍然為 2/3 。
 其次,將資料乘以 3 後,新的資料變為 (3, 6, 9) ,
其平均數就變成 6 ,變異數變成 6 ,此數值為原來
資料變異數 2/3 的 9 倍。
 因此,如果將原始資料全部都乘上 k 後,新的資料
就變成 (k, 2k, 3k) ,變異數就變成原始資料的 k2 倍
了。
4. 標準差 (Standard Deviation)
由變異數的定義可以知道,變異數的單位為原始單
位的平方,例如,原始資料為身高,則原來的單位
為 cm ,但變異數的分子為平方和,其單位變為
cm2 ,為了讓衡量資料離散程度的量跟原始資料的單
位一致,將變異數開根號後取正的平方根,這個數
值即稱 為標準差。此時,標準差的單位就會跟原始
單位一樣。
母體標準差 樣本標準差
一母體有 X1, X2, …, XN 等 N 由一母體隨機抽取樣本數為 N
個數,則此母體資料的標準 的一組簡單隨機樣本 X1, X2, …,
差為母體變異數 σ2 開根號後 XN ,則此樣本資料的標準差為樣
取正的平方根,通常以符號 本變異數 S2 開根號後取正的平
σ 表之,其定義如下: 方根,通常以符號 S 表之,其
定義如下:
2-4 相對位置的衡量
在觀察資料的時候,有時候我們要觀察單一資
料在全體資料中所呈現的位置在哪裡。例如,
在國中基本學力測驗的通知單上會提供 PR
值, PR 值就表示該生成績的所在位置,表示
100 人當中該生會贏過多少人。針對不同衡
量標準或不同衡量單位的資料,又該如何進行
比較呢 ? 此時,可以透過將資料標準化後,
放在同一標準上來比較相對位置就可以解決此
類型資料比較的問題了。
一、分位數

1.百分位數
2.四分位數
1. 百分位數 (Percentiles)
前面的統計表中,曾經介紹過累積相對次數,我們可以利用
累積相對次數的觀念來說明百分位數的意義。如果將資料切
割成 100 個等分,則總共有 99 個點,這 99 個點就稱為
百分位數,以符號 PM (M = 1, 2, 3, ..., 99) 表之,如下圖所
示。
 由圖可以看出,
從最小值到第一個百分位數 P1 的累積相對次數為 1/100 ,
從最小值到第二個百分位數 P2 的累積相對次數為 2/100 ,
從最小值到第三個百分位數 P3 的累積相對次數為 3/100 , ......
從最小值到第 M 個百分位數 PM 的累積相對次數為
M/100 , ......
從最小值到第 99 個百分位數 P99 累積相對次數為 99/100 。
百分位數:
由一母體隨機抽取樣本數為 n 的一組簡單
隨機樣本 ,將資料由小排列為 X(1), X(2), …,
X(n) ,以 PM 表此群資料的第 M 個百分位
數,令 k = Mn/100 ,則 PM 的定義,如
下:
1. 當 k 不為整數時,將小數點無條件進位
後的該位置資料即為 PM 。
2. 當 k 為整數時,第 k 個資料與第 k + 1
個資料的平均數即為 PM 。
2. 四分位數 (Quartiles)
 四分位數也是常用的分位數,所謂四分位數是將資料分割成四
等分,因此會有三個數,分別以符號 Q1 、 Q2 與 Q3 表示,其
中 Q1 表第一個四分位數、 Q2 表第二個四分位數、 Q3 表第
三個四分位數。如果以百分位數的符號來表示,則如下所示 :
Q1 = P25 Q2 = P50 Q3 = P75
 在前面曾經說明過可以使用全距 R 來衡量資料的離散程度,
但由於全距非常容易受到極端值的影響,因此,可以考慮中間
50% 資料的全距,這種全距就稱為內四分位距 (Interquartile
Range) ,由於內四分位距也是全距的一種,因此,可以用來衡
量資料的離 散程度。它的定義就是第三個四分位數 Q3 與第一
個四分位數 Q1 的差。由於內四分位距只考慮中間 50% 的資
料,因此它不會受到極端值的影響。
內四分位距:
由一母體隨機抽取樣本數為 n 的一組簡單隨機
樣本 X1, X2, …, Xn ,將資料由小至大排列為 X(1),
X(2), …, X(n) , Q1 表第一個四分位數, Q3 表第
三個四分位數,則此樣本資料的內四分位距以符
號 IQR 表之,其定義如下:
課堂練習 2-7
續課堂練習 2-1 題目,試求 16 位品牌經理年資的四分位距。
解 首先,將資料由小至大排列如下:

接下來計算四分位數 Q1 與
Q3 :

故內四分位距 IQR = Q3 – Q1 = 21 – 6.5 = 14.5


同時,可由四分位數發展出一種圖形,稱為箱型圖
(Boxplot) ,這個圖形主要由五個元素所組成:
(1) 最小值
(2) 最大值
(3) 第一個四分位數 Q1
(4) 第二個四分位數 Q2
(5) 第三個四分位數 Q3 。利用這些數值畫出箱型圖,如圖所
示。

 由圖我們可以看出資料由三個四分位數 Q1 、 Q2 與 Q3 分
割成四個等分,每一等分各佔 1/4
課堂練習 2-8
續課堂練習 2-1 題目,試求 16 位品牌經理年資的箱型圖。


首先,將資料由小至大排列如下 :
接下來計算三個四分位數 Q1 、 Q2 與 Q3 :

又最小值為 1 ,最大值為 30 ,將此五個數據繪製


成箱型圖,如圖 2-16 所示。
二、標準化分數
(Standardized Score)

當兩群資料的衡量標準不同時,如果直接以個別平均數的高低
來衡量時,則會產生偏誤。例如,某老師教授統計專業軟體
SAS ,期中考試採用上機方式來進行,老師將同 學分為 A 、
B 兩組, A 組考 A 卷, B 組考 B 卷,考完後 A 、 B 兩組
的平均成績與標準差如表 2-14 所示。
如果 A 組中某甲考了 70 分, B 組中
某乙也考了 70 分,則甲、乙兩人考得
一樣好嗎?事實不然,由於 A 組的平均
數為 80 分, B 組的平均數為 60 分,
兩組的標準就不一樣了,所以,甲跟乙比
較的基準點不一樣,因此這樣的比較沒有
意義,必須要將 A 、 B 兩組的標準化為
一樣後再來進行比較,如圖 2-17 所
示。
圖 2-17 中, A 組的平均成績為 80 分,標準差
為 10 分,某甲考了 70 分; B 組的平均 成績為
60 分,標準差為 5 分,某乙也考了 70 分。將
A 組中甲所考的分數 70 減去該組的平均數 80
再除以標準差 10 ,可以得到  1 的數值;將 B
組中乙所考的分數 70 減去該組的平均數 60 再
除以標準差 5 ,可以得到 2 的數值。將原始資料
(X 與 Y) 除以平均數再 除以標準差後所得的新資
料 (Z) ,新資料的平均數為 0 ,標準差為 1 。此
時,資料的標準就會相同 ( 平均數為 0 ,標準差
為 1) ,新資料 2 比 1 來得大,因此我們可以說
乙考得比甲好。
標準化分數:
由一母體隨機抽取樣本數為 n 的一組簡單隨
機樣本 X1, X2, …, Xn ,其樣本平均數 ,樣
本標準差為 S ,如果將資料 X 減去平均數
後再除以標準差 S 所得的值,即稱為標準化
分數,通常以符號 Z 表之,即
2-5 資料的形狀
最常看到的資料形狀有左偏、右偏與對稱三種。
1. 當大部分的資料都集中在右邊,少部分的資料在左邊的時
候,即稱這群資料的形狀是左偏,如圖 2-18(a) 所示;
2. 當大部分的資料都集中在左邊,少部分的資料在右邊的時
候,即稱這群資料的形狀是右偏,如圖 2-18(b) 所示;
3. 如果資料均勻的分布在平均數的左右兩側者,即稱這群資
料的形狀是對稱,如圖 2-18(c) 所示。
• 當資料的形狀是左偏的時候,其資料分配的尾巴會在
左邊,此時平均數會往左邊移動,因此平均數的值會
小於中位數。
• 當資料的形狀是右偏的時候,其資料分配的尾巴會在
右邊,此時平均數會往右邊移動,因此平均數的值會
大於中位數。
 所以,當資料有極度偏態的時候,平均數就不適合做
為衡量集中趨勢的量數。此時,會以中位數來做為衡
量集中趨勢的量數。
 但如果資料是對稱的時候,不論是平均數、中位數或
眾數,都可以用來做為衡量集中趨勢的量數。
偏態係數 (Coefficient of
Skewness) :
 有一群樣本資料的平均數 ,標準差為
就是用來衡量資料偏態的一個指標
S ,中位數為 m ,偏態係數以符號 SK 表
之,其定義如下 :
由偏態係數的定義可以看出,我們都知道標準差的數
值一定不會為負值,因此偏態係數的正負完全決定於
分子項。
1. 如果平均數大於中位數 m ,則偏態係數的數值會
大於 0 ,表示資料呈右偏分配。
2. 如果平均數小於中位數 m ,則偏態係數的數值會
小於 0 , 表示資料呈左偏分配。
3. 如果平均數等於中位數 m ,則偏態係數的數值會
等於 0 ,表示資料為對稱分配。
總而言之:
偏態係數越接近 0 ,表示資料越接近對稱分配 ;
偏態係數距離 0 越遠,表示資料的偏態就越嚴重。
表 2-15 說明了 2009~2015 年全國薪資水準的變
化,由表中可以看出歷年來全國平均薪資的平均數都大
於中位數,表示 2009~2015 年期間全國薪資水準均
為右偏分配。

1. 偏態係數 SK >
0 ,表示資料右
偏。
2. 偏態係數 SK <
0 ,表示資料左
偏。
3. 偏態係數 SK =
0 ,表示資料對
2-6 經驗法則
經驗法則 (Empirical
Rule)
是一個有關平均數與標準差觀念應
用的法則,觀察一群具有鐘形分配
的樣本資料,其平均數 ,標準差
為 S ,則資料落在區間
內的百分比約為 68.26% ,落在區
間 內的百分比約為
95.44% ,落在區間內
的百分比約為 99.74% ,如右圖所
示。
有一群樣本資料的平均數為 ,標準差為 S ,如果這
群資料服從鐘形分配,則約有 68.26% 的資料落在以
平均數 為中心的左右各 1 倍標準差範圍內,約有
95.44% 的資料落在以平均數 為中心的左右各 2 倍
標準差範圍內,約有 99.74% 的資料落在以平均數
為中心的左右各 3 倍標準差範圍內。假設 X 表示資
料的變數,則
課堂練習 2-8
續課堂練習 2-1 題目,假設資料服從鐘形分配,請試著利
用經驗法則來求有多少比例的資料落在區間 (5.79, 24.21)
之間。
解 在前面,我們已經求得平均年資為

故可求得年資的標準差 :
由於區間 (5.79, 24.21) 中,
下限 5.79 = 15  9.21 ,上限 24.21 = 15 + 9.21 ,
故我們可以知道,區間 (5.79, 24.21) 剛好是以平均數
15 為中心,左右各 1 倍標準差的範圍,因此我們可以
說,約有 68.26% 比例的資料落在區間 (5.79, 24.21)
內,由資料中可以知道,除了六筆資料
1 、 4 、 4 、 4 、 30 與 32 之外,其他資料都落在區間
(5.79, 24.21) 內,即實際上有
比例的資料落入區間 (5.79, 24.21) 內,
此兩個數值也相當接近。
統計萬花筒
令球迷瘋狂的 NBA 賽事
2017~2018 NBA 賽季是 NBA 聯盟第 72 個賽季,此
賽季在 2017 年 10 月 18 日正式開始,共進行 82 場
的賽事。在所有賽季中賽事完畢後,東區和西區的前八名
球隊就能進入 NBA 季後賽以爭奪晉身在同年 6 月舉行
的 NBA 總決賽。針對球隊的效率表現, NBA 美國職業
籃球聯盟提供如表 2-16 所示之效率指數公式 (EFF) 。表
2-17 則為美國職籃 NBA 在 2017~2018 例行賽的數
據資料。
統計萬花筒
基本概念
( A ) 1. 以統計分析球員的勝率之目的是?
(A) 幫球團找出沙礫中的珍珠 (B) 配合老闆要求 (C) 大
家都如此做 (D) 看起比較炫
( C ) 2. 個案中有多少個變數?
(A) 11 (B) 12 (C) 13 (D) 14
( A ) 3. 個案中觀察值有多少個?
(A) 29 (B) 30 (C) 31 (D) 32
( D ) 4. 個案有幾個變數是以名目尺度來衡量的?
(A) 7 個 (B) 5 個 (C) 3 個 (D) 1 個
( D ) 5. 個案有幾個變數是以順序尺度來衡量的?
(A) 7 個 (B) 5 個 (C) 3 個 (D) 1 個
依據「統計萬花筒」的個案,就美國職籃 NBA 在 2017~2018
例行賽的數據資料, 依據上述 EFF 公式,可以求得每一隊
的效率指數如表 2-18 所示。
一、東、西兩區球隊 EFF 的數據狀況
由於最後需分別繪製東、西兩區 EFF 的箱型圖,所以我們先將上述 30
隊球隊的資料分成東、西區,除了計算出每一對的效率指數 EFF 外,並
依照效率指數由小而大排列如下表所示。
二、東、西區球隊的三個四分位數 Q1 、 Q2 與
Q3 、
資料最大值與最小值
三、分別繪出箱型圖以瞭解數據分散情況
根據上述匯整資料,可以繪製東區、西區 EFF
的箱型圖,如圖所示。

註:圖形中的 ○ 與
+ 分別表示西區與東
區 EFF 的平均值。
Excel 操

一、東、西區球隊的三個四分位數 Q1 、 Q2 與 Q3 的資
料與最大、最小值
 上述執行 Excel 操作的輸出結果,與前述計算結果因小
數點四捨五入的緣故,而有些許差異存在。
二、東、西區球隊的三個四分位數 Q1 、 Q2 與
Q3 、
資料最大值與最小值
 上述執行 Excel 操作的輸出結果,與前述計算結果因小數點四捨五
入的緣故,而有些許差異存在。
Thanks!
Any questions?

You might also like