Professional Documents
Culture Documents
生物統計學及實習(一)
資料的搜集及抽樣原理與方法
陳怡樺 教授
臺北醫學大學公共衛生學系
聯絡方式:yichen@tmu.edu.tw
1
何謂「統計」?
◼ 統計是什麼?
◼ 用來幫助人們蒐集、紀錄、整理、組織、說明、分析與
量化資料的工具,以解釋及預測各種自然、社會現象
◼ 統計學家做些什麼?
◼ 1. 指導實驗或調查的設計
◼ 2. 整理分析資料
◼ 3. 提供和解釋統計結果
1
2022/11/24
統計方法的實施步驟
◼ 1. 確定問題
◼ 2. 蒐集資料
◼ 3. 審核整理呈現資料
◼ 4. 分析解釋資料
◼ 5. 統計推論
統計的用途
◼ 描述性統計 ------ ◼ 推論性統計 ------
◼ 將所蒐集資料加以整 ◼ 從樣本資料來推論整
理表現解釋與分析 個母體的特徵 (從非
(列舉一些指標或以 完整資料中盡可能得
繪圖說明資料的特性) 到結論)
2
2022/11/24
生物統計學 (Biostatistics)
◼ 生物性資料具有極高的不確定性,是多變的
◼ 大部分與健康相關的資料都是屬於生物性資料
◼ 生物資料的特性
◼ 變異性
◼ –個體與個體間均有其變異性,世界上沒有完
全相似的自然生物體。
◼ 一致性
生物現象均有其一致性及可預測性
6
3
2022/11/24
統計的誤用 (1)
◼ 1.資料搜集的誤用 ◼ 2.資料顯示的誤用
◼ 不可比較的資料 ◼ 沒有顯示出資料全貌
◼ 分類基礎不同 ◼ 好像正確的陳述
◼ 偏差的樣本 ◼ 圖示資料的錯誤
◼ 不正確的計算 ◼ 其他
◼ 其他
統計的誤用 (2)
◼ 3.資料分析的誤用 ◼ 4.資料解釋的誤用
◼ 沒有了解資料的全部背景
◼ 使用絕對數目取代
◼ 解釋時係以個體來代替平
百分比 均數
◼ 使用百分比取代絕 ◼ 解釋時係以平均數來代替
對數目 個體
◼ 平均數的混淆
◼ 錯用百分比
◼ 把相關誤為因果
◼ 錯用平均數 ◼ 倒因為果或倒果為因
◼ 其他 ◼ 其他
8
4
2022/11/24
資料的性質 & 搜集
◼ 資料的定義:
◼ 在一定的時間與空間內,人類的各項活
動或大自然的現象等群體中有關人、事
或物,依其個體特性來描述或記載的紀
錄稱為資料 (data)
5
2022/11/24
資料的意義與種類 (1)
◼ (1) 依取得的方式 ◼ (2) 依資料的屬性:
◼ 初級資料: 直接由研究 ◼ 質的資料: 凡是不以數
員或資料使用者依研究的 值來表示,僅以類別區
目的去資料原始處調查、 分的資料,稱為質的資
觀察或實驗而獲得的資料 料,又稱為類別資料
◼ 二手資料: 他人所搜集、
◼ 數量資料: 凡是可計數
整理分析的統計資料稱為
的資料稱為數量資料
二手資料或次級資料 (來
源:政府機關、學術機構、
企業單位或個人) 11
資料的意義與種類 (2)
◼ (3) 依資料的發生時間 ◼ (4) 依資料的數學性質
◼ 間斷資料: 相鄰兩個數值間
◼ 橫斷面資料: 發生於同
不能插入任何一個數值的資
一時點或同一期間的資
料,或任意兩個數值間不能
料稱為橫斷面資料
插入無限多個數值的資料稱
◼ 時間數列資料: 發生於 為間斷資料
不同時點或不同期間的
◼ 連續資料: 在任意兩個數值
資料稱為時間數列資料 間可插入無限多個數值的資
料為連續資料
12
6
2022/11/24
資料的意義與種類 (3)
◼ (5) 依資料的對象範圍
◼ 普查資料: 針對母體中的每一元素進行全面
性調查而得到的資料稱為普查資料
◼ 抽樣資料: 由母體中所抽取的樣本而獲得的
資料稱為抽樣資料
13
資料的形態
◼ (1) 粗資料 (raw data) 或未分組資料
(ungrouped data)
14
7
2022/11/24
資料搜集的方法 (1)
◼ 次級資料: 向資料來源地免費索取或洽購或到圖書
館藉閱抄錄影印
◼ 原始資料:
◼ (1) 調查: 對影響母體特性的各種因素不作控制
的情況下,進行資料的搜集
◼ (2) 普查: 針對母體中每個元素進行資料的搜集
15
資料搜集的方法 (2)
◼ (3) 抽樣: 從母體中抽取一部份的元素進行資料搜集的方法
◼ 調查的實施方式:
◼ 通訊調查: 問卷郵寄,由其自行填寫
◼ 實地個別訪問:親自或雇用調查人員實地個別訪問調查
的對象
◼ 電話訪問:打電話訪問調查對象
◼ 受查人自行填報法: 將問卷送給受訪者,並由受訪者
自行填報寄回的調查法,如受訪者未寄回調查表時 則
以電話跟催
◼ 問卷或調查表的設計與調查的執行:
◼ 大多採取問卷或調查表的形式問卷以封閉型的問題為
主,開放型問題為輔
16
8
2022/11/24
資料搜集的方法 (3)
◼ (4) 實驗: 對影響母體特性的某些因素或其他因素加以控制
的資料搜集方法
◼ (5) 觀察: 研究人員或其工作人員在做研究時利用觀看、查
察紀錄,而不與研究對象有任何接觸晤談的資料搜集方法
◼ 資料搜集來源又可分:
◼ (1) 回溯性研究 (retrospective study)
◼ (2) 前瞻性研究 (prospective study)
◼ (3) 臨床試驗 (clinical trial)
17
資料的衡量尺度
◼ 類別尺度(nominal scale): 衡量類別資料的稱為名目
尺度又稱為類別尺度(以=,≠運算)
◼ 序位尺度(ordinal scale): 衡量有重要、強弱、好壞
程度等級順序之資料的稱為順序尺度 (以=,≠, >, <
運算)
◼ 等距尺度(interval scale): 以相同距離為單位來測量
個案某性質的數據,且衡量無真正的原點的「量」的資
料(以=,≠, >, <, +, - 運算)
◼ 等比尺度(ratio scale):以相同距離為單位來測量個案
某性質的數據,且衡量有絕對原點的量的資料,稱為比
例尺度(以=,≠, >, <, +, -, ×, ÷ 運算) 18
9
2022/11/24
資料分類
資料
量的資料 質的資料
等距尺度 等比尺度
19
母群體、樣本與抽樣
20
10
2022/11/24
概論 (1)
◼ 理想 ◼ 實務
◼ 對全部對象加以研究 ◼ 針對所有對象的一部
份來做調查
◼ 困難
◼ 考量
◼ 時間、經費或人力的
◼ 是否可以代表全部對
限制
象調查結果?
◼ 代表程度如何?
21
概論 (2)
◼ 母群體 (population): ◼ 參數 (parameter,或稱
◼ 研究者所欲研究事 母數,通常以希臘字母代
物對象的全體 表,例 µ )
◼ 所有用來敘述母體性
◼ 樣本 (sample):
質的指標 (index)
◼ 從所欲研究對象全
◼ 統計量 (statistic,通
體中抽取的某組特 常以羅馬字母代表,例 t)
定“個體” (例如:
◼ 敘述樣本特質的指標
“一個人”、 “一
個家庭” 等)
22
11
2022/11/24
族群與樣本的關係圖
抽樣
平均數 樣本平均數
比 例 樣本比例
變異數 樣本變異數
推論
抽樣原因
◼ 母群體數量太大
◼ 時效上不允許
◼ 觀察會造成破壞 (毀壞性測驗)
◼ 根本無法接觸 (概念性的母體)
◼ 經濟上不允許
◼ 普查正確性不見得較高 (樣本較母體小,在資
料搜集與整理時較容易且精確)
24
12
2022/11/24
測量值變異的來源
◼ 生物上真正變異(True biological variation)
◼ 暫時性變異(Temporal variation)
◼ 測量誤差(Measurement variation)
◼ 系統誤差(Systematic error,偏差Bias):人員或
工具所致之效度(validity)。
◼ 抽樣誤差(Sampling error;隨機誤差Random
error): 樣本數、抽樣次數或抽樣技術之信
度(reliability)
25
26
13
2022/11/24
◼ 純粹以方便為基礎,樣本的獲得只考慮接近或衡
量的便利
◼ (2) 立意抽樣 (purposive sampling) 或判斷抽樣
(judgment sampling)
◼ 樣本是有意選擇出來的,當抽樣設計者對母群體
的有關特徵有相當了解時,不失為一簡便的方法
27
非隨機抽樣法(2)
◼ (3) 配額抽樣 (quota sampling)
◼ 先將母群體與以分層,然後再按照某些特性,依照各子
母體中含該特性個體所佔之百分比分配樣本數,即為分
配額,訪問員可依此配額自主的選擇樣本,只要數目達
到即可,並不在乎如何得到樣本
(4) 滾雪球抽樣 (snowball sampling)
◼
先利用隨機抽樣方法選出一群原始受訪者,完成訪問
◼
後再由這些原始受訪者提供合於調查目標母群體之其
他受訪者,如此樣本數像滾雪球般愈滾愈大,達到所
需之樣本數 28
14
2022/11/24
隨機抽樣法
◼ 隨機抽樣法
◼ 母群體中每一個單位都有一個已知的、
非零的機率被選為樣本,各單位被選為
樣本的機率不一定相同,但必須知道其
被選的機率
29
抽樣方法之實例
30
15
2022/11/24
(1) 簡單隨機抽樣法
(simple random sampling)
◼ 每個個體每次都有公平 (且已知) 的機會被抽到
−−−
X
31
(2) 分層隨機抽樣法
(stratified random sampling)
若個體在母群體中的分布並不均勻,我們可以先把
◼
性質類似的個體歸類在一起,稱為層(strata),然後再
在每一層中依簡單隨機抽樣法抽出需要的樣本數
主要目的在增加樣本代表性,在母群體分配不均而
◼
樣本數又不大時,此法可以避免簡單隨機抽樣的樣本
有時會發生過分集中某種特性或缺乏某種特性現象
◼ •層內的差異要小而層與層間的差異要大
◼ 又稱為比例抽樣(proportional sampling)
32
16
2022/11/24
−−−
X
33
(3) 系統隨機抽樣法
(systematic random sampling)
◼ 規則地從母群體中每間隔一
定的距離抽取一個樣本,特
別適用於群體中的各成員已
排成列時 (循環排列時不可
採用)
−−−
X
34
17
2022/11/24
(4) 集群隨機抽樣法
(cluster random sampling)
◼ 母群體按某種標準分成若干集群 (cluster),然
後在所有的各集群中隨機抽出數個集群,並
對被抽到的集群作全面調查
◼ 也就是要使得各集束中均能包括母群體中各
性質的個體,使各集束成為母群體的縮影,
而群與群間則力求其齊一性
◼ 集群內異質性高
35
−−−
X
36
18
2022/11/24
(5)多段隨機抽樣
(Multi-Stage Random Sampling)
◼ A complex form of cluster sampling
◼ 將母群體按某種標準分成若干子群(groups),然後
在所有的各子群中隨機抽出數個子群
◼ 被抽到的子群再分成若干次子群(subgroups),再作
第二段抽樣
◼ 以此類推可再加更多階段的抽樣,最後的個案採
用各隨機抽樣方法行之
◼ For example: geographic areas (primary units),
factories (secondary units), employees (tertiary units)
37
−−−
X
38
19
2022/11/24
隨機抽樣相關問題
◼ 隨機數表(random number table)的應用
◼ 又稱隨機號碼表或亂數表,係由0到9的十個阿拉伯數字在
重複隨機出現的狀況下,依出現次序排列所成之表
◼ (1) 自然亂數:在完全隨機下產生,無法重製,也無法預測
◼ (2) 人為亂數:由電腦讀進一產生亂數的程式,並於需要時
用來產生亂數
◼ 隨機抽樣的附帶問題
◼ 樣本大小
◼ 放回還是不放回
◼ 很難編號時
39
討論
◼ 各種抽樣方法的優缺點或適用範圍
抽樣法 優點 缺點
簡單隨機抽樣法 需要所有觀察值的排列名單 無法保證沒有得到”壞樣本”的
適於母群體分布較均勻且個 機率
數不多時
20
2022/11/24
變數與測量
◼ 變數(variable)
◼ 隨著個案不同,其數值會改變
◼ 例如:收入
◼ 測量(measurement)
◼ 決定或記錄一個體某變數的數值之過程
◼ 記錄各家庭的收入
◼ 個案(case)
◼ 在研究中的一個完整個體,具有很多特質(變數)
◼ 例如:個別家庭
◼ 母體(population)
◼ 所有個案的組合
◼ 例如:當地所有的家庭
◼ 樣本(sample)
◼ 母體中部份個體所組成的集合
◼ 例如:當地被選定出來的部份家庭
◼ Statistics
◼ The collection, organization, summarization, and
analysis of data
◼ The drawing of inferences about a body of data
when only a part of the data is observed
◼ Biostatistics
◼ When the data analyzed are derived from the
biological sciences and medicine
42
21
2022/11/24
22