(1) 資料的搜集及抽樣原理與方法

2022/11/24
生物統計學及實習(一)
資料的搜集及抽樣原理與方法
陳怡樺教授
臺北醫學大學公共衛生學系
聯絡方式：yichen@tmu.edu.tw
1
何謂「統計」?
◼ 統計是什麼？
◼ 用來幫助人們蒐集、紀錄、整理、組織、說明、分析與
量化資料的工具，以解釋及預測各種自然、社會現象
◼ 統計學家做些什麼?
◼ 1. 指導實驗或調查的設計
◼ 2. 整理分析資料
◼ 3. 提供和解釋統計結果
1
2022/11/24
統計方法的實施步驟
◼ 1. 確定問題
◼ 2. 蒐集資料
◼ 3. 審核整理呈現資料
◼ 4. 分析解釋資料
◼ 5. 統計推論
統計的用途
◼ 描述性統計 ------ ◼ 推論性統計 ------
◼ 將所蒐集資料加以整 ◼ 從樣本資料來推論整
理表現解釋與分析個母體的特徵 (從非
(列舉一些指標或以完整資料中盡可能得
繪圖說明資料的特性) 到結論)
◼ 例如: 人口普查 ◼ 例如: 民意調查
2
2022/11/24
生物統計學 (Biostatistics)
◼ 生物性資料具有極高的不確定性，是多變的
◼ 大部分與健康相關的資料都是屬於生物性資料
◼ 生物資料的特性
◼ 變異性
◼ –個體與個體間均有其變異性，世界上沒有完
全相似的自然生物體。
◼ 一致性
◼ –John Graunt (生物統計學鼻祖,1662)：大量的
生物現象均有其一致性及可預測性
6
3
2022/11/24
統計的誤用 (1)
◼ 1.資料搜集的誤用 ◼ 2.資料顯示的誤用
◼ 不可比較的資料 ◼ 沒有顯示出資料全貌
◼ 分類基礎不同 ◼ 好像正確的陳述
◼ 偏差的樣本 ◼ 圖示資料的錯誤
◼ 不正確的計算 ◼ 其他
◼ 其他
統計的誤用 (2)
◼ 3.資料分析的誤用 ◼ 4.資料解釋的誤用
◼ 沒有了解資料的全部背景
◼ 使用絕對數目取代
◼ 解釋時係以個體來代替平
百分比均數
◼ 使用百分比取代絕 ◼ 解釋時係以平均數來代替
對數目個體
◼ 平均數的混淆
◼ 錯用百分比
◼ 把相關誤為因果
◼ 錯用平均數 ◼ 倒因為果或倒果為因
◼ 其他 ◼ 其他
8
4
2022/11/24
資料的性質 & 搜集
◼ 資料的定義:
◼ 在一定的時間與空間內，人類的各項活
動或大自然的現象等群體中有關人、事
或物，依其個體特性來描述或記載的紀
錄稱為資料 (data)
5
2022/11/24
資料的意義與種類 (1)
◼ (1) 依取得的方式 ◼ (2) 依資料的屬性:
◼ 初級資料: 直接由研究 ◼ 質的資料: 凡是不以數
員或資料使用者依研究的值來表示，僅以類別區
目的去資料原始處調查、分的資料，稱為質的資
觀察或實驗而獲得的資料料，又稱為類別資料
◼ 二手資料: 他人所搜集、
◼ 數量資料: 凡是可計數
整理分析的統計資料稱為
的資料稱為數量資料
二手資料或次級資料 (來
源:政府機關、學術機構、
企業單位或個人) 11
◼ (3) 依資料的發生時間 ◼ (4) 依資料的數學性質
◼ 間斷資料: 相鄰兩個數值間
◼ 橫斷面資料: 發生於同
不能插入任何一個數值的資
一時點或同一期間的資
料，或任意兩個數值間不能
料稱為橫斷面資料
插入無限多個數值的資料稱
◼ 時間數列資料: 發生於為間斷資料
不同時點或不同期間的
◼ 連續資料: 在任意兩個數值
資料稱為時間數列資料間可插入無限多個數值的資
料為連續資料
12
6
2022/11/24
◼ (5) 依資料的對象範圍
◼ 普查資料: 針對母體中的每一元素進行全面
性調查而得到的資料稱為普查資料
◼ 抽樣資料: 由母體中所抽取的樣本而獲得的
資料稱為抽樣資料
13
資料的形態
◼ (1) 粗資料 (raw data) 或未分組資料
(ungrouped data)
◼ (2) 分組資料 (grouped data)
14
7
2022/11/24
資料搜集的方法 (1)
◼ 次級資料: 向資料來源地免費索取或洽購或到圖書
館藉閱抄錄影印
◼ 原始資料:
◼ (1) 調查: 對影響母體特性的各種因素不作控制
的情況下，進行資料的搜集
◼ (2) 普查: 針對母體中每個元素進行資料的搜集
15
◼ (3) 抽樣: 從母體中抽取一部份的元素進行資料搜集的方法
◼ 調查的實施方式:
◼ 通訊調查: 問卷郵寄，由其自行填寫
◼ 實地個別訪問:親自或雇用調查人員實地個別訪問調查
的對象
◼ 電話訪問:打電話訪問調查對象
◼ 受查人自行填報法: 將問卷送給受訪者，並由受訪者
自行填報寄回的調查法，如受訪者未寄回調查表時則
以電話跟催
◼ 問卷或調查表的設計與調查的執行:
◼ 大多採取問卷或調查表的形式問卷以封閉型的問題為
主，開放型問題為輔
16
8
2022/11/24
◼ (4) 實驗: 對影響母體特性的某些因素或其他因素加以控制
的資料搜集方法
◼ (5) 觀察: 研究人員或其工作人員在做研究時利用觀看、查
察紀錄，而不與研究對象有任何接觸晤談的資料搜集方法
◼ 資料搜集來源又可分:
◼ (1) 回溯性研究 (retrospective study)
◼ (2) 前瞻性研究 (prospective study)
◼ (3) 臨床試驗 (clinical trial)
17
資料的衡量尺度
◼ 類別尺度(nominal scale): 衡量類別資料的稱為名目
尺度又稱為類別尺度(以＝,≠運算)
◼ 序位尺度(ordinal scale): 衡量有重要、強弱、好壞
程度等級順序之資料的稱為順序尺度 (以＝,≠, >, <
運算)
◼ 等距尺度(interval scale): 以相同距離為單位來測量
個案某性質的數據，且衡量無真正的原點的「量」的資
料(以＝,≠, >, <, +, - 運算)
◼ 等比尺度(ratio scale):以相同距離為單位來測量個案
某性質的數據，且衡量有絕對原點的量的資料，稱為比
例尺度(以＝,≠, >, <, +, -, ×, ÷ 運算) 18
9
2022/11/24
資料分類
資料
量的資料質的資料
連續變數間斷變數類別尺度序位尺度
等距尺度等比尺度
19
母群體、樣本與抽樣
20
10
2022/11/24
概論 (1)
◼ 理想 ◼ 實務
◼ 對全部對象加以研究 ◼ 針對所有對象的一部
份來做調查
◼ 困難
◼ 考量
◼ 時間、經費或人力的
◼ 是否可以代表全部對
限制
象調查結果?
◼ 代表程度如何?
21
概論 (2)
◼ 母群體 (population): ◼ 參數 (parameter，或稱
◼ 研究者所欲研究事母數，通常以希臘字母代
物對象的全體表，例 µ )
◼ 所有用來敘述母體性
◼ 樣本 (sample):
質的指標 (index)
◼ 從所欲研究對象全
◼ 統計量 (statistic，通
體中抽取的某組特常以羅馬字母代表，例 t)
定“個體” (例如:
◼ 敘述樣本特質的指標
“一個人”、 “一
個家庭” 等)
22
11
2022/11/24
族群與樣本的關係圖
母群體 (Population) 樣本 (Sample)
抽樣
平均數樣本平均數
比例樣本比例
變異數樣本變異數
推論
参數(Parameters) 統計數 (Statistics)
抽樣原因
◼ 母群體數量太大
◼ 時效上不允許
◼ 觀察會造成破壞 (毀壞性測驗)
◼ 根本無法接觸 (概念性的母體)
◼ 經濟上不允許
◼ 普查正確性不見得較高 (樣本較母體小，在資
料搜集與整理時較容易且精確)
24
12
2022/11/24
測量值變異的來源
◼ 生物上真正變異(True biological variation)
◼ 暫時性變異(Temporal variation)
◼ 測量誤差(Measurement variation)
◼ 系統誤差(Systematic error,偏差Bias)：人員或
工具所致之效度(validity)。
◼ 抽樣誤差(Sampling error；隨機誤差Random
error)：樣本數、抽樣次數或抽樣技術之信
度(reliability)
25
抽樣誤差 vs. 非抽樣誤差

◼ 抽樣誤差 ◼ 非抽樣誤差
◼ 樣本統計量與相對應 ◼ 來自調查時的執行
的母體參數間的差異。與事後在紀錄、整
此差異來自抽樣過程
理資料時所發生的
的機遇(chance)，抽
錯誤
樣方法及推論方法的
不同
26
13
2022/11/24
抽樣方法 & 非隨機抽樣法(1)

◼ 目的: 獲得具有代表性的樣本
◼ 非隨機抽樣法:
◼ (1) 便利抽樣法 (convenience sampling)
◼ 純粹以方便為基礎，樣本的獲得只考慮接近或衡
量的便利
◼ (2) 立意抽樣 (purposive sampling) 或判斷抽樣
(judgment sampling)
◼ 樣本是有意選擇出來的，當抽樣設計者對母群體
的有關特徵有相當了解時，不失為一簡便的方法
27
非隨機抽樣法(2)
◼ (3) 配額抽樣 (quota sampling)
◼ 先將母群體與以分層，然後再按照某些特性，依照各子
母體中含該特性個體所佔之百分比分配樣本數，即為分
配額，訪問員可依此配額自主的選擇樣本，只要數目達
到即可，並不在乎如何得到樣本
(4) 滾雪球抽樣 (snowball sampling)
◼
先利用隨機抽樣方法選出一群原始受訪者，完成訪問
◼
後再由這些原始受訪者提供合於調查目標母群體之其
他受訪者，如此樣本數像滾雪球般愈滾愈大，達到所
需之樣本數 28
14
2022/11/24
隨機抽樣法
◼ 隨機抽樣法
◼ 母群體中每一個單位都有一個已知的、
非零的機率被選為樣本，各單位被選為
樣本的機率不一定相同，但必須知道其
被選的機率
29
抽樣方法之實例
30
15
2022/11/24
(1) 簡單隨機抽樣法
(simple random sampling)
◼ 每個個體每次都有公平 (且已知) 的機會被抽到
−−−
X
31
(2) 分層隨機抽樣法
(stratified random sampling)
若個體在母群體中的分布並不均勻，我們可以先把
◼
性質類似的個體歸類在一起，稱為層(strata)，然後再
在每一層中依簡單隨機抽樣法抽出需要的樣本數
主要目的在增加樣本代表性，在母群體分配不均而
◼
樣本數又不大時，此法可以避免簡單隨機抽樣的樣本
有時會發生過分集中某種特性或缺乏某種特性現象
◼ •層內的差異要小而層與層間的差異要大
◼ 又稱為比例抽樣（proportional sampling）
32
16
2022/11/24
−−−
X
33
(3) 系統隨機抽樣法
(systematic random sampling)
◼ 規則地從母群體中每間隔一
定的距離抽取一個樣本，特
別適用於群體中的各成員已
排成列時（循環排列時不可
採用）
−−−
X
34
17
2022/11/24
(4) 集群隨機抽樣法
(cluster random sampling)
◼ 母群體按某種標準分成若干集群 (cluster)，然
後在所有的各集群中隨機抽出數個集群，並
對被抽到的集群作全面調查
◼ 也就是要使得各集束中均能包括母群體中各
性質的個體，使各集束成為母群體的縮影，
而群與群間則力求其齊一性
◼ 集群內異質性高
35
−−−
X
36
18
2022/11/24
(5)多段隨機抽樣
(Multi-Stage Random Sampling)
◼ A complex form of cluster sampling
◼ 將母群體按某種標準分成若干子群(groups)，然後
在所有的各子群中隨機抽出數個子群
◼ 被抽到的子群再分成若干次子群(subgroups)，再作
第二段抽樣
◼ 以此類推可再加更多階段的抽樣，最後的個案採
用各隨機抽樣方法行之
◼ For example: geographic areas (primary units),
factories (secondary units), employees (tertiary units)
37
−−−
X
38
19
2022/11/24
隨機抽樣相關問題
◼ 隨機數表(random number table)的應用
◼ 又稱隨機號碼表或亂數表，係由０到９的十個阿拉伯數字在
重複隨機出現的狀況下，依出現次序排列所成之表
◼ (1) 自然亂數:在完全隨機下產生，無法重製，也無法預測
◼ (2) 人為亂數:由電腦讀進一產生亂數的程式，並於需要時
用來產生亂數
◼ 隨機抽樣的附帶問題
◼ 樣本大小
◼ 放回還是不放回
◼ 多段隨機抽樣法 (multi-stage random sampling)
◼ 很難編號時
39
討論
◼ 各種抽樣方法的優缺點或適用範圍
抽樣法優點缺點
簡單隨機抽樣法需要所有觀察值的排列名單無法保證沒有得到”壞樣本”的
適於母群體分布較均勻且個機率
數不多時
分層隨機抽樣法如果母群體在與結果相關的需對母群體成員分子有足夠之

因子上分層分佈時，可保證資料來分層，且須決定以何因
不會得到”壞樣本” 子來分層級
集群隨機抽樣法在實地田野調查時唯一適宜如果集群內相關性高，為得同

可行的方法樣準確性，此法比簡單或系統
適於樣本分散廣大地區又無隨機抽樣法需要更大的樣本數
底冊可用之研究
系統隨機抽樣法如果名單以與結果有關之因估計值的標準誤較難推論

子排列時，此法比簡單隨機抽樣可靠性及誤差大小與母群
抽樣法好體中各成員排列結構及抽出間
隔週期性有關
20
2022/11/24
變數與測量
◼ 變數(variable)
◼ 隨著個案不同，其數值會改變
◼ 例如：收入
◼ 測量(measurement)
◼ 決定或記錄一個體某變數的數值之過程
◼ 記錄各家庭的收入
◼ 個案(case)
◼ 在研究中的一個完整個體，具有很多特質(變數)
◼ 例如：個別家庭
◼ 母體(population)
◼ 所有個案的組合
◼ 例如：當地所有的家庭
◼ 樣本(sample)
◼ 母體中部份個體所組成的集合
◼ 例如：當地被選定出來的部份家庭
Review: Basic Concepts

◼ Data
◼ The raw material of statistics
◼ Statistics
◼ The collection, organization, summarization, and
analysis of data
◼ The drawing of inferences about a body of data
when only a part of the data is observed
◼ Biostatistics
◼ When the data analyzed are derived from the
biological sciences and medicine
42
21
2022/11/24
Review: More on Variables (變數)

◼ Quantitative variables
◼ Qualitative variables
◼ Random variable (隨機變數)
◼ When the values obtained arise as a result of chance factors, so
that they cannot be exactly predicted in advance (e.g., adult
height)
◼ Discrete random variable
◼ Characterized by gaps or interruptions in the values that it can
assume (e.g., the number of daily admissions to a general
hospital)
◼ Continuous random variable
◼ Does not possess the gaps or interruptions characteristic of a
discrete random variable (e.g., height, weight) 43
22

(1) 資料的搜集及抽樣原理與方法

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

(1) 資料的搜集及抽樣原理與方法

Uploaded by

Copyright:

Available Formats

2022/11/24

◼ 例如: 人口普查 ◼ 例如: 民意調查

◼ –John Graunt (生物統計學鼻祖,1662)：大量的

◼ (2) 分組資料 (grouped data)

連續變數間斷變數類別尺度序位尺度

母群體 (Population) 樣本 (Sample)

参數(Parameters) 統計數 (Statistics)

抽樣誤差 vs. 非抽樣誤差

抽樣方法 & 非隨機抽樣法(1)

◼ 多段隨機抽樣法 (multi-stage random sampling)

分層隨機抽樣法如果母群體在與結果相關的需對母群體成員分子有足夠之

集群隨機抽樣法在實地田野調查時唯一適宜如果集群內相關性高，為得同

系統隨機抽樣法如果名單以與結果有關之因估計值的標準誤較難推論

Review: Basic Concepts

Review: More on Variables (變數)

You might also like

(1) 資料的搜集及抽樣原理與方法

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

(1) 資料的搜集及抽樣原理與方法

Uploaded by

Copyright:

Available Formats

2022/11/24

◼ 例如: 人口普查 ◼ 例如: 民意調查

◼ –John Graunt (生物統計學鼻祖,1662)：大量的

◼ (2) 分組資料 (grouped data)

連續變數 間斷變數 類別尺度 序位尺度

母群體 (Population) 樣 本 (Sample)

参數(Parameters) 統計數 (Statistics)

抽樣誤差 vs. 非抽樣誤差

抽樣方法 & 非隨機抽樣法(1)

◼ 多段隨機抽樣法 (multi-stage random sampling)

分層隨機抽樣法 如果母群體在與結果相關的 需對母群體成員分子有足夠之

集群隨機抽樣法 在實地田野調查時唯一適宜 如果集群內相關性高，為得同

系統隨機抽樣法 如果名單以與結果有關之因 估計值的標準誤較難推論

Review: Basic Concepts

Review: More on Variables (變數)

You might also like

連續變數間斷變數類別尺度序位尺度

母群體 (Population) 樣本 (Sample)

分層隨機抽樣法如果母群體在與結果相關的需對母群體成員分子有足夠之

集群隨機抽樣法在實地田野調查時唯一適宜如果集群內相關性高，為得同

系統隨機抽樣法如果名單以與結果有關之因估計值的標準誤較難推論