You are on page 1of 32

1

參考書目 生物統計學15堂課

單元1
統計學概念、資料類型與圖表

1
2

基本概念

本單元介紹統計學基本概念,並指出統計
學可分為兩大部份,即描述性統計及推論
性統計,並簡單說明資料類型、以及如何
以圖、表來呈現資料。

對應至生物統計學的15堂課 1-1頁
3

1.1 統計學(statistics)及生物統計學
(biostatistics)

統計學為一門收集、匯整及分析資料的科
學;若所收集的資料內容為生物、醫學、
公共衛生或護理相關,則稱為生物統計學。

對應至生物統計學的15堂課 1-1頁
4

收集、匯整及分析資料

生統整合課程 第一單元 1-4


5

收集、匯整及分析資料

生統整合課程 第一單元 1-5


6

收集、匯整及分析資料

生統整合課程 第一單元 1-6


7

1.2 描述性統計(descriptive statistics)及


推論性統計(inferential statistics)

1.2.1 描述性統計:是用來整理及摘要資料的統計方
法。例如:利用病人的基本資料,針對年齡、性別、
職業等資料,以數值(平均值、變異數)、表格或圖
形來描述這些病人的特質。

1.2.2 推論性統計:是利用樣本(sample)提供的資
訊來推論(估)母群體(population)訊息的統計方法。
例如:選舉前,會抽出部分的人(樣本)調查他們支
持的候選人,並以之推論選舉的結果。
註:推論性統計主要又分為估計與假設檢定,主要
藉由機率理論,利用樣本資料來了解母群體。
對應至生物統計學的15堂課 1-1頁
8
1.3 資料類型:有(1)(2)兩種分類方法
(1)資料類型可分為以下四類
1.3.1 名目資料或名義資料(nominal data)
是一種不可數值化測量的資料、其代表著某種特質
或類別、且資料之間並沒有次序大小的關係。
例如:性別、血型等,O型>A型是無意義的。

1.3.2 序位資料(ordinal data)


類似名目資料,是一種不可數值化測量的資料、其
代表著某種特質或類別、然而資料之間有次序大小
的關係。例如:癌症分期--I、II、III、IV,可以1、
2、3、4來表示,數值越大代表疾病越嚴重

對應至生物統計學的15堂課 1-1~2頁
9

1.3 資料類型:有(1)(2)兩種分類方法
1.3.3等距尺度或定距尺度或區間尺度資料(interval
scale data)
是一種可以數值來測量的資料,一般有單位,且數
值間具有大小的順序,也可用來測量不同點之間的
距離,然而數值0不是真實的或絕對的零(亦即零點
是可以任意指定的),因此針對兩個值的比較,計
算差距是有意義的,但計算比值則不具意義。
例如溫度為等距尺度資料,當比較A、B兩個地區的溫度時,以攝
氏測量分別為28oC、35oC,華氏測量則分別為82.4oF、95oF,你可以
說B地區的溫度高於A地區7oC或12.6oF,但你不可以說B地區溫度是A
地區的1.25 (35/28)倍或1.153 (95/82.4)倍

對應至生物統計學的15堂課 1-2頁
10

一般而言,以攝氏或華氏來看溫度,此情況下
溫度是等比或等距尺度?

A區 B區 距離 比值
o o o
28 C 35 C 7 C 1.25
o o o
82.4 F 95 F 12.6 F 1.153
11

1.3.4 等比尺度或定比尺度或比例尺度資
料(ratio scale data)
具有等距尺度大多數的特質,除了數值0是代表真實的
或絕對的零(亦即零點是不可以任意指定的),因此
兩個值的比較可以計算差距、也可以計算比值。除了
上述的主要區別外,適用於等距尺度的方法通常也適
用於等比尺度,反之亦然。
例如長度、身高、體重、每戶子女數、及年齡皆為
等比尺度資料。

生統整合課程 第一單元

對應至生物統計學的15堂課 1-2頁
12
1.3 資料類型:有(1)(2)兩種分類方法
(2)亦可分為以下兩類
1.3.5 量性資料(quantitative data),又可分為:
A.離散型資料或間斷資料(discrete data):它必須
是整數且被分割後是沒有意義的。
例如:某班級生物統計學及格的人數、一年中患
感冒的次數。
B.連續型資料(continuous data):它的測量單位可
以無限地加以細分。
例如:身高、體重及年齡,身高可以公尺、公分、
公釐來測量。
1.3.6 質性資料(qualitative data)
代表著某種特質或類別的資料。上述所介紹的名目
及序位資料均屬於此類型資料。
對應至生物統計學的15堂課 1-2~3頁
13

1.4 表的製作

1.4.1 次數分布表(frequency distribution


table):是一種呈現資料次數分布的表格,表中
主要包括:組距(或分類)及次數,一般建議分5-
15個組(類),表中次數總和為全部的觀測值個數。
若資料為連續,則需先將資料畫界成數個組,再
計算每組次數,且組距通常是等距的。

1.4.2 相對次數分布表(relative frequency


distribution table):是一種將分組次數除上總
次數所獲得的表格,每組相對次數為每組次數佔
總次數的比例,這些比例總和為100.0%。
對應至生物統計學的15堂課 1-3頁
14
Q&A
性別 (1: 男生 ,2:女生)

( ) 1.名目 2.序位 3.等距 4.等比

( ) 1.量性 2.質性

( ) 1.離散型 2.連續型 3.皆不是


15
Q&A
癌症分期

( ) 1.名目 2.序位 3.等距 4.等比

( ) 1.量性 2.質性

( ) 1.離散型 2.連續型 3.皆不是


16
Q&A
體重 (單位:公斤)

( ) 1.名目 2.序位 3.等距 4.等比

( ) 1.量性 2.質性

( ) 1.離散型 2.連續型 3.皆不是


17
Q&A
溫度 (單位:oC)

( ) 1.名目 2.序位 3.等距 4.等比

( ) 1.量性 2.質性

( ) 1.離散型 2.連續型 3.皆不是


18
Q&A
降雨量 (單位:毫米(mm))

( ) 1.名目 2.序位 3.等距 4.等比

( ) 1.量性 2.質性

( ) 1.離散型 2.連續型 3.皆不是


19
表 1.1 範例資料:50筆「睡眠研究」的資料
se x sle e p HR1 sle e p TR1 se x sle e p HR1 sle e p TR1
1 8.5 1 1 7.7 1
0 7.3 0 0 7.4 1
0 7 1 1 6.8 1
1 7.9 1 0 7.8 1
1 6.8 1 1 7.9 1
1 7 1 1 6.1 1
1 7.6 1 1 8.4 0
0 7.6 1 0 6.2 1
0 7.7 1 0 9.3 0
0 8.7 0 0 9 0
0 8.1 0 1 5.5 1
0 7 0 0 8.2 0
0 8.9 0 1 10.5 0
1 7.2 1 0 8.9 0
0 8.7 0 1 6.7 0
0 7.3 0 1 7.8 1
0 7.9 1 1 7.9 1
0 8.7 0 0 8.9 0
0 6.7 1 0 10.8 0
0 7.9 1 0 6.4 0
1 7.7 1 0 6.4 1
1 7.8 1 0 9.8 0
1 6.6 0 0 8.7 1
1 5 1 1 8.5 1
0 8.5 1 1 7.3 1

sex--“性別(0:女生、1:男生)"
sleepHR1--"最近兩個月平均睡眠小時"
sleepTR1--"最近兩個月睡眠障礙(0:無、1: 有)"
對應至生物統計學的15堂課 1-5頁
20

【範例1】根據「睡眠與職場壓力調查」的結果,
請依"最近兩個月平均睡眠時間",約分為
6組,製作次數分布表及相對次數分布表

睡眠時數 次數 相對次數(%) 累積相對次數(%)


5.0-5.9 2 4.0 4.0
6.0-6.9 9 18.0 22.0
7.0-7.9 21 42.0 64.0
8.0-8.9 13 26.0 90.0
9.0-9.9 3 6.0 96.0
10.0-10.9 2 4.0 100.0
總和 50 100.0

對應至生物統計學的15堂課 1-4頁
21

【範例2】就「睡眠與職場壓力調查」的結果,
請依"性別", 製作次數分布表及相
對次數分布表

相對次數
性別 次數
(%)
0(女) 28 56.0

1(男) 22 44.0

總和 50 100.0

對應至生物統計學的15堂課 1-4頁
22

分析變項:
最近兩個月
平均睡眠小時
(sleepHR1)
23

1.5 圖的製作
1.5.1 直方圖(histogram):是一
種呈現連續資料分布的圖形,
直方圖中包括了水平的橫座標 21

用以描繪組界(class
boundaries),及垂直的縱座標 13
用以描述觀測值的次數(或是相 9
對次數),在每個組距(兩個組
界之間)上以長條(bar)來呈現 2 3 2
該組的次數(或是相對次數),
長條間沒有間隔,長條面積與
該組觀測次數成比例。
若組界的長度改變,高度也要隨之改變,才得以使面積
維持不變,故若組界由10.0-10.9改為10.0-11.9,則最
後一組的高度要減半。 對應至生物統計學的15堂課 1-6頁
1-24
生統整合課程 第一單元
24
10.511.5
10.811.8

高度:2 高度:1

12.00 12.00

寬度:1 寬度:2

若組界的長度改變,高度也要隨之改變,才得以使面
積維持不變,故若組界由10.0-10.9改為10.0-11.9,
則最後一組的高度要減半。
25

1.5 圖的製作

1.5.2 長條圖(bar
chart):是一種呈現
名目(名義)或序位
資料分布的圖形,不
同的類別放在橫座標
上,每一長條的高度
等於該變數在各類別
的次數,每一個長條
要等寬,並且分開呈
現。
對應至生物統計學的15堂課 1-6~7頁
26

1.5 圖的製作
1.5.3 二維散布圖(two-way scatter
plot):若同時觀察若同時觀察兩連續變
數時,可利用散布圖來呈現兩者分布的
關聯性。

生統整合課程 第一單元

對應至生物統計學的15堂課 1-7頁
27
1.5 圖的製作 部分資料:
se x sle e p HR1 sle e p TR1
1 8.5 1
1.5.4 莖葉圖(stem-and-leaf display): 0 7.3 0
是一種可用來展現所有觀測值的圖形 0 7 1
1 7.9 1
1 6.8 1
第一部分作為”莖”,第二部分 1 7 1
作為”葉”,例如若觀測值為 1
0
7.6
7.6
1
1
10.5小時,我們可視整數部分 0 7.7 1
0 8.7 0
(10)為”莖”,小數部分(5)為” 0 8.1 0
葉”來製圖,在此例中莖的單 0 7 0
0 8.9 0
位為小時,而葉的單位為0.1 1 7.2 1
0 8.7 0
小時。通常在製作莖葉圖時, 0 7.3 0
我們必須先畫出一條直線,再將” 0
0
7.9
8.7
1
0
莖”的可能值依序在直線的左側 0 6.7 1
0 7.9 1
從小到大列出,接著再將”葉” 1 7.7 1
按照資料出現的順序或數字大小 1
1
7.8
6.6
1
0
的順序在直線的右側排成一列。 1 5 1
0 8.5 1
對應至生物統計學的15堂課 1-8頁
28

當葉的部份太長,可將
莖的部分重複兩次(分為
兩列),葉的部份則分為
0-4及5-9兩枝,例如若觀
測值為10.0、10.5、
10.6小時,則可將10.0
小時列在第一枝”莖”
之下,而10.5、10.6小
時則列在第二枝”莖”
之下。

對應至生物統計學的15堂課 1-8頁
29

Q & A 繪製莖葉圖
根據下表中的8個數據,繪製莖葉圖
Q1. 每1小時為一列,分別標上葉的數值(0,1,2…,9)

8 ?=_____
3?9066

Q2. 每半小時為一列,分別標上葉的數值(第一列包括0~4、
第二列包括5~9)

8 ?=_____
300
?66
30 Q & A 解讀莖葉圖

最小值 ____ 最大值 _____


最小的三個數 _____________
1-31
31

Q&A
直方圖方格的高度

?=_____

21

13

2 ? 2
1-32
32
單元1 作業

You might also like