You are on page 1of 27

統計分析概論

內容大綱
1、 統計介紹
(1)統計是什麼
(2)統計之意義
2、 樣本
(1)抽樣基本概念
(2)簡單隨機抽樣
(3)從樣本看母體
(4)信賴敘述
3、 實驗
(1)為什麼要實驗
(2)隨機化比較實驗
(3)實驗的施行
(4)其他實驗設計
4、 量度
(1)有效和無效量度
(2)準確和不準確量度
(3)量度的尺度

統計介紹
(1)統計是什麼
一聽到「統計」,你的第一個反應是什麼呢?統計是從數據中獲取資
訊的科學。為什麼要學統計呢?
A. 有個朋友告訴我,如果要去拉斯維加斯或大西洋城,一種有系
統的賭法是:這一把如果輸了,下一把賭注加倍;這一把如果
贏了,下一把賭注就照舊。這樣如果連輸幾把,只要贏一把就可
回本。聽起來很有道理。我如果照這樣玩,是不是可以贏錢?
B.股市可以預測嗎?
C.「吸菸可以致癌」好像是不容懷疑的事實,可是這種結論怎麼得來
的呢?
D. 民意調查(我指的是由公正的專業機構所做的民意調查)為什
麼可以只問一兩千人的意見,就告訴我們大家是怎麼想的呢?
某些媒體常常使用的叩應(call-in)民調,你覺得做出來的結果能代
表廣大民眾的意見嗎?多年前,我曾經在報上讀到一篇報導,報導
說明:從民意調查的結果獲知,台北市民 80%家裡曾遭小偷。這個
數字太誇張了吧!你相信嗎?
如何處理「不確定性」
資料會變。人會變。動物會變,事物會變動,對同一個體多次度
量同樣的標的也會量出不同的結果。 資料得出的結論也並不是完全
確定的。統計學就是要和世上的變異性及不確定性正面交鋒。利用統
計推理得到的數據,不會因變異性及不確定性,而變得沒有用處。統
計學可以分析數據,將一些有系統的型態從無所不在的變異性中抽
離出來。統計學也可以做出一些雖不確定、但不確定性很小的結論,
世界上本來也沒有什麼是百分之百確定的。更重要的是,經由統計推
論,我們有辦法聲明,所得結論的不確定程度到底有多少。
(2)統計之意義

實驗設計
抽樣調查
實際問題 數據 統計
(資料) 推論
結論 結論

樣本

不管有錢沒錢、黑人還是白人、民主黨或共和黨,被選入的機會
都一樣。運氣不好時,我們可能選出包含過多有錢的黑人共和黨員,
但是選取樣本的方法是不偏的。
有句諺語「你不必吃完整條牛才知道肉是老的。」這就是抽樣的精
髓,從檢查一部分來得知全體。我們要怎麼樣選取樣本,才可以有代
表性呢?
(1) 抽樣基本觀念
先介紹一些統計學家在討論抽樣時會用到的詞彙
抽樣詞彙
母體(population):我們求取資訊的對象全體,可能是人、動物或事物。
個體(unit):母體中的一份子。若母體包含的是人,我們則常稱這些人
為受試(或受訪)對象(subject)。
樣本(sample):母體的一部分,我們蒐集其資訊以便對整個母體做某
些結論。
抽樣底冊(sampling frame):個體的清單,我們從抽樣底冊中抽取樣
本。
變數(variable):個體的某種特質,被選入樣本的個體就會被度量這種
特質。
例:市場調查是為了解消費者的喜好及產品使用情形。市場調查的
一個著名例子是「尼爾森媒體研究」(Nielsen Media Research)
做的電視收視率調查服務。尼爾森收視率決定了廣告商主要花多
少錢來買某節目的廣告,也決定了節目播不播得下去。對應於尼
爾森全國電視收視率:
母體:所有九千五百萬戶有電視機的美國住戶。
樣本:約 5000 個住戶,住戶同意使用個人收視記錄器(people meter)
來記錄該戶中每個人收視的節目。
所記錄的「變數」包括住戶中的人數與他們的年齡及性別,電視機
開著的時段,及誰在看、看什麼節目。

為什麼要抽樣?
為什麼只看母體的一部分呢?為什麼不做普查(census)
普查
普查是含整個母體的樣本。

有偏抽樣法
如果統計問題的設計使得結果總是往某個方向偏,我們就稱這個設計是
有偏的。
從母體抽樣時,如果最容易取得的,叫做方便抽樣(convenience
sampling)。
自發性回應樣本(voluntary response sample)則是經由對某一訴求的回
應而自然形成的。寫應(write-in)或叩應(call-in)意見調查都是自發性
回應樣本的例子。
方便樣本及自發性回應樣本常常是有偏的。
例:寫應意見調查。藍德絲(Ann Landers)有一次問她的專欄讀者:
「如果可以重來一次,你要孩子嗎?」藍德絲接到將近一萬份答
覆,其中將近 70%說:「不要!」難道說 70%的父母都後悔有了
孩子嗎?當然不是。這是個自發性回應樣本。通常對某一議題有
強烈感覺的人,尤其是負面感覺的,比較會不嫌麻煩地去回應。
藍德絲的結果是有高度偏差的:她的樣本中寧願不要孩子的父
母百分比,遠大於全體父母中寧願不要孩子的百分比。

(2) 簡單隨機抽樣
要抽到壞樣本很容易,想得到好的樣本可就要多花精神了。方
便樣本及自發性回應樣本的偏差,是因為有人為選擇在內。統
計學家對付這種偏差的方法是:選樣本時避開人為選擇因素,
也就是要選取簡單隨機樣本(simple random sample)
簡單隨機樣本
大小為 n 的簡單隨機樣本是有 n 個個體的樣本,其選取的方法是:使得
抽樣底冊中任一組 n 個個體,被選中的機率都相同。(我們會一直用 n 來
代表樣本中的個體)
簡單隨機樣本簡稱為 SRS。SRS 的定義並不是描述某一個樣本,
而是描述抽樣方法。對於所有可能被選取的大小為 n 之樣本,
這個產生 SRS 的方法給與每一個樣本同樣的被選中機會。和方
便樣本比起來,這個方法有明顯的優點:公平、或不偏
(unbiased)。不管有錢沒錢、黑人還是白人、民主黨或共和黨,
被選入 SRS 的機會都是一樣的。
隨機數字
隨機數字表列出 0,1,2,3,4,5,6,7,8 及 9 這些數字,且滿足下述兩個性質:
1. 表中任一個位置的數字,其為 0,1,2,3,4,5,6,7,8 或 9 中任何一個的機
率相同。
2. 不同位置的數字之間是獨立的(independent),這個「獨立」的意思
是:一個位置的數字之數值,完全不會影響到其他的數字之數值。
SRS 有兩個步驟:
用兩個步驟選取 SRS
步驟 1:編代碼。對抽樣底冊中每個個體指定一個數字代碼。
步驟 2:用表。利用隨機數字來隨機選取代碼。

(3) 從樣本看母體
專欄作家藍德絲曾有一次問讀者:「如果可以重來一次,你要
孩子嗎?」藍德絲接到將近一萬份答覆,其中幾乎有 70%說:「不
要!」還有很多人在信中提到一些令人心碎的故事,描述孩子如何
折磨父母。這可以彰顯自發性回應的偏差,是一個極顯著的例子。有
多顯著呢?我們可以從《每日新聞》(Newsday)辦的專業全美抽樣
調查看出端倪。調查中包含了 1373 位父母,其中 91%表示會要孩
子。所以,當母體中實際約 91%答案為「是」的時候,一個自發性回
應樣本中卻可以有 70%的人答「否」。

參數及統計量
我們取樣本是為了對整個母體做結論,而不是對樣本本身做
結論。被抽中的父母是否仍然要孩子,91%答「是」。91%描述的是樣
本,也就是《每日新聞》訪問到的 1373 位父母。
參數(parameter)及統計量(statistic)
參數是描述母體的數字。參數是一個固定數字,但我們實際上無法知道參
數的值。
統計量是描述樣本的數字。一旦取了樣本,統計量的值就知道了,但是換
個不同的樣本,統計量的值就可能改變。我們常用統計量來估計未知的參
數。
例:你還願意要孩子嗎?全美父母中,還願意要孩子的父母所占
的比例是一個參數,這個參數描述所有父母構成之母體的性質。我們
稱做 p,代表比例。可是,欸,我們不知道 p 是多少。為了估計 p 的值,
《每日新聞》取了一個包含 1373 位父母的樣本。樣本當中,還願意要
孩子的父母所占的比例是一個統計量,我們稱做 ρ,唸做 p 海特(p-
hat)。這個大小為 1373 的樣本中有 1249 位還願意要孩子,所以對這
個樣本來說
因為一個 SRS 給所有父母相同的被選入樣本之機會,所以,用統
計量 ρ=0.91l 來當未知參數 p 的一個估計值,是相當合理的。樣本
中恰恰有 91%的人還願意要孩子。我們據此估計,所有父母中大約
也有 91%還願意要孩子。
抽樣分布

1249
ρ= = 0.91
1373
抽樣變異及抽樣分布(sampling distribution)
抽樣變異:如果我們不斷從同一個母體抽取樣本,樣本統計量的值會隨
樣本而變。
抽樣分布:若我們從同一母體抽許多個樣本(SRS),其對應之樣本統
計量會具有某種可預測的抽樣變異型態。抽樣分布就是描述這
種型態。
例:抽樣實驗。我們來做個實驗,以便說明統計量的抽樣分布是怎
麼回事。假設事實上(藍德絲或《每日新聞》都不知道)恰有 80%
的父母還願意有孩子,也就是說,真正的母體比例是 p = 0.80。
假設我從這個母體中選取很多個大小為 1373 的 SRS。在第 1 個
樣本中,1373 位父母裡面,有 1100 位父母還願意有孩子。樣本
比例是
1100
ρ= = 0.8012
1373

在第 2 個樣本中有 1090 位父母還願意有孩子。樣本比例是


圖 1-1 中,每個長方條的底邊包含 ρ 可能值的部分範圍:長方條
1090
ρ= = 0.7939
1373
的高顯示,1000 個樣本中有幾個樣本的值落在那個範圍。舉例來說,
最高的長方條顯示,1000 個樣本中有 192 個樣本的 ρ 值在 0.795
~0.80 之間。圖 1-1 顯示出,取很多樣本時 ρ 會是些什麼樣的值,
以及那些值出現的頻率。也就是說,圖 1-1 展示了 ρ 的抽樣分布。如
果我們仔細看看圖 1-1,會發現以下事實:
1.不偏:ρ 所有的值之中心非常接近母體參數 p=0.80。拿統計量 ρ 的
值來估計 p 的話,有的樣本估得太高,有的又估得太低,
但是如果取很多樣本,整體來說並沒有經常高估或經常低
估的傾向。這就反映了簡單隨樣抽樣的不偏性質。

圖1-1 從同一母體抽出1000個SRS所得結果。此圖所展示
為當母體比例為p =0.80時,樣本比例ρ 之抽樣分布

250

200
樣本個數

150
數列1
100 數列2
50

0
0.76 0.77 0.78 0.79 0.8 0.81 0.82 0.83 0.84

樣本比例

2.變異小:所有樣本的 ρ 值都在 0.765~0.840 之間。假如真的比


例是 80%,而我們根據一個大小為 1373 的 SRS 來猜測
p,看起來幾乎不可能會猜出像 75%或 85%差這麼遠的
數字。還有,1000 個樣本中有 654 個 ρ 值在 0.79~
0.81 之間。看來,大小為 1373 的 SRS 中,大部分都能
估計 p 到誤差 0.01 之內。
偏差及欠精確
實際應用時,我們只取一個樣本。我們要有信心:從這個樣本得到
的統計量,很接近真正的母體參數。光有不偏性是不夠的,我們希望,
絕大多數的樣本都能得出距母體真正值很近的結果。你大概已經猜到
了,大的樣本要比小的樣本可靠。
例:假如我們用小一點的樣本會怎麼樣?《每日新聞》是不是可以
不要訪問 1373 那麼多人,以節省金錢和人力呢?當然可以,但
要付出代價。圖 1-2 顯示代價是多大。下圖是從大小均為 1373 的
1000 個樣本所得的樣本比例之抽樣分布,和圖 1-1 是一樣的抽
樣分布,只是擠壓了一下,圖 1-2 中的每個長方條所包含的值是
圖 1-1 中兩個長方條所包含的值。如果我們為了省錢,只訪問
300 個人,就會得到圖 1-2 的上圖之抽樣分布。

圖1-2 較大樣本有較小的抽樣變異。圖為樣本比例ρ 的抽樣


分布。上圖對應的樣本大小是300,下圖對應的是1373。
200

150
樣本個數

100 數列1
數列2
50

0
72

74

76

78

82

84

86

88
8
0.
0.

0.

0.

0.

0.

0.

0.

0.
樣本比例

400
350
300
樣本個數

250
200 數列1

150 數列2

100
50
0
72

74

76

78

82

84

86

88
8
0.
0.

0.
0.

0.

0.

0.

0.

0.

樣本比例

從大母體取樣
母體大小無所謂
只要母體比樣本大得多,隨機樣本的統計量之精確性就和母體大小沒關
係。
總結
這一節說明了一個重大觀念:要描述一個樣本是否值得信任,我
們可以自問:「如果我們從同一個母體抽取很多個樣本,會發生什麼
狀況?」假設幾乎所有樣本得出的結果都接近真正的值,那麼即使並
不知道我們的樣本是否接近真正的值,還是可以對這個樣本有信心。
抽樣分布已闡述了取許多樣本的狀況。用大的 SRS 可以保證幾乎所
有的樣本都會得出精確的結果。
(4) 信賴敘述
例:利用抽樣分布。圖 1-4 顯示,當真正的母體比例為 p = 0.80 時,
取自該母體的 1000 個大小為 1373 之 SRS 的樣本比例 ρ 的分布
狀況。如果我們數一下中間的 8 個長方條代表的樣本數的和,會
發現 1000 個樣本中有 926 個樣本算出的 ρ 值在 0.78~0.82
之間。0.78~0.82 是這 8 個長方條底邊的範圍。我們可用簡潔的
敘述來表達這件事:
93%樣本的結果在母體真正值的±0.02 範圍內。
這就是民意調查、當前人口調查(CPS)及其他抽樣調查會使用的
敘述,用來告訴大家他們得出的結果有多麼可靠。

圖1-4 當母體比例為p =0.8時,樣本比之抽樣分布。樣本結


果的中間93%,位於母體真正值的±0.02範圍內
200

150
樣本個數

100 數列1
數列2
50

0
0.76 0.77 0.78 0.79 0.8 0.81 0.82 0.83 0.84

樣本比例

了解新聞內容
當你聽到或讀到關於抽樣調查的新聞報導時,很可能遇到「誤差
界限」(margin of error)這個詞。舉一段報紙上的敘述當例子:
根據最近的一項蓋洛普調查,美國人民在望向西元 2000 年的此時,
預期日子會過得更好。有 1234 位成人被訪問,在被問到「你認為到西元
2000 年時,你的生活是否會過得更好?」時,有 77%答是。此次調查的誤
差界限是正負 4 個百分點。
那句「誤差界限是正負 4 個百分點」是在形容調查結果的精確度,
可是說得太精簡。既然我們準備要當讀資料的行家,當然要把整個來
龍去脈弄個清楚。詳細點的狀況是這樣的:
例:誤差界限。蓋洛普調查抽取了一個隨機樣本,包含 1234 位成人,
並詢問他們:「你認為到西元 2000 年時,你的整個生活品質是否會
更好?我們感興趣的「參數」是所有美國成年居民中認為生活會變好
的人的比例,用 p 來代表,樣本當中,950 人答「是」。我們用來估計
p 的統計量是樣本比例 ρ
950
ρ= = 0.77
1234

蓋洛普的統計學家們計算了 ρ 的抽樣分布,然後描述了這個統
計量的可靠性:
在所有可能的樣本當中,有 95%的樣本比例 ρ 的值會在真正參數值
p 的±0.04 之內。
這就是新聞報導所說「此次調查的誤差界限是正負 4 個百分點」
背後的真正意義。我們再換一個說法:
在 95%的信心下,認為到西年 2000 年生活會更好的成人比例會
落在以下的範圍內
統計量±誤差界限
0.77±0.04
「95%的信心」是經過濃縮的說法,代表「我們使用的方法對所有
可能的樣本做驗證的話,可以使 95%的樣本得出之結果是正確的」。

信賴敘述
蓋洛普做了一個信賴敘述(confidence statement),那則新聞報導
則只敘述了一半。
信賴敘述
信賴敘述包含那個部分:誤差界限及信賴水準(level of confidence)。
誤差界限告訴我們樣本統計量離母體參數多遠。信賴水準告訴我們所有可
能樣本中有多少百分比滿足這樣的誤差界限。
以下是對於如何解讀信賴敘述的一些提示:
◎ 信賴敘述的結論永遠是針對母體而不是針對樣本:我們確確實實知道
樣本中 1234 位成人的想法,因為蓋洛普調查訪問了他們。信賴敘述是
根據樣本的結果來對「所有成人」這個母體做某種結論。
◎ 我們對母體所做的結論永遠不會是完全確定的:蓋洛普的樣本有可能
就是誤差超過 4 個百分點的 5%樣本之一。如果覺得 95%的信賴水準
不夠好,也可以要求更高的水準,比如 99%。可是無法達到 100%的
信賴水準,除非誤差界限把所有從 0 到 1 的比例都涵蓋住,而這樣的
結論又沒有用處了。
◎ 如果我們要求 99%的信賴水準,則必須接受比 95%信心時大的誤差界
限:在能夠把母體參數估得多準(即誤差界限)及對於樣本能符合誤
差界限有多大信心二者間,無法同時兼顧。
◎ 報告誤差界限時,用 95%的信賴水準是很普遍的:如果一則新聞報導
中只說明誤差界限而沒有信賴水準,把信賴水準當做 95%是保險的。
◎ 想在同樣的信賴水準下要求較小的誤差界限嗎?取個大點的樣本就成
了。應該記得樣本大小可控制結果的精確度吧。只要你願意付出取夠大
樣本的代價,就可以要求所需的小誤差界限,且仍然維持高的信賴水
準。對於一些估計來說,例如失業率,4%的誤差界限就不夠好。這也是
為什麼「當前人口調查」要抽樣六萬人而不是 1234 人。
相信調查結果之前該自問的問題
如果調查者使用好的統計技巧,而且認真準備抽樣底冊、注意問題
的措辭,並減少無回應,意見調查及其他抽樣調查是可以提供精確
且有用的資訊的。可是,很多調查,尤其那些設計好要影響公眾意見
而不只是要記錄意見的調查,並不能提供精確而有用的資訊。在你留
意一些調查結果以前,應該先問以下問題:
→誰做的調查?就算政黨也應該請專業的抽樣調查機構來做,專業機
構為了名聲,會好好做調查。
→母體是什麼?也就是說,調查是在尋求哪些人的意見?
→樣本是怎樣選取的?注意看他們有沒有提隨機抽樣。
→樣本多大?最好是還有精確度的評估,像是所有用同樣方法可能得
到的樣本中的 95%會落進去的誤差界限。
→應答率是多少?也就是說,原來預定的受訪對象中有百分之多少確
實提供了資訊?
→用什麼方式連絡受訪者?電話?郵寄?面對面訪談?
→調查是什麼時候做的?是不是剛好在一個可能影響結果的事件發生
之後?
→問題確實是怎麼問的?

實驗
實驗可以對因果關係提供好的證據。為什麼要做實驗呢?這樣我們才
可以確實針對我們感興趣的處理,研究效果如何。
按時服用阿斯匹靈(aspirin)是不是能防止心臟病發作呢?要找到
答案的最好辦法就是,實際找一些人按時服用阿斯匹靈,再注意結
果如何,這就是「實驗」。我們也可以選一個樣本,然後問樣本中的人,
他們是否按時服用阿斯匹靈,這就不是實驗了。如果實驗安排得恰當,
那麼對服用阿斯匹靈的效果而言,實驗可以提供的訊息遠比抽樣調
查多得多。為什麼是這樣?還有我們應該怎麼樣安排實驗?這些就是
本章的主題。
(1) 為什麼要實驗

觀測(observation)和實驗
觀測研究(observational study)觀察一些個體,並度量(measure)我們
感興趣的變數,但並不試圖影響回應。抽樣調查是一種重要的觀測研究。
觀測研究之目的是描述一個團體或一種狀況。
實驗則刻意地將一些個體做某種「處理」(treatment),以觀察他們的反應
實驗之目的,是要研究是否該處理會使回應有改變。
例:阿斯匹靈和心臟病發作的關係。按時服用阿斯匹靈是不是能防
止心臟病發作?「醫師健康研究」(Physicians’ Health Study)這
個醫藥實驗幫忙回答了這個問題。這個實驗共有兩萬兩千位男性
醫師參與,用隨機方法抽取出其中一半,這些人每隔一天便服
用一顆阿斯匹靈。另一半醫師服用安慰劑,這是一種假的藥片,
看起來和吃起來都和阿斯匹靈一樣,但實驗上並不含任何有效
成分。幾年之後,安慰劑那組共有 239 人曾有過心臟病發作,而
阿斯匹靈這組只有 139 人。這樣的差距已經足夠大到做為很好的
證據,證明服用阿斯匹靈的確可以減少心臟病發作。
例:在美國,於中學裡修習外國語是不是會增加學生的英文能力?
茱麗取得了她的高中裡所有高三學生曾修或未修外國語的資料,
然後給所有高三學生考了一次英文閱讀及文法的標準測驗,並
比較兩組的成績。修過外國語的學生之平均成績遠高於沒修過的
學生。
實驗用語言
要更深入討論實驗,我們需要用到以下詞彙:
實驗用語
個體:實驗加諸於其上的物體。當個體為人的時候,我們稱其為受試對
象。
變數:個體某一被量的特質。
反應變數(response variable):我們想研究其變化的變數,反應變數是
一個「結果」(outcome or result)。
解釋變數(explanatory variable):可以解釋或造成反應變數變化的變數。
處理:任何加諸於個體的特定實驗條件。若一個實驗當中有數個解釋變數,
則處理是指每個變數都設定一個特定值後的組合。
例:醫師健康研究。事實上,醫師健康研究中考慮了兩種藥的效果:
阿斯匹靈及 β 胡蘿蔔素(beta carotene)。人體會將 β 胡蘿蔔素
轉化成維他命 A,可能對防止某些癌症有幫助,圖 2-1 顯示如
何將這兩個解釋變數結合成為四種處理。在奇數日的時候,受試
對象服用一片白色藥片,可能是阿斯匹靈或只是安慰劑。在偶數
日的時候,他們服用一個紅色膠囊,可能是 β 胡蘿蔔素或安慰
劑。反應變數也有好幾個──觀察心臟病發作、數種癌症及一些其
他相關的醫學結果。
服用阿斯匹靈加上 β 胡蘿蔔素也許會有某種效果(不論是好是
壞),這種效果不是可以靠單獨研究阿斯匹靈及單獨研究 β 胡
蘿蔔素能得到的。這種聯合效應稱為該兩個解釋變數之間的交互
作用(interaction)。在醫師健康研究中,有的受試對象只服
用阿斯匹靈,有的只服用 β 胡蘿蔔素,有些兩者都服用,還有
些兩者都不服用。經由這四組之間的比較,除了可以研究服用阿
斯匹靈的效果及服用 β 胡蘿蔔素的效果外,還可以研究交互作
用。
β 胡蘿蔔素 安慰劑
阿斯匹靈 處理1 處理2
安慰劑 處理3 處 理4

圖 2-1 醫師健康研究中的所有處理。每個受試對象都接受了此四種
不同藥劑組合中的一
怎樣會做出爛實驗
茱麗對於修習外語的效果所做之觀測研究(例)是失敗的。因為
我們沒法分辨出是修習語言的效果,還是會去修習語言的學生本身
原有特質造成的結果。設計得不好的實驗也會有這種弱點。
例:在 1940 年時,一位心理學家主導了一個實驗,來研究宣傳對於
人們對外國政府的態度有何影響。他先對一群美國學生做測驗,測驗
他們對德國政府的態度。在這些學生閱讀了德國的宣傳品幾個月之後,
他再對這些學生做測驗,來看看他們的態度是否有改變。
很不巧的是,就在實驗進行當中,德國攻擊並佔領了法國。學生
在兩次測驗之間的確改變了對德國政府的態度──可是我們永遠也沒
法知道,改變當中有多少歸因於解釋變數(讀宣傳品),又有多少
是當時的歷史事件造成的。在這狀況下,已無法從資料中獲得有關讀
宣傳品是否有效的訊息。
在例和例中,解釋變數對反應變數的影響,都無可救藥地和一
些潛在的因素混雜在一起。
交絡(confounding)
潛在變數(lurking variable)是對研究中其他變數間的關係有重要影響、
卻沒有被列入研究範圍的變數。
當兩個變數對反應變數的影響混在一起、無法區分時,我們稱這兩個變數
是交絡的(confounded)。交絡的變數可以是解釋變數,也可以是潛在變
數。
例:胃冷凍(gastric freezing)。
「胃冷凍」是治療胃潰瘍的一種聰明
療法。病人先吞下一個連接著管子、放了氣的氣球;然後就把一種經
過冷凍的溶液打入汽球當中,總共打一小時。這個療法的想法是這樣
的:使胃涼下來可以減少胃酸的分泌,因此可以減輕潰瘍症狀。一篇
刊登在《美國醫學會期刊》(Journal of the American Medical
Association)的實驗報告指出,胃冷凍的確緩解了潰瘍造成的痛苦,
這種設計可表達成:
胃冷凍 減輕痛苦?
這種治療法既安全又簡便,廣泛使用了好些年。
又要抱歉啦:病人對胃冷凍的反應和安慰劑效果(placebo
effect)混雜在一起了。安慰劑是沒有實質效用的假治療。很多病人對
任何治療有正面的反應,甚至只是安慰劑,大概是因為對醫生有信
心以及預期病會治好。這種對假治療的反應就稱為安慰劑效應。
在幾年後做的第二個實驗中,將潰瘍病人分成了兩組。一組像以
前一樣用胃冷凍治療。另一組接受安慰劑療法,也就是說,打入胃裡
的溶液不是經過冷凍的,而是體溫的溫度。結果呢?處理組的 82 個
病人中 34%有改善,可是安慰劑組的 78 個病人中也有 38%有改善。
這個實驗及其他設計完善的實驗都顯示,胃冷凍根本不比安慰劑療
法高明,所以這種療法以後就不用了。
(2)隨機化比較實驗
設計實驗的第一個目標,是要確定實驗可以顯示解釋變數對於反
應變數的影響。簡單的設計
實驗個體 處理 反應
常常因為交絡而達不到這個目標。下面我們給的例子是一個經過適當
設計的實驗。
例:鐮形血球性貧血症(sickle cell disease)。鐮形血球性貧血症是
一種遺傳性的紅血球異常,在美國得這種病的大多是黑人。它能
導致劇痛以及許多併發症。1992 年時,美國國家衛生研究院
(National Institutes of Health)開始研究用一種「羥基月尿」
(Hydroxyurea)的藥來治療鐮形血球性貧血症。受試對象為 300
個成年病人,這些人在過去一年當中,都因為鐮形血球性貧血
症而至少有過三次劇痛的發作。
如果光是把羥基月尿給所有 300 個受試對象服用,就會把藥效和安
慰劑效用及其他潛在變數的效應(例如知道你是實驗的受試對象所
產生的效應)全部混雜在一起。所以只有一半的受試對象服用羥基月
尿,而另一半服用的看起來和嚐起來都像羥基月尿的安慰劑。除了藥
的內容以外,所有受試對象的治療過程完全一樣(比如說,檢查的
時間都安排得一樣)。因此潛在變數會對兩組產生同樣的影響,對兩
組的平均回應不會造成差異。安慰劑組稱做控制組(control
group),因為我們可以經由安慰劑組控制潛在變數的影響。
兩組受試對象在服藥之前,應該在各方面都要相近。就跟抽樣時一
樣,在我們選擇哪些受試對象服用羥基月尿時,要避免偏差的最好
方法就是,開人為選擇,完全隨機決定。我們從所有受試對象中選出
大小為 150 的 SRS 組成羥基月尿組,剩下的 150 人就組成控制組了。
以下就是這個實驗設計的大略描述:

第一組 處理 1
150 個病人 (羥基月尿)

隨機指派 比較劇痛發作情形

第二組 處理 2
150 個病人 (安慰劑)
1995 年 1 月時,實驗比預訂時程提早結束,因為羥基月尿組的劇痛
發作次數只有控制組的一半。這已經是足以令人信服的證據,證實羥
基月尿是鐮形血球性貧血症的有效療法,對身受這種嚴重疾病之苦
的人來說,這當然是好消息。
實驗設計的邏輯
隨機化比較實驗是統計學裡面最重要的概念之一。它的設計是要讓
我們能夠得到「原因和結果」這樣的結論。我們先來弄清楚隨機化比較
實驗的邏輯:
→用隨機化的方法將實驗個體分組,所分出的各組在實施處理之前,
應該在各方面都類似。
→用「比較」的設計確保,除了正在實驗的處理(experimental
treatment)外,其他所有因素都會同樣作用在所有的組上。
→因此,反應變數的差異必是處理的效用所致。
實驗設計的原則
統計實驗設計的基本原則如下:
1. 要控制潛在變數對反應的影響,最簡單的方法是同時比較好幾個處理。
2. 隨機化:用非人為的隨機方法來指派受試對象到不同的處理組。
3. 重複:對許多受試對象重複實驗,以減低結果中的機遇變異。
統計顯著性
因為機遇變異的存在,讓我們應該更仔細看看隨機化比較實驗的
邏輯。我們不能夠說,只要羥基月尿組和控制組劇痛發作的平均次數
有差別,就一定是因為藥的效用。即使兩組用完全一樣的處理,結果
也是會有差別的,因為受試對象永遠會有個別差異。即使隨機化可以
消除組與組間的系統差異,機遇差異還是存在。我們應該要求反應變
數間的差異要大,大到不光因機遇變異而發生。
統計顯著性(statistical significance)
我們觀察到的效果如果大到某種程度,光靠機遇產生這種結果的機率很
小時,我們就稱此結果有統計顯著性。

(3)實驗的施行
機率樣本是重要的觀念,但不能解決實際抽樣時會遇到的所有困
難。隨機化比較實驗也是重要的觀念,但也不能解決實際執行實驗的
所有困難。抽樣者必須確實知道需要的是什麼資訊。實驗者必須確實
知道想要探討的是何種處理及反應,而且必須建構需要的設備,以
施行處理和度量反應。
隱性偏差
隨機化比較實驗的邏輯假設:除了實驗要比較的處理之外,所
有受試對象受到的待遇是一樣的。如果有任何其他不相等的處理,就
可能造成偏差。
例:雙盲(double-blind)實驗。醫學實驗中的受試對象並不會被告
知他們服用的是標準用藥、新藥或安慰劑。如果有受試對象知道
他們服用的「只是安慰劑」,那麼無疑地會減低他們對「有效」的
期望,而使實驗結果偏向於對其他處理有利。如果醫師和其他醫
事人員知道某一受試對象服用的「只是安慰劑」、還是服用有希望
的實驗藥,他們對受試對象的期望也會不一樣。醫師的期望可能
下意識地改變他們與病人的互動模式,甚至改變他們對病人狀
況的診斷。在雙盲實驗中,對於每個受試對象得到哪種處理,
受試對象和所有工作人員都完全被矇在鼓裡。在研究結束、結果
出來之前,只有該研究的統計學家確知是怎麼回事。

拒絕參加、不合作者及退出者
抽樣調查有「無回應」的問題,原因是連絡不到樣本中的某些人
或有些人不願意回答。用人做受試對象的實驗也有類似的困擾。
例:醫學實驗中的少數民族。嚴重疾病(比如癌症)療法的醫學實
驗中,受試對象拒絕參加已成為嚴重問題。跟抽樣時的情況一樣,如
果拒絕參加的人和願意合作的人之間有系統性的差異,就可能造成
偏差了。《紐約時報》(New York Times)有一篇文章報導:
病人常不願充當「實驗品」,即使他們可能會從研究結果直接受益。很
多病人怕會被隨機分到安慰劑組去。非洲裔美國人、西班牙裔美國人及美
國印第安人參加臨床試驗(clinical trial)的比例很低,一項對他們的研究
顯示,他們的資訊不足,且有基本「不信任白人」的觀念,而許多試驗都
由白人主持。
參加實驗卻不遵循實驗處理的受試對象叫做不合作者,不合作
者也可能造成偏差。舉例來說,參加新藥試驗的愛滋病人有時會自己
加上其他的治療。還不止這樣,有些愛滋病人把他們的藥拿去化驗,
如果發覺自己不是分配到新藥組,就會退出或自己加其他藥。這樣會
造成對新藥不利的偏差。
持續時間較長的實驗也常碰上退出者,就是開始時參加實驗卻
不完成實驗的受試對象。如果退出的原因與被試驗的處理無關,則沒
什麼妨礙,只是受試人數減少罷了。如果受試者退出是因為對某個處
理的反應,就可能造成偏差。
我們的結論能推廣到什麼程度?
設計完善的實驗可以告訴我們,某處理對這組受試對象的反應是
否造成了某種改變。實驗者通常希望能對一個大得多的一群人或事物
做成類似的結論。我們剛剛才指出,實驗者還可能想對一些和實際實
驗中不盡相同的處理做出是否有效的結論。實驗的結論能推廣到什麼
程度,通常沒有清楚的答案。
例:第三煞車燈。1986 年開始,在美國出售的車子除了車尾原有的
兩個煞車燈外,還必須在中央高處加裝第三煞車燈。經由出租車
及商務用車的隨機化比較實驗證實,這個安全要求是有道理的。
實驗顯示,第三煞車燈將車尾碰撞減少了五成之多。
施行了近 10 年之後,保險學會(Insurance Institute)發覺,車尾
碰撞只減少了 5%,有幫助,但和實驗的預測差了很多。怎麼回事?
當年執行實驗時,大部分車都還沒有第三煞車燈,所以第三煞車燈
很容易抓到後面駕駛的視線。現在幾乎所有車都有第三煞車燈,第三
煞車燈也就不再引人注意了。實驗結論推廣得不如安全專家希望的那
麼好。
(4)其他實驗設計
我們已見過的實驗設計都遵循同樣的模式:先把受試對象隨機分
組,組數和處理數相同,然後對每一組施行一種處理。這些叫做完全
隨機化設計(completely randomized design)。
完全隨機化設計
在完全隨機化的實驗設計中,所有的實驗個體都是隨機配置給所有的處
理。
完全隨機化設計可能有任何數目的解釋變數。例如,醫師健康研究
有兩個變數:阿斯匹靈或安慰劑及 β 胡蘿蔔素或安慰劑。
區集設計
完全隨機化設計是統計實驗中最簡單的,就類似於簡單隨機樣
本(SRS)。事實上,每個處理組就是從所有受試對象中抽取出來的
簡單隨機樣本。完全隨機化設計清楚描述了控制、隨機化及重複這幾
項原則。然而就跟抽樣一樣,更複雜的統計設計常常更好。確切一點
說,比起只做隨機化,用各種方式將受試對象做一些配合(match)
可以得到更精確的結果。
例:男性、女性和廣告。女性和男性對廣告的反應不一樣。有個實驗
要比較同一產品的三支電視廣告之效用,除了對這些廣告的整體反
應外,也想要知道男性和女性分別的反應如何。
完全隨機化設計會把所有受試對象,包括男性和女性,全部放在
一起考慮。
「隨機化」的部分將受試對象分派到三個處理組去,完全不
理會他們的性別。但這樣做等於將男、女性的差別置之不理。比較好的
設計是將男性、女性分開考慮:將女性隨機指派到三個組去,每組看
一支廣告,再將男性也隨機指派到三組去。圖 2-2 描繪了這個經過改
良的設計。
第1組 廣告 1
女性 隨機選擇 第2組 廣告 2 比較反應
第3組 廣告 3
受試對象
第 1 組 廣告 1
男性 隨機選擇 第 2 組 廣告 2 比較反應
第 3 組 廣告 3

圖 2-2 用來比較三支電視廣告的效果的區集設計。男性受試對象和女性
受試對象構成兩個區集。
圖 2-2 的設計用到了比較、隨機化及重複這幾項原則。然而,隨機
化不是完全隨機化(將所有受試對象隨機指派到各處理組),是先
把類似的受試對象放在同一組,分好組後,再在各組內施行隨機化。
這些組稱作區集(block),而這種設計稱為區集設計(block
design)。
區集設計
區集是一組實驗個體或受試對象,這些個體或受試對象在被認為會影響
反應的某些方面很類似。區集設計當中,將個體隨機指派到各處理去的這
個步驟,是在每個區集裡面個別執行的。
配對設計
有一種特別的區集設計叫做配對設計(matched pairs design)。配
對設計比較兩種處理,每一個區集只包含兩個個體,這兩個個體要
儘可能近似。經由擲銅板的方式,或者從表 A 中任意選數字,由該數
字為奇數或偶數來決定,把一個區集中的兩個個體隨機分配給兩個
處理。配對設計的另一種可能,是每個區集可以只包含一個受試對象,
而這個受試對象得要接受兩種處理,一個處理執行完畢,才執行另
一個處理。如此則每個受試對象也就是自己的「控制」。
臨床試驗
把醫學治療真正用在病人身上,以研究其有效性的實驗,就叫
做臨床試驗(clinical trial),臨床試驗是新治療法確實有效的證據
的指標。
例:乳房動脈結紮(mammary artery ligation)。如果沒有明確證據
證明醫學治療有效,就使用此醫學治療,可能會導致無效,甚至危
險,而要得到明證,只能靠隨機化比較實驗。我們來考慮乳房動脈結
紮的例子。這種外科手術治療心絞痛,也就是流到心臟的血流量不足
時造成的劇痛,心絞痛在 1950 年代非常普遍,甚至連《讀者文摘》
(Readers Digest)都有一篇文章以它為主題。外科醫師打開病人的胸
部,並把內部的乳房動脈結紮,以期有更多的血液會經由其他路徑
流到心臟,減輕心絞痛。
在 1958 和 1959 年,有一些起了懷疑的研究者終於施行了一個
隨機化比較雙盲實驗。他們將乳房動脈結紮和一種「安慰劑手術」比較,
後者在實施時,外科醫師並沒有將動脈結紮。結果是:兩組的胸痛都
有一些改善,但是兩組之間沒有差別。原來認為乳房動脈結紮獲致的
效果,完全是一種安慰劑效應。外科醫師立刻放棄做乳房動脈結紮。
藉著一個設計良好的實驗之助,胸痛患者不必再接受無謂的開胸手
術。
隨機化比較實驗很花錢、花時間,而且可能面臨很麻煩的道德問
題,讓人很想要另闢蹊徑。為什麼不用一些現成的病歷紀錄來比較不
同的處理呢?加拿大好幾個省都有省健康計畫,會保留該省所有病
歷紀對。在美國,大型的保健組織(Health Maintenance
Organization)也對好幾千個人病人保留了類似的完整紀錄。舉例說,
我們可以利用這些紀錄,來比較使用化學療法或手術的癌症病人之
進展狀況。你應可看出這種建議有什麼瑕疵:當醫師決定哪些病人要
手術、哪些病人要用化學療法時,他們考慮了病人的許多因素,這些
因素在病歷紀錄上看不到。利用病歷紀錄來比較,很可能等於在比較
將兩種處理用在兩組差異頗大的病人身上的結果,這樣導致的偏差,
偏差的方向及偏差的程度都無從知曉。居領導地位的醫學統計學家
(medical statistician)牛津大學(Oxford University)裴多(Peto)
教授說:花錢對病歷紀錄做大量研究「比把錢直接給扔了還糟糕,因
為會得到錯誤的資訊。」
例:用安慰劑當控制?你正在測試一種新藥。如果有一種有效的藥
已經存在,還給控制組吃安慰劑合乎道德原則嗎?
是:安慰劑為新藥的有效性提供了真正的基準。
例:代表性是否公平?許多有關防止或治療心臟病發的大型臨床
試驗只用了中年男性當受試對象。舉例說醫師健康研究就是這種
情況。如果試驗是關於對兩性都有影響的主題,像心臟病發,應
不應該只用一種性別當受試對象呢?
例:愛滋病研究:要速度還是要徹底。患有致命疾病的病人,例如
愛滋病及癌症,希望能獲得現在就有幫助的治療。而研究者要找
的是對以後所有病人的最佳治療法。雙方都是要較佳的治療法,
但是時間上的差異造成很大的壓力,尤其是愛滋病的狀況。愛滋
病人中只有 10%能活過 5 年。在我們核准新的愛滋病藥物廣泛使
用之前,是不是應該徹底繞過做隨機化臨床試驗的步驟──這個
緩慢而確定的傳統步驟呢?

量度

失業率度量必須清楚:
一個人必須要有什麼樣的動作,才算是在找工作呢?
一星期要工作多少小時才算是全職工作呢?
正在罷工的人又怎麼算?
統計是討論數字的。光是計劃如何利用樣本及實驗來產生數據,並
不會自動就產生數字。一旦找到了我們的回應者樣本或實驗受試對象,
我們還必須「度量」我們感興趣的特性。定義如下:
量度(measurement)
我們量度(measure,也做量、評量或測量)人或物的某一性質的意思,
是用數字來代表那個性質。通常我們用某種器具(instrument)來取得量度。

(1)有效和無效量度
量度就是將模糊的概念(比如長度或受雇狀況)轉換成明確定義
的變數的過程。用捲尺把「長度」這個概念轉換成數字,是很簡單的。
例:度量入大學適合性。對於入學許可的決定,大部份美國大學都
會部分根據一些標準測驗的分數,尤其是 SAT。要進入一所挑選學生
的大學,許多其他因素也有關係──若有以下這些身分:運動員、擅
長音樂的人、校友子女,或者現在學生人數中所占比例太低的某種族
群,都會有幫助。最後這個因素的意思是,在許多地方,黑人或者西
班牙裔會占優勢。當選取學生的過程結束時,這些大學會有各式各樣
的學生,在這些學生中,黑人及西班牙裔的 SAT 分數平均來說低於
白人及亞洲人的分數。比如說在加州大學洛杉磯分校(UCLA),黑
人的平均 SAT 分數是 591,而白人的是 1186,亞洲人是 1182。「優惠
弱勢族群行動」(affirmative action)的反對者說,這樣對白人及亞洲
人不公平。贊成的人常常說,SAT 有偏差,對弱勢族群不公平。SAT
到底是不是真能度量入大學的適合性?對不同背景的學生來說,
SAT 的分數是否為公平的度量方式?若要給個有憑有據的答案,我
們必須對量度的一般性質再多了解一些。
有效性
讓我們繞過大學入學採用 SAT 分數的爭論。我們就只量量所有申
請者的身高,然後錄取個子最高的學生。餿主意,你一定會這麼說。
為什麼呢?因為身高和適不適合讀大學一點關係也沒有。用比較正式
一點的語言來說,身高並不是一個學生學業背景的「有效」(valid)
量度。
有效量度
當變數和某一性質相關、或者適合做為那個性質的代表時,我們稱此變數
為該性質之有效量度。
例:評量公路的安全性。在 1970 年代,州際公路系統大部分完成,
新車強調安全特性,全國行車速限也降低到每小時 55 英里。行車安
全是否提高了呢?以下是一種量度:車禍死亡人數在 1970 年是
52,600 人,在 1980 年是 51,091 人,沒差多少。看起來在 1980 年開車
並不比在 1970 年開車時安全。
比率和計數(count)
通常來說,某件事情發生的比率 (或者比例,或者百分比)和僅僅將發
生次數做計數 二者比較起來,前者是較有效的量度。

細節要注意
在度量較複雜的性質時,不同的方法,即使都有效,也可能得出不同的
結果。有的情況下,比如在考慮經濟和社會資料時,為了解釋的方便,用
一個不隨時間改變的量度是重要的。
例:多少人有愛滋病?美國疾病控制及預防中心(Center for
Disease Control and Prevention)報告新的愛滋病患人數,從 1991 年
的 43,672 及 1992 年的 45,472 人,暴增到 1993 年的 103,691 人。是愛
滋病擴大流行了嗎?不是的。在 1993 年時,該中心放鬆了如何才算
是有愛滋病的定義。如果用舊定義的話,則人數仍然保持穩定。新定
義或許從醫學觀點來看更為精確,可是那些數據很容易就會誤導不
仔細的人。如果你在一連串的數據當中,看到跳一大截(往上或往
下)的狀況,就應該懷疑是否度量的標準改變了。
(2)準確和不準確量度
用家庭用體重計來量你的體重是有效的。但是如果體重計的標示間
隔是 10 公斤,逼你用目視法來決定個位數的話,你的量度就不會很
準了。反過來說,有些量度很準確,卻不有效。我們來看一個例子。
例:大的腦袋裡裝的是聰明的頭腦嗎?19 世紀中期,有人認為,
度量頭顱的體積,就可以量出頭顱的主人智力是多少。要精確地度量
頭顱的體積很困難,即使當這個頭顱已經和它的主人分開時,仍然
如此。一位外科教授布洛卡(Paul Broca)指出,把頭顱裝滿小型鋁
製彈丸,再把彈丸倒出來稱重,可以相當準確地度量出頭顱的體積。
但是這些準確地量度卻不是智力的有效量度。頭顱的體積,結果和智
力或成就並沒有關連。
不偏性及可靠度
對於物理特性,如長度和重量,量度的準備性跟有效性一樣,
意義最為明確。那是因為,如果要討論量度的準確性,我們會把量度
和「真正值」做比較。我們認為我們了解一個人的實際重量是什麼,所
以,要討論重量的準確量度,大致來說很容易。因此,我們會用物理
量度來介紹基本概念。
準確性有兩面,不偏及可靠(reliability)。兩樣都是描述:如果
我們重複地度量,會發生什麼樣的狀況。
不偏及可靠量度
一個度量過程,如果不會有系統地將變數的真正值誇大或減縮,我們稱
它是不偏的。
一個度量過程,如果重複度量同一個體,所得結果均相同(或差不多相
同),我們稱其為可靠的。

(3)量度的尺度
量度尺度(scale)的種類
如果一個性質的量度只是決定:對應這個特質,個體應該屬於哪個類別,
則稱此量度是名目尺度(nominal scale)。
如果一個性質的量度還能夠分辨:何時一個個體擁有的這個性質會多於
另一個個體,則這個量度是順序尺度(ordinal scale)。
如果量度還可以告訴我們:一個個體的這個性質和另一個個體的這個性
質間有某種數量的差異,則這個量度是區間尺度(interval scale)。
如果除了以上所說的,一個量度還可以告訴我們:某一個體的這項性質
是另一個體的這項性質之若干倍,則這個量度是比例尺度(ratio scale)。
名目尺度
名目尺度的量度將個體分類,如此而已。像種族、性別以及就業
狀況這些性質就是用名目尺度來度量。我們可以把一個人的性別編碼
為 0──女性
        1──男性
或者
0──男性
1──女性
  我們用什麼數字並沒有差別。這個變數的值只是將一個人的性別
歸類。拿這些標籤來做算術就沒有什麼道理了──我們不能計算回應
某一意見調查的 1500 人之「平均性別」。
順序尺度
在順序尺度中,數字的順序是有意義的。如果一個委員會把 10
個獎學金候選人從 10(最強)到 1(最弱)排序,則序號 8 的候選
人就強過序號 6 的候選人──並不只是不同而已(若是名目尺度,則
只能告訴我們如此),而是更好。然而,一般的算術在這兒不具意義:
8 並不表示是 4 的兩倍那麼好,而且序號 8 候選人與序號 6 候選人之
間的差異,也不一定和序號 6 及序號 4 之間的差異一樣大。只有這些
數字的順序的意義。
區間及比例尺度
討論到區間和比例尺的時候,就是我們最熟悉的那種量度了。這
就是那些用有單位刻度的尺度量出來的量度,例如以公分來量身高,
以秒來量反應時間,或者以攝氏度數來量溫度。用這些尺度時,像計
算兩數之差的這類算術就有意義了。比起 2 公分長的蟑螂,4 公分長
的蟑螂就是長了 2 公分。
區間和比例尺度之間的差異就比較細微。4 公分長的蟑螂是 2 公
分長的蟑螂的兩倍長,長度的公分數屬於比例尺度。然而,當溫度是
攝氏 40 度時,可不是攝氏 20 度時候的兩倍熱。溫度的攝氏度數是區
間尺度,但不是比例尺度。另一個表達兩者間差異的方法是比例尺度
有一個有意義的 0。長度 0 公分就是「沒有長度」,時間 0 秒是「沒有時
間」。但是溫度攝氏 0 度只是水的冰點,不是「沒有溫度」。
是事實,但不是全部的事實
最常見的誤用數據方式是,引用正確的數字,但數字的意義並非
表面上看起來的那樣。數字並不是捏造的,所以,資訊有點不完整也
許只是無心的疏失。這兒有些例子,你自己決定他們到底有多「無心」。
例:我們可沒有賺那麼多錢。醫師收入是不是太高了?美國醫學協
會(AMA, American Medical Association)長期以來都在年度報告中

公開自行開業醫師的收入中位數(median)。(中位數是典型收入──
一半醫師賺得比中位數多,一半賺得比中位數少)。當收入中位數在
1992 年達到 177,400 美元時,AMA 叫停,不再公開這項資料。到
1994 年,協會宣稱又要開始提供收入資料,但是會把自行開業醫師、
仍在訓練中的醫師及替政府工作的醫師全部混在一起算,以便將中
位數降低。 「現在醫師看起來比較不像在壓榨美國,」一位 AMA 發言
人如是說。
不可信的數字
例:多產瓜田。極富聲望的《科學》(Science)期刊在一篇談論侵害
植物的昆蟲之文章中,提到加州有一塊田每英畝生產 750,000 顆瓜。
有一位讀者回應:「我從小在農場長大,我知道一英畝等於 43,560 平
方英尺,所以這塊神奇的田每平方英尺約可生產 17 顆瓜。若這些瓜
是指哈密瓜,一顆就要占地接近一平方英尺,我猜它們一定是一顆
疊著一顆長,總共有 17 層。」該讀者做的計算如下:
每英畝瓜 數 750 ,000
每平方 英尺瓜數 = = = 17 .2
每英畝平方 英尺數 43 ,560

編輯有點不好意思,回答說:正確的數字應該是每英畝大約 11,000
顆瓜。
數字彼此之間是否一致?
如果有一篇文章裡面的數字之間有矛盾的情況,一定哪裡出了差
錯。這就是「內部一致性」(internal consistency)的問題。對一致性稍
微注意一下就可以避免許多錯誤。以下是一篇文章的一部分,這篇文
章批評一位史隆-凱特林中心(Sloan-Kettering Institute)的癌症研
究員,他被指控犯了科學上的終極罪狀,即偽造數據。
例:假數據。 「有一件事他倒是完成了,就是關於明尼蘇達老鼠實驗
的總結論文……這篇論文由史隆-凱特林中心通過,而且《實驗醫學
期刊》(Journal of Experimental Medicine)也接受了,論文中有一個
統計表,裡面有很離譜的錯,這樣的錯,聰明的小學生都可能看得
出來。表裡面列有 6 組動物,每組各 20 隻,以及每組成功的比率。雖
然 20 隻的任何比率都應該是 5 的倍數,森莫林(Summerlin)所記
錄的比率卻是 53、58、63、46、48 以及 67。」

算術對不對?
例:1976 年出版的《科學》[ Volume 192 (1976), p. 1081]中,有位作者
提到:「65 歲以上人口,現在共有一千萬,到公元 2000 年時,會達
到三千萬,而且會占全體人口的 25%,是前所未有的比率。」高齡者
如此爆炸性的成長──在四分之一個世紀中變成 3 倍,而且構成全體
人口的四分之一,會對任何社會都造成深重的改變。
例:再談計數和比率。勞工統計局的每月失業率報告中,曾有一次
指出,白人的失業率是 6.1%,而黑人的失業率是 14.5%。《紐約時
報》對此做了以下解釋:
該局也報導了,黑人失業率對白人失業率的比值「持續上升到了 8 月份
的 2.4 比 1 的超高水準」,亦即是說,對應每一個失業的白人,就有 2.4 個
黑人沒有工作。
例:去年的金價從每盎司 300 美元增加到每盎司 450 美元。一共漲了

改變的量 150 美元
= = 0.5 = 50 %
起始的量 300 美元
50%,因為
今年金價跌了 50%。那麼現在一盎司值多少錢呢?
當你看到數字的時候,停下來想想
統計的目的是藉由數字來洞察內情。仔細觀察數字的人最有機會有
所斬獲。特別留意自發性回應樣本及交絡問題。問清楚一個數字到底
量的是什麼。注意有沒有內部不一致性,並且檢查算術對不對。把可
疑的數字跟你知道正確的數字比較看看。如果你養成仔細檢查數字的
習慣,你的朋友們很快就會覺得你很有頭腦,而且他們還可能是對
的呢。

You might also like