Professional Documents
Culture Documents
Chap 0
概論
授課:林正平
台北科技大學土木系
Chap 0
概論
Why Study Statistics
Answers provided by statistical
approaches can provide the basis for
making decisions or choosing actions.
What is Statistics
一種科學方法與原理
簡化與表示一群數字資料
研討如何由一群數字中抽出一部分以
估計與檢定此資料全體之未知特性
預測某些未知變數值與某些相關之特
性質,進而比較全體的某些未知特性
質
統計學之歷史
最早出現於埃及與巴比倫之人口普查
( count )
統計學之名詞開始於 18 世紀
1920 年代 Shewhart and Deming 利用統
計方法來監控生產之過程,將統計學發揚光
大且運用至品質管理,
課程目標
由於自然界中無可避免的各種不確
定性因素,人為的工程設計必然要考慮
其承受的風險。為能夠量化上述不確定
因子的影響,統計方法是普遍工程師所
應用的原則。本課程以統計推論為主要
研討對象,著重統計觀念的建立與基礎
統計理論之介紹。
Case 1
美國《文學文摘》( Literary Digest )從 1920 年
開始,通過對民意的調查預測美國總統大選的結果。
它成功預測了四次總統選舉,但是 1936 年抽取了
1000 萬選民作為樣本進行調查,然後通過郵寄的方
式請對方回答問題,結果有 240 萬選民寄回了答案
。根據這一調查, Landon 將會有 57% 的得票率
而 Roosevelt 只有 43% 。 預測的「 Alfred
Landon 必將擊敗 Franklin Roosevelt 」則後來被歷
史證明是一個笑話。
Why ?
《文學文摘》當年抽取了 1000 萬選民作為樣本進行調
查,然後通過郵寄的方式請對方回答問題,結果有 240
萬選民寄回了答案。根據這一調查, Landon 將會有
57% 的得票率而 Roosevelt 只有 43% 。 24 萬的樣
本數量雖然龐大,但是樣本的選擇卻並不是隨機的。這一
千萬的選民樣本主要來自於電話登記處、雜誌的讀者、以
及一些俱樂部會員名單,而低收入家庭很少擁有電話或者
訂購雜誌,所以不在樣本的範圍內。後來的調查顯示,投
選 Roosevelt 的大多是面臨經濟問題的低收入者。
Conclusion
假設樣本容量也足夠大,是不是就有
一定代表性呢?
Case 2
1942 年,美國國家意見調查中心( the National
Opinion Research Center )就白人對黑人的態度問
題作了一系列訪問,其中一個問題是「你是否覺得黑
人有公平的工作機會?」。結果顯示,民眾覺得黑人
的工作機會很公平。
Why ?
這很顯然不是事實。因為,越對黑人抱有同情心的受訪
者越覺得黑人工作機會被剝奪,而持有種族偏見的人則
更傾向於肯定。所以調查的結果可能和現實完全相反:
黑人就越「被公平化」,種族歧視的情況可能越嚴重。
Conclusion
問卷調查是數據調查常用的方式之一。問卷中
的問題設置、問卷發放時調查人員介入的程度
等等細節都可能影響數據收集的準確性。除此
之外,當受訪者知道自己在參與關於某個問題
的調查時,他們可能會出於各種原因,隱瞞自
己的真實看法。
Case 3
1982 年洛杉磯市長競選事件則是另一個典型的受訪
者隱瞞真實意圖的調查。洛杉磯黑人市長 Tom
Bradley 與白人對手 George Deukmejian 當時正在
競爭市長職位。民調顯示 Bradley 的支持率遠遠領
先他的對手,但是大選之日卻敗給了對手。
Why ?
原來有一部分白人為了避免被戴上「種族歧視」的帽子,假
稱支持 Bradley ,而在實際選舉中卻投給了 Deukmejian 。
Conclusion
還有,當人們面對社會壓力時,可能都
會下意識的選擇讓社會更滿意的答案。
Case 4
左圖是 1937 年華盛頓
特區的一張廣告。圖表
開頭就興奮地告訴觀眾
:政府薪水提高了!從
十月份到十二月份,圖
表顯示薪水有一個飛越
式的上升。
左圖是 1937 年華盛頓
特區的一張廣告。圖表
開頭就興奮地告訴觀眾
:政府薪水提高了!從
十月份到十二月份,圖
表顯示薪水有一個飛越
式的上升。但是,實際
上,從十月份到十二月
份,工資水平只變化了
四個百分點
Why ?
真實的波動水
平應該如圖展
示的那樣是比
較平穩的。原
圖卻把四個百
分點畫得像漲
了四百個百分
點一樣。
Conclusion
圖表可以非常具有欺騙性。商業廣告
和政府宣傳會使用一些失真了的圖表
來誇張自己想要表達的內容。
Case 5
戰爭讓人更安全? 1898 年,美國為了奪取西班
牙的美洲殖民地進而控制加勒比海發動了美西戰爭
。為了擴充人員,美國海軍在全國徵兵並公布了以
下數據:美國海軍死亡率是千分之九,而同期紐約
市居民的死亡率是千分之十六。所以加入我們吧!
去加勒比海比待在紐約更安全!
Why ?
然而事實是,參加海軍的主要是年富力強的青年,
而紐約的市民卻有很多老弱病殘。拿兩個毫不相關
的樣本進行對比,實際上根本不能說明任何問題。
Conclusion
在真實的數據中如果運用不科學的分
析方法,得出的結論往往是沒有說服
力的。
Case 6
海盜數量的減少導致了全球變暖?有人統計
了自 1820 年以來全球海盜數量的變化,於
此同時,他們還統計了同時期全球的平均氣
溫。數據顯示海盜數量的變化和全球的平均
氣溫呈顯著的線性關係。於是他們得出結論
:海盜的數量才是全球變暖的根本原因。
Why ?
這兩個變量雖然可能有相關性,但如果
解釋為因果關係,顯然就不合適了。
Conclusion
影響全球變暖的因素有很多,海盜的
數量也許有關,也許只是巧合。魯莽
地把相關性變成因果性,也是分析數
據時的常見問題。
Case 7
研究證實黑巧克力有益健
康?
瑞士蘇黎世大學醫院( University Hospital Zurich )
的心血管專家 Thomas Lüscher 。 2006 、 2007 年
和 2011 年,他以一作的身份,分別發表了三篇和黑
巧克力相關的文章。文章分別揭示黑巧克力對血小
板和血管內皮組織有益、能夠改善「吸煙人群的凝
血狀況」;對心臟病人的冠狀動脈有好處;改善心
臟病人的心血管狀態,等等。 2007 年,他還在《循
環》( Circulation )期刊上與別人共同發表了一個
研究綜述,總結黑巧克力對心血管疾病的益處。
但是仔細看他所發表文章的最後,在 conflict of
interest ( COI )一欄中,清楚地寫明,這些研究
和文章,是拿了瑪氏( MARS )和雀巢( Nestle
)贊助的……
Lüscher 教授在瑞士醫學界非常有名望,倒不是因
為他學術能力有多強(當然,學術能力肯定還是有
不少的),而是他特別、特別、特別能拉工業界的
讚助。出身瑞士的雀巢公司和他的私人關係非常之
好, 2011 年發表的那篇論文,拿的是一份
unrestricted grant ,什麼意思呢,就是 Lüscher 教
授從雀巢那兒拿了一筆錢,雀巢大手一揮說你幹啥
都行,甚至沒有指定某個研究項目!
Conclusion
許多科學研究的背後,都不僅僅是科學家的實
驗和結論,還有錢從哪裡來、誰贊助的、通過
什麼方式干涉了研究等等,都是重大問題。科
學的「客觀」並不是天然存在的,而需要納入
多種多樣的社會背景與力量博弈,綜合地去考
察。
Case 8
Why ?
免費營養午餐停辦?教部問卷試探
2010 自由時報〔記者胡清暉、林曉雲/台北報導〕
監察院上月糾正教育部營養午餐不排富,教育部近日擬妥問卷給全國中小學家長,其中提及若全
面補助,「會影響到其他教育項目實施,是否同意辦理?」有老師質疑,這種誘導式問卷是在幫
教育部「找下台階」,藉以停辦。
前行政院長劉兆玄去年三月承諾中小學營養午餐全面免費,因一年總經費高達一百七十億元,引
發輿論批評「媚俗」,家長、教師團體齊聲反對;今年二月監察院又糾正教育部,教育部製作一
份「國民中小學學校午餐政策問卷」,詢問全台中小學家長的看法,強調會作為教育部實施中小
學午餐政策的參考。
問卷第一題指出,「如果政府從現行補助中小學經濟弱勢學生午餐政策,改成不分家庭經濟收入
狀況,全面補助中小學學生免費午餐,您同意嗎?」其中小題更提到,如果全面補助,「會影響
到其他教育項目實施,您仍同意辦理免費午餐嗎?」
教育界人士質疑,行政院高層均不想繼續推動營養午餐免費政策,許多縣市也不支持,但為維護
前院長面子,只好官官相護,如今更想透過蒐集家長意見的名義,尋求如何解套,很有可能藉由
民調結果停辦這項政策。
全教會教學研究部主任吳忠泰分析,免費營養午餐引發爭議,無法為政府加分,在教育經費不易
增加情況下,反而損失施政項目很多可以活用的錢,這是政策轉向的主因之一。
全國家長團體聯盟副理事長林文虎則批評,家長團體一向反對免費營養午餐,政府錯了就錯了,
不必遮遮掩掩,況且,如果發問卷可以決定數十億元公共政策,那政府改開民調公司就好了。
台北縣王姓老師指出,目前已有針對弱勢家庭補助營養午餐,且一些班級全班只有四、五名學生
吃學校的營養午餐,沒有必要全面免費。
教育部體育司長王俊權則表示,為了解家長、校長及老師對於全面開辦免費營養午餐的意見,委
託台師大教授發問卷調查,作為未來是否持續辦理的參考。到目前為止,全國僅十一個縣市表達
會全面開辦免費營養午餐,但教育部仍會檢視不做全面免費的縣市如何使用補助款。
敘述 v.s. 推論
Modern Statistics
將統計資料予以分類、整理、陳述、
分析,其目的在說明或顯示資料所含
之特質,結果得以用圖表或數字表示
Statistical inference
(推論統計學)
根據資料的分析結果對所研究的全體
對象的某些特性作一合理之推論或估
計,其重點在母體參數之估計與假設
檢定
練習
新上任之台北市長想大致了解台北市
民之所得水準,因此調查一組具有
「代表性」之個體,在將這些個體所
得的資料分類、整理,製程統計圖表
呈現出來,再計算統計量作簡單之分
析比較,請問為敘述統計學或推論統
計學之範疇?
練習(解)
敘述統計學
練習
再依上述所得之資料以推論全台北市
之所得水準,請問為敘述統計學或推
論統計學之範疇?
練習(解)
推論統計學
Population (母體)
A statistical population is the set of all
measurements corresponding to each unit
in the entire population of units about
which information is sought.
研究某一現象或問題時,針對發生此
現象或問題之對象進行研究或調查,
此研究調查之全體對象所成之全部集
合。
Sample (樣本)
A sample from a statistical population is
the subset of measurements that are
actually collected in the course of an
investigation.
樣本是研究者從母體中抽取的部分元
素所組成之集合,亦為有興趣研究之
全體對象為部分集合。
練習
某速食店想了解台灣青少年之消費市
場,進一步規劃廣告行銷策略,因此
委託某民調中心,調查 15 歲至 20 歲
之台灣青少年一星期平均有幾次在速
食店用餐,請問本研究之母體與樣本
為?
練習(解)
15 歲至 20 歲之台灣青少年即為母體。
而民調中心所隨機抽取之部分個體以
進行研究訪談與問卷,即為研究之樣
本。
Census (普查)
若研究的是之有限母體,則了解母體
最好之方法,就是對母體內每一個個
體加以調查並記錄其特徵,此種調查
方式稱之為普查。
Sampling Survey (抽樣調
查)
相對於普查,若隨機自母體中抽選一
部份具有代表性之個體作樣本來加以
調查,依據此組樣本進行統計分析,
再將所得的結果來推論為之母數,則
此法稱之為抽樣調查。
A typical process for collecting
information
必須使用正確資料
統計資料須經過比較才有意義
統計結果須做出合理解釋
練習
「根據一向全國性調查 250 位職業仲
介人指出,因鞋子不乾淨而造成不良
印象,是導致男性求職人不被錄取之
最普通原因」報紙引述奇威牌 - 鞋子
亮光劑製造商的一項調查報告,評敘
之。
練習(解)
鞋子亮光劑製造商極欲強調其產品之
重要性,故可能經由其他途徑影響調
查結果,故須小心評估。
練習
大學生常因酗酒有不當行為,一項專門
研究此項犯罪之調查抽取 1,875 位學生
作通信調查。其中 8% 學生坦承有校園
犯罪行為,其中有 62% 是因為酗酒導
致。假設 1,875 位受查學生都有回覆,
請問因酗酒導致不當行為之學生有多少
人?
練習(解)
1,875 * 8% * 62%=93 人。
練習
為辨別傳真機品牌,準備在台灣作
500 位消費者的電話調查,現若以電
話為母體再抽出樣本,試問有何缺點?
練習(解)
因有許多人的電話未刊登在電話簿內,
若以此取出樣本,這些人將不可能被
抽到。此外該抽出樣本可能包括許多
未裝設傳真機者,若能抽到一組已裝
設傳真機的樣本來調查,將更佳。
練習
SK 癌症研究中心的一位研究員,曾被
批評提供不實之資料。其數據來自 6
個受檢驗團體,其中每一團體含 20 位
受驗者。其研究獲知每一團體的成功
百分率分別為
53% 、 63% 、 46% 、 48% 、 67% ,
試問錯誤何在?
練習(解)
由於每一受測團體含 20 個受驗者,因
此其成功比率為 5 的倍數。本題所列
各成功比率顯然不對。
練習
根據香港撒瑪利亞防止自殺會 2008 年報,在
2008 年,香港的自殺死亡數字總數是 1001 人,
其中的 319 人年齡是在 60 歲或以上。
結論 : 老人自殺的情況已到了非常嚴重的地步,
超過三成的自殺者是 60 歲或以上的老人。
請討論
練習(解)
若果我們單從上述數字作表面分析,超過三
成的自殺者是 60 歲或以上的老人,很可能
會認為老人自殺的情況已到了非常嚴重的地
步!
若以「年齡組別自殺率」來看,在該年齡組
別的自殺人數只是每萬名人口中約有 2.6 個,
並非如數字表面般嚇人。當然,老人自殺的
情況仍是值得關注。
練習
假設今有甲、乙兩所高中,甲校參加大學入學
考試的學生中,文科生有 400 人、理科生 100
人;乙校參加大學入學考試的學生中,文科生
有 100 人、理科生 400 人。
考慮兩校的大學取錄率,
甲校的大學取錄率文、理科生依序為 40% 、 60%
乙校的大學取錄率文、理科生依序為 30% 、 50%
結論 : 甲校整體的大學取錄率比乙校高
請討論
練習(解)
乍看之下,乙校整體的大學取錄率似乎較低,
但經過仔細計算:
甲校的大學取錄率為 (400x0.4 + 100x0.6)/500 =
44%
乙校的大學取錄率為 (100x0.3 + 400x0.5)/500 =
46%
反而乙校整體的大學取錄率比甲校高。
練習
醫生對患了重病的病人
說一定可以治好 , 因為治癒率是
1% , 而前 99 個都掛了 。
請討論
練習(解)
雖然大家都知道這笑話的 " 點 " 在哪
裡 , 可是現實生活中卻還是被類似的
統計謬誤所困惑 。
練習
根據“統計” : 因墜機而喪生的“機
率” 遠低於出車禍而死亡的“機率” .
這說明了搭飛機比在陸地上還安全
嗎 ?
練習(解)
對一個走路開車都很小心的人 , 出車
禍的機率比別人低 . ( 一個不上街的
人 , 出車禍的機率是 0 ) 對這樣的
人而言 , 還能說所謂搭飛機比在陸地
上安全嗎 ? 。
例
隨機抽樣的敘述下列何者正確 ?
A. 為代表性樣本
B. 須滿足機率均等
C. 必須滿足機率獨立
D. 以上皆是
解
D
例
抽樣的第一個步驟是什麼 ?
A. 界定樣本所從屬的母群體
B. 決定樣本是否需要分層
C. 決定樣本大小
D. 確定抽樣單位
解
A
例
下列何者不屬於抽樣調查方法的特點?
A 按随機原則抽選樣本
B 提高抽樣的效率、節約調查經費
C 總體中每一個單位都有一定的概率被抽
中
D 可以用一定的概率來保證將誤差控制在
規定的範圍之内
解
B
例
下列敘述何者錯誤?
A. 母群( population )是根據某些原則認定之所有
觀察量數之總集合。
B. 樣本( sample )是由母群觀察量抽樣而來的部份
集合
C. 估計量( estimator )是一個被用來推估母數的量
數,其值之大小即為估計值。
D. 統計量( statistic )是代表母群之性質的量數。
解
D
例
關於抽樣的敘述,下列何者正確 ?
A. 由不同母體抽取樣本
B. 抽樣所得到的結果與實際完全相同
C. 民調通常是使用抽樣的方式進行
D. 抽樣時不應該馬虎,要選擇特定的樣本
解
C