You are on page 1of 103

工程統計

Chap 0
概論

授課:林正平

台北科技大學土木系
Chap 0
概論
Why Study Statistics
 Answers provided by statistical
approaches can provide the basis for
making decisions or choosing actions.
What is Statistics
 一種科學方法與原理
 簡化與表示一群數字資料

 研討如何由一群數字中抽出一部分以

估計與檢定此資料全體之未知特性
 預測某些未知變數值與某些相關之特

性質,進而比較全體的某些未知特性

統計學之歷史
 最早出現於埃及與巴比倫之人口普查
( count )
 統計學之名詞開始於 18 世紀
 1920 年代 Shewhart and Deming 利用統
計方法來監控生產之過程,將統計學發揚光
大且運用至品質管理,
課程目標
由於自然界中無可避免的各種不確
定性因素,人為的工程設計必然要考慮
其承受的風險。為能夠量化上述不確定
因子的影響,統計方法是普遍工程師所
應用的原則。本課程以統計推論為主要
研討對象,著重統計觀念的建立與基礎
統計理論之介紹。
Case 1
美國《文學文摘》( Literary Digest )從 1920 年
開始,通過對民意的調查預測美國總統大選的結果。
它成功預測了四次總統選舉,但是 1936 年抽取了
1000 萬選民作為樣本進行調查,然後通過郵寄的方
式請對方回答問題,結果有 240 萬選民寄回了答案
。根據這一調查, Landon 將會有 57% 的得票率
而 Roosevelt 只有 43% 。 預測的「 Alfred
Landon 必將擊敗 Franklin Roosevelt 」則後來被歷
史證明是一個笑話。 
Why ?
《文學文摘》當年抽取了 1000 萬選民作為樣本進行調
查,然後通過郵寄的方式請對方回答問題,結果有 240
萬選民寄回了答案。根據這一調查, Landon 將會有
57% 的得票率而 Roosevelt 只有 43% 。 24 萬的樣
本數量雖然龐大,但是樣本的選擇卻並不是隨機的。這一
千萬的選民樣本主要來自於電話登記處、雜誌的讀者、以
及一些俱樂部會員名單,而低收入家庭很少擁有電話或者
訂購雜誌,所以不在樣本的範圍內。後來的調查顯示,投
選 Roosevelt 的大多是面臨經濟問題的低收入者。
 
Conclusion
假設樣本容量也足夠大,是不是就有
一定代表性呢?
Case 2
1942 年,美國國家意見調查中心( the National
Opinion Research Center )就白人對黑人的態度問
題作了一系列訪問,其中一個問題是「你是否覺得黑
人有公平的工作機會?」。結果顯示,民眾覺得黑人
的工作機會很公平。
Why ?
這很顯然不是事實。因為,越對黑人抱有同情心的受訪
者越覺得黑人工作機會被剝奪,而持有種族偏見的人則
更傾向於肯定。所以調查的結果可能和現實完全相反:
黑人就越「被公平化」,種族歧視的情況可能越嚴重。
 
Conclusion
問卷調查是數據調查常用的方式之一。問卷中
的問題設置、問卷發放時調查人員介入的程度
等等細節都可能影響數據收集的準確性。除此
之外,當受訪者知道自己在參與關於某個問題
的調查時,他們可能會出於各種原因,隱瞞自
己的真實看法。
Case 3
1982 年洛杉磯市長競選事件則是另一個典型的受訪
者隱瞞真實意圖的調查。洛杉磯黑人市長 Tom
Bradley 與白人對手 George Deukmejian 當時正在
競爭市長職位。民調顯示 Bradley 的支持率遠遠領
先他的對手,但是大選之日卻敗給了對手。
Why ?
原來有一部分白人為了避免被戴上「種族歧視」的帽子,假
稱支持 Bradley ,而在實際選舉中卻投給了 Deukmejian 。 
 
Conclusion
還有,當人們面對社會壓力時,可能都
會下意識的選擇讓社會更滿意的答案。
Case 4
左圖是 1937 年華盛頓
特區的一張廣告。圖表
開頭就興奮地告訴觀眾
:政府薪水提高了!從
十月份到十二月份,圖
表顯示薪水有一個飛越
式的上升。
左圖是 1937 年華盛頓
特區的一張廣告。圖表
開頭就興奮地告訴觀眾
:政府薪水提高了!從
十月份到十二月份,圖
表顯示薪水有一個飛越
式的上升。但是,實際
上,從十月份到十二月
份,工資水平只變化了
四個百分點
Why ?
真實的波動水
平應該如圖展
示的那樣是比
較平穩的。原
圖卻把四個百
分點畫得像漲
了四百個百分
點一樣。
Conclusion
圖表可以非常具有欺騙性。商業廣告
和政府宣傳會使用一些失真了的圖表
來誇張自己想要表達的內容。
Case 5
戰爭讓人更安全? 1898 年,美國為了奪取西班
牙的美洲殖民地進而控制加勒比海發動了美西戰爭
。為了擴充人員,美國海軍在全國徵兵並公布了以
下數據:美國海軍死亡率是千分之九,而同期紐約
市居民的死亡率是千分之十六。所以加入我們吧!
去加勒比海比待在紐約更安全!
Why ?
然而事實是,參加海軍的主要是年富力強的青年,
而紐約的市民卻有很多老弱病殘。拿兩個毫不相關
的樣本進行對比,實際上根本不能說明任何問題。
Conclusion
在真實的數據中如果運用不科學的分
析方法,得出的結論往往是沒有說服
力的。
Case 6
海盜數量的減少導致了全球變暖?有人統計
了自 1820 年以來全球海盜數量的變化,於
此同時,他們還統計了同時期全球的平均氣
溫。數據顯示海盜數量的變化和全球的平均
氣溫呈顯著的線性關係。於是他們得出結論
:海盜的數量才是全球變暖的根本原因。
Why ?
這兩個變量雖然可能有相關性,但如果
解釋為因果關係,顯然就不合適了。
Conclusion
影響全球變暖的因素有很多,海盜的
數量也許有關,也許只是巧合。魯莽
地把相關性變成因果性,也是分析數
據時的常見問題。
Case 7
研究證實黑巧克力有益健
康?
瑞士蘇黎世大學醫院( University Hospital Zurich )
的心血管專家 Thomas Lüscher 。 2006 、 2007 年
和 2011 年,他以一作的身份,分別發表了三篇和黑
巧克力相關的文章。文章分別揭示黑巧克力對血小
板和血管內皮組織有益、能夠改善「吸煙人群的凝
血狀況」;對心臟病人的冠狀動脈有好處;改善心
臟病人的心血管狀態,等等。 2007 年,他還在《循
環》( Circulation )期刊上與別人共同發表了一個
研究綜述,總結黑巧克力對心血管疾病的益處。
但是仔細看他所發表文章的最後,在 conflict of
interest ( COI )一欄中,清楚地寫明,這些研究
和文章,是拿了瑪氏( MARS )和雀巢( Nestle
)贊助的……
Lüscher 教授在瑞士醫學界非常有名望,倒不是因
為他學術能力有多強(當然,學術能力肯定還是有
不少的),而是他特別、特別、特別能拉工業界的
讚助。出身瑞士的雀巢公司和他的私人關係非常之
好, 2011 年發表的那篇論文,拿的是一份
unrestricted grant ,什麼意思呢,就是 Lüscher 教
授從雀巢那兒拿了一筆錢,雀巢大手一揮說你幹啥
都行,甚至沒有指定某個研究項目!
Conclusion
許多科學研究的背後,都不僅僅是科學家的實
驗和結論,還有錢從哪裡來、誰贊助的、通過
什麼方式干涉了研究等等,都是重大問題。科
學的「客觀」並不是天然存在的,而需要納入
多種多樣的社會背景與力量博弈,綜合地去考
察。
Case 8
Why ?
免費營養午餐停辦?教部問卷試探
2010 自由時報〔記者胡清暉、林曉雲/台北報導〕

監察院上月糾正教育部營養午餐不排富,教育部近日擬妥問卷給全國中小學家長,其中提及若全
面補助,「會影響到其他教育項目實施,是否同意辦理?」有老師質疑,這種誘導式問卷是在幫
教育部「找下台階」,藉以停辦。
前行政院長劉兆玄去年三月承諾中小學營養午餐全面免費,因一年總經費高達一百七十億元,引
發輿論批評「媚俗」,家長、教師團體齊聲反對;今年二月監察院又糾正教育部,教育部製作一
份「國民中小學學校午餐政策問卷」,詢問全台中小學家長的看法,強調會作為教育部實施中小
學午餐政策的參考。
問卷第一題指出,「如果政府從現行補助中小學經濟弱勢學生午餐政策,改成不分家庭經濟收入
狀況,全面補助中小學學生免費午餐,您同意嗎?」其中小題更提到,如果全面補助,「會影響
到其他教育項目實施,您仍同意辦理免費午餐嗎?」
教育界人士質疑,行政院高層均不想繼續推動營養午餐免費政策,許多縣市也不支持,但為維護
前院長面子,只好官官相護,如今更想透過蒐集家長意見的名義,尋求如何解套,很有可能藉由
民調結果停辦這項政策。
全教會教學研究部主任吳忠泰分析,免費營養午餐引發爭議,無法為政府加分,在教育經費不易
增加情況下,反而損失施政項目很多可以活用的錢,這是政策轉向的主因之一。
全國家長團體聯盟副理事長林文虎則批評,家長團體一向反對免費營養午餐,政府錯了就錯了,
不必遮遮掩掩,況且,如果發問卷可以決定數十億元公共政策,那政府改開民調公司就好了。
台北縣王姓老師指出,目前已有針對弱勢家庭補助營養午餐,且一些班級全班只有四、五名學生
吃學校的營養午餐,沒有必要全面免費。
教育部體育司長王俊權則表示,為了解家長、校長及老師對於全面開辦免費營養午餐的意見,委
託台師大教授發問卷調查,作為未來是否持續辦理的參考。到目前為止,全國僅十一個縣市表達
會全面開辦免費營養午餐,但教育部仍會檢視不做全面免費的縣市如何使用補助款。
敘述 v.s. 推論
Modern Statistics

 Descriptive statistics (敘述統計學)


 Statistical inference (推論統計學)
Descriptive statistics
(敘述統計學)

 Descriptive statistics consisted merely


of the presentation of data in tables
and charts.
 It includes also the summarization of

data by means of numerical


descriptions.
Descriptive statistics
(敘述統計學)

 將統計資料予以分類、整理、陳述、
分析,其目的在說明或顯示資料所含
之特質,結果得以用圖表或數字表示
Statistical inference
(推論統計學)

 Statistical inference concerns


generalization based on sample data
 It applies to such problems as

estimating an engine’s average


emission of pollutions from trial runs
Statistical inference
(推論統計學)

 根據資料的分析結果對所研究的全體
對象的某些特性作一合理之推論或估
計,其重點在母體參數之估計與假設
檢定
練習
 新上任之台北市長想大致了解台北市
民之所得水準,因此調查一組具有
「代表性」之個體,在將這些個體所
得的資料分類、整理,製程統計圖表
呈現出來,再計算統計量作簡單之分
析比較,請問為敘述統計學或推論統
計學之範疇?
練習(解)

 敘述統計學
練習
 再依上述所得之資料以推論全台北市
之所得水準,請問為敘述統計學或推
論統計學之範疇?
練習(解)

 推論統計學
Population (母體)
 A statistical population is the set of all
measurements corresponding to each unit
in the entire population of units about
which information is sought.
 研究某一現象或問題時,針對發生此

現象或問題之對象進行研究或調查,
此研究調查之全體對象所成之全部集
合。
Sample (樣本)
 A sample from a statistical population is
the subset of measurements that are
actually collected in the course of an
investigation.
 樣本是研究者從母體中抽取的部分元

素所組成之集合,亦為有興趣研究之
全體對象為部分集合。
練習
 某速食店想了解台灣青少年之消費市
場,進一步規劃廣告行銷策略,因此
委託某民調中心,調查 15 歲至 20 歲
之台灣青少年一星期平均有幾次在速
食店用餐,請問本研究之母體與樣本
為?
練習(解)

 15 歲至 20 歲之台灣青少年即為母體。
 而民調中心所隨機抽取之部分個體以

進行研究訪談與問卷,即為研究之樣
本。
Census (普查)
 若研究的是之有限母體,則了解母體
最好之方法,就是對母體內每一個個
體加以調查並記錄其特徵,此種調查
方式稱之為普查。
Sampling Survey (抽樣調
查)
 相對於普查,若隨機自母體中抽選一
部份具有代表性之個體作樣本來加以
調查,依據此組樣本進行統計分析,
再將所得的結果來推論為之母數,則
此法稱之為抽樣調查。
A typical process for collecting
information

 Set clearly defined goals for the


investigation
 Make a plan of what data to collect and
how to collect it
 Apply appropriate statistical methods to
extract information from the data
 Interpret the information and draw
conclusion
Parameter (參數)
 為了推論母體,研究者所需知道描述
母體特徵之某些特徵值,這些特徵值
即為參數:
 母體之平均值
 母體之變異數
 母體之標準差
Statistic (統計量)
 統計量是由樣本中所計算出之量,其
為隨機樣本觀察值的函數,用來推論
母數參數。
 樣本之平均值
 樣本之變異數
 樣本之標準差
Error of Estimation (估計誤
差)
 當利用樣本估計量來估計母體參數時,
無論用何種抽樣方式,樣本估計量與
母數參數間總有差距。這種差據稱之
為估計誤差。
統計之應用
 政府之統計:失業率、出生率、犯罪率
 企業之統計:產品滿意度、生產流程之品質
管制、市場佔有率
 財務金融之統計:股市指數、物價變動預測
 教育之統計:學校經費預估、資源配置
 農業之統計:季節變動與農產品收成
 其他之統計:氣象、匯率對出國觀光
統計方法之限制
 樣本須有代表性
 必須使用大樣本 

 必須使用正確資料

 統計資料須經過比較才有意義

 統計結果須做出合理解釋
練習
 「根據一向全國性調查 250 位職業仲
介人指出,因鞋子不乾淨而造成不良
印象,是導致男性求職人不被錄取之
最普通原因」報紙引述奇威牌 - 鞋子
亮光劑製造商的一項調查報告,評敘
之。
練習(解)
 鞋子亮光劑製造商極欲強調其產品之
重要性,故可能經由其他途徑影響調
查結果,故須小心評估。
練習
 大學生常因酗酒有不當行為,一項專門
研究此項犯罪之調查抽取 1,875 位學生
作通信調查。其中 8% 學生坦承有校園
犯罪行為,其中有 62% 是因為酗酒導
致。假設 1,875 位受查學生都有回覆,
請問因酗酒導致不當行為之學生有多少
人?
練習(解)
 1,875 * 8% * 62%=93 人。
練習
 為辨別傳真機品牌,準備在台灣作
500 位消費者的電話調查,現若以電
話為母體再抽出樣本,試問有何缺點?
練習(解)
 因有許多人的電話未刊登在電話簿內,
若以此取出樣本,這些人將不可能被
抽到。此外該抽出樣本可能包括許多
未裝設傳真機者,若能抽到一組已裝
設傳真機的樣本來調查,將更佳。
練習
 SK 癌症研究中心的一位研究員,曾被
批評提供不實之資料。其數據來自 6
個受檢驗團體,其中每一團體含 20 位
受驗者。其研究獲知每一團體的成功
百分率分別為
53% 、 63% 、 46% 、 48% 、 67% ,
試問錯誤何在?
練習(解)
 由於每一受測團體含 20 個受驗者,因
此其成功比率為 5 的倍數。本題所列
各成功比率顯然不對。
練習
根據香港撒瑪利亞防止自殺會 2008 年報,在
2008 年,香港的自殺死亡數字總數是 1001 人,
其中的 319 人年齡是在 60 歲或以上。
結論 : 老人自殺的情況已到了非常嚴重的地步,
超過三成的自殺者是 60 歲或以上的老人。
請討論
練習(解)
若果我們單從上述數字作表面分析,超過三
成的自殺者是 60 歲或以上的老人,很可能
會認為老人自殺的情況已到了非常嚴重的地
步!

若以「年齡組別自殺率」來看,在該年齡組
別的自殺人數只是每萬名人口中約有 2.6 個,
並非如數字表面般嚇人。當然,老人自殺的
情況仍是值得關注。
練習
假設今有甲、乙兩所高中,甲校參加大學入學
考試的學生中,文科生有 400 人、理科生 100
人;乙校參加大學入學考試的學生中,文科生
有 100 人、理科生 400 人。
考慮兩校的大學取錄率,
 甲校的大學取錄率文、理科生依序為 40% 、 60%
 乙校的大學取錄率文、理科生依序為 30% 、 50%
結論 : 甲校整體的大學取錄率比乙校高
請討論
練習(解)
乍看之下,乙校整體的大學取錄率似乎較低,
但經過仔細計算:
 甲校的大學取錄率為 (400x0.4 + 100x0.6)/500 =
44%
 乙校的大學取錄率為 (100x0.3 + 400x0.5)/500 =
46%
 反而乙校整體的大學取錄率比甲校高。
練習
 醫生對患了重病的病人
說一定可以治好 , 因為治癒率是
1% ,  而前 99 個都掛了 。
 請討論
練習(解)
 雖然大家都知道這笑話的 " 點 " 在哪
裡 , 可是現實生活中卻還是被類似的
統計謬誤所困惑 。
練習
 根據“統計” : 因墜機而喪生的“機
率” 遠低於出車禍而死亡的“機率” .

這說明了搭飛機比在陸地上還安全
嗎 ?
練習(解)
 對一個走路開車都很小心的人 , 出車
禍的機率比別人低 . ( 一個不上街的
人 , 出車禍的機率是 0 )  對這樣的
人而言 , 還能說所謂搭飛機比在陸地
上安全嗎 ? 。

隨機抽樣的敘述下列何者正確 ?
A. 為代表性樣本
B. 須滿足機率均等
C. 必須滿足機率獨立
D. 以上皆是

D

抽樣的第一個步驟是什麼 ?
A. 界定樣本所從屬的母群體
B. 決定樣本是否需要分層
C. 決定樣本大小
D. 確定抽樣單位

A

下列何者不屬於抽樣調查方法的特點?
A 按随機原則抽選樣本
B 提高抽樣的效率、節約調查經費
C 總體中每一個單位都有一定的概率被抽

D 可以用一定的概率來保證將誤差控制在
規定的範圍之内

B

下列敘述何者錯誤?
A. 母群( population )是根據某些原則認定之所有
觀察量數之總集合。
B. 樣本( sample )是由母群觀察量抽樣而來的部份
集合
C. 估計量( estimator )是一個被用來推估母數的量
數,其值之大小即為估計值。
D. 統計量( statistic )是代表母群之性質的量數。

D

關於抽樣的敘述,下列何者正確 ?
A. 由不同母體抽取樣本
B. 抽樣所得到的結果與實際完全相同
C. 民調通常是使用抽樣的方式進行
D. 抽樣時不應該馬虎,要選擇特定的樣本

C

You might also like