You are on page 1of 38

統計學概述

Outline
• 課程說明
• 統計學概述
學習心統的原因
• 必修學分與畢業

• 心理學專業發展:升學/就業

• 建立客觀/周延思維模式/哲學觀
心理學傳統七大領域

發展
認知/知覺/
社會/性格
生理
方法計量

工商 臨床

諮商

4
隨機現象
• 現實世界中的現象
• 投擲硬幣會出現正面或反面?
• 迎面而來的同學是什麼系的呢?
• 公車會等多久呢?
• 颱風會登陸嗎?

• 重要的特性:變異、隨機、規律
A scatter plot
4.5

4.0

3.5
GPA

3.0

2.5

2.0
30 40 50 60 70 80
Enrollment score

6
Fitted regression line
4.5

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
4.0

3.5
GPA

3.0

2.5

2.0
30 40 50 60 70 80
Enrollment score

7
統計學概述
• 統計學的意義

• 統計學的主題
何謂統計學?
• 行為科學家企圖了解和解釋人類與動物的行為,而藉由
收集資料來達到此目的
• 資料(data)是從人類或動物進行觀察所獲得的行為、特徵
分數或測量
• 統計學是指從一組資料中加以整理、分析並達成結論的
方法或程序

9
統計學的意義
• 我們的世界充滿著變異性、隨機性、有規律的人們,因
此需要統計學這個工具來描述、解釋和預測其行為

• 統計學透過隨機變數(random variable)量化隨機現象,探
討該現象所存在的特性與變異性,並透過統計模型
(statistical model)解釋變項間的關聯與規則

10
統計學的主題
• 描述統計:客觀的摘要

• 推論統計:從部分了解整體

• 進階統計方法:現實世界並不單純
主題1:描述統計
• 一周要花多少時間學習統計學?
• Adams (2005):
• 學生認為一周花6.2小時讀書即表示對課程已經盡了最大的努力
• 老師認為一周花8.5小時讀書才是盡最大的努力

• 這些數據說明了描述統計的使用
• 描述統計(descriptive statistic)
• 通常簡稱為統計量(statistic),是指某一個用來描述或
分析從樣本得到的數據的單一數值,而樣本是母體的
一小部分

• 樣本(sample):從某個母體中所挑選出來的一個子集合或
子群體
• 母體(population):帶有某種共同特徵的一群人、動物、
物體或事件
• 例如:所有這學期修統計學的學生可以被視為一個母體
• 這個母體共有的特徵,是每一個被包含在內的個體都在同一個
時間修相同的課程,他們都享有一個共同的特徵

• 例如:Adams (2005)例子中,所獲得的數據分別是從全
體大學生的母體中所抽取159位大學生的樣本、與從全體
大學教授的母體中挑選59位教授的樣本,經過統計後而
得之結果
• 描述統計可協助了解收集資料中所提供的樣本基本資訊
• 例如:眾數、中位數、平均數、變異數

• 然而,描述統計是有限制的,它無法提供觀察值的因果
與解釋

• 不過,描述統計是重要的,因為它針對我們所收集的資
訊,提供客觀的摘要
主題2:推論統計
• 描述統計告訴我們從樣本中所收集的測量數據是什麼
• 科學家感興趣的往往是母體特徵

• 母體通常不具備測量的可能性
• 例如:行為科學家常用這樣的陳述「一般典型的已婚職業婦女
每周花14.1小時帶小孩」來描繪母體的特徵
• 大多數情況下,這些特徵無法從測量母體中的所有成員來獲得,
例如無法測量所有已婚職業婦女

• 推論統計意旨藉由分析樣本資料來推論母體特徵
推論的過程
• 推論(infer)是從已知推論未知,因此統計推論(statistical
inference)是有關「未知」的母體數值獲得結論的過程

• 從樣本獲得「描述統計」以描述這些資料,之後用來推
論母體特徵

• 母體的特徵稱為參數(parameters);由樣本資料計算而得
的稱為統計量(statistic)
推論的基本條件
• 確保選取的樣本足以代表母體

• 一個常見的選擇樣本的方式是隨機抽樣

• 在一個簡單的隨機樣本(random sample)中,個體是從母
體的成員中挑選出來的,成員有相同機會被選擇作為樣
本,且每個被挑選的成員彼此是獨立的
• 有很多常見的描述統計例子用來推論母體特徵,例如:
• 台灣成年男/女性的身高分別為173公分與161公分
• 上班族每天喝的咖啡杯數為1.2杯
• 國際學生能力調查(e.g., PISA/TIMSS/PIRLS)

• 這些數值都是從樣本獲得的描述統計做為母體的估計值

• 這些個體的描述統計到底能多準確估計母體的數值,都
是依據樣本如何被挑選(e.g., 母體代表性、樣本數)而定
Desired Properties of an Estimator
抽樣

𝜃: 𝜇, 𝜎 2 母體 樣本 መ 𝑋,
𝜃: ത 𝑀𝑑𝑛, 𝑀𝑜, 𝑠 2 , 𝑠, …

推論

• 不偏性(unbiasedness)
• 一致性(consistency)
• 相對有效性(relative efficiency)
• 充分性(sufficiency)

20
推論統計:比較平均數
• 常用於分析實驗資料

• 實驗是行為科學家瞭解造成個體或群體行為原因的常見
研究方法

• 為了實施實驗,要定義自變數(independent variable),即
指研究者認為會影響行為的變數;而預期會被自變數所
影響行為的變數稱為依變數(dependent variable)
• 最簡單的實驗通常經由產生兩個群組(i.e., 控制組與實驗
組)進行

• 參與研究的人稱為受試者(subjects)或參與者(participants)

• 相等組(equivalent groups)是指一群受試者在接受實驗的
自變數之前,沒有任何一致性或系統性層面上的差異

• 只要受試者是不同的人,各群組中的受試者都不會相同;
然而隨機分派可使各組維持等同
• 實驗中,等同群組永遠都會有一些無法預期的差異,稱
為隨機差異(chance difference)

• 在統計假設檢定中,會將實驗中兩個群組實際觀察到的
差異,與群組間預期的隨機差異進行比較

• 如果獲得隨機差異的可能性很小,而實際觀察到的差異
夠大,就可以確定結論:觀察值的差異並非是隨機差異,
可以將觀察值的差異歸因於自變數的效果
• 例子:當人們在學習某些素材時所存在的背景條件,是
否會影響他們事後對於這些素材的記憶呢?

• Cassaday, Bloomfield, and Hayward (2002) 回想單字實驗:


• 40位受試者隨機分派至兩個各20人的相等組中
• 兩組受試者皆被要求學習一份有20個單字的單字卡,並在很短
時間後測試記憶力
• 依變數:回憶單字時所犯的錯誤次數
• 自變數:學生學習單字時的情境(放鬆情境/一般情境)
• Cassaday, Bloomfield, and Hayward (2002) 回想單字實驗:
• 假設:與一般學生相比,放鬆狀態下學習的實驗組學生應該會
犯比較少錯誤,記較多單字
• 實驗結果:放鬆狀態下學習的學生平均犯5.4個錯誤、一般狀態
下學習的學生平均犯9.1個錯誤
• 為確定兩群組間的差異是否不只是隨機造成,進行變異數分析
(analysis of variance),檢驗結果指出兩群組所犯錯誤的差異大於
所預期的隨機差異
• 實驗結果與研究者的研究假設一致,人們在放鬆狀態學習比較
能記得內容
Analysis of variance (ANOVA)
• Compare two or more means to see if there are any
statistically significant differences among them.
• H0: μ1 = μ2 = μk

26
推論統計:相關與迴歸
• 另一常見的研究方法為調查研究(survey study)

• 調查研究中通常包含不能被操弄、但可被測量的變數稱
為受試者變數(subject variables)
• 受試者的特徵或屬性
• 例如性別、年齡、慣用手、焦慮程度、身高體重、教育程度等

• 行為科學家對於受試者變數間是否具有共變關係感興趣
• 如果一個變數的改變與另一個變數的一致性有關,則兩個變數
稱為共變(covary)
• 例如:如果焦慮程度與喝酒有關,e.g., 高焦慮和常喝酒有關、
低焦慮和不常喝酒有關,則焦慮與喝酒具有共變
• 若兩變數具有共變關係,可以測量一群樣本的兩個分數
(e.g., 幼稚園大班身高與體重),計算兩變數的相關係數

• 相關係數(correlation coefficient)是提供兩組分數相關程度
與方向的數值描述的統計量,係數數值介於 -1至1之間
• 若兩組分數的相關並非隨機發生,也許可以嘗試從一個
分數去預測另一個分數
• 假設你知道一個人的焦慮分數,你可以預測他的飲酒量嗎?
• 如果你可以預測飲酒量的分數,你的預測會有多準確?

• 從一個變數的分數去預測另一個變數的分數涉及使用迴
歸分析(regression analysis)
迴歸模型
(Regression model)

80
𝐸 𝑌 = 𝛽0 + 𝛽1 𝑋
60

40

20

20 40 60 80

壓力程度(X) 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

30
主題3:進階統計方法
Structural Equation Modeling

Mixture Modeling
R

Modern Test Theory

心理與教育 Multivariate Analysis


高等統計學
統計學
Generalized Linear Model

Multilevel Modeling

Causal Model

Data Science

31
統計模型I:中介分析
Mediation Analysis

Mediator

X Y
統計模型II:調節分析
Moderation Analysis

Moderator

X Y
試題反應理論 (Item response theory, IRT)
2 40

Expected total score


1.8
exp(𝜃𝑗 − 𝑏𝑖 ) 35

1.6 𝑝 𝜃𝑗 =
1 + exp(𝜃𝑗 − 𝑏𝑖 ) 30
1.4

Expected total score


Expected item score

25
1.2

1 20

0.8
15

0.6 Expected item score


10
0.4

5
0.2

0 0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Ability

34
決策樹-台新
變數 詞類範例 Lasso
插話 -0.09
第三人稱複數代名詞 他們、她們、他們自己 0.14*
非特定人稱代名詞 其他、那些、彼此 0.10
持續時態詞 了、已經、早已 0.04
生氣詞 憤怒、報仇、討厭 0.17*
男性詞 男人、父親、丈夫 0.08
暫定詞 大概、也許、猜想 -0.07
感覺詞 冷、燙、軟 -0.08
健康詞 感冒、健保、康復 -0.11
性詞 做愛、吻、交配 0.22*
髒話 幹、靠、智障 -0.13
年齡 0.27*
為什麼統計學有其必要?
• 描述統計描述從一個樣本中的個體得到的數據測量
• 統計假設檢定處理類似像自變數是否會影響行為這樣的
問題,客觀決定群組間的差異是否比預期的隨機差異大
• 相關與迴歸分析用來檢驗兩個行為是否有關聯;若有關
聯,可否從一個行為的發生來預測另一個行為的發生
• 進階方法可以提供更深入分析研究主題的工具

• 我們的世界充滿著變異性、隨機性、有規律的現象,因
此需要統計的技巧來描述、解釋和預測其行為
作業一
• 請說明你/妳學過的統計學相關知識有哪些?主要從哪些
管道(e.g., 高中選修)獲取這些知識?
• 對於此學期統計課程,你/妳有什麼期待?你/妳希望自
己能得到幾分?你/妳猜測自己最終會得到幾分?

• 繳交期限:09/14 (四), 17:00

You might also like