Professional Documents
Culture Documents
指導教授:馬瀰嘉 老師
國立成功大學
二、 基本敘述統計量(類別資料) ..................................................................................................................... 3
四、 資料圖表化(Histogram) ......................................................................................................................... 5
(一) 性別 * 職別....................................................................................................................................... 7
八、 一因子變異數分析(One-Way ANOVA)............................................................................................. 13
1
一、 目的:基本敘述統計量(連續資料)
操作路徑:
分析(Analyze)→敘述統計(Descriptive Statistics)→描述性統計量(Descriptives)
選項:
1. 變數(V):目前薪資、起薪、在本公司的年資
2. 選項(O):平均數、標準差、變異數、最小值、最大值、峰度、偏態
描述性統計量
敘述統計
說明:依照平時的認知即可。
敘述統計
偏態 峰度
說明:由上表可知目前薪資與起薪的偏態統計量大於0,呈現右偏的分配;在本公司的年資(月)
偏態統計量小於0,呈現左偏的分配;而目前薪資與起薪的偏態統計量大於3,呈現高峽峰的分
配,表示資料在平均數附近的次數相對較高;在本公司的年資(月)偏態統計量小於3,呈現低闊
峰的分配,表示資料在平均數附近的次數相對較低。
2
二、 目的:基本敘述統計量(類別資料)
操作路徑:
分析(Analyze)→敘述統計(Descriptive Statistics)→次數分配表(Frequencies)
選項:
變數(V):教育程度、職別
次數分配表
統計量
教育程度(年) 職別
遺漏值 0 0
次數分配表
教育程度(年)
20 2 .4 .4 99.8
21 1 .2 .2 100.0
職別
3
三、 目的:檢定資料是否為常態分配(Kolmogorov-Smirnov test)
操作路徑:
分析(Analyze)→無母數檢定(Nonparametric Tests)→單一樣本K-S檢定(One-sample K-S test)
*需要Unstandardized Residual Data
NPar 檢定
單一樣本 Kolmogorov-Smirnov 檢定
Unstandardized
Residual
個數 474
a,,b
常態參數 平均數 .0000000
標準差 7.56209147E3
最大差異 絕對 .129
正的 .129
負的 -.118
Kolmogorov-Smirnov Z 檢定 2.803
a. 檢定分配為常態。
b. 根據資料計算。
說明:此筆輸入的變數資料由p-value<0.0001可知,拒絕Ho,表示資料非抽自常態母體。
4
四、 目的:資料圖表化(Histogram)
(一)直方圖
操作路徑:統計圖(Graphs)→歷史對話記錄→直方圖(Histogram)
選項:
變數(V):目前薪資
顯示常態曲線
圖形
說明:由直方圖可看出目前薪資呈現右偏且為高峽峰的分配,驗證第一節敘述統計量偏態與峰
態的推論;差別在於由此直方圖可看出目前薪資的數字,例如我們從此圖可看出目前薪資大多
落在25,000元附近,而極端值可大到超過125,000元。
5
(二) 盒形圖(box plot)
操作路徑:統計圖(Graphs)→歷史對話記錄→盒形圖(Box plot)
第一視窗直接選擇定義
選項:
變數(V):目前薪資
類別軸(C):職別
職別
觀察值處理摘要
觀察值
有效的 遺漏值 總和
目前薪資
說明:由盒形圖可看出管理人員的目前薪資相對較職員與保全人員高;而保全人員的目前薪資
可看出來變動不大,大多落在25,000元附近;職員的中位數薪資與全人員差不多,但變動較
大,最高可超過75,000元。
6
五、 目的:交叉分析表(contingency tables)、卡方檢定(Chi-square test)
操作路徑:分析(Analyze)→敘述統計(Descriptive Statistics)→交叉表(Crosstabs)
列(W):性別
欄(C):職別、種族區隔
交叉表
觀察值處理摘要
觀察值
有效的 遺漏值 總和
(一) 性別 * 職別
交叉表
個數
職別
男 157 27 74 258
總和 363 27 84 474
卡方檢定
漸近顯著性 (雙
數值 自由度 尾)
說明:此檢定性別與職別是否相關,由p-
a
Pearson卡方 79.277 2 .000
value<0.0001可知,性別與職別是有關的。
概似比 95.463 2 .000
有效觀察值的個數 474
7
(二) 性別 * 種族區隔
交叉表
個數
說明:可知受訪者中,女性有被種族區隔
種族區隔
為40人,男性沒被種族區隔為194人…..
否 是 總和 以此類推。
性別 女 176 40 216
男 194 64 258
卡方檢定
a
Pearson卡方 2.714 1 .099
有效觀察值的個數 474
b. 只能計算 2x2 表格
說明:此檢定性別與種族區隔是否相關,由
p-value=0.099>0.05可知,性別與種族區隔
是無關的。
8
六、 目的:一組樣本T檢定(One-Sample T Test)、成對樣本T檢定(Paired-Sample
T test)
操作路徑:分析(Analyze)→比較平均數法(Compare means)→單一樣本T檢定(One-Sample T
Test)
檢定變數(T):目前薪資、起薪
檢定值(V):30000
T 檢定
單一樣本統計量
單一樣本檢定
檢定值 = 30000
說明:
9
(二) 成對樣本T檢定(Paired-Sample T test)
操作路徑:
分析(Analyze)→比較平均數法(Compare means)→成對樣本T檢定(Paired-Sample T test)
配對變數(V):
1. 起薪、目前薪資
2. 在本公司的年資、以前的資歷
T 檢定
成對樣本統計量
成對樣本相關 說明:此檢定結果為起薪和目前薪
資顯著相關;在本公司的年資(月)
個數 相關 顯著性
和以前的資歷(月)不相關;#但老師
成對 1 起薪 和 目前薪資 474 .880 .000
的意思為只要認為是成對樣本即可
成對 2 在本公司的年資(月) 和 以前 474 .003 .948 做成對t檢定,不一定要檢定相關才
的資歷(月) 能做成對t檢定。
成對樣本檢定
成對變數差異
10
成對樣本檢定
成對變數差異
成對樣本檢定
說明:檢定結果為拒絕Ho,表示起薪
t 自由度 顯著性 (雙尾) 與目前薪資母體平均有差異;在本公
11
七、 目的:兩獨立樣本T檢定(Independent-Sample T Test)
操作路徑:
分析(Analyze)→比較平均數法(Compare means)→獨立樣本T檢定(Independent-Sample T Test)
檢定變數(T):目前薪資
分組變數(G):職別
定義組別(D):
組別1:1(職員);組別2:2(保全人員)
說明:職員與保全人員的目前薪資一般
T 檢定 敘述統計量,根據自己認知解釋即可。
組別統計量
獨立樣本檢定
平均數相等的 t 檢定
平均差異 標準誤差異 下界 上界
說明:
i. 首先,我們必須檢定職員「目前薪資」的變異數和保全人員「目前薪資」所得到之變異數是否相等。若
是變異數檢定之顯著性小於0.05,表示要從『不假設變異數相等』來解讀其資料。
ii. 而在這一次的分析中,變異數相等的Levene檢定得到F值為16.844,顯著性為.000,故應以職員與保全
人員目前薪資的變異數是不相等的那一列來解讀資料。
iii. 如上表所示,而在由『不假設變異數相等』那一列中,由其t值與顯著性判斷資料與分析結果,其t=-
5.452,顯著性<.0001,所以我們可以說保全與職員對目前薪資有差異性的影響,並且達顯著水準。由
信賴區間作檢定,因為不包含0,亦有相同的推論。
12
八、 目的:一因子變異數分析(One-Way ANOVA)
操作路徑:
分析(Analyze)→比較平均數法(Compare means)→單因子變異數分析(One-Way ANOVA)
依變數清單(E):目前薪資、起薪
因子(F):職別 ANOVA前提假設:
單因子 理論上,沒有滿足上述三個假設,檢定
結果是不成立的。由此表可知檢定結果
變異數同質性檢定
皆為變異數顯著不同,沒有滿足第三個
Levene 統計量 分子自由度 分母自由度 顯著性 假設,因此不能看ANOVA的檢定,要
ANOVA
總和 2.930E10 473
均等平均數的 Robust 檢定
a
統計量 分子自由度 分母自由度 顯著性
因為變異數同質性檢定拒
目前薪資 Welch 162.200 2 117.312 .000
絕Ho,故看此表
起薪 Welch 109.605 2 80.233 .000
a. 漸近的 F 分配。
說明:p-value皆<0.0001
檢定結果為:
i. 在α = 0.05下,有足夠證據顯示 職別會影響 目前薪資 。(在不同職別下的平均目前薪資不同)
ii. 在α = 0.05下,有足夠證據顯示 職別會影響 起薪。(在不同職別下的平均起薪不同)
13
Post Hoc 檢定-多重比較
*
μ >μ =μ 管理人員 職員 $36,139.258 $1,228.352 .000 $33,251.22 $39,027.29
管理人員 保全人員 職員
保全人員 $33,038.909* $2,244.409 .000 $27,761.98 $38,315.84
*
管理人員 $-36,139.258 $1,228.352 .000 $-39,090.45 $-33,188.07
說明:由前面的ANOVA檢定已知在不同職別下的平均目前薪資和起薪不同,但誰大誰小就需要進一步做事後比較,在
事後比較的部分,主要以『顯著性』做為主要的判斷數值。以目前薪資為例,若用Tukey HSD方法,可知職員和保全人
員比,顯著不相關,可知職員和保全人員的目前薪資沒有差異;職員和管理人員比,顯著相關,且平均差異小於零,可
知職員和管理人員的目前薪資有差異,且管理人員的目前薪資較高,因此用Tukey HSD方法檢定結果結論為在α = 0.05
下,有足夠證據顯示職別中 管理人員與保全人員、職員有差異;保全人員與職員沒有差異 ( μ管理人員 > μ保全人員 = μ職員 )。
14
同質子集
管理人員 84 $63,977.80
顯示的是同質子集中組別的平均數。
a. 使用調和平均數樣本大小 = 58.031。
b. 組別大小不相等。將使用組別大小的調和平均數。不保證型 I 的誤差
水準。
起薪 此表為Tukey HSD另一種表示,結果
alpha = 0.05 的子集 為職員跟保全人員被分為同一組,管
理人員為另外一組,數字為起薪的平
職別 個數 1 2
均數。結論同上:
Tukey HSDa,,b 職員 363 $14,096.05
μ >μ =μ
管理人員 保全人員 職員
保全人員 27 $15,077.78
管理人員 84 $30,257.86
顯示的是同質子集中組別的平均數。
a. 使用調和平均數樣本大小 = 58.031。
b. 組別大小不相等。將使用組別大小的調和平均數。不保證型 I 的誤差
水準。
15
平均數圖
此圖為Mean Plot可驗證上述同質
子集的結論,只是這個沒有經過檢
定,可看出管理人員的平均目前薪
資確實較保全人員與職員多許多
此圖為Mean Plot可驗證上述同質
子集的結論,只是這個沒有經過檢
定,可看出管理人員的平均起薪確
實較保全人員與職員多許多
16
九、 目的:線性迴歸分析(Linear regression analysis)
操作路徑: 迴歸分析前提假設:
分析(Analyze)→迴歸(Regression)→線性(Linear) 1.獨立性:資料來自彼此獨立的隨機樣本
依變數(D):目前薪資 2.常態性:樣本必須取自服從常態分配的母體
自變數(I):起薪、在本公司的年資 3.變異數同質性:各組樣本必須取自變異數相等的母體
統計量(S):估計值、信賴區間、模式適合度、Durbin-Watson
圖形(T):直方圖、常態機率圖、產生所有淨相關圖形、Y:*SRESID、X:*ZPRED
y1 :目前薪資
x1 : 起薪
𝑥2 : 在本公司的年資
Model:𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1i + 𝛽2 𝑥 + 𝜀
2𝑖 𝑖
迴歸
選入/刪除的變數
模式 選入的變數 刪除的變數 方法
1 在本公司的年資 . 選入
判定係數(R 平方)為 0.784,此模式的解釋能
a
(月), 起薪
力(預估能力)不算低,達 78.4 %
a. 所有要求的變數已輸入。
模式摘要b
Durbin-Watson
模式 R R 平方 調過後的 R 平方 估計的標準誤 檢定
a
1 .886 .785 .784 $7,936.139 1.919
a. 預測變數:(常數), 在本公司的年資(月), 起薪
b. 依變數: 目前薪資
Durbin-Watson檢定相鄰的兩個誤差項之相關程度。
(1) DW值接近 2 →誤差項相關係數接近0。(表示誤差項之間獨立)
(2) DW 值接近 0 →誤差項相關係數接近 1。
(3) DW 值接近 4 →誤差項相關係數接近-1。
17
Anovab 整體性檢定
p-value<0.001 RejectHo
模式 平方和 df 平均平方和 F 顯著性
表示迴歸方程式中至少有一個迴
a
1 迴歸 1.083E11 2 5.413E10 859.383 .000
歸係數不為0(亦即,至少有一個
殘差 2.966E10 471 6.298E7 自變項的預測效果達顯著),至
總數 1.379E11 473
於是那幾個自變項的預測效果達
顯著,則要參考下面「係數」表
a. 預測變數:(常數), 在本公司的年資(月), 起薪
b. 依變數: 目前薪資
係數a
a. 依變數: 目前薪資
個別檢定
估計出來的迴歸方程式:
兩個變數的個別檢定
̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥1i + 𝛽̂2 𝑥2i = −12120 + 1.914𝑥1i +172.297𝑥2i
𝑦 p-value<0.001皆 RejectHo
表示起薪跟在本公司的年資(月)
的效果都是顯著的。
殘差統計量a
a. 依變數: 目前薪資
18
圖表
i. 判斷方式:檢視依變數的「迴歸標準化 i. 判斷方式:檢視依變數的「迴歸標準化殘差」直方圖,可判斷樣
殘差的常態P-P圖」,呈現左下到右上的45 本觀察值的分布是否符合常態性分配的基本假設,鐘形曲線為「完全
度斜直線,因此,樣本觀察值大致符合常 常態分配曲線」,由於樣本來自抽樣,會有抽樣誤差存在,所以實際
態性分配的基本假設。 觀察值的直方圖與「完全常態分配曲線」之間會有差距,分布在平均
ii. 結論:沒有呈現45度斜直線,因此, 數三個標準差範圍內,沒有極端值出現,表示樣本觀察值大致符合常
樣本觀察值不符合常態性分配的基本假 態性分配的基本假設。
設。 ii. 結論:本例的標準化殘差未分布在平均數三個標準差範圍內,有
極端值出現,所以,樣本觀察值不符合常態性分配的基本假設,結論
同左。
標準化殘差對依變數標準化預測值散佈
圖:顯示明顯的圖樣,故此迴歸模式並
不適當。
結論:從基本的迴歸分析,雖然判定係
數不算低,但此迴歸模式的誤差項不符
合常態、等變異的假設,故此模式並不
適當。
總結:因為此模式並不適當,因此估計出來的迴歸模式是不準確的,應做進一步的轉換去做後續的推論。
19