You are on page 1of 14

判别分析

一、熟悉
SPSS 的判别分析的基本操作

二、掌握
1. 组统计量表格:是各组和总体的每个变量的描述统计分析。注意均值一栏,
是后面计算的基础。

组统计量

有效的 N(列表状态)

销售状态 均值 标准差 未加权的 已加权的

畅销 收录机质量评分 8.3000 .88318 4 4.000

功能评分 5.0000 1.82574 4 4.000

销售价格 475.0000 170.97758 4 4.000

平销 收录机质量评分 7.7000 1.02470 5 5.000

功能评分 7.0000 1.58114 5 5.000

销售价格 680.0000 180.69311 5 5.000

滞销 收录机质量评分 6.1000 .68313 4 4.000

功能评分 3.5000 1.29099 4 4.000

销售价格 340.0000 121.38094 4 4.000

合计 收录机质量评分 7.3923 1.23792 13 13.000

功能评分 5.3077 2.09701 13 13.000

销售价格 512.3077 209.64867 13 13.000

从上表可以看出,畅销款具有最高的平均收录机质量评分,滞销款的平均质量评分最低。但
是就销售价格而言,滞销款具有最低的平均销售价格。
2. 判别分析的前提,是要求各组均值应该具有显著差异,判别分析的结果才会
显著,所以,请用合适的图形表示出“组统计量表”中每个分量的均值在
各个组中的情况。

10

0
畅销 平销 滞销

收录机质量评分

8
7
6
5
4
3
2
1
0
畅销 平销 滞销

功能评分

800
700
600
500
400
300
200
100
0
畅销 平销 滞销

销售价格

从直方图中我们可以更直观的看到畅销款在收录机质量上具有优势,滞销款在质
量及功能上均具有不足。

3. 判别分析,一般我们会假设各组的协方差阵是相同的,请用合适的图形表示
出“组统计量表”中每个分量的标准差在各个组中的情况。
通过图形可以看出每个分量的方差在各个组中有一定的区别。

4. “组均值的均等性的检验”是对各组均值是否相等进行的假设检验。
请①给出检验的原假设
② 在该表中 Wilks lambda 是组内平方和与总体平方和的比,比值范围在 0 到
1 之间。值越小表示组间有很大的差异。值接近于 1 表示组间没有差异。
③ F 统计量是组间均方与组内均方的比。有两个自由度。如果显著水平 Sig 小
于给定的显著水平α,则拒绝原假设,认为组间差异比较大。否则,表示组间
差异不显著。请针对本表,分析检验的结果。

组均值的均等性的检验
Wilks 的

Lambda F df1 df2 Sig.

收录机质量评分 .432 6.580 2 10 .015

功能评分 .474 5.554 2 10 .024

销售价格 .498 5.046 2 10 .031

① H0: 各组的收录机质量评分均值相等 H1: 各组的收录机质量评分不完全相等


H0: 各组的功能评分均值相等 H1: 各组的功能评分不完全相等
H0: 各组的销售价格评分均值相等 H1: 各组的销售价格评分不完全相等
② Wilks 的 Lambda 值均介于 0-1 之间,且越小表示组间差异越大,另外,三个指标的相
应检验的 p 值均小于显著性水平 0.05,表明三组在上述指标上均有较大差异,即在三个
指标上有显著的不同。
③ 从 sig 水平上看,在 5%显著性水平下,拒绝原假设,三项指标结果均显著,说明畅销
款、平销款以及滞销款在收录机质量评分、功能评分、销售价格上存在差显著异,可以
进行判别分析。

5. “汇聚的组内矩阵”显示了一个协方差阵和一个相关矩阵。
①其中,协方差矩阵是各个组内协方差矩阵相加构成的联合组内协方差阵,即

1 r
S  (ni  1)S k ,请利用本组数据,验证 S 的正确性。这里 S k 是各组的协方差阵。
n  r k 1

1/2
②相关矩阵是由上述 S 变换: R  D SD1/2 得到,其中 D1/2 是 S 对角元素的平方根的倒
数组成的对角矩阵。请验证本表格中的 R 矩阵。

6. “协方差矩阵”给出了各组的组内协方差矩阵和总体协方差矩阵。

协方差矩阵a

销售状态 收录机质量评分 功能评分 销售价格

畅销 收录机质量评分 .780 .600 71.000

功能评分 .600 3.333 310.000

销售价格 71.000 310.000 29233.333


平销 收录机质量评分 1.050 .850 115.000

功能评分 .850 2.500 282.500

销售价格 115.000 282.500 32650.000

滞销 收录机质量评分 .467 .600 57.333

功能评分 .600 1.667 156.667

销售价格 57.333 156.667 14733.333

合计 收录机质量评分 1.532 1.486 154.853

功能评分 1.486 4.397 436.731

销售价格 154.853 436.731 43952.564

a. 总的协方差矩阵的自由度为 12。

7. “协方差矩阵的均等性的箱式检验”,其中会给出“对数行列式”的结果:

各组内协方差矩阵及其行列式的自然对数。在多组模型中,行列式自然对
数值提供各组间协方差矩阵差别的度量。其中秩是行或列中线性独立的最
大数。

对数行列式

销售状态 秩 对数行列式

畅销 3 4.893

平销 3 6.187

滞销 3 .288

汇聚的组内 3 6.214

打印的行列式的秩和自然对数是组协方差

矩阵的秩和自然对数。
8. “Box’s M 检验”中,请①给出该检验的原假设②针对本组案例,给出检验的结果。

检验结果

箱的 M 21.855

F 近似。 .964

df1 12

df2 421.029

Sig. .483

对相等总体协方差矩阵的零假

设进行检验。

① H0:畅销款、平销款和滞销款的协方差相等
② 上述检验显示sig. = 0.483 >0.05, 在5%显著性水平下结果不显著,应接
受H0,畅销款、平销款和滞销款的协方差没有显著差异。

9. “典型判别式函数摘要”给出的是Fisher判别法的一些判别结果

10. “特征值”包含了特征根,方差百分比,累计百分比和典型判别函数。其

 
中特征根是 E -1 B  I u  0 所比得。给出典型相关系数的含义。

特征值

函数 特征值 方差的 % 累积 % 正则相关性

1 3.231a 77.2 77.2 .874

2 .952a 22.8 100.0 .698

a. 分析中使用了前 2 个典型判别式函数。
判别函数1的典型相关系数为0.874,判别函数2的典型相关系数为0.698,所以,函数1的判别能力要强于

判别函数2.

11. “Wilks 的 Lambda”给出了判别函数的判别能力。请对该表进行分析。


“1 到 2”表示此时考虑第一和第二判别函数,Sig.值为 0.004 小于 0.05 表
示在 5%的显著性水平下显著,即判别函数 1 和判别函数 2 的判别效果显著。
函数检验“2”表示移除第一判别函数后单独看第二判别函数的显著性,Sig.
值为 0.049 小于 0.05,因此在 5%的显著性水平下近似显著,表明判别函数 2
具有一定的判别能力,但由于其值非常接近于 0.05,其判别效果的显著性不
稳定。

Wilks 的 Lambda

Wilks 的

函数检验 Lambda 卡方 df Sig.

1 到 2 .121 19.001 6 .004

2 .512 6.018 2 .049

12. “标准典型判别函数系数” 给出理论标准化判别函数系数,请根据本案例


结果进行分析;

标准化的典型判别式函数系数

函数

1 2

收录机质量评分 1.513 -.482

功能评分 6.341 .010


标准化的典型判别式函数系数

函数

1 2

收录机质量评分 1.513 -.482

功能评分 6.341 .010

销售价格 -6.897 1.193

通过分析“标准典型判别函数系数”表格,可以看出预测变量在各判别
函数中的贡献度情况。经观察发现在第一判别函数下“功能评分”的系数为
6.341,说明其对第一判别函数的正向影响较大,“销售价格”的系数为
-6.897,说明其对第一判别函数的负向影响较大;在第二判别函数下,“销
售价格”的系数为 1.193,远大于其他两个系数,说明其对第二判别函数的
影响较大。(也说明了判别函数在哪些变量上具有比较大的区别度)
据此可以写出,第一判别函数表达式:Y=1.513*标准化的收录机质量评
分+6.341*标准化的功能评分-6.879*标准化的销售价格
13. “结构矩阵”中,结构系数即预测变量与典型判别函数的联合组内相关系
数。请给出该系数矩阵的含义。

结构矩阵

函数

1 2

收录机质量评分 .627* .221

功能评分 .281 .948*

销售价格 .251 .920*


判别变量和标准化典型判别式函数之间的汇

聚组间相关性

按函数内相关性的绝对大小排序的变量。

通过观察“结构矩阵”,发现“收录机质量评分”与第一判别函数的绝对相
关性为 0.627,远大于其与第二判别函数的相关性,说明此变量与第一判别
函数的相关性程度更高;而“功能评分”和“销售价格”则与第二判别函数
的有着更大的绝对相关系数,分别为 0.948,0.920,远大于它们与第一判别
函数的相关性,说明这两个变量与第二判别函数的相关性程度更高。

14. “典型判别函数系数”给出了非标准化的 Fisher 判别函数系数,该系数


是由前面的特征值所对应的特征向量得到的。请给出非标准化的 Fisher 判
别函数的表达式,

典型判别式函数系数

函数

1 2

收录机质量评分 1.698 -.541

功能评分 4.010 .006

销售价格 -.043 .007

(常量) -12.031 .193

非标准化系数
函数 1:y1= -12.031+1.698*收录机质量评分+4.010*功能评分-0.043*销售价格
函数 2:y2=0.193 – 0.541*收录机质量评分+0.006*功能评分+0.007*销售价格

15. “组质心处的函数”是有 di  u' ( xi  x ) 得到的,其中 u 是非标准化函数系数

矩阵, xi  x 中分别为各组平均值和总平均值。

组质心处的函数

函数

销售状态 1 2

畅销 1.896 -.767

平销 .171 1.078

滞销 -2.109 -.581

在组均值处评估的非标准化典型判别

式函数

16. “分类函数系数”给出的是贝叶斯判别分析法产生的分类函数系数,其中计算公式为:

17. 在应用模型做判别时,SPSS 并没有提供费歇尔法的计算机处理程序,使用


领域图可以目测所做的判别归属于哪一组。根据某个个体的观测值,分别
计算非标准化判别函数的得分值,然后根据这些判别函数的坐标在领域图
中位置判断属于哪一类。根据这种思想,请判断最后一个样本点按照 Fisher
判别法应该判别为哪一类。
首先计算该点非标准化判别函数的得分值:
得到第一判别函数的得分值为-0.4550,第二判别函数的得分值为 1.0680
(这里得到的值与 18 题中该点的判别式得分有一点区别,是因为用到的系
数是 14 题中 SPSS 给出的“典型判别函数系数”四舍五入后的结果)。
结合领域图,最后一个样本点在图中的位置处于橙色点标注的位置,它
在组别 2 的领域内,因此将这个点判别为“平销”类。
(领域图为下图)
另外还可以通过观察典型判别函数的单独组图标,发现最后一个样本点
(图中的“未分组的案例”点)距离平销组组质心距离最近,且处于平销组
各样本点之中,因此判断最后一个样本点按照 Fisher 判别法应该判别为“平
销”类。

18. 解读并分析“按照案例顺序的统计量”的结果。

按照案例顺序的统计量

判别式得
最高组 第二最高组 分

P(D>d | 到质心 到质心


G=g) 的平方 的平方
Mahala Mahala
案例 实际 预测 P(G=g nobis P(G=g nobis 函数 函数
数目 组 组 p df | D=d) 距离 组 | D=d) 距离 1 2

初 1 1 1 .385 2 .995 1.909 2 .004 12.862 1.75 -2.1


始 1 41

2 1 1 .282 2 .980 2.535 2 .020 10.292 3.22 .105


8

3 1 1 .597 2 .915 1.033 2 .075 6.039 .994 -1.2


37
4 1 1 .599 2 .712 1.024 2 .287 2.838 1.61 .204
1

5 2 2 .815 2 .926 .409 1 .070 5.560 .769 1.30


4

6 2 2 .628 2 .756 .930 1 .241 3.215 1.10 .843


6

7 2 2 .077 2 .965 5.135 3 .035 11.772 -1.3 2.76


44 4

8 2 2 .908 2 .876 .194 1 .102 4.495 .338 .671

9 2 2 .440 2 .647 1.643 1 .201 3.986 -.01 -.19


5 0

10 3 3 .600 2 .998 1.022 2 .002 13.269 -2.3 -1.5


34 66

11 3 3 .908 2 .938 .193 2 .060 5.688 -1.7 -.37


23 2

12 3 3 .370 2 .499 1.986 2 .480 2.067 -.86 .081


5

13 3 3 .370 2 .999 1.988 2 .001 15.959 -3.5 -.46


14 5

14 未分 2 .920 2 .959 .167 3 .027 7.345 -.16 1.31


组的 7 0

解读:
“按照案例顺序的统计量”表格共包含五大列:第一列为“案例数目”,
按数据录入的顺序将案例从 1 开始排,直至最后一个;第二列为“实际组”,
及各个观测样品实际属于的组别,如案例 1 到 4 的组别均为 1,特别地,案
例 14 为“未分组的”,表明其在实际中没有被分组,是一个需要通过判别函
数判别确定其分组的案例;第三列为“最高组”,即判别出的最高后验概率
组,其中包含的“预测组”表明根据判别函数给出的预测各样本点应该属于
的组别的情况,P(G=g | D=d)为判别为对应预测组的后验概率;第四列“第
二最高组”给出了第二可能的判别结果的情况,其 P(G=g | D=d)值要小于最
高组下的值;第五列“判别式得分”给出了在 Fisher 判别函数下的得分情况。

分析:
首先值得注意的是 14 号未被分组的样本点的判别预测情况,根据“最高
组”下的“预测组”知,该样本点最有可能被归为第二组,相应的概率为 0.967,
从概率上看归为第二组的可能性很大。这与 17 题的结论是一样的。
另外,注意到案例 12 的实际组是 3 但被判别为了 2 组(表中**标明),
说明在判别函数下判别错误。实际上,被判别为第 2 组的概率为 0.535,被
判别为第 3 组(实际组)的概率为 0.446,从概率上看是较为接近的。

You might also like