You are on page 1of 17

专题 3 主成分分析与偏最小二乘法判别

主成分分析
主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。利用原变量之
间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留
原来较多的变量所反应的信息。
SPSS 中:分析——降维——因子分析
进入“因子分析”对话框中,将独立样本 T 检验所得的 P 值小于 0.05 的质量数输入选入
“变量”点击“描述”按钮在“系数”复选框打钩。即可获得相关系数矩阵。点击“抽取”
按钮在“方法”中选择“主成分分析”并选择抽取“基于特征值”。在“旋转”对话框中
选择输出“载荷图”在“得分”对话框中选择“保持为变量”点击确定即可。
输出结果如下
相关矩阵
v31 v33 v39 v40 v41 v42 v43 v49 v54 v55
相关 v31 1.000 .238 .047 .116 .228 -.004 .273 .089 .098 .160
v33 .238 1.000 .170 .170 .142 .025 .072 -.022 .089 .205
v39 .047 .170 1.000 .254 .283 .103 .112 -.193 .355 .599
v40 .116 .170 .254 1.000 .647 .306 .224 .110 .139 .153
v41 .228 .142 .283 .647 1.000 .318 .319 .159 .137 .175
v42 -.004 .025 .103 .306 .318 1.000 .270 .087 .066 .111
v43 .273 .072 .112 .224 .319 .270 1.000 .590 .132 .274
v49 .089 -.022 -.193 .110 .159 .087 .590 1.000 -.018 .025
v54 .098 .089 .355 .139 .137 .066 .132 -.018 1.000 .468
v55 .160 .205 .599 .153 .175 .111 .274 .025 .468 1.000
仅列出其中一部分。观察相关系数矩阵,(若变量之间越相关,相关系数越接近 1)
解释的总方差
成份 初始特征值 提取平方和载入
合计 方差的 % 累积 % 合计 方差的 % 累积 %
1 8.017 21.098 21.098 8.017 21.098 21.098
2 3.474 9.143 30.241 3.474 9.143 30.241
3 2.993 7.877 38.118 2.993 7.877 38.118
4 2.103 5.533 43.651 2.103 5.533 43.651
5 1.561 4.109 47.760 1.561 4.109 47.760
6 1.333 3.507 51.266 1.333 3.507 51.266
7 1.232 3.241 54.508 1.232 3.241 54.508
8 1.158 3.047 57.555 1.158 3.047 57.555
解释的总方差
9 1.127 2.965 60.520 1.127 2.965 60.520
10 1.092 2.874 63.394 1.092 2.874 63.394
解释的总方差,可以看出累积的方差贡献率,一般要求抽取到累积方差大于 50%
如果特征值小于 1, 说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大。
成份矩阵
成份
1 2 3 4 5 6 7 8 9 10
v31 .500 -.711 -.347 -.021 .116 -.034 .022 -.001 -.022 -.041
v33 .279 -.158 -.117 .204 -.096 .130 .034 -.046 -.098 .010
v39 .414 .217 -.073 .625 -.009 .078 -.002 -.032 -.168 .092
v40 .476 .330 -.421 -.072 -.135 -.101 -.077 -.032 .210 .162
v41 .637 .337 -.506 -.139 -.185 -.145 .013 .035 .038 .085
v42 .345 .355 -.146 -.246 .408 .305 -.173 .125 .026 .048
v43 .677 -.047 .312 -.405 .007 .000 -.115 -.078 -.080 -.009
v49 .376 -.061 .316 -.611 -.295 .075 -.024 -.134 .021 .056
v54 .385 .108 .113 .433 .143 .070 .003 -.142 .192 .029
v55 .625 .080 .235 .552 -.012 .064 -.058 -.054 -.085 -.020
v57 .827 -.197 -.049 -.016 .115 -.022 .003 .018 -.005 .035
v58 .605 -.656 -.403 -.006 .073 -.039 -.003 .008 -.026 -.010
v59 .604 -.664 -.401 .002 .064 -.024 .011 .009 -.016 -.015
v60 .626 -.653 -.371 .000 .055 -.006 .016 .022 -.003 -.035
v61 .728 -.071 .519 .082 -.150 -.039 -.072 -.070 -.056 -.020
v62 .445 -.073 .266 .297 -.218 .170 -.113 -.011 -.164 .040
v64 .382 -.007 .206 -.157 -.324 .117 -.051 -.044 .003 .088
v67 .422 .429 -.295 -.202 -.132 .214 .010 .063 -.149 .020
v68 .446 .430 -.268 .078 -.171 -.097 -.022 .016 -.165 -.037
v69 .564 .524 -.384 .022 -.258 -.185 -.012 .029 .013 -.038
v70 .397 .355 -.270 .039 -.223 -.134 -.013 -.017 -.003 -.189
v71 .521 .278 .204 -.004 .243 -.163 .131 .060 .062 -.219
v73 .422 .062 .268 -.513 .218 -.164 .047 -.129 -.078 -.098
v74 .410 -.047 .292 .059 .049 -.040 .063 -.132 .082 -.038
v75 .559 -.075 .564 .047 -.112 -.027 -.101 .033 -.020 -.023
v83 .310 .240 -.101 -.128 .309 .483 -.147 .100 -.083 -.171
v84 .216 .045 .128 .240 .176 -.160 -.270 .247 .479 -.240
v85 .356 .320 -.100 -.010 .094 -.305 .037 -.015 .116 -.127
v86 .215 .140 .077 .089 .169 -.105 .376 -.570 .014 .068
v87 .450 .050 .409 .050 .282 -.100 -.057 .243 -.037 -.141
v88 .266 .002 .082 -.076 -.148 .179 .525 .113 .323 -.211
v89 .598 -.118 .347 -.087 -.185 .016 .013 .080 .107 .163
v95 .292 .073 .088 .086 -.046 .409 .261 .253 -.081 .417
v97 .291 .293 -.150 -.099 .477 .252 -.165 -.161 -.062 .050
v98 .173 .074 .006 -.009 .241 -.019 .162 -.086 .513 .560
v100 .073 .136 .073 .007 .367 -.404 .246 -.045 -.486 .196
v109 .092 .070 -.034 .006 .020 .229 .640 .171 -.047 -.353
v117 .074 .007 .141 -.058 .064 -.327 .119 .660 -.121 .280
提取方法 :主成份。
a. 已提取了 10 个成份。
成分矩阵,即主成分载荷矩阵,其中每个载荷量表示主成分与对应变量的相关系数。
计算PC1,PC2

1 主成分载荷矩阵中的数据除以主成分相对应的特征值开平方根。

步骤:将前几个因子载荷矩阵(输出窗口内)复制粘贴到数据编辑窗口,得到变量

B1,B2,B3等,然后利用——转换——计算变量在对话框中输入A1=B1/SQR(解释的总方差中

成分1所对应的初始特征值),依次求出几个主成分的特征向量A1,A2等,即每个主成分中每

个指标所对应的系数。
2 标准化数据

步骤 SPSS 在调用“因子分析”过程进行分析时, SPSS 会自动对原始数据进行标准化处理,


所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但 SPSS 并不直接给出标准
化后的数据,
数据进行标准化处理的方法:分析——统计描述——描述。进入“描述”对话框将需要转
换的变量选入,并选中将标准化数据储存为变量复选框即可。
3 将得到的特征向量与标准化后的数据相乘。然后就可以得出主成分表达式PC1,PC2,……

的值。即可在PC1/PC2图中画出每个个案的值。

4 存在疑问在数据窗口输出的“得分”REGR factor 1 是不是就是 pc1?

PLS-DA 与 PCA 的区别


在不对样品加以分组的情况下进行数据分析的方法称为无监督分析方法 ( un - supervised
analysis) 。这种方法因没有外加任何人为因素,计算出的 PCA 模型反映了数据的原始状态,有
利于了解数据的整体情况并对数据从整体上进行把握,特别有利于发现和剔除异常样品,提高
模型的准确性。因无监督分析的方法对所有样品不加以区分,即每个样品都对模型有着同样
的贡献,因此,当样品的组间差异较大,而组内差异较小时,无监督分析方法可以明显区分组间
差异;而当样品的组间差异不明显,而组内差异较大时,无监督分析方法难以发现和区分组间
差异。另外,如果组间的差异较小,各组的样本量相差较大,样本量大的那组将会主导模型。这
种情况下,无监督分析难以得出正确的结论。究其原因,关键在于无监督分析方法不能忽略组
内误差、消除与研究目的无关的随机误差,过分关注于细节、忽略了整体和规律,最终不利于
发现组间差异和差异化合物。这个问题可以通过采用有监督分析( supervised analysis) 的方法
加以解决。有监督分析就是先将检测样品按照类别进行分组,再进行分析,这时在计算数学模
型时计算机就把各组加以区分,忽略组内的随机差异,突出组间系统差异。如偏最小二乘投影
判别(Partial least squares discriminant analysis, PLS-DA) 法。
使用 SIMCA—P 12.0 对脂肪肝健康人分类实例
新建文件 file→new 选择导入的数据文件,即进入数据向导页面,在数据窗口中将第一列设
为 Primary observation ID,

将第一行设为 Primary Variable ID,


并将“disease”设为“Qualitative Y Variable”

此后点击下一步按照默认设置即可导入数据。
然后点击“workset”→“edit”→CM1
在“workset”对话框中“model type”中选择“PLS-DA”点击确定即可。

若要增减部分样本,可以通过点击“workset”→“edit”→“observation”点击“include”
或者“exclude”进行增减样本。
若要增减部分变量,可以通过点击“workset”→“edit”→“variables”点击“X/Y”或者
“exclude”进行增减变量。

点击“analysis”→“autofit”
得到如下结果
R2 代表各个主成分对输出变量的累积解释能力(越接近 1 越好)
Q2 代表各个主成分对输出变量的交叉有效性(越接近 1 越好)

模型显示其中
27.9%的变量(R X=0.279)被作为用来塑造模型的主要成分,20.9%的样本(R Y=0.209)符合

型判别,而其预测能力为 15% (Q =0.15)。且 Q 值较高预示着此模型有良好的预测能力。
理论上说 R2 、Q2 数值越接近 1 说明模型越好,越低说明模型的拟合准确性越差, 通常情况
下, R2 、Q2 高于 0. 5 (50 %) 较好,且两者差值不应过大。根据对模型的不同要求,一般
说来选取的前面几个主成分,使其对总体方差的累计贡献率达到 80 %以上即可。

点击“favorites” →“favorite plots and lists”→“score scatter plot”


或 通 过 “ analysis”→“scores”→“scatter polt ” 在 弹 出 对 话 框 中 “ scores” 选 择
t1/t2,“color”中选择“by classes”即可。
结果如下:t1/t2 椭圆图得分图可以直观地给出各样本在空间上的位置,大椭圆代表 95 ﹪置
信区间。得分图反应的是类别间的差异。

载荷图,点击“favorites”→“favorite plots and lists”→“sloading scatter plot”


载荷图是用第一和第二主成分的载荷点画出一个二维图以直观地显示它们如何解释原来的
变量的。它表示主成分和相应的原先变量的相关系数。载荷图反应的是引起类别间差异的主
要因素,通过对载荷图进行分析就能得出是哪些成分造成两组之间的差异,对差异的深层
剖析得出的结论及推论是研究的最终目的。采用载荷图寻找差异化合物是一个比较简便、粗
略的方法,对差异化合物的显著性检验最终的标准仍然是常规的统计分析方法,如 T 检验、方
差分析等。
VIP 得分,点击“favorite”→“PLS plots”→“VIP”由于经过基因筛选的偏最小二乘判别
分析的判别效果优于未经筛选的偏最小二乘判别分析,通过 VIP 得分从全部解释变量中筛
选出对分型有较强影响的变量,寻找出与疾病类别关联最紧密的变量。

选择 VIP 得分不高的变量,点击 (exclude)按钮即可将这些变量除去。


验证方法 点击“Prediction”→“Misclassification Table”

其中敏感度为 73%,特异度为 67%,准确度为 70%

You might also like