You are on page 1of 7

维普资讯 http://www.cqvip.

com

药 学 学 报 Act
a Phar
maceut
ica 
Sini
ca 
2006,
41(1):
47—53
 

代 谢 组 学 研 究 中 数 据 处 理 新 方 法 的 应 用 

李  晶 ,吴 晓健 ,刘 昌孝  ,元英进 

(1.天 津 大 学 化 工 学 院 制药 工程 系 ,天 津 3
0007
2; 
2.天津药物研究 院 药物动力学与药效动力学省部共建国家重点实验室 ,天津 30
019
3) 

摘要 :目的 探 索代谢组学研究 中数据 处理 的新方法 。方 法 本 文提 出了在代谢 组学 数据预 处理 中 ,


用 稳健 
PCA的方 法进 行离群样 品点 的诊 断,
用变量的类内差异和类 问差 异的比较来判断非保 守性代谢组分 ,
用尺 度同一化 
的方法进行数据预处理来消除数据的尺度差异。并 以 Ar
abi
dops
is
 th
ali
ana属的 四个基因型的植株代谢组学的数据为 
例,
用 以 上 的 方 法 进 行 数据 预处 理后 再用 PCA 的方 法 分 析 。结 果 与 结 论 研 究 表 明 这 三 种 数 据 预 处 理 方 法 的 应 用 
会 明显的改善代谢组学生物信息学分析 中聚类分析的结果和生物标志物识别的准确性及 全面性 。
 
关键词 :代谢组学 ;离群样本点诊断 ;非保守性代谢组分 ;数据 尺度 同一 化;主成分分析法 
中 图 分 类 号 :R9
69.1
  文 献标 识 码 :A  文 章 编 号 :0
513—4
870(
200
6)01—0
047—07
 

Appl
icat
ion of 
new m et
hod f
or dat
a process
ing 
in m et
abonomi
c st
udi
es 

LI
 Ji
ng。,WU Xi
ao-
jia
n。,LI
U Cha
ng.
xia
o。,
  ,YUAN 
Ying
-ji
n。 

(J.De
par
tment
 ofPhar
mac
eut
ical
 Engi
nee
ring,I
nst
itte
u  o
f Chemi
cal
 En
giee
n ri
ng,Ti
anj
in Uni
ver
sit
y,Ti
anj
in 
30007
2,Chi
na;2.St
ate
 
Ke
y L
abo
rat
ory
 f Ph
o arma
cok
iet
n i
cs
 an
d Ph
arma
cod
yna
mics,Ti
anin
f  
Ist
n i
tte
u  
f Ph
o arma
ceti
u c
al 
Res
ear
ch,T
ian
jin
 30
019
3,Ch
ina)
 

Abstract:A i
m   To sear
ch f
or and appl
icat
ion of new m et
hod f
or dat
a pr
ocessi
ng i
n met
abonomi
c 
st
udi
es. M ethods
  The paper
 proposed t
hat
 in t
he processi
ng of
 m et
abonomi
c dat
a, r
obust
 PCA met
hod 

ca
n be
 us
ed t
o di
agnos
e o
utl
ier
s;a
nd uns
tabl
e v
ar
iabl
es 
judg
ed 
by 
compa
is
r on
 bet
wee
n di
fer
ence
 wi
thi
n 
cl
ass
 and di
ffer
ence among 
classes
 shoul
d be excl
uded bef
ore dat
a anal
ysi
s;m or
eover,t
he dat
a s
houl
d be 
proper
ly s
cal
ed bef
ore f
urt
her
 proces
sing.The pr
opos
ed met
hods
 wer
e us
ed 
to preprocess
 met
abol
omi
c dat
a 
of 
four
 genot
ypes
 of 
the 
Arabi
dopsi
s t
hal
iana pl
ant
s. Resul
ts and Concl
usi
on  The out
com e demonst
rat
ed 

hat
 the appl
icat
ion of
 these met
hods
 can obvi
ousl
y i
mprove cl
ust
ering and bi
omarker i
dent
ifyi
ng resul
ts.
 
Key words: met
abol
omi
cs; out
lier di
agnosi
s; unst
abl
e met
abol
ite; dat
a pr
e—scal
ing; pr
inci
ple 
com ponent
 anal
ysi
s 

代 谢物 组学是 以代谢 物分 析 的整体 方法来 研究  药物 的药效 和毒 性 筛选 和 评 价 研 究 、作 用 机制 研 究 


功能蛋 白如何 产生 能量 和 处理 体 内物 质 ,其 代谢 物  和合理 治疗 用药 密切相 关 。代谢 物组 是反 应机体 状 
则 以生 化活性 直接 体 现 作 用 的结 果 ,
也 就 是 说代 谢  况 的分 子集 合 ,
所有 对 机 体健 康 影 响 的 因 素均 可 反 
物组学 是评 价细胞 和体 液 的 内源性 和外 源代 谢物浓  映在代 谢 物组 中 ,基 因 、环 境 、营 养 、药 物 (外 源物 )
 
度与 功能关 系 的学科 ¨叫 。代 谢 物组 学 的 出现 ,
特  和时 间 (年 龄 )最 终通 过代 谢 物 组对 表 达 施加 影 响 。
 
别在药 物安 全性 研 究 中 的应 用 ,认 为该 新 兴 的学科  代谢 物组 是评价 健康 和治 疗 的合 适 的分子 集合 。因 
分支会 对 药物安全 性研 究产 生革命 性 的影 响。它 与  此研 究代 谢物组 学对 药物 治疗 有直 接意义 l4 ]。
 
代谢 组学是 定量 分析 生物 系统对 机体 反应 或基 
因改 变 所产生 的动 态 的 、
多 参 数 应答 的一项 新 发 展 
收 稿 日期 :2005-
03-
20.
 
基 金项 目:科 技部 国 家重 点 基 础 研 究 发 展 计 划 (
973计 划 )资 助  的技 术 ¨…。它可有 效 地 应 用 于 生 物 系统 的机 制 研 
项 目(2004CB518
902);国 家 高 技 术 研 究 发 展 计 划  究及 生物 系统 的生 产 优 化研 究 中 ,
代 谢组 学与 代 谢 
(863计 划 )资 助项 目(2
003AA2Z347D).
 
‘通讯 作 者 Tel
:86—22—23
006863,Fax:86—22—23
006860,
  工程 方法 的联 合在生 物工 程 中的应用 已显 示 出巨大 
E-mail:l
iuchangxiao@ 163.cor
n 
的 潜 力 ¨  。 代 谢 组 学 通 常 以 核 磁 共 振 光 谱 
维普资讯 http://www.cqvip.com

药 学学 报 Ac
ta 
Phar
mac
eut
ica
 Si
nic
a 2
006,
41(1):
47—5
3 

(NMR)或 液质 联 用 (HPLC/MZ或 GC/MZ)为 测 量  贡献 较 大的组 分 即为 非保 守性 代 谢 组 分 ,


即 使这 些 
手 段 ,获 得 的 数 据 (核 磁 共 振 图谱 、色 谱 图 或 质 谱  组 分在 对所有 的样 本 进 行 PCA分 析 时 在 投 影 图上 
图 )具有 多元性 和 复 杂性 ,
很 难 直接 分 析 ,需要 采 用  对主成 分 的贡献也 较 大 ,
则 也 不 能将 他 们 算 作 是生 
模 式识 别 (PR)的方 法 进 行 聚类 分 析 和 生 物标 志 物  物标志 物 _

 。(3)在解 决不 同代谢 组 分之 间存 在 尺 
(bi
omar
ker)的识 别  。
  度 差异 方面 ,可 以 用 尺 度 同一 化 的 方 法 包 括 me
an-
 
在 代谢组 学数 据处 理 中 ,
主 成 分分 析 法 (PCA)
  s
cal
e,aut
o.s
cle,
a log等 消 除不 同代 谢 物 尺度 差 异 的 
是一种 最常用 的无 导 师模 式 识 别 方法 ,
但 在 用 PCA  影响 ,
使 数 据 的尺 度 相 同¨
 ” ,然 后 再 对 处理 后 的 
进行数 据分 析时通 常存 在 以下 问题 。(1)代 谢组 学  数 据进 行分 析 。
 
数据分 析普 遍 采用 的经 典 PCA方 法 对 离 群样 本 点  本 文 探讨 了一 些新 的方 法 以求 解 决 上述 问题 。
 
比较敏 感 ,
离群样 本 点 的存 在 会 严重 影 响 聚 类结 果  本文数 据处 理所 采用 的原 始 数 据是 向发表 在 Bi
oin.
 
和生物标 志物 的寻找 结 果  ,然 而 在代 谢 组 学 获得  f
orma
tic
s Vo
1.1
 
8 Suppl
 2 2002杂 志 上 的 Appl
ica
tion
 
的数据 中 ,由于实 验 的操 作 因素或样 本本 身 的原 因 ,
  of
 met
abol
omi
cs t
o pl
ant
 genot
ype di
scr
imi
nat
ion usi
ng 

经常会 有离 群样本 点存 在 的现 象 。 (2)一 些 代 谢组  s


tat
is
tic
s and 
machi
ne l
eani
r ng的 作 者索 取 。文 中的 
分在 正常 的生理 条件 下或不 同 的个 体之 间有较 大 的  实验 背 景 是研 究 Ar
abi
dops
is
 thal
iana属 植 株 的基 因 
差异 ,
这些 非保守 性 的 代谢 组 分 会 造成 同一 类 样本  型 为 Col
O的 8个 母本 植株 、
基 因型 为 C24的 8个母 
在 PCA的得分 图上距 离较 远 , 并且 使不 同类 之 间有  本植 株及 它们 的 杂交 子 代 Col
0  C24的 8个植 株 、
 
相互 的交 叉 ,
难 以达 到 正 确 的 分类 ¨ ’
  ,而 且这 些  C24
  Col0的 8个植 株 的代 谢 组 学 ,
拟 通 过 代 谢 组 
组分 很 有 可 能 作 为 假 阳 性 的 生 物 标 志 物 出 现 在  学 的研 究 找到这 些基 因型 不 同的植 株在代 谢物 方面 
PCA分 析投 影 图中 ,使 真 正 的生 物 标 志物 在 投 影 图  的 主要差 异 ,
并 找 到 可 以区 分 不 同基 因型 植株 的代 
中不易被 找 出 1 5
]。 (
3)代谢 组学 的 目的是研 究 机体  谢物 水平 上 的生物标 志物 。文 中的数 据处 理 中直接 
所有 的代 谢物 ,
而不 同代 谢物 可 能有 较 明显 的尺 度  用 PCA方 法 对原 始 数 据 进 行 聚 类 分 析 和 生 物标 志 
差异,
若获 得 的数 据 不消除 尺度 差 异直 接 用 PCA的  物 的寻找 分析 ,
结 果得 分 图显 示 的 聚类 情 况 不是 很 
方 法进 行 分析 ,
主成 分 的选 择 会 受 到 浓度 较 大 组 分  理想 ,
类 别之 间有 明显 的交叉 ,
投影 图 中有 许 多组分 
的影响 ,
因此 聚类 分 析 结 果 和生 物 标 志物 的寻 找 结  都有 较大 的贡 献 ,
并 且 找 到 的 生 物标 志 物 都 为浓 度 
果 主要是 浓度较 大 的组 分 决 定 的 ,
一 些浓 度 小 的 代  相 对较 大的代 谢 组 分 。基 于这 种 情 况 ,
作 者 为 了验 
谢 组分 的影 响通 常 体 现不 出来 ,
而 这 些小 浓 度 组 分  证 离群样 本点 的诊 断 、
非 保 守 性 代谢 组 分 的排 除 以 
往 往有很 重要 的生 物学意 义¨  。
  及数 据 的 比例 化处 理 对 结 果 的改 进 作 用 ,
采 用 上述 
以上所述 问题 目前在代 谢组 学相 关 的文献 中 已  文献 中所 使用 的原 始 数 据 ,
进 行 了 如下 的尝试 性 分 
经 提 出了一些解 决 办法 。(1)在 离 群样 本 点诊 断 方  析 。在 离 群 样 本 点 诊 断 方 面 将 稳 健 PCA 算 法 
面,
Hol
mes等¨ 提 出 离群 样本 点 诊 断 图 的方 法 ;
在  (ROBPCA)中离群样 本点 的诊 断方 法用 于 代谢组 学 
用 经典 PCA分 析 中 ,
可 以在得 分 图上 画 出一定 置 信  数 据离 群样本 点 的诊 断 ,
预 示 了一些 潜 在 的离 群样 
度 的置信 椭球 ,
处在 置 信 椭球 外 的样 品 点被 认 为是  本 点 的存 在 ,
证 明 了这种 方法 的 可行性 ;
在非 保守性 
不适合利用 P CA分析 , 提示它们可能 为离群 样本  代 谢组 分方 面将类 内差 异大 于类 间差 异作 为衡量非 
点 1

 J;
对 HCA的 聚类 分 析方法 得 到 的树形 图观 察 ,
  保 守性 代谢组 分 的标 准 ,
并 将 判 断 为非 保 守 性 代谢 
也 是一种 提示 哪些样 品点 为可 能的离 群样本 点 的较  组 分 的代谢物 排 除后 再 进 行 数据 分 析 ,
结 果 聚类 分 
直 观且 简便 的方法 1
4]。 (2)在非保 守性代 谢组 分 的  析 的结 果 和 生 物标 志 物 的 寻 找 结 果 得 到 明显 的 改 
存 在会 对分 析结果 产 生 影 响方 面 ,
在 分 类情 况 已知  善;
在解 决不 同代 谢 物 尺度 差 异 方 面 ,用 mea
n.s
ca
le 
的情况 下 ,
可 以用有 导师 的方 法进行 研究 ,
利用 已知  的方法 对数 据进 行数 据 尺 度 同一 化 处 理 后 用 PCA 
的分类情 况进 行特 征 代谢 物 的提 取 ,以用 特征 代 谢  的方法 进行 分析 ,
聚类 的结 果较 为理想 ,
并且 找到 了 
物 为指标 能达 到预 期 的分 类 效 果 为 标 准 ,确 定 哪些  一

些浓 度较 小 的组 分 在 4类 样 品 间 有 较 明 显 的差 
是 特征代 谢 物 ,从 而排 除 了非 保 守 性 代 谢 组 分 -
 ;
】   异,
可 能是有 生物 学意 义的 生物标 志物 ,
这与 直接对 
另 有文献 提 出 ,
对 已知分 类情 况 的每 一类 作 PCA分  原 始数 据进 行分 析找到 的浓度 较大 的 生物标志 物有 
析,
若 在得 分 图上 同一类 样 品分布较 为分 散 ,
则 证 明  一

定 的互补性 ,
预 示 了对 原 数 据 和 尺度 同一化 后 的 
有 非保守 性 的代 谢组 分存在 ,
在投 影 图上 ,
对 主成分  数 据 同时进行 分析 的重要 性 。
 
维普资讯 http://www.cqvip.com

李 晶等 :
代 谢 组 学 研 究 中数 据 处 理 新 方 法 的应 用  ・49・
 

1 离群 样本 点的诊 断  的算法 有 寻 踪 投 影 法 (pr


oje
cti
on pur
sui
t)和 最 小 协 
1.
1 经 典 PCA 方法 和 稳健 PCA 方 法 介 绍 主成  方差 决 定 法 (mi
nimum co
var
iance
 deter
minant)。 目 
分分析 法 (PCA)是 对多 元数据进 行 降维 的一种 主要  前 ROBPCA是 一 种 新 发展 起 来L 的结n 合 以上
O 

O 
种算 
O 
O  8  6   4   2   O 

方法 ,
它处理 的 目的 是有 效 消 除 多信 息 共 存 中 的重  法 的稳 健 PCA算 法 ,
在 进 行 主成 分 分 析 的 同 时 ,还 
叠部 分 ,提 取 出 主 要 成 分 。 经 典 的 主 成 分 分 析 法  可 以 作 出 离 群 样 本 点 诊 断 图 (o
utl
ier
 di
agnos
tic
 

 c
las
sica
l pr
inc
ipl
e co
mponent
 ana
lys
is)经 常 被 用 于  pl
ot)。 图中 的横 坐标 代 表样 本 距 样本 中 心 的 马 氏 
代谢组 学数 据分 析 中。算 法是根 据原 数据协 方差 矩  距离 ,
纵 坐 标 代 表样 本 未 能 被 PCA解 释 的残 差 ,
处 
阵 的结 构 ,
寻找 新 的原 变量 线 性 组 合 后得 到 的主 成  于 右上角 区域 的样 本 为 强离 群 样 本 点 ,
处 于 左上 角 
分,
使沿 着主成 分 的方 向 ,
原数据 的方 差最 大 。代 谢  和右下 角 区域 的样 本点 为弱离 群样 本点 。
 
组学 数据 的 聚类 分 析 通 常 在 PCA分 析 得 到 的得 分  这 种诊 断 图若应 用 于 代谢 组 学 的数 据 分析 中 ,
 
图(s
cor
e pl
ot)中进 行 ,
生 物 标 志物 的寻 找 通 常根 据  可 以从 生物信 息学 的角 度提示 哪些 样本 为潜 在 的离 
PCA分析 得到 的投影 图 (1
oadi
ng pl
ot)中各变 量 对 主  群 样本 点 ,
以便进 行更 深入地 分析 和判 断 ;
若 诊断 的 
成分 贡献 的大小来 判断  。
  结 果经 分析得 到验证 ,
排 除离 群 样 本 点后 对 数 据 进 
然 而经典 PCA对 数据 中的离群 样本 点 (out
li
er)
  行 分析 会更 好地 反映数 据 中蕴含 的生物 学 意义 。
 
较为敏 感 ,
若 数据 中有离 群样 本点 存在 ,
则前 几个 主  1.
2 稳健 PCA 用 于 离 群样 本 点 的诊 断 尝 试 用 
L  L  1  1   1  O   O   O  O  
O   8   6  4  2   O   8   6   4  2  O  
成分会 被 明显地 拉 向离 群 样 本点 ,
从 而不 能 反应 正  ROBPCA的算 法进 行 离 群 样本 点 的诊 断 ,
所 得 的结 
常 的数 据点 间 的差异 。因此 当数据 中有 离群 样本点  果如 图 1所 示 ,由图中可 以看 出 Col
0基 因型 的 8个 
存在 时 ,
用 经典 PCA进 行数 据 降维 分析 得 到 的结 果  植株 中有 1个 强 离 群 样 本点 ,为 2号样 品 ;C24基 
是不 可信 的 。稳 健 PCA算 法 的 目的是 找 到 不 受 离  因型的 8个植 株 中不 存 在 较强 的离 群 样本 点 ,
但 存 
群样 本点 影响 的主 成 分 ,
从 而对 离 群样 本 点 存 在 的  在 2个 弱离 群 样 本 点 ,
为 该 基 因 型样 品的 1号 和 2 
数据 进行 分析 时 ,
也 能 得 到 准确 的结 果 。稳 健 PCA  号 ,对 应 原 数 据 矩 阵 的 9号 和 10号 样 本 ;
Col
0 

ROBI
N2A out
lie
r di
agnos
icpl
t otf
ort
he f
irs
tdassCol
O  ROBI
N2A di
agnos
ticpl
otf
ort
he 
second 
clas
sC 24
 

o 2  o 2 

a  b 
● 

。 ’ 

0  。 

o  7

 
O3 

o, 
●   
: ● 

O  0.
5  1
  1.
5  2  2.
5  3  3.
5  4 4.
5  5  0 

Scor
edi
stanc
e『3LV)
 
RO BPC A di
agnos
ticpl
otf
ort
het
hird 
clas
sColO’C24  RO BPC A om herdi
agnos
ic pl
t otf
ort
hef
ourt
h cl
assC 24 ColO 
’  '   
_  
-  
_
。  

o t.
  o 2 

C  ・
  d  ‘
 
_  

● 

0 7 
_ 

● 

0 3 
● 

go2
 
∞ 8
  07  ●
 
。 。 8 
o o 
o e  o'
 

● 

 
_ ●  -  ●  ●   
●  
_

0  0.
5  1  1.
5  2  2.
5  3  3.
5  0  1
  2  3  4  5  6 

Scor
edi
stanc
e r
3LV)
 

Fi
gure 1  ROBPCA di
agnost
ic pl
ot f
or 
the 
four
 cl
ass
es 
of 
sampl
es. al
 Pl
0t f
0r sampl
es 
of 
Col0 genot
ype;b:Pl
ot 
or s
f ampl
es of
 C24 
genot
ype;C:Pl
ot 
or
f  
sampl
es 
of 
Col0  C24 
genot
ype;d:Pl
0t f
0r 
sampl
es 
of 
C24木Col0 genot
ype 
维普资讯 http://www.cqvip.com


5O・
  药学 学 报 Act
a Pha
rmaceut
ica 
Sini
ca 
2006,
41(1):
47—53 

C24的杂交 子 代 的 8个 植 株 中 1号 为 强 离 群 样 本  义 的生物 学现 象 出现 ,
使 代 谢组 的情 况 发 生 明显 的 
点 ,对应 于原 数据矩 阵 的 1
7号样 本 ;C24  Col
0的  变化 ,
这 时要在 所取 得 的实验 点作重 复试验 ,
并 在该 
杂交 子代 的 8个 植株 中没有 强离 群样本 点 ,
1号 和 2  实 验点 附近 的实验 条 件 下 补数 据 ,
再 进 一 步深 入 地 
号 为弱离 群样 本 点 ,对应 于 原 数 据 矩 阵 的 25和 26
  研究。
 
号 样本 。
  2 非保 守性代 谢组 分 的排除 
经 过上述 的方 法 判 断 ,将一 些 样 本 点判 断 为 可  本 文将类 内差异 大 于类 间差异 的组 分定义 为非 
能 的离群 样本 点 。但 以上 的方 法 为统 计 学 的方 法 ,
  保 守性代 谢 组 分 。组 分 的 类 内差 异 用 标 准 差 来 衡 
判 断的 准确程 度有 一 定 的概 率 问题 ,尤 其是 在 小 样  量,
组分 的类 间差异 用 每 组 数 据 的均 值 的标 准差 衡 
本量 数据 的情 况下 误 判 的概 率 会 更大 ;而且 某 种 情  量 。寻找非 保 守性 代 谢 组 分 是 用 mat
lab软 件 编 程 
况 下离 群样本 点 中可能会 蕴含着 更重 要 的生物学 意  进 行 的。从原 始 的数据矩 阵 中排 除找到 的非保 守性 
义 。因此需要 对这些 可能 的离群 样本 点作进 一步 深  代谢 组分 再用 PCA进行 分析 ,
与原 始 数据 直接 PCA 
入 的考察 。首 先对 数据 来 源 的 图谱 (质 谱 图或 核 磁  分 析作 比较 ,
所 得 到 的结 果 如 下 。 由 图 2的 聚类 结 
图 )进行 观察 ,
与其 他 的 图谱 进行 对 照 ,观察 是 否 有  果 可 以看 出排 除非 保 守 性 代谢 组 分 后 ,
聚 类结 果 可 
异 常的谱 峰存 在 ,
若证 实 在测量 中存 在 问题 ,
根据 实  以达到 明显 的改善 ,
前两 个 主成 分 PC1和 PC2上可 
际情 况 补实验 点或直 接将 已确定 为离 群样 本点 的实  将 两个母 本 Col
0与 C24分 开 ,
并且 可将 两个 母 本与 
验 点排 除再进 行分 析 ;
若 排 除 是测 量 仪 器造 成 的误  子代Col
0  C2
4和C24
  Col
0分开 ;
第 三 主成分 PC3上 
差,
则 可能是生 物体 本 身 存 在 的原 因或 有新 的有 意  可 将两个 子代 基本 分离 ,
虽然 没有达 到完 全 的分离 ,
 
Scar
e pl
ot 
for
 uns
tabl
e vari
abl
es 
exd uded 
dat
a  Sc
ore 
plot
 for
 unst
abl
e var
iabl
es 
excl
uded 
at
d a 

PCl 

Fi
gure 
2  Scor
e pl
ot 
for
 unst
abl
e var
iabl
es excl
uded dat
a.a:PC1
  PC2;b:PC1
  PC3. ・:Repr
esent
 sampl
es 
of
 ColO genot
ype; + :Repr
esent
 sampl
es of 
C24 genot
ype;△ :Represent
 sampl
es of
 Col0  C24 genot
ype;
  :
 
Represent
 sampl
es of
 C24 =

:Col0 genot
ype 

PCl
 

Fi
gure 3  Score pl
ot f
or 
origi
nal
 dat
a.a:PC1
  PC2:b:PCI
  PC3. ・ :Repr
esent
 sampl
es of
 Col0 geno ̄pe;
 
+ :Repr
esent
 sampl
es of
 C24 genot
ype; △ :Repr
esent
 sa
m pl
es of 
Col
 0木C24 genot
ype;
 木 :Repr
esent
 samples 
of
 C24  Col
0 genot
ype 
维普资讯 http://www.cqvip.com

李  品等 :
代 谢 组 学研 究 中数 据 处 理 新 方 法 的应 用 

但 已经 比原有 的不经 排除 非保 守性代 谢组 分直接 用  样 品之 间 的差 异 ;


而在 未 排 除 非保 守 性 代谢 组 分 之 
PCA分析得 到了明显的改善 (图 3),
并且 分离 的正确  前 。由图 5可 以看 出 ,
许 多 组 分 在 PC1,
PC2,
PC3都 
率 与原 文献用 前馈 型神经 网络所 得 的结果 一致 ¨ 。
  有 较大 的贡献 ,因此很 难 找 出几个 作 为有 效 的 生物 
在 PCA分析 得 到 的得 分 图上 能 达 到 正 确 的分  标 志物来 解释 4类 的差异 。
 
类 的基 础上 ,
生物标 志物 的识别 变得 更容 易 ,
并 且避  3 不 同代谢 物 的浓度存 在 尺度差 异的解 决 办法 
免 了假 阳性生 物标 志物 的 出现 。在 排除非 保守性 代  作 者 对 排 除 非 保 守 性 代 谢 组 分 的 数 据 经 过 
谢 组分 后 ,由 图 4可 以看 出 ,23,
38,
61,
65,
66,1
99  me
an.
sca
le方法 预处 理后 。
再用 PCA方法 进行 分析 ,
 
号组 分 对 PC1,
PC2,
PC3构 成 了大 部分 的 贡献 ,
选 出  所 得 的结 果如 图 6。图 7。由 s
cor
e图 (图 6)可 以看 
它们做 生物标 志物 进一 步分 析可 以有效地 解释 4类  出在第 一 主成分 PC1上 可将 1,
2类与 3,
4类分开 ;
 
Lo
adi
ngpl
otf
oruns
tabl
evari
abl
esexcl
uded 
dat
a  Lo
adt
a g pl
otf
r u
o n s
tabl
evar
tabl
l esex
clude
d dat
a 

‘  a  b 
・ 

. 1 

p-  扣 
● 
l9
9  ● ● 
● 
。。  ●! 
. 
3  ’  

- 
I 

 
一5
 
5 

●6
 
. 
e 

 
_
扣 

PC1 

Fi
gure 4  Loadi
ng pl
ot f
or 
uns
tabl
e vari
abl
es excl
uded dat
a. a:PC1
  PC2:b:PC1
  PC3 
Loadl
m gpl
otf
oror
igi
nald
ata 
● 

a  b 

 

●  ● 
6  ●  ●  ●  ・
 
● 
● 
● 
●  ‘ ●
 

●  ●t— -  
● 

●  ●
 r_.・
, 。 。 
● 
● 

・  4 

‘1●   ●● ●
  ● 
。 
一  

. 

・ 

● 

6 
 
. .   
. .  _  ● 

6  6 

PCl 

Fi
u re 5  L
g o adi
ng pl
ot f
or 
origi
nal
 dat
a. a:PC1
  PC2;b:PC1
  PC3 
S0叮eplotf
ormeln-scal
d and mlst
e a bl
ev ̄ l
ables ̄tcluded dat
a  Scol
'eptotfo
r m ell
—scaledmi
d ul
last
a bl
evm-l
ables
 excl
ude
d d
a t
a 

Fi
u re 
g 6  Scor
e pl
ot f
or mean-scal
ed and unst
bl
a e var
ia
bles
 excl
uded dat
a.a:PC1
  PC2:b:PC1
  PC3.
 
・ :Repr
esent
 sampl
es of
 Col0 genot
ype; + :Repr
esent
 sampl
es of
 C24 genot
ype; △ :Repr
esent
 sm pl
a es of 
Col0 :

=C24 genot
ype;
  :Repr
esent
 sampl
es of 
C24  Col0 genot
ype 
维普资讯 http://www.cqvip.com

药学学报 Ac
ta 
Pha
rma
ceu
tic
a S
ini
ca 
2006,
41(1
):4
7—53
 

Loadi
ngpl
gtf
or  s
r ed andt
nls
tll
blevlrht
bles exc
l udeddata  Loadingplgtform  ̄n-scaled 
and 
u ̄stabl
evarlables 
eIdudedd耻_ 

O.
3 
・  a  b 
0.
2 
・ :
  ・. ’.
‘  鬈。
Z..
 
0.
1 

  ..
  -
-.
-  。・
  ’・
  : ’
 
0  。
  。  }
_
1 ・ 
N  
. 
.●l l  ’’ 
。 

盘_ .0.
1 
・・
  .『 ‘:
..一 ・
  .
. 

‘ l 

O.
2  ・ 
. 

●  ‘ ●  ’ 

● ● 

0.
3  ● 

● 
● 


O.
4  :
  J39
  ● 


0.5 

0.25.0.
2.0.
15 .0.
1.0.
O5 0  0。
05 0.1
 0.15 0.
2 

PC1 

Fi
gure 7  Loadi
ng pl
ot f
or mean-s
cal
ed and unst
abl
e var
iabl
es excl
uded dat
a.a:PC 
1  PC2:b:PC 
1  PC3 

在第二 主成 分 PC2上 可将 1和 2类 分开 ;
在 第 三主  l  ferences 

成 分 PC3上可在 一定 程度上 将 3和 4类 分开 ,而且  [1] Ni


cho
lso
n J
K,Ln
don
 JC,Ho
lme
s E.“Me
tabo
nomi
cs”:
 
under
standi
ng 
the
 met
abol
ic r
espons
es 
of 
liv
ing 
syst
ems
 to
 
分 离 的效果 比不经 过预处 理 的结 果 (图 2)要 明显 。
 
pat
hophys
iol
ogi
cal
  s
timul
i  vi
a  mul
tivar
iat
e  st
ati
sti
cal
 
由l
oadi
ng图 (图 7)看 出 ,虽然 不 能像 在 原 始数 

nal
ysi
s o
f b
iol
ogi
cal
 NMR s
pec
tro
scop
ic da
ta [J].
 
据 排 除非保 守 性 代 谢 组 分 不 经 过 任 何 预 处 理 进 行  Xenobi
oti
ca.1999 。
29:
l181 一 l189.
 

PCA分析 得到 的 l
oadi
ng图那样 ,
可 以由几个 组 分对  [
2]Li
ndo
n J
C,  Ni
cho
lso
n J
K, Ho
lmes
  E。
 et
 a1

 
Cont
empor
ary  i
ssues
  i
n  t
oxi
col
ogy
  t
he  r
ole  o
f 
PC1,
PC2,
PC3构 成大 部分 贡献 ,
但是 1
29,
214,
389,
 
me
tabonom i
cs i
n t
oxi
col
ogy and  i
ts  eva
luat
ion by t
he 
420号组分 都在 PC1,PC3上 有 相对 比较 大 的 贡献 ,
  COME
T p
roj
ect[J].To
xic
ol Ap
pl Ph
arma
col
,20
03,
 

39号组分 在 PC2上 有 相 对 比较 大 的 贡献 ,而且 这  1
87:
137 —146.
 

些组分 都是 浓度 较小 的组 分 ,
说 明经过 s
cal
e方 法找  [
3]Li
u CX, Li
  C, Lin  DH, et
 a1. Si
gni
fi
canc
e of
 
met
abo
nomi
cs i
n d
rug
 disco
vey a
r nd de
vel
opment[J].
 
到 的 bi
oma
rke
r多是浓 度较小 的组 分 ,
这些组 分 也不 
Asi
an 
J Dr
u g Met
ab Phar
macoki
net
,2004,
4:87—96.
 
能忽 略 ,
应 仔细分 析 其 浓度 在 组 与组 之 间变 化 的特  [
4] Liu 
CX.App li
cat
ion
 of
 metabono
mic
s i
n dug
r  dis
cover
y 
点,判 断这 些小浓 度组 分是 否为 噪音 ,以确定 它们是  and 
devel
opment[M]/ /He  FC.Post
-ge
ne -
time:Drug 
否 为有 意 义 的生 物标 志物 。
  Dias
cover
y. Bei
ji
ng: Mil
it
ary Medi
cal
 Science Pres
s, 
2004:1
7 — 20.
 
4 结论 

5]Ni
cho
lso
n J
K,  Co
nne
lly
 J, L
indo
n J
C。  et
 a1.
 
稳健 PCA算 法 (ROBPCA)适 合 于 代 谢 组 学 数  Me
tabonomi
cs:a pl
atf
orm f
or s
tudyi
ng dr
u g t
oxi
cit
y a
nd 

据分 析 中离群样 本点 的诊 断 。诊 断结 果从生 物信 息  g
ene
 fun
cti
on[J
].Na
t Re
v Dr
ug 
Dis
cov,2
002,
l:1
53一 
l61.
 
学 的角度 预示 的潜在 的离群 样本 点有 待于进 一步 深 

6]Pu
mb RS, St
ump
f CL, Go
ren
ste
in MV。 e
t a
1.
 
入地 分析 和判 断 。
  Me
tabonomi
cs:t
he use
 of
 el
ect
o spr
r y m a
ss spect
romet
y 

非保 守性代 谢组 分在许 多代 谢组学 的研 究 中存  c
oupl
ed t
o r
evese
d-phas
e l
iqui
d chr
om at
ogra
phy s
how a 

在,
在样本 的分类 情 况基本 清楚 的情 况下 ,
以类 内差  pot
ent
ial
 for
 the
  sc
reeni
ng  o
f r
at  ur
ine
  i
n  dr
u g 

异 大于类 间差异 为标 准进 行非保 守性 代谢组 分 的判  d


eve
lop
men
t[J].Ra
pid
 Co
mmu
n Ma
ss 
Spe
ctr
om,2
002,
 
16:
1991 — 1
996.
 
断是 一种 可行 的办 法 ,
将 判 断 为非 保 守性 代 谢 组 分 

7]Pl
umb
 RS,S
tump
f CL,Gr
ang
er 
JH,e
t a
1.Us
e o
f l
iqui
d 
的变 量从 整体数 据 中排 除 后再进 行后续 的模 式识 别  chr
omat
og
r aphy
/ti
me・

of・

li
f ght
  mas
s  s
pect
o met
r y  a
r n d 

分析、
聚 类分析结 果 和生物 标志物 的识 别 ,
结 果会得  mul
tiv
ari
ate
 st
ati
sti
cal
 anal
ysi
s shows
 pr
omi
se f
or t
he 

到 改进 。
  d
ete
cti
on 
of d
ug
r  me
tabo
lit
es i
n b
iol
ogi
cl f
a lui
ds[J].
 
Rapi
d Comm un 
M ass
 Spect
rom ,2003,1
7:2632 —2638.
 
代谢 组学数 据按 照一 定 的 比例化 方法进 行 尺度 

8] Li
ndon 
JC,Holmes 
E,Ni c
hol
son 
JK.So
 wha
t’ S
 th
e de
l 

同一化处 理 ,
能有效 消除 不 同代 谢 物 浓度 的尺 度差  wi
th 
metab
onomic
s?[ J].Anal
 Chem,2
003,75:384A一 
391A .
 
异,
可 以体现小 浓度 代谢组 分在 分析 中所起 的作 用 ,
 

9]Re
o NV.NMR-
bas
ed me
tab
olo
mic
s [J]
. Dr
ug Ch
em 
因此预处 理后 的数 据分析 结果 与直 接进行分 析 的结 
Tox
ico
l,2002,
25:
375 —382.
 
果有一 定 的互补性 ,在代 谢 组 学 的数 据分 析 中应 同  [1
0]Ni
cho
los
on J
K, Wi
ls
on I
D. Und
ers
tand
ing ‘g
lob
l’
a  
时进 行分 析 。
  s
yst
ems
 bi
ology: met
abonomi
es and t
he cont
inuum of
 
维普资讯 http://www.cqvip.com

李 品等 :
代谢组学研究 中数据处理新方法的应用  ・5
3・ 

me
tab
oli
sm[
J].Dr
ug 
Dis
cov,2
003,
2:66
8—67
2.  [
15]Ta
ylo
r J,Ki
ng RD,Al
tma
nn H,e
t a
1.App
lic
ati
on o
f 
Dal
luge
 JJ,Smi
th S,Sa
nchez
—Ri
era 
F,et
 a1
.Pot
ent
ial
 of
  met
b ol
a omi
cs t
o  pl
ant
  ge
not
ype  di
scr
imi
nat
ion  us
ing 


erm ent
ati
on pr
ofil
ing
 vi
a r
api
d measur
ement
 of
 ami
no  s
tat
is
ti
cs a
nd ma
chi
ne l
ear
nin
g [J]. Bi
oin
for
mat

cs,
 

cid
 met
abol
ism by
 li
qui
d chr
omat
ogr
aphy—
tandem mass
  2002,18:
241—248.
 


pec
tro
met
ry[
J].J
 Ch
roma
tog
r A,2
004,
104
3:3—7.
  『1
6] Er
iks
son L, J
oha
nsson
  E, Wo
ld NK.
  Muhi
. a
nd 

1  Wu L,Mas
2] hego MR,v
an Da
m J
C,et
 a1
.Quant
it
ati
ve  Me
gavar
iat
e Dat
a Ana
lys
is: Pr
inc
ipl
es and Appl
icat
ions
 
anal
ysi
s of
 the
 mi
crobi
al met
abol
ome by
 isot
ope di
lut
ion  『M1.Sweden:Umet
ics
r  Academy,2001:
43—63.
 
mt
tss
 spect
romet
y  us
r ing  uni
for
mlv  C—
label
ed  c
ell
  [1
7] S
jor
kma
n HI, Edl
und
 PO, Kv
lh
a e
im OM, e
t a
1.
 

xtr
act
s a
s i
nte
rna
l s
tan
dar
ds[
J].An
al 
Bio
che
m,2
005,
  Scr
eeni
ng o
f  bi
oma
rke
rs  i
n  r
at  ur
ine
  us
ing  LC/ 
336:1
64 — 1
71.
  el
ect
rospr
ay  i
oni
zat
ion-

M S  a
nd  t
wo-

way
  dat
a  a
nalysi
s 

[1
3] Li
ndo
n J,Hol
mes
 E,Ni
cho
los
on J
K.Pat
ter
n r
eco
gni
tion  [
J].Ana
l Che
m,2
003,
75:
478
4—47
92.
 
met
hods
  and  appl
icat
ions
  i
n  bi
omedi
cal
  ma
n e
g tic  [1
8] Hol
mes
 E,Ni
chol
ls 
AW ,Li
ndon 
JC,et
 a1
.Chemomet
ric
 

eso
nan
ce[
J].P
rog
 Nu
cl 
Mag
n Re
son
 Spe
ctos
r c,2
001,
  model
s f
or 
toxi
cit
y cl
assi
ica
f tion bas
ed o
n NMR 
spect
ra 
of 
39:
1—40.
  bi
olui
f ds[J].Che
m Res 
Tox
ico
l,2
000,13:
471—478. 
[1
4] Coen M, Lenz
  EⅣr, Ni
chol
oson JK.
  An
 int
egr
ated  [1
9] Yang 
J,Xu 
GW ,Hong
 QF,et
 1.Di
a s
cimi
r n
ati
on 
of 

ype 
met
abonomi
c i
nves
tigat
ion of
 ac
etami
nophen t
oxi
cit
y i
n  2 di
abet
ic  pat
ient
s f
rom  hea
lthy  co
ntr
ols
  by
  us
ing
 


he mo
use
 us
ing
 NMR s
pec
tro
sco
py [J]. Ch
em Re
s  met
abonomi
cs met
ho
d  base
d on t
hei
r ser
u m f
att
y aci
d 
Toxi
col,2003,1
6:295 —303.
  pr
of
il
es[
J].J
 Chr
oma
tog
r B,20
04,
813:
53—5
8. 

矫  秘  爷  笮  2  不  铞  ;

  {!
;  !
轿 !
杯{!
:  !
. :
  !
标  杯   
一 !
: 

中国药 学会 百年庆 典史 料征 集 函 

2007年是 中国药学会成立 1 00周年 ,为庆祝 学会百年, 经学会常务理事会研 究决定, 届 时我会 


将编 纂 出版 《中国 药学会 百年 史》及 出版 VCD及 纪 念 画册 等 ,目的在 于 回顾 学 会 历 史 ,
展 望未来,  
以促 进我 国的 药学事 业取得 更 大的成就 。在 此 ,特 向全 国药 学相 关人 士 公 开征 集 有 关本 会及 各 专 
业委 员会 、各地 分会 的开展 学术 活动及 组 织活动 的 历 史资料 ,包括 建 国前 几十 年 的 相 关资料 ,文 字 
报道 、摄影 图片及 实物 等 。 同时也收 集近 百年 来与 药 学相 关的 教 育 、
科 研 、生产 、企 业 、临床 药 学及 
质量 管理 和检 验 等 专业和 单位 纪念性 的综合 历 史资料 ,恳望得 到 各位 与 本 会有 过 直接 或 间接 往 来 
的各 位 同行 前 辈 、专家或其 家属 、亲属 ,
给 予 大力地 协 助与 支持 ,亦烦请 知情 者代转 告之 。
 
联 系地 址 :北 京 市北礼 士路 甲 38号 中国药学会 组织 工作部  邮编 :1
00810
 
联 系 人 :张 茳、黄石 麟  电子信 箱 :c
pa@cpa.o
rg.a
n 

You might also like