Professional Documents
Culture Documents
代谢组学研究中数据
代谢组学研究中数据
com
药 学 学 报 Act
a Phar
maceut
ica
Sini
ca
2006,
41(1):
47—53
代 谢 组 学 研 究 中 数 据 处 理 新 方 法 的 应 用
(1.天 津 大 学 化 工 学 院 制药 工程 系 ,天 津 3
0007
2;
2.天津药物研究 院 药物动力学与药效动力学省部共建国家重点实验室 ,天津 30
019
3)
Appl
icat
ion of
new m et
hod f
or dat
a process
ing
in m et
abonomi
c st
udi
es
LI
Ji
ng。,WU Xi
ao-
jia
n。,LI
U Cha
ng.
xia
o。,
,YUAN
Ying
-ji
n。
(J.De
par
tment
ofPhar
mac
eut
ical
Engi
nee
ring,I
nst
itte
u o
f Chemi
cal
En
giee
n ri
ng,Ti
anj
in Uni
ver
sit
y,Ti
anj
in
30007
2,Chi
na;2.St
ate
Ke
y L
abo
rat
ory
f Ph
o arma
cok
iet
n i
cs
an
d Ph
arma
cod
yna
mics,Ti
anin
f
Ist
n i
tte
u
f Ph
o arma
ceti
u c
al
Res
ear
ch,T
ian
jin
30
019
3,Ch
ina)
Abstract:A i
m To sear
ch f
or and appl
icat
ion of new m et
hod f
or dat
a pr
ocessi
ng i
n met
abonomi
c
st
udi
es. M ethods
The paper
proposed t
hat
in t
he processi
ng of
m et
abonomi
c dat
a, r
obust
PCA met
hod
ca
n be
us
ed t
o di
agnos
e o
utl
ier
s;a
nd uns
tabl
e v
ar
iabl
es
judg
ed
by
compa
is
r on
bet
wee
n di
fer
ence
wi
thi
n
cl
ass
and di
ffer
ence among
classes
shoul
d be excl
uded bef
ore dat
a anal
ysi
s;m or
eover,t
he dat
a s
houl
d be
proper
ly s
cal
ed bef
ore f
urt
her
proces
sing.The pr
opos
ed met
hods
wer
e us
ed
to preprocess
met
abol
omi
c dat
a
of
four
genot
ypes
of
the
Arabi
dopsi
s t
hal
iana pl
ant
s. Resul
ts and Concl
usi
on The out
com e demonst
rat
ed
t
hat
the appl
icat
ion of
these met
hods
can obvi
ousl
y i
mprove cl
ust
ering and bi
omarker i
dent
ifyi
ng resul
ts.
Key words: met
abol
omi
cs; out
lier di
agnosi
s; unst
abl
e met
abol
ite; dat
a pr
e—scal
ing; pr
inci
ple
com ponent
anal
ysi
s
药 学学 报 Ac
ta
Phar
mac
eut
ica
Si
nic
a 2
006,
41(1):
47—5
3
些浓 度较 小 的组 分 在 4类 样 品 间 有 较 明 显 的差
是 特征代 谢 物 ,从 而排 除 了非 保 守 性 代 谢 组 分 -
;
】 异,
可 能是有 生物 学意 义的 生物标 志物 ,
这与 直接对
另 有文献 提 出 ,
对 已知分 类情 况 的每 一类 作 PCA分 原 始数 据进 行分 析找到 的浓度 较大 的 生物标志 物有
析,
若 在得 分 图上 同一类 样 品分布较 为分 散 ,
则 证 明 一
定 的互补性 ,
预 示 了对 原 数 据 和 尺度 同一化 后 的
有 非保守 性 的代 谢组 分存在 ,
在投 影 图上 ,
对 主成分 数 据 同时进行 分析 的重要 性 。
维普资讯 http://www.cqvip.com
李 晶等 :
代 谢 组 学 研 究 中数 据 处 理 新 方 法 的应 用 ・49・
方法 ,
它处理 的 目的 是有 效 消 除 多信 息 共 存 中 的重 法 的稳 健 PCA算 法 ,
在 进 行 主成 分 分 析 的 同 时 ,还
叠部 分 ,提 取 出 主 要 成 分 。 经 典 的 主 成 分 分 析 法 可 以 作 出 离 群 样 本 点 诊 断 图 (o
utl
ier
di
agnos
tic
f
c
las
sica
l pr
inc
ipl
e co
mponent
ana
lys
is)经 常 被 用 于 pl
ot)。 图中 的横 坐标 代 表样 本 距 样本 中 心 的 马 氏
代谢组 学数 据分 析 中。算 法是根 据原 数据协 方差 矩 距离 ,
纵 坐 标 代 表样 本 未 能 被 PCA解 释 的残 差 ,
处
阵 的结 构 ,
寻找 新 的原 变量 线 性 组 合 后得 到 的主 成 于 右上角 区域 的样 本 为 强离 群 样 本 点 ,
处 于 左上 角
分,
使沿 着主成 分 的方 向 ,
原数据 的方 差最 大 。代 谢 和右下 角 区域 的样 本点 为弱离 群样 本点 。
组学 数据 的 聚类 分 析 通 常 在 PCA分 析 得 到 的得 分 这 种诊 断 图若应 用 于 代谢 组 学 的数 据 分析 中 ,
图(s
cor
e pl
ot)中进 行 ,
生 物 标 志物 的寻 找 通 常根 据 可 以从 生物信 息学 的角 度提示 哪些 样本 为潜 在 的离
PCA分析 得到 的投影 图 (1
oadi
ng pl
ot)中各变 量 对 主 群 样本 点 ,
以便进 行更 深入地 分析 和判 断 ;
若 诊断 的
成分 贡献 的大小来 判断 。
结 果经 分析得 到验证 ,
排 除离 群 样 本 点后 对 数 据 进
然 而经典 PCA对 数据 中的离群 样本 点 (out
li
er)
行 分析 会更 好地 反映数 据 中蕴含 的生物 学 意义 。
较为敏 感 ,
若 数据 中有离 群样 本点 存在 ,
则前 几个 主 1.
2 稳健 PCA 用 于 离 群样 本 点 的诊 断 尝 试 用
L L 1 1 1 O O O O
O 8 6 4 2 O 8 6 4 2 O
成分会 被 明显地 拉 向离 群 样 本点 ,
从 而不 能 反应 正 ROBPCA的算 法进 行 离 群 样本 点 的诊 断 ,
所 得 的结
常 的数 据点 间 的差异 。因此 当数据 中有 离群 样本点 果如 图 1所 示 ,由图中可 以看 出 Col
0基 因型 的 8个
存在 时 ,
用 经典 PCA进 行数 据 降维 分析 得 到 的结 果 植株 中有 1个 强 离 群 样 本点 ,为 2号样 品 ;C24基
是不 可信 的 。稳 健 PCA算 法 的 目的是 找 到 不 受 离 因型的 8个植 株 中不 存 在 较强 的离 群 样本 点 ,
但 存
群样 本点 影响 的主 成 分 ,
从 而对 离 群样 本 点 存 在 的 在 2个 弱离 群 样 本 点 ,
为 该 基 因 型样 品的 1号 和 2
数据 进行 分析 时 ,
也 能 得 到 准确 的结 果 。稳 健 PCA 号 ,对 应 原 数 据 矩 阵 的 9号 和 10号 样 本 ;
Col
0
ROBI
N2A out
lie
r di
agnos
icpl
t otf
ort
he f
irs
tdassCol
O ROBI
N2A di
agnos
ticpl
otf
ort
he
second
clas
sC 24
o 2 o 2
a b
●
。 ’
0 。
o 7
o
O3
。
o,
●
: ●
O 0.
5 1
1.
5 2 2.
5 3 3.
5 4 4.
5 5 0
Scor
edi
stanc
e『3LV)
RO BPC A di
agnos
ticpl
otf
ort
het
hird
clas
sColO’C24 RO BPC A om herdi
agnos
ic pl
t otf
ort
hef
ourt
h cl
assC 24 ColO
’ '
_
-
_
。
o t.
o 2
C ・
d ‘
_
●
0 7
_
●
0 3
●
go2
∞ 8
07 ●
。 。 8
o o
o e o'
●
_ ● - ● ●
●
_
0 0.
5 1 1.
5 2 2.
5 3 3.
5 0 1
2 3 4 5 6
Scor
edi
stanc
e r
3LV)
Fi
gure 1 ROBPCA di
agnost
ic pl
ot f
or
the
four
cl
ass
es
of
sampl
es. al
Pl
0t f
0r sampl
es
of
Col0 genot
ype;b:Pl
ot
or s
f ampl
es of
C24
genot
ype;C:Pl
ot
or
f
sampl
es
of
Col0 C24
genot
ype;d:Pl
0t f
0r
sampl
es
of
C24木Col0 genot
ype
维普资讯 http://www.cqvip.com
・
5O・
药学 学 报 Act
a Pha
rmaceut
ica
Sini
ca
2006,
41(1):
47—53
C24的杂交 子 代 的 8个 植 株 中 1号 为 强 离 群 样 本 义 的生物 学现 象 出现 ,
使 代 谢组 的情 况 发 生 明显 的
点 ,对应 于原 数据矩 阵 的 1
7号样 本 ;C24 Col
0的 变化 ,
这 时要在 所取 得 的实验 点作重 复试验 ,
并 在该
杂交 子代 的 8个 植株 中没有 强离 群样本 点 ,
1号 和 2 实 验点 附近 的实验 条 件 下 补数 据 ,
再 进 一 步深 入 地
号 为弱离 群样 本 点 ,对应 于 原 数 据 矩 阵 的 25和 26
研究。
号 样本 。
2 非保 守性代 谢组 分 的排除
经 过上述 的方 法 判 断 ,将一 些 样 本 点判 断 为 可 本 文将类 内差异 大 于类 间差异 的组 分定义 为非
能 的离群 样本 点 。但 以上 的方 法 为统 计 学 的方 法 ,
保 守性代 谢 组 分 。组 分 的 类 内差 异 用 标 准 差 来 衡
判 断的 准确程 度有 一 定 的概 率 问题 ,尤 其是 在 小 样 量,
组分 的类 间差异 用 每 组 数 据 的均 值 的标 准差 衡
本量 数据 的情 况下 误 判 的概 率 会 更大 ;而且 某 种 情 量 。寻找非 保 守性 代 谢 组 分 是 用 mat
lab软 件 编 程
况 下离 群样本 点 中可能会 蕴含着 更重 要 的生物学 意 进 行 的。从原 始 的数据矩 阵 中排 除找到 的非保 守性
义 。因此需要 对这些 可能 的离群 样本 点作进 一步 深 代谢 组分 再用 PCA进行 分析 ,
与原 始 数据 直接 PCA
入 的考察 。首 先对 数据 来 源 的 图谱 (质 谱 图或 核 磁 分 析作 比较 ,
所 得 到 的结 果 如 下 。 由 图 2的 聚类 结
图 )进行 观察 ,
与其 他 的 图谱 进行 对 照 ,观察 是 否 有 果 可 以看 出排 除非 保 守 性 代谢 组 分 后 ,
聚 类结 果 可
异 常的谱 峰存 在 ,
若证 实 在测量 中存 在 问题 ,
根据 实 以达到 明显 的改善 ,
前两 个 主成 分 PC1和 PC2上可
际情 况 补实验 点或直 接将 已确定 为离 群样 本点 的实 将 两个母 本 Col
0与 C24分 开 ,
并且 可将 两个 母 本与
验 点排 除再进 行分 析 ;
若 排 除 是测 量 仪 器造 成 的误 子代Col
0 C2
4和C24
Col
0分开 ;
第 三 主成分 PC3上
差,
则 可能是生 物体 本 身 存 在 的原 因或 有新 的有 意 可 将两个 子代 基本 分离 ,
虽然 没有达 到完 全 的分离 ,
Scar
e pl
ot
for
uns
tabl
e vari
abl
es
exd uded
dat
a Sc
ore
plot
for
unst
abl
e var
iabl
es
excl
uded
at
d a
PCl
Fi
gure
2 Scor
e pl
ot
for
unst
abl
e var
iabl
es excl
uded dat
a.a:PC1
PC2;b:PC1
PC3. ・:Repr
esent
sampl
es
of
ColO genot
ype; + :Repr
esent
sampl
es of
C24 genot
ype;△ :Represent
sampl
es of
Col0 C24 genot
ype;
:
Represent
sampl
es of
C24 =
j
:Col0 genot
ype
PCl
Fi
gure 3 Score pl
ot f
or
origi
nal
dat
a.a:PC1
PC2:b:PCI
PC3. ・ :Repr
esent
sampl
es of
Col0 geno ̄pe;
+ :Repr
esent
sampl
es of
C24 genot
ype; △ :Repr
esent
sa
m pl
es of
Col
0木C24 genot
ype;
木 :Repr
esent
samples
of
C24 Col
0 genot
ype
维普资讯 http://www.cqvip.com
李 品等 :
代 谢 组 学研 究 中数 据 处 理 新 方 法 的应 用
‘ a b
・
. 1
q
p- 扣
●
l9
9 ● ●
●
。。 ●!
.
3 ’
-
I
L
一5
5
●6
.
e
_
扣
PC1
Fi
gure 4 Loadi
ng pl
ot f
or
uns
tabl
e vari
abl
es excl
uded dat
a. a:PC1
PC2:b:PC1
PC3
Loadl
m gpl
otf
oror
igi
nald
ata
●
a b
6
● ●
6 ● ● ● ・
●
●
●
● ‘ ●
● ●t— -
●
● ●
r_.・
, 。 。
●
●
●
・ 4
●
‘1● ●● ●
●
。
一
.
・
●
6
. .
. . _ ●
6 6
PCl
Fi
u re 5 L
g o adi
ng pl
ot f
or
origi
nal
dat
a. a:PC1
PC2;b:PC1
PC3
S0叮eplotf
ormeln-scal
d and mlst
e a bl
ev ̄ l
ables ̄tcluded dat
a Scol
'eptotfo
r m ell
—scaledmi
d ul
last
a bl
evm-l
ables
excl
ude
d d
a t
a
Fi
u re
g 6 Scor
e pl
ot f
or mean-scal
ed and unst
bl
a e var
ia
bles
excl
uded dat
a.a:PC1
PC2:b:PC1
PC3.
・ :Repr
esent
sampl
es of
Col0 genot
ype; + :Repr
esent
sampl
es of
C24 genot
ype; △ :Repr
esent
sm pl
a es of
Col0 :
I
=C24 genot
ype;
:Repr
esent
sampl
es of
C24 Col0 genot
ype
维普资讯 http://www.cqvip.com
药学学报 Ac
ta
Pha
rma
ceu
tic
a S
ini
ca
2006,
41(1
):4
7—53
Loadi
ngpl
gtf
or s
r ed andt
nls
tll
blevlrht
bles exc
l udeddata Loadingplgtform  ̄n-scaled
and
u ̄stabl
evarlables
eIdudedd耻_
O.
3
・ a b
0.
2
・ :
・. ’.
‘ 鬈。
Z..
0.
1
。
..
-
-.
- 。・
’・
: ’
0 。
。 }
_
1 ・
N
.
.●l l ’’
。
盘_ .0.
1
・・
.『 ‘:
..一 ・
.
.
‘ l
.
O.
2 ・
.
● ‘ ● ’
● ●
.
0.
3 ●
●
●
.
O.
4 :
J39
●
.
0.5
.
0.25.0.
2.0.
15 .0.
1.0.
O5 0 0。
05 0.1
0.15 0.
2
PC1
Fi
gure 7 Loadi
ng pl
ot f
or mean-s
cal
ed and unst
abl
e var
iabl
es excl
uded dat
a.a:PC
1 PC2:b:PC
1 PC3
在第二 主成 分 PC2上 可将 1和 2类 分开 ;
在 第 三主 l ferences
PCA分析 得到 的 l
oadi
ng图那样 ,
可 以由几个 组 分对 [
2]Li
ndo
n J
C, Ni
cho
lso
n J
K, Ho
lmes
E。
et
a1
.
Cont
empor
ary i
ssues
i
n t
oxi
col
ogy
t
he r
ole o
f
PC1,
PC2,
PC3构 成大 部分 贡献 ,
但是 1
29,
214,
389,
me
tabonom i
cs i
n t
oxi
col
ogy and i
ts eva
luat
ion by t
he
420号组分 都在 PC1,PC3上 有 相对 比较 大 的 贡献 ,
COME
T p
roj
ect[J].To
xic
ol Ap
pl Ph
arma
col
,20
03,
1
39号组分 在 PC2上 有 相 对 比较 大 的 贡献 ,而且 这 1
87:
137 —146.
些组分 都是 浓度 较小 的组 分 ,
说 明经过 s
cal
e方 法找 [
3]Li
u CX, Li
C, Lin DH, et
a1. Si
gni
fi
canc
e of
met
abo
nomi
cs i
n d
rug
disco
vey a
r nd de
vel
opment[J].
到 的 bi
oma
rke
r多是浓 度较小 的组 分 ,
这些组 分 也不
Asi
an
J Dr
u g Met
ab Phar
macoki
net
,2004,
4:87—96.
能忽 略 ,
应 仔细分 析 其 浓度 在 组 与组 之 间变 化 的特 [
4] Liu
CX.App li
cat
ion
of
metabono
mic
s i
n dug
r dis
cover
y
点,判 断这 些小浓 度组 分是 否为 噪音 ,以确定 它们是 and
devel
opment[M]/ /He FC.Post
-ge
ne -
time:Drug
否 为有 意 义 的生 物标 志物 。
Dias
cover
y. Bei
ji
ng: Mil
it
ary Medi
cal
Science Pres
s,
2004:1
7 — 20.
4 结论
[
5]Ni
cho
lso
n J
K, Co
nne
lly
J, L
indo
n J
C。 et
a1.
稳健 PCA算 法 (ROBPCA)适 合 于 代 谢 组 学 数 Me
tabonomi
cs:a pl
atf
orm f
or s
tudyi
ng dr
u g t
oxi
cit
y a
nd
据分 析 中离群样 本点 的诊 断 。诊 断结 果从生 物信 息 g
ene
fun
cti
on[J
].Na
t Re
v Dr
ug
Dis
cov,2
002,
l:1
53一
l61.
学 的角度 预示 的潜在 的离群 样本 点有 待于进 一步 深
[
6]Pu
mb RS, St
ump
f CL, Go
ren
ste
in MV。 e
t a
1.
入地 分析 和判 断 。
Me
tabonomi
cs:t
he use
of
el
ect
o spr
r y m a
ss spect
romet
y
r
非保 守性代 谢组 分在许 多代 谢组学 的研 究 中存 c
oupl
ed t
o r
evese
d-phas
e l
iqui
d chr
om at
ogra
phy s
how a
在,
在样本 的分类 情 况基本 清楚 的情 况下 ,
以类 内差 pot
ent
ial
for
the
sc
reeni
ng o
f r
at ur
ine
i
n dr
u g
分析、
聚 类分析结 果 和生物 标志物 的识 别 ,
结 果会得 mul
tiv
ari
ate
st
ati
sti
cal
anal
ysi
s shows
pr
omi
se f
or t
he
到 改进 。
d
ete
cti
on
of d
ug
r me
tabo
lit
es i
n b
iol
ogi
cl f
a lui
ds[J].
Rapi
d Comm un
M ass
Spect
rom ,2003,1
7:2632 —2638.
代谢 组学数 据按 照一 定 的 比例化 方法进 行 尺度
[
8] Li
ndon
JC,Holmes
E,Ni c
hol
son
JK.So
wha
t’ S
th
e de
l
a
同一化处 理 ,
能有效 消除 不 同代 谢 物 浓度 的尺 度差 wi
th
metab
onomic
s?[ J].Anal
Chem,2
003,75:384A一
391A .
异,
可 以体现小 浓度 代谢组 分在 分析 中所起 的作 用 ,
[
9]Re
o NV.NMR-
bas
ed me
tab
olo
mic
s [J]
. Dr
ug Ch
em
因此预处 理后 的数 据分析 结果 与直 接进行分 析 的结
Tox
ico
l,2002,
25:
375 —382.
果有一 定 的互补性 ,在代 谢 组 学 的数 据分 析 中应 同 [1
0]Ni
cho
los
on J
K, Wi
ls
on I
D. Und
ers
tand
ing ‘g
lob
l’
a
时进 行分 析 。
s
yst
ems
bi
ology: met
abonomi
es and t
he cont
inuum of
维普资讯 http://www.cqvip.com
李 品等 :
代谢组学研究 中数据处理新方法的应用 ・5
3・
me
tab
oli
sm[
J].Dr
ug
Dis
cov,2
003,
2:66
8—67
2. [
15]Ta
ylo
r J,Ki
ng RD,Al
tma
nn H,e
t a
1.App
lic
ati
on o
f
Dal
luge
JJ,Smi
th S,Sa
nchez
—Ri
era
F,et
a1
.Pot
ent
ial
of
met
b ol
a omi
cs t
o pl
ant
ge
not
ype di
scr
imi
nat
ion us
ing
f
erm ent
ati
on pr
ofil
ing
vi
a r
api
d measur
ement
of
ami
no s
tat
is
ti
cs a
nd ma
chi
ne l
ear
nin
g [J]. Bi
oin
for
mat
i
cs,
a
cid
met
abol
ism by
li
qui
d chr
omat
ogr
aphy—
tandem mass
2002,18:
241—248.
s
pec
tro
met
ry[
J].J
Ch
roma
tog
r A,2
004,
104
3:3—7.
『1
6] Er
iks
son L, J
oha
nsson
E, Wo
ld NK.
Muhi
. a
nd
[
1 Wu L,Mas
2] hego MR,v
an Da
m J
C,et
a1
.Quant
it
ati
ve Me
gavar
iat
e Dat
a Ana
lys
is: Pr
inc
ipl
es and Appl
icat
ions
anal
ysi
s of
the
mi
crobi
al met
abol
ome by
isot
ope di
lut
ion 『M1.Sweden:Umet
ics
r Academy,2001:
43—63.
mt
tss
spect
romet
y us
r ing uni
for
mlv C—
label
ed c
ell
[1
7] S
jor
kma
n HI, Edl
und
PO, Kv
lh
a e
im OM, e
t a
1.
e
xtr
act
s a
s i
nte
rna
l s
tan
dar
ds[
J].An
al
Bio
che
m,2
005,
Scr
eeni
ng o
f bi
oma
rke
rs i
n r
at ur
ine
us
ing LC/
336:1
64 — 1
71.
el
ect
rospr
ay i
oni
zat
ion-
・
M S a
nd t
wo-
・
way
dat
a a
nalysi
s
[1
3] Li
ndo
n J,Hol
mes
E,Ni
cho
los
on J
K.Pat
ter
n r
eco
gni
tion [
J].Ana
l Che
m,2
003,
75:
478
4—47
92.
met
hods
and appl
icat
ions
i
n bi
omedi
cal
ma
n e
g tic [1
8] Hol
mes
E,Ni
chol
ls
AW ,Li
ndon
JC,et
a1
.Chemomet
ric
r
eso
nan
ce[
J].P
rog
Nu
cl
Mag
n Re
son
Spe
ctos
r c,2
001,
model
s f
or
toxi
cit
y cl
assi
ica
f tion bas
ed o
n NMR
spect
ra
of
39:
1—40.
bi
olui
f ds[J].Che
m Res
Tox
ico
l,2
000,13:
471—478.
[1
4] Coen M, Lenz
EⅣr, Ni
chol
oson JK.
An
int
egr
ated [1
9] Yang
J,Xu
GW ,Hong
QF,et
1.Di
a s
cimi
r n
ati
on
of
t
ype
met
abonomi
c i
nves
tigat
ion of
ac
etami
nophen t
oxi
cit
y i
n 2 di
abet
ic pat
ient
s f
rom hea
lthy co
ntr
ols
by
us
ing
t
he mo
use
us
ing
NMR s
pec
tro
sco
py [J]. Ch
em Re
s met
abonomi
cs met
ho
d base
d on t
hei
r ser
u m f
att
y aci
d
Toxi
col,2003,1
6:295 —303.
pr
of
il
es[
J].J
Chr
oma
tog
r B,20
04,
813:
53—5
8.
矫 秘 爷 笮 2 不 铞 ;
.
{!
; !
轿 !
杯{!
: !
. :
!
标 杯
一 !
:
中国药 学会 百年庆 典史 料征 集 函