Metaboanalyst

MetaboAnalyst 在线平台代谢组数据分析
！！！特别提醒：这个网站 12 分钟不进行任何操作就会回到 Home 界面，你

的分析结果都会不见。
一.简介
1.背景了解
代谢组学(metabonomics/metabolomics)是效仿基因组学和蛋白质组学的研究
思想，对生物体内所有代谢物进行定量分析，并寻找代谢物与生理病理变化的相对
关系的研究方式，是系统生物学的组成部分。其研究对象大都是相对分子质量
1000 以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析
方法是代谢组学研究的基本方法。
2.关于 MetaboAnalyst
MetaboAnalyst 是一个综合性的代谢组学数据分析平台，通过友好的、基于
web 的界面进行分析。在过去的十年中，MetaboAnalyst 已经发展成为代谢组学社
区中使用最广泛的平台(>30 万用户)。目前的 MetaboAnalyst (V5.0)支持原始质谱
处理、综合数据归一化、统计分析、功能分析、元分析以及与其他组学数据的整合
分析。其目标是实现靶向和非靶向代谢组学的高通量分析，并缩小从原始数据到生
物学见解的差距。
网站首页：
可以通过左侧的选项，上方的更新信息以及中间展示的功能部分对网站先进行
一个初步的了解。Click here to start 开始选择模块进行相关的数据处理。
如图，MetaboAnalyst 提供了若干模块对组学数据进行不同的处理，[左边的
Input Data Type 指明了每个或几个模块所支持的数据类型]。
二.对原始光谱数据进行分析（LC-MS SpectraProcessing 模块）
1.数据上传
MetaboAnalyst 目前支持中心点模式下的 mzML、mzXML、CDF 或 mzData 格

式。质量控制（QC）光谱不是必需的，但强烈建议使用。质控光谱应以 "QC_"开
头。以单独的压缩文件形式上传的光谱--每个光谱一个压缩文件（.zip）（最大：
200 个光谱）。以纯文本（.txt）文件形式上传的元数据，包含两栏--光谱名称和组
标签（可以选择）（这里上传元数据的作用是分组，点击 example 可以看到分组
的格式要求。）
元数据格式示例：
如果是自己上传数据需要注意：
• 即便是数据网站中下载得到的数据，命名也有可能存在纰漏。所以要仔细检
查元数据中的数据命名与压缩包中的名称是否一一对应，否则会报错。
• 将原始数据分组打压缩包[此处需要注意，要选择每一个原始数据文件（即
使含有平行，也要每一个平行压缩一个包）直接进行压缩，而不是将原始数据文件
在文件夹下压缩]。点击 Upload 进行上传，完成后点击 Proceed 进行下一步。
这里我们用示例数据一进行演示（A small example dataset for demo purposes,

containing 10 spectra (UPLC-Q/E-ESI-, C18) organized into three groups (Healthy,
Crohn's Disease and QC) from Lloyd-Price et al.）选中后点击 Submit。
2.数据完整性检查
上传的光谱名称必须与元数据文件中的样品名称匹配。数据应至少包含两组，
每组包含 ≥ 3 个重复。
数据完整性检查界面可以看到数据的一些基本信息：名称，大小，分组，如果
不是质心模式那么需要点击 Convert 进行处理之后再继续分析。界面如下：
确认数据无误后点击 Next。
3.LC-MS 光谱处理
MetaboAnalyst 提供基于感兴趣区域 (ROI) 的高效参数优化策略，以避免使用

完整光谱进行递归峰检测这一耗时步骤。与使用默认 XCMS 参数获得的结果相比，
该过程可以显着提高峰检测和量化的质量（目前仅针对 centWave 算法实施）。
参数设置（演示均为默认）：
• 参数详情
• LC-MS Platform：
在这一栏中存在很多设备型号，可以根据需求选择所使用的设备型号。
选择之后，在下面的 Parameter Setting 中选择 Auto/Optimized 各个选项
会将自动选择最佳参数组合，当然也可以在此基础上自行进行一些调整，
在 Parameter Setting 中选择 Default/Manual option 后面的各个选项将使
用当前（手动调整）显示中的参数，（在你非常清楚的明白每个参数的意
义和调整目标的情况下可以这么做，如果不是建议不调）。当然也有可能
这其中没有匹配的设备型号，那么建议选择 Generic 通用模式。
• Parameter Setting：
Default/Manual option 选项将使用当前显示中的参数；
Auto/Optimized 将自动选择最佳参数组合。
• Method:
此处可以选择算法 centWave （用于检测高分辨率的 MS 数
据），Massifquant（用于敏感地检测低强度的峰），MatchedFilter（用
于低分辨率 MS）。
min_peakwidth：
max_peakwidth：在此处根据具体数据设置最大最小峰值宽度。
（1）Peak Picking（峰检测）：
ppm：峰检测时 MS1 的 m/z tolerance，以 ppm 为单位。
mzdiff:（质荷比差异）
More options：
Snthresh：（阈值）
Prefilter： (预过滤)
value_of_prefilter:（预过滤值）
noise:（噪声值）
（2）Peak Alignment（峰对齐）
第二步是峰对齐，包括“分组”和“保留时间校正”。
峰分组：
Group-density：用于对不同样品的峰进行分组；
保留时间校正:
Loess：用于将不同样品的保留时间对齐到一个组；
Obiwarp：用于根据原始数据的关联性来调整保留时间。
Bandwidth：（设置带宽）
MinFraction：（设置最小分值）
More options：
Minsamples（小样本）
Maxfeatures（最大特征值）
Integrate（归一化）
Extra（额外补充）
Span（跨度）
（3）Peak Annotation（峰值标注）
用“CAMERA”作为其核心算法，对上述步骤得到的峰值进行注释。
Polarity：指定 MS 检测模式的极性，可以是正离子或负离子形式；
Adducts:（加合物）
More options：
Perc_fwhm: 指定用于峰分组的 FWHM 宽度的百分比；
Mz_abs_iso: 设置搜索的允许方差；
Max_charge: 设置同位素电荷的最大数量；
Max_iso: 设置同位素峰的最大数量；
Corr_eic_th: 设置样品间强度相关性的阈值；
Mz_abs_add: 设置搜索的允许方差；
（4）Contaminants（污染物）
可以选择自动排除来自污染物的潜在峰。
污染物被定义为保留时间范围超过色谱图一半的峰，应从参数优化步
骤中排除。注意：该选项仅适用于“自动/优化”模式。
结束后点击 Submit 确认提交。
4.工作状态视图
根据当前的服务器负载和数据的大小，完成工作可能需要几个小时到几天的时
间。请在数据分析期间只打开一个活动网页（常见问题或其他静态网页除外）。
打开多个选项卡/浏览器/窗口将导致不可预测的结果。
注意：如果光谱处理进度过慢，大家可前往其他模块。
一些具体的信息如图所示：
在该页面右侧可以看到 R Command History（可选）
完成后点击 Proceed。
5.处理结果
在该页面上部可以看到 PCA 可视化，强度统计，RT（保留时间）校正，TlC

图，BPI 图以及对齐 BPI，等分析结果。
lntensity Stats：
创建箱形图来表示，每个样本的峰值强度分布（log2 转换）。
RT Correction：
保留时间矫正，旨在通过沿保留时间轴移动信号来校准实验中不同样本之间的
信号。
TIC Plot：
Total Ion Chromatography 的缩写, 在做质谱时,需要设定的质量范围,顾名思义,
TIC 就是指在这一范围内所有离子的谱图。
在页面下方可以看到结果总结，光谱/样品表，特征/峰表点击 View 可以进行
具体的观察和研究。
光谱/样品表如下：
点击右侧 View 可以查看该样品的 TIC 图：

特征/峰表如下：
对于同位素 / 加合物注释，匹配基于其对应母离子的 m/z 值。
根据原始光谱处理的质量误差 (ppm 值 ) ，将所有化合物与 HMDB(v5) 匹配。
强度是所有样本的平均值，变异系数(CV)也是所有样本的总结。当提供组信息时，
基于对数变换数据，采用 t 检验/方差分析法计算 p 值。
点击 View 可看 EIC 图：
EIC（extracted ion chromatogram）是从 TIC(总离子流图)提取某个荷质比再
绘图得到的。
将鼠标放在箱线图上的数据点上，以查看其示例名称。双击显示其 EIC。单击
Reset 图标重新启动。
点击 Download Page。
6.保存分析结果
下面的结果下载标签下载结果(表格和图片)。Zip 包含主目录中的所有文件。
三.统计分析（Statistical Analysis [one factor]模块）

1.统计分析前的数据处理
紧接着上文得到的结果进行统计分析，Statistical Analysis [one factor]。
1.1.观察示例数据
如果用来做后续统计分析的数据来源不是用之前的 MetaboAnalyst 的 LC-MS

SpectraProcessing 等模块得到的，那么要先看一下 Statistical Analysis [one factor]
模块提供的示例数据的格式是怎么样的（就像上文中观察光谱数据的元数据格式一
样）。尽量保证格式一致避免出现错误。
1.2.上传数据
使用上文对（ A small example dataset for demo purposes, containing 10

spectra (UPLC-Q/E-ESI-, C18) organized into three groups (Healthy, Crohn's Disease
and QC) from Lloyd-Price et al.）光谱数据处理得到的结果。
1.3.数据检查
数据完整性检查:
• 检查类标签——每个类至少需要三个副本。
• 如果样本配对，则配对标签必须符合指定的格式。
• 数据(类标签除外)不能包含非数字值。
• 缺失的值或具有常量值(即全部为零)的特征的存在。
Edit Groups 可以对组标签进行编辑，检查数据无误后 Proceed。
1.4.数据过滤:
数据过滤的目的是识别和删除在建模数据时不太可能使用的变量。在过滤过程
中没有使用表型信息，所以结果可以用于任何下游分析。此步骤强烈推荐用于具有
大量变量的非靶向代谢组学数据集(即光谱分块数据、峰值列表)，其中许多变量来
自基线噪声。过滤通常可以改善结果。
参数设置：
具体的过滤选项如图（到底选择何种方式进行过滤要根据对于手上数据的了解
来确定）
• 参数详情：
非信息性变量可以分为三组:
1)非常小值的变量(接近基线或检测限)-这些变量可以使用平均值或
中位数检测;
2)在整个实验条件下接近常数值的变量(内务管理或内稳态)-这些变
量可以使用标准差(SD)检测; 或稳健估计，如间位数范围(IQR)
3)显示低重复性的变量-这可以使用相对标准差(RSD = SD/mean)测量
样本。高相对标准偏差的特征应该从随后的分析中去除 (建议的阈值是
LC-MS 的 20% 和 GC-MS 的 30%)。
这里我们选择阈值为 20%，勾选 IQR。
Submit 后右上角可以看到通知：
1.5.数据标准化
标准化过程分为三类。可以使用其中一种或结合使用它们来获得更好的结果
1.4.1.Sample normalization
样本归一化是对样本之间的系统差异进行一般性调整;
本次选择依据总和进行归一化。
1.4.2.Data transformation
数据转换应用于单个值本身的数学转换。一种简单的数学方法用于处理对数和
平方根中的负值。
本次选择 log10 转换。
1.4.3.Data scaling
数据缩放通过基于变量离散度计算的缩放因子来调整每个变量/特征。
本次使用 Auto scaling 进行缩放。
如图：
Normalize 后点击 View Result 查看标准化的效果（箱线图只可视化前 50 个样
本）可据此对标准化的方式再进行调整直到满意为止（近似正态分布。因为统计性
分析的一般假设前提是数据符合正态分布，这样后续的统计分析才具有统计学意
义。）
标准化完成后点击 Proceed 进入到选择统计分析方法界面：

我们将关注以下三类分析： Univariate Analysis （单变量分析），
Chemometrics Analysis（化学计量分析），Cluster Analysis（聚类分析）
我们在后文将除单变量分析之外的均称为多元统计分析。
2.一元统计分析
由于我们的数据是三组，所以不可以进行 T 检验和 FC 分析。于是我们先进行

方差分析和 Pattern Search 分析，后面使用网站的示例数据集（两组）进行 T 检验
和 FC 分析。
2.1.ANOVA 方差分析
• 方差分析介绍
一个复杂的事物，其中往往有许多因素互相制约又互相依存。方差分
析的目的是通过数据分析找出对该事物有显著影响的因素，各因素之间的
交互作用，以及显著影响因素的最佳水平等。方差分析是在可比较的数组
中，把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。
对变差的度量，采用离差平方和。方差分析方法就是从总离差平方和分解
出可追溯到指定来源的部分离差平方和。
• 方差分析步骤
– 建立检验假设;；H0:多个样本总体均数相等;；H1:多个样本总体
均数不相等或不全等。检验水准为 0.05。
– 计算检验统计量 F 值;
– 确定 P 值并作出推断结果。
• P-value
P-value 是 (在 H0 = true 的情况下)得到和试验数据一样极端(或更极
端)的统计量的概率. 它不是 H1 发生的概率。
• FDR (false discovery rate)
错误发现率。FDR 的含义是错误拒绝（拒绝真的（原）假设）的个
数占所有被拒绝的原假设个数的比例的期望值。目标是控制错误发现率。
FDR 的意义明确，可以作为筛选出的差异变量的评价指标。可以灵活调
整其取值（一般是 0.05 主要取决于你的研究目的），作为假设检验错误
率的控制指标。
举例：FDR<0.05，就意味着在这种校正之后，你每报告 100 个样本
为真，少于 5 个为假。为了达到 FDR 的目标，就需要基于你报告的所有
样本的 P 值数据，去计算一个 P 的阈值，当 P 小于这个阈值的时候，可以
认为错误发现率将小于给定的 FDR（如 0.05）。寻找的 P 阈值的算法是
先对所有 P 进行排序，然后寻找第一个满足某种条件的 P。
控制错误的必要性：假如有一种诊断艾滋病的试剂, 试验验证其准确
性为 99%(每 100 次诊断就有一次 false positive)。对于一个被检测的人
(single test) 来说, 这种准确性够了。但对于医院 (multiple test) 来说, 这
种准确性远远不够, 因为每诊断 10000 个个体, 就会有 100 个人被误诊为
艾滋病。
依旧沿用上文涉及的数据，（ A small example dataset for demo purposes,
containing 10 spectra (UPLC-Q/E-ESI-, C18) organized into three groups (Healthy,
Crohn's Disease and QC) from Lloyd-Price et al.的处理结果进行分析。
点击 One-way Analysis of Variance (ANOVA)，进入单因素方差分析(ANOVA)界
面
参数设置：
参数详情：
Adjusted p-vaule（FDR） cutoff（前面讲过了）
这里我们选择默认值。点击左侧图中的圆点（代谢物）即可看到它在每个组中
的强度分布（右图）：
如图，识别到的代谢物有 509 个，其中 8 个为潜在差异代谢物。右图上方名
称是 m/z。
点击右图上方的画板可以个性化输出图表，点击表格图标可以查看详细信息，
Download 完成下载：
2.2.T 检验
• T 检验介绍（与方差分析类似）
t 检验，亦称 student t 检验（Student's t test），主要用于样本含量

较小（例如 n < 30），总体标准差 σ 未知的正态分布。
• T 检验步骤：
– 建立检验假设;
– H0：μ = μ0 （零假设 null hypothesis）
– H1：μ ≠ μ0（备择假设 alternative hypothesis）设 α=0.05
– 计算检验统计量
– 确定 P 值并作出推断结果。
• P-value：P 越小，不是说明实际差别越大，而是说越有理由拒绝
H0 ，越有理由说明两者有差异，差别有无统计学意义和有无专业上的实
际意义并不完全相同。
!!!特别提醒：t 检验仅处理两组数据之间的统计显著性。使用示例数据集 6：
LC-MS peak intensity table for 12 mice spinal cord samples (Saghatelian et al.).
Group 1- wild-type; group 2 - knock-out，所以要重新进行数据处理。
数据上传，检查，过滤部分同上。此数据中标准化方式如下：
标准化后的结果：
在左侧在左侧 Statistics 中点击 T-tests。参数设置：
Group variance： Equal，要考虑组间差异。

参数 P-value threshold：0.05。勾选 FDR
点击左侧图中的圆点（代谢物）即可看到它在每个组中的浓度分布（右图）：
如图，识别到的代谢物有 368 个，其中 26 个为潜在差异代谢物。
2.3.Fold change Analysis（差异倍数分析）

• Fold change Analysis 介绍
差异倍数(FC)分析的目的是比较两组平均值变化的绝对值。由于按列
归一化(即对数变换和各种标度)会显著改变绝对值，对于不成对分析，在
按列归一化之前，按两组平均值之间的比值计算 FCs。配对分析方法是
先计算配对样本的比率(即每对一个配对样本) ，然后计算它们的平均数
(即每对平均数)。重要的特性是那些其 FCs 超过给定的 FC 阈值(上或下)
的特性。
在左侧在左侧 Statistics 中点击 Fold Change Analysis
参数设置：
Fold change threshold：倍数变化阈值默认为 2，submit

点击圆点可以查看差异代谢物的详情。
如图，识别到的代谢物有 368 个，其中 67 个为潜在差异代谢物。并且其中 39
个在 KO/WT 中显著上调，有 28 个在 KO/WT 中显著下调。
2.4.Volcano Plot（火山图）
火山图是折叠变化 (FC) 分析和 t 检验的组合。

在左侧在左侧 Statistics 中点击 Volcano Plot
参数设置（相应参数和结果解释的详细解释请参考 FC 或 t-tests 分析页
面。）：
Submit，点击圆点可以查看差异代谢物的详情。
图的横、纵坐标分别是我们上述介绍的阈值：log2FoldChange 和经过 log 转换

的 adjusted p-value，分别衡量差异的倍数和显著性。图中每个圆点代表一个代谢
物。但这些代谢物分别具有不同颜色，依据我们的参数设置，颜色的意义如下
红色圆点：adjusted p-value < 0.1”且“log2FoldChange > 2”的代谢物（差异显
著且上调）注意上调与否是相对的，看你以哪个组为基准。
蓝色圆点：“adjusted p-value < 0.1”且“log2FoldChange < -2”的代谢物（差异
显著且下调）
灰色圆点：“adjusted p-value > 0.05”的代谢物。（差异不显著）
3.多元统计分析
3.1.PCA 分析（Principal Component Analysis 主成分分析）

• PCA 原理：
PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛

的数据降维算法。PCA 的主要思想是将 n 维特征映射到 k 维上，这 k 维是全新的正
交特征也被称为主成分，是在原有 n 维特征的基础上重新构造出来的 k 维特
征。PCA 的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴
的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最
大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，
第三个轴是与第 1,2 个轴正交的平面中方差最大的。依次类推，可以得到 n 个这样
的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面
k 个坐标轴中，后面的坐标轴所含的方差几乎为 0。于是，我们可以忽略余下的坐
标轴，只保留前面 k 个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含
绝大部分方差的维度特征，而忽略包含方差几乎为 0 的特征维度，实现对数据特征
的降维处理。
PCA 是一种无监督的模式，属于探索性分析。但由于代谢组学数据的复杂性，
对于组间差异不够明显的样品，单纯的“无监督”分析不能很好地区分样本的组间
差异，我们就需要用到其他的分析方法。
• PCA 目的：
降维，降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保
留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的
目的。
• 降维的好处：
使得数据集更易使用。
降低算法的计算开销。
去除噪声。
使得结果容易理解。
点击左侧 Statistics 中的 PCA 点击，scree Plot

顶部的绿线显示解释的累积方差；下面的蓝线显示了个别 PC 解释的差异
（PC 值就是在降维过程中选出来的特征对于样本整体的解释度。）：
蓝线与绿线越接近，代表这个 PC 值对样本整体的代表性越好，因此一般在 2D
图中展示的都是 PC1 和 PC2。
点击 2D Scores Plot
参数设置：
Specify PC on X-axis:
Specify PC on Y-axis: 选择你想要看的 PC 值。一般默认都是前两个，因为它们
最能代表数据本身。
Display 95% confidence regions: 展示 95%的置信区域。
Display sample names: 显示对应样本的名称。
设置好参数后 Update：
点击 synchronized 3D Plots，可以看到三维结果：
3.2.PLS-DA 分析（ Partial Least Squares Discriminant Analysis 偏最小二乘判别分

析）
• PLS-DA 原理：
偏最小二乘法判别分析是一种用于判别分析（有监督）的多变量统计分析方法。
判别分析是一种根据观察或测量到的若干变量值，来判断研究对象如何分类的常用
统计分析方法。其原理是对不同处理样本（如观测样本、对照样本）的特性分别进
行训练，产生训练集，并检验训练集的可信度。
• PLS-DA 目的：
PLS-DA 是有监督的模式，属于模型的方法。使用偏最小二乘回归建立代谢物
表达量与样本类别之间的关系模型，对数据降维。这种监督模式通常可以更好地确
立样本关系。无监督的 PCA 无法很好地区分组间样本时，而 PLS-DA 则实现有效分
离。除了降维数据外，PLS-DA 还可实现对样品类别的预测(即用于分类)，通过构
建分类预测模型，可进一步用于识别更多的样本所属，这是探索性的 PCA 方法无
法做到的。可以通过计算变量投影重要度（ Variable Importance for the
Projection, VIP）来衡量各代谢物的表达模式对各组样本分类判别的影响强度和解
释能力，从而辅助标志代谢物的筛选（通常以 VIP 值 > 1.0 作为筛选标准）。
点击左侧 Statistics 中的 PLS-DA 点击，2D Scores Plot，
参数与 PCA 分析一致，得到下图：
Component 代表的含义与 PCA 类似，都是对于所有的特征而言最能代表数据

本身的两个成分。注意，PLS-DA 使 X(数据)和 Y(组)之间的协方差最大化。在上面
的图表中显示的方差是 x 的解释方差。在某些情况下，协方差和 x-方差可能不—致。
例，第一个分量可能不能比第二个分量解释更多的 x -方差。
3.3.Hierarchical Clustering Heatmaps（层次聚类热图）
热图提供了一个数据表的直观可视化。地图上的每个有颜色的单元格对应于数
据表中的浓度值，样本以行排列，特征/化合物以列排列。你可以使用热图来识别
异常高/低的样本/特征。
技巧 1: 选择不要重新组织样本/行以显示组之间的自然对比(每组一个块)。技
巧 2: 选择显示顶部 # 的功能来集中显示重要功能的模式
在 Statistics 中选择 cluster analysis 中的 Heatmap
参数设置界面（没提到的皆用默认参数）：
• Data source：可以选择标准化后的数据或者原始数据，这里我们肯定是用
标准化后的数据。
• Standardization：None，我们之前已经进行过标准化操作了，这里不需要
再标准化。
• Color contrast：Default
• View mode：勾选 Do not reorganize（不要重新聚类，直接按照组别进行聚

类）。
• Use top25（浓度排名前 25 的代谢物）, Submit:
左侧 Statistics 中点击 Download，对结果进行下载。

四.功能分析(Functional Analysis 模块) Mummichog （MS peaks to
pathways）
介绍：
该模块支持对来自高分辨率质谱法分析仪(HRMS)的非靶向代谢组学数据进行
功能分析。基本的假设是，在单个化合物水平上的假定注释可以集体预测功能水平
上的变化，这些变化是由代谢组或代谢途径定义的。
要使用这种方法,输入峰值列表或峰值表必须包含完整的数据，而不仅仅是有
意义的数据——需要复杂的数据来估计空模型(背景) ;特征或峰值名称必须是它们
的数值质量(m/z)值，以便进行推定的注释;还可以提供保持时间(RT)来进一步改进
峰值注释。[可选]
上传数据类型：质谱峰（峰值列表或强度表）
数据处理（略）
参数设置：
指定分析参数部分：
算法：（默认）
可视化分析：
Scatter plot（散点图）
Heatmaps（热图)- 适用于多组峰
这里我们选择散点图。
选择通路数据库：
分析的结果会因选择不同的数据库有很大差异，所以要选择合适的通路数据库
由于我们的示范数据是人的，所以选择 Homo sapiens (human)[MFN] 。
点击 Submit。鼠标移动到圆点上可以看到部分信息：
点击可以看到详细信息：
点击 Pathway Hits，Compound Hits 对找到的通路和化合物数据进行下载。

点击 Network Explorer
参数设置：
可以通过调整 Style 等参数对可视化图进行调整，候选左侧的后选代谢物在代
谢网络中的位置信息。通过缩放调整查看具体的通路网络。

Metaboanalyst

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Metaboanalyst

Uploaded by

Copyright:

Available Formats

MetaboAnalyst 在线平台代谢组数据分析

！！！特别提醒：这个网站 12 分钟不进行任何操作就会回到 Home 界面，你

MetaboAnalyst 目前支持中心点模式下的 mzML、mzXML、CDF 或 mzData 格

这里我们用示例数据一进行演示（A small example dataset for demo purposes,

MetaboAnalyst 提供基于感兴趣区域 (ROI) 的高效参数优化策略，以避免使用

结束后点击 Submit 确认提交。

在该页面上部可以看到 PCA 可视化，强度统计，RT（保留时间）校正，TlC

点击右侧 View 可以查看该样品的 TIC 图：

三.统计分析（Statistical Analysis [one factor]模块）

紧接着上文得到的结果进行统计分析，Statistical Analysis [one factor]。

如果用来做后续统计分析的数据来源不是用之前的 MetaboAnalyst 的 LC-MS

使 用 上 文 对 （ A small example dataset for demo purposes, containing 10

Edit Groups 可以对组标签进行编辑，检查数据无误后 Proceed。

标准化完成后点击 Proceed 进入到选择统计分析方法界面：

由于我们的数据是三组，所以不可以进行 T 检验和 FC 分析。于是我们先进行

t 检验，亦称 student t 检验（Student's t test），主要用于样本含量

在左侧在左侧 Statistics 中点击 T-tests。参数设置：

Group variance： Equal，要考虑组间差异。

如图，识别到的代谢物有 368 个，其中 26 个为潜在差异代谢物。

2.3.Fold change Analysis（差异倍数分析）

Fold change threshold：倍数变化阈值默认为 2，submit

火山图是折叠变化 (FC) 分析和 t 检验的组合。

图的横、纵坐标分别是我们上述介绍的阈值：log2FoldChange 和经过 log 转换

3.1.PCA 分析（Principal Component Analysis 主成分分析）

使 用 上 文 对 （ A small example dataset for demo purposes, containing 10

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛

点击左侧 Statistics 中的 PCA 点击，scree Plot

3.2.PLS-DA 分析（ Partial Least Squares Discriminant Analysis 偏最小二乘判别分

Component 代表的含义与 PCA 类似，都是对于所有的特征而言最能代表数据

3.3.Hierarchical Clustering Heatmaps（层次聚类热图）

• View mode：勾选 Do not reorganize（不要重新聚类，直接按照组别进行聚

左侧 Statistics 中点击 Download，对结果进行下载。

点击 Pathway Hits，Compound Hits 对找到的通路和化合物数据进行下载。

You might also like

使用上文对（ A small example dataset for demo purposes, containing 10

使用上文对（ A small example dataset for demo purposes, containing 10