Professional Documents
Culture Documents
一.简介
1.背景了解
代谢组学(metabonomics/metabolomics)是效仿基因组学和蛋白质组学的研究
思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对
关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量
1000 以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析
方法是代谢组学研究的基本方法。
2.关于 MetaboAnalyst
MetaboAnalyst 是一个综合性的代谢组学数据分析平台,通过友好的、基于
web 的界面进行分析。在过去的十年中,MetaboAnalyst 已经发展成为代谢组学社
区中使用最广泛的平台(>30 万用户)。目前的 MetaboAnalyst (V5.0)支持原始质谱
处理、综合数据归一化、统计分析、功能分析、元分析以及与其他组学数据的整合
分析。其目标是实现靶向和非靶向代谢组学的高通量分析,并缩小从原始数据到生
物学见解的差距。
网站首页:
可以通过左侧的选项,上方的更新信息以及中间展示的功能部分对网站先进行
一个初步的了解。Click here to start 开始选择模块进行相关的数据处理。
如图,MetaboAnalyst 提供了若干模块对组学数据进行不同的处理,[左边的
Input Data Type 指明了每个或几个模块所支持的数据类型]。
二.对原始光谱数据进行分析(LC-MS SpectraProcessing 模块)
1.数据上传
如果是自己上传数据需要注意:
• 即便是数据网站中下载得到的数据,命名也有可能存在纰漏。所以要仔细检
查元数据中的数据命名与压缩包中的名称是否一一对应,否则会报错。
• 将原始数据分组打压缩包[此处需要注意,要选择每一个原始数据文件(即
使含有平行,也要每一个平行压缩一个包)直接进行压缩,而不是将原始数据文件
在文件夹下压缩]。点击 Upload 进行上传,完成后点击 Proceed 进行下一步。
上传的光谱名称必须与元数据文件中的样品名称匹配。数据应至少包含两组,
每组包含 ≥ 3 个重复。
数据完整性检查界面可以看到数据的一些基本信息:名称,大小,分组,如果
不是质心模式那么需要点击 Convert 进行处理之后再继续分析。 界面如下:
确认数据无误后点击 Next。
3.LC-MS 光谱处理
• 参数详情
• LC-MS Platform:
在这一栏中存在很多设备型号,可以根据需求选择所使用的设备型号。
选择之后,在下面的 Parameter Setting 中选择 Auto/Optimized 各个选项
会将自动选择最佳参数组合,当然也可以在此基础上自行进行一些调整,
在 Parameter Setting 中选择 Default/Manual option 后面的各个选项将使
用当前(手动调整)显示中的参数,(在你非常清楚的明白每个参数的意
义和调整目标的情况下可以这么做,如果不是建议不调)。当然也有可能
这其中没有匹配的设备型号,那么建议选择 Generic 通用模式。
• Parameter Setting:
Default/Manual option 选项将使用当前显示中的参数;
Auto/Optimized 将自动选择最佳参数组合。
• Method:
此 处 可 以 选 择 算 法 centWave ( 用 于 检 测 高 分 辨 率 的 MS 数
据),Massifquant(用于敏感地检测低强度的峰),MatchedFilter(用
于低分辨率 MS)。
min_peakwidth:
max_peakwidth:在此处根据具体数据设置最大最小峰值宽度。
(1)Peak Picking(峰检测):
ppm:峰检测时 MS1 的 m/z tolerance,以 ppm 为单位。
mzdiff:(质荷比差异)
More options:
Snthresh:(阈值)
Prefilter: (预过滤)
value_of_prefilter:(预过滤值)
noise:(噪声值)
(2)Peak Alignment(峰对齐)
第二步是峰对齐,包括“分组”和“保留时间校正”。
峰分组:
Group-density:用于对不同样品的峰进行分组;
保留时间校正:
Loess:用于将不同样品的保留时间对齐到一个组;
Obiwarp:用于根据原始数据的关联性来调整保留时间。
Bandwidth:(设置带宽)
MinFraction:(设置最小分值)
More options:
Minsamples(小样本)
Maxfeatures(最大特征值)
Integrate(归一化)
Extra(额外补充)
Span(跨度)
(3)Peak Annotation(峰值标注)
用“CAMERA”作为其核心算法,对上述步骤得到的峰值进行注释。
Polarity:指定 MS 检测模式的极性,可以是正离子或负离子形式;
Adducts:(加合物)
More options:
Perc_fwhm: 指定用于峰分组的 FWHM 宽度的百分比;
Mz_abs_iso: 设置搜索的允许方差;
Max_charge: 设置同位素电荷的最大数量;
Max_iso: 设置同位素峰的最大数量;
Corr_eic_th: 设置样品间强度相关性的阈值;
Mz_abs_add: 设置搜索的允许方差;
(4)Contaminants(污染物)
可以选择自动排除来自污染物的潜在峰。
污染物被定义为保留时间范围超过色谱图一半的峰,应从参数优化步
骤中排除。注意:该选项仅适用于“自动/优化”模式。
4.工作状态视图
根据当前的服务器负载和数据的大小,完成工作可能需要几个小时到几天的时
间。 请在数据分析期间只打开一个活动网页(常见问题或其他静态网页除外)。
打开多个选项卡/浏览器/窗口将导致不可预测的结果。
注意:如果光谱处理进度过慢,大家可前往其他模块。
一些具体的信息如图所示:
在该页面右侧可以看到 R Command History(可选)
完成后点击 Proceed。
5.处理结果
RT Correction:
保留时间矫正,旨在通过沿保留时间轴移动信号来校准实验中不同样本之间的
信号。
TIC Plot:
Total Ion Chromatography 的缩写, 在做质谱时,需要设定的质量范围,顾名思义,
TIC 就是指在这一范围内所有离子的谱图。
在页面下方可以看到结果总结,光谱/样品表,特征/峰表点击 View 可以进行
具体的观察和研究。
光谱/样品表如下:
点击 View 可看 EIC 图:
EIC(extracted ion chromatogram)是从 TIC(总离子流图)提取某个荷质比再
绘图得到的。
将鼠标放在箱线图上的数据点上,以查看其示例名称。双击显示其 EIC。单击
Reset 图标重新启动。
点击 Download Page。
6.保存分析结果
下面的结果下载标签下载结果(表格和图片)。Zip 包含主目录中的所有文件。
1.1.观察示例数据
1.3.数据检查
数据完整性检查:
• 检查类标签——每个类至少需要三个副本。
• 如果样本配对,则配对标签必须符合指定的格式。
• 数据(类标签除外)不能包含非数字值。
• 缺失的值或具有常量值(即全部为零)的特征的存在。
1.4.数据过滤:
数据过滤的目的是识别和删除在建模数据时不太可能使用的变量。在过滤过程
中没有使用表型信息,所以结果可以用于任何下游分析。此步骤强烈推荐用于具有
大量变量的非靶向代谢组学数据集(即光谱分块数据、峰值列表),其中许多变量来
自基线噪声。过滤通常可以改善结果。
参数设置:
具体的过滤选项如图(到底选择何种方式进行过滤要根据对于手上数据的了解
来确定)
• 参数详情:
非信息性变量可以分为三组:
1)非常小值的变量(接近基线或检测限)-这些变量可以使用平均值或
中位数检测;
2)在整个实验条件下接近常数值的变量(内务管理或内稳态)-这些变
量可以使用标准差(SD)检测; 或稳健估计,如间位数范围(IQR)
3)显示低重复性的变量-这可以使用相对标准差(RSD = SD/mean)测量
样本。高相对标准偏差的特征应该从随后的分析中去除 (建议的阈值是
LC-MS 的 20% 和 GC-MS 的 30%)。
这里我们选择阈值为 20%,勾选 IQR。
Submit 后右上角可以看到通知:
1.5.数据标准化
标准化过程分为三类。可以使用其中一种或结合使用它们来获得更好的结果
1.4.1.Sample normalization
样本归一化是对样本之间的系统差异进行一般性调整;
本次选择依据总和进行归一化。
1.4.2.Data transformation
数据转换应用于单个值本身的数学转换。一种简单的数学方法用于处理对数和
平方根中的负值。
本次选择 log10 转换。
1.4.3.Data scaling
数据缩放通过基于变量离散度计算的缩放因子来调整每个变量/特征。
本次使用 Auto scaling 进行缩放。
如图:
Normalize 后点击 View Result 查看标准化的效果(箱线图只可视化前 50 个样
本)可据此对标准化的方式再进行调整直到满意为止(近似正态分布。因为统计性
分析的一般假设前提是数据符合正态分布,这样后续的统计分析才具有统计学意
义。)
2.1.ANOVA 方差分析
• 方差分析介绍
一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分
析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的
交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组
中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。
对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解
出可追溯到指定来源的部分离差平方和。
• 方差分析步骤
– 建立检验假设;;H0:多个样本总体均数相等;;H1:多个样本总体
均数不相等或不全等。检验水准为 0.05。
– 计算检验统计量 F 值;
– 确定 P 值并作出推断结果。
• P-value
P-value 是 (在 H0 = true 的情况下)得到和试验数据一样极端(或更极
端)的统计量的概率. 它不是 H1 发生的概率。
• FDR (false discovery rate)
错误发现率。FDR 的含义是错误拒绝(拒绝真的(原)假设)的个
数占所有被拒绝的原假设个数的比例的期望值。目标是控制错误发现率 。
FDR 的意义明确,可以作为筛选出的差异变量的评价指标。可以灵活调
整其取值(一般是 0.05 主要取决于你的研究目的),作为假设检验错误
率的控制指标。
举例:FDR<0.05,就意味着在这种校正之后,你每报告 100 个样本
为真,少于 5 个为假。为了达到 FDR 的目标,就需要基于你报告的所有
样本的 P 值数据,去计算一个 P 的阈值,当 P 小于这个阈值的时候,可以
认为错误发现率将小于给定的 FDR(如 0.05)。寻找的 P 阈值的算法是
先对所有 P 进行排序,然后寻找第一个满足某种条件的 P。
控制错误的必要性:假如有一种诊断艾滋病的试剂, 试验验证其准确
性为 99%(每 100 次诊断就有一次 false positive)。对于一个被检测的人
(single test) 来说, 这种准确性够了。但对于医院 (multiple test) 来说, 这
种准确性远远不够, 因为每诊断 10000 个个体, 就会有 100 个人被误诊为
艾滋病。
依 旧 沿 用 上 文 涉 及 的 数 据 , ( A small example dataset for demo purposes,
containing 10 spectra (UPLC-Q/E-ESI-, C18) organized into three groups (Healthy,
Crohn's Disease and QC) from Lloyd-Price et al.的处理结果进行分析。
点击 One-way Analysis of Variance (ANOVA),进入单因素方差分析(ANOVA)界
面
参数设置:
参数详情:
Adjusted p-vaule(FDR) cutoff(前面讲过了)
这里我们选择默认值。点击左侧图中的圆点(代谢物)即可看到它在每个组中
的强度分布(右图):
如图,识别到的代谢物有 509 个,其中 8 个为潜在差异代谢物。右图上方名
称是 m/z。
点击右图上方的画板可以个性化输出图表,点击表格图标可以查看详细信息,
Download 完成下载:
2.2.T 检验
• T 检验介绍(与方差分析类似)
标准化后的结果:
差异倍数(FC)分析的目的是比较两组平均值变化的绝对值。由于按列
归一化(即对数变换和各种标度)会显著改变绝对值,对于不成对分析,在
按列归一化之前,按两组平均值之间的比值计算 FCs。配对分析方法是
先计算配对样本的比率(即每对一个配对样本) ,然后计算它们的平均数
(即每对平均数)。重要的特性是那些其 FCs 超过给定的 FC 阈值(上或下)
的特性。
在左侧在左侧 Statistics 中点击 Fold Change Analysis
参数设置:
2.4.Volcano Plot(火山图)
Submit,点击圆点可以查看差异代谢物的详情。
3.多元统计分析
降维,降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保
留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的
目的。
• 降维的好处:
使得数据集更易使用。
降低算法的计算开销。
去除噪声。
使得结果容易理解。
蓝线与绿线越接近,代表这个 PC 值对样本整体的代表性越好,因此一般在 2D
图中展示的都是 PC1 和 PC2。
点击 2D Scores Plot
参数设置:
Specify PC on X-axis:
Specify PC on Y-axis: 选择你想要看的 PC 值。一般默认都是前两个,因为它们
最能代表数据本身。
Display 95% confidence regions: 展示 95%的置信区域。
Display sample names: 显示对应样本的名称。
设置好参数后 Update:
点击 synchronized 3D Plots,可以看到三维结果:
偏最小二乘法判别分析是一种用于判别分析(有监督)的多变量统计分析方法。
判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用
统计分析方法。其原理是对不同处理样本(如观测样本、对照样本)的特性分别进
行训练,产生训练集,并检验训练集的可信度。
• PLS-DA 目的:
PLS-DA 是有监督的模式,属于模型的方法。使用偏最小二乘回归建立代谢物
表达量与样本类别之间的关系模型,对数据降维。这种监督模式通常可以更好地确
立样本关系。无监督的 PCA 无法很好地区分组间样本时,而 PLS-DA 则实现有效分
离。除了降维数据外,PLS-DA 还可实现对样品类别的预测(即用于分类),通过构
建分类预测模型,可进一步用于识别更多的样本所属,这是探索性的 PCA 方法无
法 做 到 的 。 可 以 通 过 计 算 变 量 投 影 重 要 度 ( Variable Importance for the
Projection, VIP)来衡量各代谢物的表达模式对各组样本分类判别的影响强度和解
释能力, 从而辅助标志代谢物的筛选(通常以 VIP 值 > 1.0 作为筛选标准)。
点击左侧 Statistics 中的 PLS-DA 点击,2D Scores Plot,
参数与 PCA 分析一致,得到下图:
热图提供了一个数据表的直观可视化。地图上的每个有颜色的单元格对应于数
据表中的浓度值,样本以行排列,特征/化合物以列排列。你可以使用热图来识别
异常高/低的样本/特征。
技巧 1: 选择不要重新组织样本/行以显示组之间的自然对比(每组一个块)。技
巧 2: 选择显示顶部 # 的功能来集中显示重要功能的模式
在 Statistics 中选择 cluster analysis 中的 Heatmap
参数设置界面(没提到的皆用默认参数):
• Data source:可以选择标准化后的数据或者原始数据,这里我们肯定是用
标准化后的数据。
• Standardization:None,我们之前已经进行过标准化操作了,这里不需要
再标准化。
• Color contrast:Default
指定分析参数部分:
算法:(默认)
可视化分析:
Scatter plot(散点图)
Heatmaps(热图)- 适用于多组峰
这里我们选择散点图。
选择通路数据库:
分析的结果会因选择不同的数据库有很大差异,所以要选择合适的通路数据库
由 于 我 们 的 示 范 数 据 是 人 的 , 所 以 选 择 Homo sapiens (human)[MFN] 。
点击 Submit。鼠标移动到圆点上可以看到部分信息:
点击可以看到详细信息: