24小时热门版块排行榜    

CyRhmU.jpeg
查看: 5274  |  回复: 2

麦特绘谱1

新虫 (初入文坛)

[交流] 开源代谢组学全功能软件已有2人参与

高通量代谢组学研究的一大难点在于数据的处理和分析。对于质谱或核磁产生的海量数据,我们需要借助于自动化的软件来进行数据分析。代谢组学全流程软件应具备完整的分析工作流程,包括数据预处理、物质鉴定、统计分析以及数据的解释与整合。本文将介绍几种运用最为广泛且功能强大的全流程软件(下表1),供大家参考。

表1. 四种全流程软件对比。
软件简介
MAVEN:MAVEN是基于现有的开源软件建立的 LC-MS 数据分析软件,可处理MRM(multiple reaction monitoring)和高分辨的全扫描数据。软件设计的目的是开发一款用于探索和验证代谢组学数据的图形用户界面,以此降低代谢组学分析的复杂性。该软件具有从特征值提取到代谢物途径分析及数据可视化的整个数据分析流程。同时为便于验证数据,MAVEN 运用机器学习算法来自动评估峰值质量。
MZmine:MZmine是一款开源软件,主要处理LC-MS 和GC-MS平台数据,可用于靶标和非靶标代谢组学数据分析。软件设计的核心理念是将功能模块和数据处理模块严格分开,以此提高软件的易用性。其中数据处理模块采用嵌入式可视化工具,实现立即预览分析结果的功能。软件新增功能包括基于随机抽样一致(RANSAC)算法对齐峰列表、在线数据库鉴别峰、改进的同位素模式识别以及实现数据可视化。项目管理是该软件新增的另一核心模块,用户可随时追踪并储存临时的数据分析结果。
MetaboAnalyst:MetaboAnalyst是一款完全免费的 web 平台代谢组学数据分析软件。软件共分为八个功能模块,可归纳成三大类:(1)探索性数据分析,包括“统计分析”和“时间序列”模块。(2)功能分析,分别是“富集分析”、“通路分析”和“整合通路分析”模块。(3)高级分析方法,包含“生物标志物分析”、“样本量的估计”和“效能分析”模块。此外,它还包含“其他实用程序”模块,该模块具有脂质组学数据分析的特殊功能和化合物 ID 转换工具。
XCMS Online:XCMS Online是一款基于云计算的数据处理平台,它继承了 XCMS 强大的数据预处理功能,如峰识别和峰对齐等,同时新增了单因素和多因素统计分析方法、代谢物特征注释和代谢物鉴定,为非靶向代谢组学提供了完整的工作流程方案。另外它将 XCMS 的命令行界面改为用户友好型的图形用户界面,降低了操作难度。

图1. 软件的主要功能界面。A,B,C,D分别为MAVEN, MZmine, MetaboAnalyst, XCMS Online。
主要功能对比
原始数据格式:MAVEN软件要求原始数据以 mzXML、mzData 格式录入。MZmine  输入支持 csv、mzTab、XML 等,同时输出格式有 XML、SQL 和 MetaboAnalyst。XCMS  Online 软件可支持多种原始数据格式,包括 netCDF、mzXML、mzData 和 Agilent.d 文件,但数据加载的时间会因文件大小而不同,有时甚至长达数小时。而 MetaboAnalyst 的数据输入不同于前三类软件,它要求的格式为 csv、txt 或 zip 包,数据类型为化合物浓度、NMR/MS 的箱式结构、峰强度列表或LC/GC-MS 图谱,因而输入的数据通常要求已完成去噪平滑和基线校正等谱图预处理。
数据预处理:数据预处理主要包括峰识别、峰对齐、样本标准化、零值填充和奇异样本剔除。MetaboAnalyst 和 XCMS Online 软件主要是基于 XCMS R 包实现峰识别、峰对齐和峰匹配等数据预处理功能。。MetaboAnalyst 峰识别采用高斯模型,峰对齐提供 相关性最优化规整(COW)、动态时间规整(DTW)和基于化学迁移及质量保留时间容忍度四种方法,且能够对数据的完整性进行检验。XCMS Online 除进行单一的峰识别、峰对齐外,还将保留时间校正前后的结果以总特征离子色谱图和RT 校正曲线图的形式展示出来,并从 RT 校正曲线中识别出极端值,并将其删除。MAVEN 软件利用机器学习算法对峰质量进行评估,通过设定 m/z 范围提取对应的色谱图,以此识别峰、将峰分组并得出峰质量分数。MZmine软件的峰列表处理分为六大模块:零值填充、同位素检测、滤过、对齐、标准化和峰鉴定。其中峰列表对齐运用 RANSAC 算法。
统计分析:MetaboAnalyst 是所有综合性分析工具中统计功能和方法最全面的软件,包括常规的统计方法和高级机器学习算法单因素分析包含 t 检验、火山图、单因素方差分析和相关分析;多因素分析有 PCA、PLS-DA 和 OPLS-DA;高维特征值的提取方法有显著性分析(Significance Analysis of Microarrays, SAM)和微阵列的经验贝叶斯分析(Empirical Bayesian Analysis of Micoarrays, EBAM)算法;聚类分析有系统树图、热图、K 均值和自组织神经网络分析;有监督分析方法包括 RF 和 SVM 算法。同时还提供了时间序列分析,用来检测代谢物浓度或代谢物判别模型随时间的变化趋势。MZmine 中的统计分析相对其数据预处理并不是开发的重点内容,仅提供基本统计方法,但同时支持使用第三方统计软件提供的高级算法,包括交叉验证图、聚类分析、曲线距离分析、Logratio图、热图、PCA 以及 Sammon’s 投影法等。MAVEN 软件包中的数据分析主要是针对两样本间的比较,利用 t 检验来估计两样本间的差异。XCMS Online 提供的基本统计方法有配对t 检验和多组比较的方差分析,另外提供了其特有的多样本间两两比较的 meta 分析方法。其中单因素分析的统计结果以云图输出,多因素则以 PCA 得分图输出。
其他高级功能:MetaboAnalyst 软件是唯一提供功能分析(包括富集分析、通路分析和整合通路分析)和高级分析(包括生物标志物分析、样本量估计和效能分析)的软件。功能分析中的代谢物富集分析目前只针对哺乳动物;代谢通路分析模块又分为代谢通路富集分析和路径拓扑结构分析。高级分析中,生物标志物分析是基于PLS-DA、SVM 及 RF的基础上使用ROC 曲线进行分析的;效能分析和样本量的估计则基于 Bioconductor 软件包 SSPA。该方法是利用实验数据中检测的全部统计量来估计效应大小的分布、效能和最小样本量。
物质鉴定及通路分析数据库:MAVEN 提供通路可视化界面(图1A),其数据库来源于 KEGG 和 Metacyc。MZmine 软件为物质鉴定提供多条途径,包括自定义数据库搜索、在线数据库搜索以及片段和加合物搜索等,同时支持在线连接多种通路分析的组学数据库。物质鉴定库有 HMDB、METLIN 和PUBChen;通路分析数据库支持 KEGG;其他还包括ChemSpider、Lipid Maps、MassBank、Plantcyc 和 YMDB 数据库。MetaboAnalyst  中物质鉴定支持 HMDB 和 METLIN 等库,代谢物通路分析提供 KEGG 和 SMPDB 等库。XCMS Online 软件同样支持 HMDB 和 METLIN 物质鉴定库以及 BIOCYC 和 KEGG 代谢通路库。

小结:
MAVEN 软件的显著优势在于能对峰质量有良好的评估,能提供可信度较高的代谢组学数据,同时能实现数据在代谢途径中的可视化绘图。MZmine  软件除具有全面的数据预处理功能外,同时支持用户开发新的算法,所以它既适合于无编程基础的组学工作者也适合一些高级用户。MetaboAnalyst  的优势则在于它强大的数据统计分析、高级分析以及功能分析等功能,这对代谢组学数据的注释和整合具有重要意义。XCMS  Online 软件是经典 XCMS 函数包的扩展,使用简便,是一款良好的用户友好型软件,但不具有良好的扩展性。

更多详情敬请关注“麦特绘谱”微信公众号!
回复此楼

» 本帖已获得的红花(最新10朵)

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

王程程510

金虫 (小有名气)

送红花一朵
谢谢楼主
2楼2019-05-23 21:39:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
送红花一朵
3楼2020-10-13 11:03:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 麦特绘谱1 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见