无论是对于芯片数据还是测序数据,数据的标准化都是基因表达分析中必备的步骤。近3年来RNA测序数据标准化的方法出现很多,但是却没有研究比较那种标准化方法效果更好。因此,Marie-Agne'sDillies等利用人、鼠、曲霉菌和线虫的illumina测序数据和一个模拟数据,比较了TC,UQ,Med,DESeq,TMM,Q,RPKM等七种方法对mRNA和miRNA数据标准化的效果。基于DESeq和TSPM方法的差异表达分析结果,该研究比较了七种标准化后数据的质量,标准化对差异表达分析结果的影响,以及差异表法分析的假阳性率和效力。结果表明,五种基于reads长度分布来校正的标准化方法(TC,UQ,Med,Q,RPKM)都增加了假阳性率,而两种基于总reads数校正的方法(DESeq,TMM)控制了假阳性率且保持了差异表达基因的检测效力。在四个真实数据上分析表明,TC,RPKM两种方法基本可以确定无效,可以抛弃。Q由于其对reads分布的假设要求很高,可能会导致组内的变异增大,也应该舍弃。UQ,Med,DESeq,TMM方法就标准化后数据的质量、差异表达分析的结果来看表现差异不大。利用模拟数据进一步分析发现,DESeq和TMM方法可以在不损失检测效率的情况下控制假阳性率。另外,这些方法都基于大部分基因是不存在表达差异这一假设,因此在实际分析中差异表达基因可能会有一定的偏差。因此作者提出可以采取多步骤标准化的策略,即TMM估计标准化因子时先把潜在的差异表达基因去掉。该研究首次比较了多个测序数据标准化方法,为RNA-seq分析中标准化的方法选择提供了一个有力的参考。
交流:
1,文中说不采用edgeR软件包进行表达差异分析,是因为它需要假设read数的分布,这个与前文是不是矛盾?
2,后面提到的先把潜在表达基因去掉再计算标准化因子,是否是要先标准化,计算出差异表达基因,然后再去掉,再计算标准化因子,再标准化。我们的目的就是计算差异表达基因,这样一来会不会造成更大的偏差?
3,为什么差异表达基因分析时一般都要采用负二项分布的假设?
4,数据分为3组,每组间又分为不同的等级。这样的数据结构怎么进行比较呢?
5,还看到一篇文献,讲的是目前的标准化方法都不好,需要发现新的方法,可是又没有给出新的方法法(miRNA-Seq normalization comparisons need improvement)。真愁人!
文献来源:Marie-Agne'sDillies, AndreaRau, JulieAubert, et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Brief Bioinform, 2013 , 14(6):671-83. |