24小时热门版块排行榜    

查看: 3288  |  回复: 6

jaxb

银虫 (正式写手)

[交流] Illumina高通量RNA测序数据分析中不同标准化方法的综合比较 已有6人参与

无论是对于芯片数据还是测序数据,数据的标准化都是基因表达分析中必备的步骤。近3年来RNA测序数据标准化的方法出现很多,但是却没有研究比较那种标准化方法效果更好。因此,Marie-Agne'sDillies等利用人、鼠、曲霉菌和线虫的illumina测序数据和一个模拟数据,比较了TC,UQ,Med,DESeq,TMM,Q,RPKM等七种方法对mRNA和miRNA数据标准化的效果。基于DESeq和TSPM方法的差异表达分析结果,该研究比较了七种标准化后数据的质量,标准化对差异表达分析结果的影响,以及差异表法分析的假阳性率和效力。结果表明,五种基于reads长度分布来校正的标准化方法(TC,UQ,Med,Q,RPKM)都增加了假阳性率,而两种基于总reads数校正的方法(DESeq,TMM)控制了假阳性率且保持了差异表达基因的检测效力。在四个真实数据上分析表明,TC,RPKM两种方法基本可以确定无效,可以抛弃。Q由于其对reads分布的假设要求很高,可能会导致组内的变异增大,也应该舍弃。UQ,Med,DESeq,TMM方法就标准化后数据的质量、差异表达分析的结果来看表现差异不大。利用模拟数据进一步分析发现,DESeq和TMM方法可以在不损失检测效率的情况下控制假阳性率。另外,这些方法都基于大部分基因是不存在表达差异这一假设,因此在实际分析中差异表达基因可能会有一定的偏差。因此作者提出可以采取多步骤标准化的策略,即TMM估计标准化因子时先把潜在的差异表达基因去掉。该研究首次比较了多个测序数据标准化方法,为RNA-seq分析中标准化的方法选择提供了一个有力的参考。
        交流:
1,文中说不采用edgeR软件包进行表达差异分析,是因为它需要假设read数的分布,这个与前文是不是矛盾?
2,后面提到的先把潜在表达基因去掉再计算标准化因子,是否是要先标准化,计算出差异表达基因,然后再去掉,再计算标准化因子,再标准化。我们的目的就是计算差异表达基因,这样一来会不会造成更大的偏差?
3,为什么差异表达基因分析时一般都要采用负二项分布的假设?
4,数据分为3组,每组间又分为不同的等级。这样的数据结构怎么进行比较呢?
5,还看到一篇文献,讲的是目前的标准化方法都不好,需要发现新的方法,可是又没有给出新的方法法(miRNA-Seq normalization comparisons need improvement)。真愁人!
        文献来源:Marie-Agne'sDillies, AndreaRau, JulieAubert, et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Brief Bioinform, 2013 , 14(6):671-83.
回复此楼

» 收录本帖的淘帖专辑推荐

高通量测序

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

丰富你的动物食品!
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

602059625

金虫 (知名作家)

[url=http://ip.WoTuLa.com][img]http://i.WoTuLa.com/note.png?name=填写姓名&say=这里填写您想说的内容。[/img][/url]
2楼2013-12-16 20:06:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

biot

木虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
这个分析的好,下载文献认真看看,谢谢!

[ 发自小木虫客户端 ]
扬帆起航!
3楼2013-12-16 22:48:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

moshangchenx

金虫 (正式写手)

科研无止境,我心成蹉跎
4楼2013-12-18 20:52:22
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

艰苦温度

新虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
看文献的时候看到这段,关于RNA 的,我没读懂。请教各位大牛,这是什么意思啊?只言片语各种指导都非常欢迎啊!

Raw  FASTQ  files  were  demultiplexed  using  the  FASTX-Toolkit  (http://hannonlab.
cshl.edu/fastx_toolkit/) and processed to contain only the unique sgRNA sequence. To align the
processed reads  to  the  library,  the designed sgRNA sequences from  the  library were assembled
into  a  Burrows-Wheeler  index  using  the  Bowtie  build-index  function.  Reads  were  then
aligned  to  the  index using  the Bowtie aligner. After alignment,  the number of uniquely aligned
reads for each library sequence was calculated.
5楼2014-02-10 13:36:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zgq138138

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
先标记一下,回头学习!
6楼2014-05-06 17:44:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

问菊20

新虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
原来从文献中可以得出疑问,不单照搬才是学习的过程
later better than never
7楼2018-04-25 10:15:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 jaxb 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见