版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

jaxb

银虫 (正式写手)

应助: 11 (小学生)
金币: 2570.7
散金: 268
红花: 6
帖子: 382
在线: 154.8小时
虫号: 1114944
注册: 2010-10-06
性别: GG
专业: 畜牧学

[交流] Illumina高通量RNA测序数据分析中不同标准化方法的综合比较已有6人参与

无论是对于芯片数据还是测序数据，数据的标准化都是基因表达分析中必备的步骤。近3年来RNA测序数据标准化的方法出现很多，但是却没有研究比较那种标准化方法效果更好。因此，Marie-Agne'sDillies等利用人、鼠、曲霉菌和线虫的illumina测序数据和一个模拟数据，比较了TC,UQ,Med,DESeq,TMM,Q,RPKM等七种方法对mRNA和miRNA数据标准化的效果。基于DESeq和TSPM方法的差异表达分析结果，该研究比较了七种标准化后数据的质量，标准化对差异表达分析结果的影响，以及差异表法分析的假阳性率和效力。结果表明，五种基于reads长度分布来校正的标准化方法（TC,UQ,Med,Q,RPKM）都增加了假阳性率，而两种基于总reads数校正的方法（DESeq,TMM）控制了假阳性率且保持了差异表达基因的检测效力。在四个真实数据上分析表明，TC,RPKM两种方法基本可以确定无效，可以抛弃。Q由于其对reads分布的假设要求很高，可能会导致组内的变异增大，也应该舍弃。UQ,Med,DESeq,TMM方法就标准化后数据的质量、差异表达分析的结果来看表现差异不大。利用模拟数据进一步分析发现，DESeq和TMM方法可以在不损失检测效率的情况下控制假阳性率。另外，这些方法都基于大部分基因是不存在表达差异这一假设，因此在实际分析中差异表达基因可能会有一定的偏差。因此作者提出可以采取多步骤标准化的策略，即TMM估计标准化因子时先把潜在的差异表达基因去掉。该研究首次比较了多个测序数据标准化方法，为RNA-seq分析中标准化的方法选择提供了一个有力的参考。
交流：
1，文中说不采用edgeR软件包进行表达差异分析，是因为它需要假设read数的分布，这个与前文是不是矛盾？
2，后面提到的先把潜在表达基因去掉再计算标准化因子，是否是要先标准化，计算出差异表达基因，然后再去掉，再计算标准化因子，再标准化。我们的目的就是计算差异表达基因，这样一来会不会造成更大的偏差？
3，为什么差异表达基因分析时一般都要采用负二项分布的假设？
4，数据分为3组，每组间又分为不同的等级。这样的数据结构怎么进行比较呢？
5，还看到一篇文献，讲的是目前的标准化方法都不好，需要发现新的方法，可是又没有给出新的方法法（miRNA-Seq normalization comparisons need improvement）。真愁人！
文献来源：Marie-Agne'sDillies, AndreaRau, JulieAubert, et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Brief Bioinform, 2013 , 14(6):671-83.

回复此楼

» 收录本帖的淘帖专辑推荐

高通量测序

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

丰富你的动物食品！

1楼 2013-12-16 16:36:29

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

602059625

金虫 (知名作家)

MolEPI: 2
应助: 4 (幼儿园)
金币: 1541.8
散金: 1236
红花: 59
沙发: 23
帖子: 7530
在线: 4557.6小时
虫号: 1025998
注册: 2010-05-22
性别: GG
专业: 地球内部物理学

mark

回复此楼

[url=http://ip.WoTuLa.com][img]http://i.WoTuLa.com/note.png?name=填写姓名&say=这里填写您想说的内容。[/img][/url]

2楼2013-12-16 20:06:11

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

biot

木虫 (小有名气)

应助: 12 (小学生)
金币: 2098.4
散金: 100
红花: 1
帖子: 294
在线: 116.3小时
虫号: 2859726
注册: 2013-12-09
性别: GG
专业: 代谢综合征

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

这个分析的好，下载文献认真看看，谢谢！

[ 发自小木虫客户端 ]

赞一下

回复此楼

扬帆起航！

3楼2013-12-16 22:48:41

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

moshangchenx

金虫 (正式写手)

应助: 2 (幼儿园)
金币: 1913.7
散金: 7
红花: 1
帖子: 345
在线: 69.2小时
虫号: 1573517
注册: 2012-01-11
专业: 认知科学

mark

回复此楼

科研无止境，我心成蹉跎

4楼2013-12-18 20:52:22

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

艰苦温度

新虫 (小有名气)

应助: 2 (幼儿园)
金币: 368.4
帖子: 79
在线: 17.8小时
虫号: 2795644
注册: 2013-11-12
专业: 人类遗传学

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

看文献的时候看到这段，关于RNA 的，我没读懂。请教各位大牛，这是什么意思啊？只言片语各种指导都非常欢迎啊！

Raw  FASTQ  files  were  demultiplexed  using  the  FASTX-Toolkit  (http://hannonlab.
cshl.edu/fastx_toolkit/) and processed to contain only the unique sgRNA sequence. To align the
processed reads  to  the  library,  the designed sgRNA sequences from  the  library were assembled
into  a  Burrows-Wheeler  index  using  the  Bowtie  build-index  function.  Reads  were  then
aligned  to  the  index using  the Bowtie aligner. After alignment,  the number of uniquely aligned
reads for each library sequence was calculated.

赞一下

回复此楼

5楼2014-02-10 13:36:00

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖