24小时热门版块排行榜    

查看: 3221  |  回复: 16
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

七八月的阳光

铜虫 (初入文坛)


[交流] 用Trinity进行de novo拼装

最近在公司做了转录组测序,植物样本,illumina Hiseq2000,三个样本共100M的clean reads,一起拼接。该公司用Trinity软件进行de novo拼接,拼出来contigs达40多万条,后来又用CD-HIT进行聚类,结果仍有30多万条,其中包含很多转录本的存在。从文献中看一般植物转录组de novo拼接也就几万条序列,太多的转录本会影响到后面表达量的比较。不知道是由于Trinity这个拼接软件的原因还是其他什么原因。
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
2楼: Originally posted by gaoyang636 at 2012-04-11 16:50:53:
植物的基因组多大呢?
contig的N50有多少?

不知道呢,可能很大,有90多条染色体。
选取的contig为200bp以上,N50为558
不知道是不是和多倍体重复基因有关系
第一次发金币,发出去了吗?
3楼2012-04-11 16:57:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
4楼: Originally posted by gaoyang636 at 2012-04-12 08:26:10:
我个人感觉是你的测序深度太小,而不是软件的问题,即便把其他的拼接软件都用一遍,也不会有什么明显改善。
如果你想把contig尽量拼好一点,进行项目的时候就应该和公司讨论好。才100M的reads,不够的。看看文献 ...

我看很多植物的文章里面也就是几十M的reads。
主要前期看的文献比较少,开展实验的时候时间比较仓促,到现在拿到数据进行结果分析的时候就开始头疼了。
因为后面还想直接比一下三个样本基因表达的差异,就怕转录本太多会干扰表达量结果。主要还是因为没有经验和背景知识比较缺乏。
先做做看好了。
5楼2012-04-12 09:33:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
6楼: Originally posted by gaoyang636 at 2012-04-12 16:07:38:
是啊,我觉得现在很多课题组都是觉得用新技术好发paper,争先恐后的去测,抢占制高点。先测了再想。
特别是大多数课题组内没有任何人有高通量数据处理的经验,而老板往往又把这事情看的过于轻松愉快。
后期的数 ...

是像你说的那样啊。
我感觉国外人做的文章,很多都会采取多种方法拼接,或者采用不同的参数进行尝试,然后选取最优方式。但是我们做通常都是交给公司,公司一般也就常规化处理,多的服务也不乐意去做,更不可能站在我们生物学意义的角度来考虑。
感谢交流!
7楼2012-04-13 09:19:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
8楼: Originally posted by zhusheng303 at 2012-04-13 09:38:17:
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一 ...

好多问题我自己都不确定啊,等我问问公司先。
还有一个问题是,第一次给我结果的时候拼接出来的contig共40多万条,里面有很多的相似序列,我就让他们做做聚类,结果公司用了CD-HIT做的,分别做了95,90,85和80的相似度,90的做下来也还有30多万条。我看很多文献里是用的CAP3,这个软件是不是会好一点啊。
11楼2012-04-16 09:18:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
8楼: Originally posted by zhusheng303 at 2012-04-13 09:38:17:
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一 ...

(2)三个样本是分别建库,分别测序,然后所有序列放在一起拼接。建库时用barcode。
测序的结果三个样本的clean reads数目分别约是48000000,23000000,33000000个,实际测序长度是2*101,去掉质量不好的碱基后每个样本的具体碱基数约为9,4.4,6.4Gbp,三个样本总的碱基数约为20Gbp。我们的植物材料是草本植物,多倍体,有90多条染色体,基因组可能是很大。
这样的测序深度不够吗?
(3)输出的最小contig长度是200bp
(4)公司说这个是3位1体都要用到的
13楼2012-04-16 15:48:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
12楼: Originally posted by gaoyang636 at 2012-04-16 09:56:13:
cd-hit的确是比较保守的,但是cap3没用过,刚看了一下介绍,是个Assembly tool,怀疑不会对你有什么大的帮助

我看华大的数据都是用de novo拼好以后再用CAP3进行比对得到consensus。哎,具体的原理和差异我都不懂。公司应该也是不愿意再给我用cap3做一次的了。
主要是得到的contig太多了,怀疑这样的数据的可靠性,尤其是后面还要依据该数据对三个样本的基因表达量进行比较。不知道这样往下做会不会都白做了。
14楼2012-04-16 15:54:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
15楼: Originally posted by gaoyang636 at 2012-04-16 19:52:12:
我个人感觉数据可靠性的高低,和你的contig长度/数量没有直接关系呢?
你现在contig比较多的原因是因为:1 通量不足以拼的好;2 二代高通量读长比较短; 3 转录组本身de novo拼接就不好弄,并不能看出来怎么质量 ...

可能真是多虑了。
我先往后做做看好了。
16楼2012-04-17 08:12:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 七八月的阳光 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见