24小时热门版块排行榜    

CyRhmU.jpeg
查看: 3149  |  回复: 16
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

七八月的阳光

铜虫 (初入文坛)


[交流] 用Trinity进行de novo拼装

最近在公司做了转录组测序,植物样本,illumina Hiseq2000,三个样本共100M的clean reads,一起拼接。该公司用Trinity软件进行de novo拼接,拼出来contigs达40多万条,后来又用CD-HIT进行聚类,结果仍有30多万条,其中包含很多转录本的存在。从文献中看一般植物转录组de novo拼接也就几万条序列,太多的转录本会影响到后面表达量的比较。不知道是由于Trinity这个拼接软件的原因还是其他什么原因。
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhusheng303

木虫 (小有名气)


★ ★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
zhaohq1209: 金币+4, 信息学的GG就是不一般 2012-04-13 11:28:43
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一般,如果用paired-end技术,可能拼接结果会更好点。
(2)你的三个样本是混在一起建库后测序的吗?还是分别建成三个库,分别加三个不同barcode的加以区别吗?如果是后者,我有一个问题,一般Hiseq 2000的一个lane可以获得5-30G左右的数据,而且一个lane里面最多也就可以加到24样品啊,一般的公司在一个lane最多也就加到8个样品,所以你的一个样品获得数据5G/24=210Mb左右才对啊,三个样品应该是至少也应该是600Mbp左右啊!如果你的reads总共才100Mbp的话,拼接成这样,应该是因为你的测序depth太低(因为植物的基因很大,除了拟南芥小点(125Mb)外,一般都大于400Mbp)。你的植物的物种是木本,还是草本植物;如果是木本植物,它的基因组可能会更大点,也会影响你的测序depth。
(3)在使用Tiniity拼接时,你输出的最小的contig长度是多少呢(即“--min_contig_length”参数设置为多少,程序默认200bp)?
(4)在使用Tiniity拼接时,他使用哪个方法拼接的:Inchworm、 Chrysalis 和Butterfly
(A)Inchworm assembles the RNA-seq data into the unique sequences of transcripts, often generating full-length transcripts for a dominant isoform, but then reports just the unique portions of alternatively spliced transcripts.

(B) Chrysalis clusters the Inchworm contigs into clusters and constructs complete de Bruijn graphs for each cluster. Each cluster represents the full transcriptonal complexity for a given gene (or sets of genes that share sequences in common). Chrysalis then partitions the full read set among these disjoint graphs.

(C)Butterfly then processes the individual graphs in parallel, tracing the paths that reads and pairs of reads take within the graph, ultimately reporting full-length transcripts for alternatively spliced isoforms, and teasing apart transcripts that corresponds to paralogous genes.
三种方法得到的结果也是有所不同的。
8楼2012-04-13 09:38:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 17 个回答

gaoyang636

木虫 (著名写手)



小木虫: 金币+0.5, 给个红包,谢谢回帖
植物的基因组多大呢?
contig的N50有多少?
2楼2012-04-11 16:50:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
2楼: Originally posted by gaoyang636 at 2012-04-11 16:50:53:
植物的基因组多大呢?
contig的N50有多少?

不知道呢,可能很大,有90多条染色体。
选取的contig为200bp以上,N50为558
不知道是不是和多倍体重复基因有关系
第一次发金币,发出去了吗?
3楼2012-04-11 16:57:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyang636

木虫 (著名写手)


★ ★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
zhaohq1209: 金币+4, 学习了~欢迎继续交流哈 2012-04-13 11:28:17
我个人感觉是你的测序深度太小,而不是软件的问题,即便把其他的拼接软件都用一遍,也不会有什么明显改善。
如果你想把contig尽量拼好一点,进行项目的时候就应该和公司讨论好。才100M的reads,不够的。看看文献上的测序量有多少?
不过转录组本来也不要求拼长,直接去比对也可以的。你如果是觉得contig太多,就过滤一下吧,比如,选400bp以上的?
4楼2012-04-12 08:26:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复(可上传附件)
信息提示
请填处理意见