24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1246  |  回复: 1

七八月的阳光

铜虫 (初入文坛)

[求助] 关于de novo拼接结果的疑问

之前发帖问过关于trinity软件de novo拼接的问题,但始终有些疑惑得不到解答。

(上一个帖子的问题:
最近在公司做了转录组测序,植物样本,illumina Hiseq2000,三个样本共100M的clean reads,一起拼接。该公司用Trinity软件进行de novo拼接,拼出来contigs达40多万条,后来又用CD-HIT进行聚类,结果仍有30多万条,其中包含很多转录本的存在。从文献中看一般植物转录组de novo拼接也就几万条序列,太多的转录本会影响到后面表达量的比较。不知道是由于Trinity这个拼接软件的原因还是其他什么原因。)

后来从拼接的contig中挑了些序列出来仔细比对,发现了一些问题。在trinity软件输出的结果中,同一个comp里面包含了很多的seq(每一个seq就是一个contig),很多的seq间有重叠的序列,多个seq可以拼接成一条长的序列,并且这条序列能很好的比对到拟南芥基因上。

我很疑惑为什么trinity软件不把这些短的seq组装成一条长的序列,按照我的理解能组装成一条长序列应该更有利于分析。不然,做差异表达分析的时候看起来是多个基因都差异表达了,其实这多个基因都只是一个基因上的不同片段而已。我看SOAP的原理,好像就可以将contig组装成scaffold。

不知用过de novo拼接软件的各位能否给些意见和建议。
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)

有没有人可以帮忙解答一下问题呢?
2楼2012-05-03 15:14:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 七八月的阳光 的主题更新
信息提示
请填处理意见