24小时热门版块排行榜    

查看: 2470  |  回复: 16
【有奖交流】积极回复本帖子,参与交流,就有机会分得作者 七八月的阳光 的 17 个金币

七八月的阳光

铜虫 (初入文坛)


[交流] 用Trinity进行de novo拼装

最近在公司做了转录组测序,植物样本,illumina Hiseq2000,三个样本共100M的clean reads,一起拼接。该公司用Trinity软件进行de novo拼接,拼出来contigs达40多万条,后来又用CD-HIT进行聚类,结果仍有30多万条,其中包含很多转录本的存在。从文献中看一般植物转录组de novo拼接也就几万条序列,太多的转录本会影响到后面表达量的比较。不知道是由于Trinity这个拼接软件的原因还是其他什么原因。
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

zhusheng303

木虫 (小有名气)


★ ★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
zhaohq1209: 金币+4, 信息学的GG就是不一般 2012-04-13 11:28:43
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一般,如果用paired-end技术,可能拼接结果会更好点。
(2)你的三个样本是混在一起建库后测序的吗?还是分别建成三个库,分别加三个不同barcode的加以区别吗?如果是后者,我有一个问题,一般Hiseq 2000的一个lane可以获得5-30G左右的数据,而且一个lane里面最多也就可以加到24样品啊,一般的公司在一个lane最多也就加到8个样品,所以你的一个样品获得数据5G/24=210Mb左右才对啊,三个样品应该是至少也应该是600Mbp左右啊!如果你的reads总共才100Mbp的话,拼接成这样,应该是因为你的测序depth太低(因为植物的基因很大,除了拟南芥小点(125Mb)外,一般都大于400Mbp)。你的植物的物种是木本,还是草本植物;如果是木本植物,它的基因组可能会更大点,也会影响你的测序depth。
(3)在使用Tiniity拼接时,你输出的最小的contig长度是多少呢(即“--min_contig_length”参数设置为多少,程序默认200bp)?
(4)在使用Tiniity拼接时,他使用哪个方法拼接的:Inchworm、 Chrysalis 和Butterfly
(A)Inchworm assembles the RNA-seq data into the unique sequences of transcripts, often generating full-length transcripts for a dominant isoform, but then reports just the unique portions of alternatively spliced transcripts.

(B) Chrysalis clusters the Inchworm contigs into clusters and constructs complete de Bruijn graphs for each cluster. Each cluster represents the full transcriptonal complexity for a given gene (or sets of genes that share sequences in common). Chrysalis then partitions the full read set among these disjoint graphs.

(C)Butterfly then processes the individual graphs in parallel, tracing the paths that reads and pairs of reads take within the graph, ultimately reporting full-length transcripts for alternatively spliced isoforms, and teasing apart transcripts that corresponds to paralogous genes.
三种方法得到的结果也是有所不同的。
8楼2012-04-13 09:38:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

gaoyang636

木虫 (著名写手)



小木虫: 金币+0.5, 给个红包,谢谢回帖
植物的基因组多大呢?
contig的N50有多少?
2楼2012-04-11 16:50:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
2楼: Originally posted by gaoyang636 at 2012-04-11 16:50:53:
植物的基因组多大呢?
contig的N50有多少?

不知道呢,可能很大,有90多条染色体。
选取的contig为200bp以上,N50为558
不知道是不是和多倍体重复基因有关系
第一次发金币,发出去了吗?
3楼2012-04-11 16:57:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyang636

木虫 (著名写手)


★ ★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
zhaohq1209: 金币+4, 学习了~欢迎继续交流哈 2012-04-13 11:28:17
我个人感觉是你的测序深度太小,而不是软件的问题,即便把其他的拼接软件都用一遍,也不会有什么明显改善。
如果你想把contig尽量拼好一点,进行项目的时候就应该和公司讨论好。才100M的reads,不够的。看看文献上的测序量有多少?
不过转录组本来也不要求拼长,直接去比对也可以的。你如果是觉得contig太多,就过滤一下吧,比如,选400bp以上的?
4楼2012-04-12 08:26:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
4楼: Originally posted by gaoyang636 at 2012-04-12 08:26:10:
我个人感觉是你的测序深度太小,而不是软件的问题,即便把其他的拼接软件都用一遍,也不会有什么明显改善。
如果你想把contig尽量拼好一点,进行项目的时候就应该和公司讨论好。才100M的reads,不够的。看看文献 ...

我看很多植物的文章里面也就是几十M的reads。
主要前期看的文献比较少,开展实验的时候时间比较仓促,到现在拿到数据进行结果分析的时候就开始头疼了。
因为后面还想直接比一下三个样本基因表达的差异,就怕转录本太多会干扰表达量结果。主要还是因为没有经验和背景知识比较缺乏。
先做做看好了。
5楼2012-04-12 09:33:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyang636

木虫 (著名写手)



小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
5楼: Originally posted by 七八月的阳光 at 2012-04-12 09:33:09:
我看很多植物的文章里面也就是几十M的reads。
主要前期看的文献比较少,开展实验的时候时间比较仓促,到现在拿到数据进行结果分析的时候就开始头疼了。
因为后面还想直接比一下三个样本基因表达的差异,就怕转 ...

是啊,我觉得现在很多课题组都是觉得用新技术好发paper,争先恐后的去测,抢占制高点。先测了再想。
特别是大多数课题组内没有任何人有高通量数据处理的经验,而老板往往又把这事情看的过于轻松愉快。
后期的数据分析可能会很痛苦的,祝你好运了!
6楼2012-04-12 16:07:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
6楼: Originally posted by gaoyang636 at 2012-04-12 16:07:38:
是啊,我觉得现在很多课题组都是觉得用新技术好发paper,争先恐后的去测,抢占制高点。先测了再想。
特别是大多数课题组内没有任何人有高通量数据处理的经验,而老板往往又把这事情看的过于轻松愉快。
后期的数 ...

是像你说的那样啊。
我感觉国外人做的文章,很多都会采取多种方法拼接,或者采用不同的参数进行尝试,然后选取最优方式。但是我们做通常都是交给公司,公司一般也就常规化处理,多的服务也不乐意去做,更不可能站在我们生物学意义的角度来考虑。
感谢交流!
7楼2012-04-13 09:19:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyang636

木虫 (著名写手)


引用回帖:
8楼: Originally posted by zhusheng303 at 2012-04-13 09:38:17:
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一 ...

转录组哪有做MP的?
9楼2012-04-13 14:34:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhusheng303

木虫 (小有名气)



小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
9楼: Originally posted by gaoyang636 at 2012-04-13 14:34:08:
转录组哪有做MP的?

不好意思,转录组确实极少做mate-paired的。
10楼2012-04-13 17:34:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
8楼: Originally posted by zhusheng303 at 2012-04-13 09:38:17:
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一 ...

好多问题我自己都不确定啊,等我问问公司先。
还有一个问题是,第一次给我结果的时候拼接出来的contig共40多万条,里面有很多的相似序列,我就让他们做做聚类,结果公司用了CD-HIT做的,分别做了95,90,85和80的相似度,90的做下来也还有30多万条。我看很多文献里是用的CAP3,这个软件是不是会好一点啊。
11楼2012-04-16 09:18:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyang636

木虫 (著名写手)



小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
11楼: Originally posted by 七八月的阳光 at 2012-04-16 09:18:26:
好多问题我自己都不确定啊,等我问问公司先。
还有一个问题是,第一次给我结果的时候拼接出来的contig共40多万条,里面有很多的相似序列,我就让他们做做聚类,结果公司用了CD-HIT做的,分别做了95,90,85和80的 ...

cd-hit的确是比较保守的,但是cap3没用过,刚看了一下介绍,是个Assembly tool,怀疑不会对你有什么大的帮助
12楼2012-04-16 09:56:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
8楼: Originally posted by zhusheng303 at 2012-04-13 09:38:17:
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一 ...

(2)三个样本是分别建库,分别测序,然后所有序列放在一起拼接。建库时用barcode。
测序的结果三个样本的clean reads数目分别约是48000000,23000000,33000000个,实际测序长度是2*101,去掉质量不好的碱基后每个样本的具体碱基数约为9,4.4,6.4Gbp,三个样本总的碱基数约为20Gbp。我们的植物材料是草本植物,多倍体,有90多条染色体,基因组可能是很大。
这样的测序深度不够吗?
(3)输出的最小contig长度是200bp
(4)公司说这个是3位1体都要用到的
13楼2012-04-16 15:48:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
12楼: Originally posted by gaoyang636 at 2012-04-16 09:56:13:
cd-hit的确是比较保守的,但是cap3没用过,刚看了一下介绍,是个Assembly tool,怀疑不会对你有什么大的帮助

我看华大的数据都是用de novo拼好以后再用CAP3进行比对得到consensus。哎,具体的原理和差异我都不懂。公司应该也是不愿意再给我用cap3做一次的了。
主要是得到的contig太多了,怀疑这样的数据的可靠性,尤其是后面还要依据该数据对三个样本的基因表达量进行比较。不知道这样往下做会不会都白做了。
14楼2012-04-16 15:54:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyang636

木虫 (著名写手)


★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
七八月的阳光: 金币+3, 十分感谢这些天来给的意见! 2012-04-17 08:14:20
我个人感觉数据可靠性的高低,和你的contig长度/数量没有直接关系呢?
你现在contig比较多的原因是因为:1 通量不足以拼的好;2 二代高通量读长比较短; 3 转录组本身de novo拼接就不好弄,并不能看出来怎么质量就不好了。
极端一点,丝毫不去拼接,直接拿reads去做定量,也没有问题啊(不过一般是在有ref的情况下)
你是不是多虑了?
15楼2012-04-16 19:52:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)


引用回帖:
15楼: Originally posted by gaoyang636 at 2012-04-16 19:52:12:
我个人感觉数据可靠性的高低,和你的contig长度/数量没有直接关系呢?
你现在contig比较多的原因是因为:1 通量不足以拼的好;2 二代高通量读长比较短; 3 转录组本身de novo拼接就不好弄,并不能看出来怎么质量 ...

可能真是多虑了。
我先往后做做看好了。
16楼2012-04-17 08:12:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaowei1160

银虫 (初入文坛)



小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
8楼: Originally posted by zhusheng303 at 2012-04-13 09:38:17
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一般 ...

如果我有双端reads加起来有5G的数据量,同一个体8个组织拼出来还是有50万条contigs,你觉得会是什么原因导致的
17楼2015-06-18 10:49:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 七八月的阳光 的主题更新
普通表情 高级回复(可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考博] 关于读博感觉自己很抓马 +10 小九月 2024-06-19 14/700 2024-06-23 08:22 by yuer111111
[考博] 申请25博士,可以提前进组做科研助理 +3 逐梦途中w 2024-06-22 3/150 2024-06-23 01:08 by faine..
[基金申请] 江苏省333人才工程 出校后被刷的概率大不大? +6 maxbirdzhang 2024-06-19 9/450 2024-06-23 00:33 by kobe0107
[找工作] 高校两个offer选择 +20 cowox2021 2024-06-18 21/1050 2024-06-22 21:39 by yuan0806
[金属] EBSD的解析率只有10% +3 wallace6666 2024-06-20 6/300 2024-06-22 19:55 by EBSD
[基金申请] 博后面上和特助今天出吗? +39 逗您玩 2024-06-21 73/3650 2024-06-22 16:14 by msjy
[基金申请] 国产期刊影响因子大于12的有20多个个了 +16 babu2015 2024-06-20 21/1050 2024-06-22 13:16 by wwwwww007
[博后之家] 在国内某高校做全职博士后2年,现在找到新的单位,出站或退站对新工作有什么影响? +10 nxplfcc 2024-06-20 10/500 2024-06-22 07:52 by 徐长安
[有机交流] 锌粉还原反应 20+4 明宝栋 2024-06-17 6/300 2024-06-22 02:29 by hwalle
[论文投稿] 水果保鲜投稿 5+4 zhengjiandong 2024-06-19 6/300 2024-06-21 22:27 by 宋小爷
[基金申请] 听大佬说今年信息口本子数量大幅增加? +8 wutzxt 2024-06-21 9/450 2024-06-21 19:58 by wutzxt
[基金申请] 面上博士后 +11 jsqy 2024-06-19 13/650 2024-06-21 17:12 by sizhouyi
[论文投稿] ACS 编辑的意见 10+3 哈哈妞1993 2024-06-20 3/150 2024-06-21 17:06 by 投个论文
[考博] 2025年博士申请,可先做科研助理 +5 limit888 2024-06-18 8/400 2024-06-21 12:45 by 半简体
[精细化工] 试剂价格 +7 旭必上岸 2024-06-17 10/500 2024-06-20 23:35 by 相与处于陆的鱼
[基金申请] 我标书代码变了 +63 学员NHuqdk 2024-06-16 86/4300 2024-06-20 22:03 by 841790061
[论文投稿] ACS AMI 返回审稿意见,一个大修,两个据稿,编辑给的修改重投 +7 智商已更新 2024-06-19 7/350 2024-06-20 19:54 by kinlin13
[论文投稿] 投稿求助 +4 平凡的日子 2024-06-19 5/250 2024-06-20 16:24 by yueyueyue@
[基金申请] 面青地会评时间??? +7 Axvdvbfs 2024-06-19 8/400 2024-06-20 11:16 by 路遥还有谁
[基金申请] F口401需要啥文章水平 +3 lhjr123 2024-06-16 7/350 2024-06-18 16:05 by hon920603
信息提示
请填处理意见