版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

当前只显示满足指定条件的回帖，点击这里查看本话题的所有回帖

七八月的阳光

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475

[交流] 用Trinity进行de novo拼装

最近在公司做了转录组测序，植物样本，illumina Hiseq2000，三个样本共100M的clean reads，一起拼接。该公司用Trinity软件进行de novo拼接，拼出来contigs达40多万条，后来又用CD-HIT进行聚类，结果仍有30多万条，其中包含很多转录本的存在。从文献中看一般植物转录组de novo拼接也就几万条序列，太多的转录本会影响到后面表达量的比较。不知道是由于Trinity这个拼接软件的原因还是其他什么原因。

回复此楼

» 猜你喜欢

之前让一硕士生水了7个发明专利，现在这7个获批发明专利的维护费可从哪儿支出哈？已经有5人回复
博士读完未来一定会好吗已经有29人回复
博士申请都是内定的吗？已经有5人回复
到新单位后，换了新的研究方向，没有团队，持续积累2区以上论文，能申请到面上吗已经有12人回复
投稿精细化工已经有4人回复
高职单位投计算机相关的北核或SCI四区期刊推荐，求支招！已经有4人回复
导师想让我从独立一作变成了共一第一已经有9人回复
读博已经有4人回复
JMPT 期刊投稿流程已经有4人回复
心脉受损已经有5人回复

» 本主题相关价值贴推荐，对您同样有帮助:

Trinity拼装contig数量已经有0人回复
陈连福NGS生物信息分析 2015暑期培训班招生简章已经有326人回复
模具咬花数字化：更简单更快地实现丰富的表面质感已经有0人回复
单词演义（五）已经有40人回复
关于de novo拼接结果的疑问已经有1人回复
【迅雷】1024分辨率《加勒比海盗4》BD中英双字无水印已经有6人回复
【迅雷】2011动作科幻大片《加勒比海盗4》BD国语配音中字1024高清已经有5人回复
【迅雷】2011最新动作冒险大片《加勒比海盗4：惊涛怪浪》DVD中英双字已经有65人回复

» 抢金币啦！回帖就可以得到:
查看全部散金贴

1楼2012-04-11 16:40:10

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475

引用回帖:

2楼: Originally posted by gaoyang636 at 2012-04-11 16:50:53:
植物的基因组多大呢？
contig的N50有多少？

不知道呢，可能很大，有90多条染色体。
选取的contig为200bp以上，N50为558
不知道是不是和多倍体重复基因有关系
第一次发金币，发出去了吗？

赞一下

回复此楼

3楼2012-04-11 16:57:55

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475

引用回帖:

4楼: Originally posted by gaoyang636 at 2012-04-12 08:26:10:
我个人感觉是你的测序深度太小，而不是软件的问题，即便把其他的拼接软件都用一遍，也不会有什么明显改善。
如果你想把contig尽量拼好一点，进行项目的时候就应该和公司讨论好。才100M的reads，不够的。看看文献 ...

我看很多植物的文章里面也就是几十M的reads。
主要前期看的文献比较少，开展实验的时候时间比较仓促，到现在拿到数据进行结果分析的时候就开始头疼了。
因为后面还想直接比一下三个样本基因表达的差异，就怕转录本太多会干扰表达量结果。主要还是因为没有经验和背景知识比较缺乏。
先做做看好了。

赞一下

回复此楼

5楼2012-04-12 09:33:09

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475

引用回帖:

6楼: Originally posted by gaoyang636 at 2012-04-12 16:07:38:
是啊，我觉得现在很多课题组都是觉得用新技术好发paper，争先恐后的去测，抢占制高点。先测了再想。
特别是大多数课题组内没有任何人有高通量数据处理的经验，而老板往往又把这事情看的过于轻松愉快。
后期的数 ...

是像你说的那样啊。
我感觉国外人做的文章，很多都会采取多种方法拼接，或者采用不同的参数进行尝试，然后选取最优方式。但是我们做通常都是交给公司，公司一般也就常规化处理，多的服务也不乐意去做，更不可能站在我们生物学意义的角度来考虑。
感谢交流！

赞一下

回复此楼

7楼2012-04-13 09:19:25

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475

引用回帖:

8楼: Originally posted by zhusheng303 at 2012-04-13 09:38:17:
我看到你的测序结果后感到很奇怪，有几个问题想问你：
（1）你的三个样本的reads长度是多少啊？如果reads太短，也会导致拼接的结果变化。还有就是你用哪种方式建库，single-end，mated-paired 和 paired-end？一 ...

好多问题我自己都不确定啊，等我问问公司先。
还有一个问题是，第一次给我结果的时候拼接出来的contig共40多万条，里面有很多的相似序列，我就让他们做做聚类，结果公司用了CD-HIT做的，分别做了95,90,85和80的相似度，90的做下来也还有30多万条。我看很多文献里是用的CAP3，这个软件是不是会好一点啊。

赞一下

回复此楼

11楼2012-04-16 09:18:26

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475

引用回帖:

（2）三个样本是分别建库，分别测序，然后所有序列放在一起拼接。建库时用barcode。
测序的结果三个样本的clean reads数目分别约是48000000,23000000,33000000个，实际测序长度是2*101，去掉质量不好的碱基后每个样本的具体碱基数约为9,4.4,6.4Gbp，三个样本总的碱基数约为20Gbp。我们的植物材料是草本植物，多倍体，有90多条染色体，基因组可能是很大。
这样的测序深度不够吗？
（3）输出的最小contig长度是200bp
（4）公司说这个是3位1体都要用到的

赞一下

回复此楼

13楼2012-04-16 15:48:05

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475

引用回帖:

12楼: Originally posted by gaoyang636 at 2012-04-16 09:56:13:
cd-hit的确是比较保守的，但是cap3没用过，刚看了一下介绍，是个Assembly tool，怀疑不会对你有什么大的帮助

我看华大的数据都是用de novo拼好以后再用CAP3进行比对得到consensus。哎，具体的原理和差异我都不懂。公司应该也是不愿意再给我用cap3做一次的了。
主要是得到的contig太多了，怀疑这样的数据的可靠性，尤其是后面还要依据该数据对三个样本的基因表达量进行比较。不知道这样往下做会不会都白做了。

赞一下

回复此楼

14楼2012-04-16 15:54:43

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

七八月的阳光

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475

引用回帖:

15楼: Originally posted by gaoyang636 at 2012-04-16 19:52:12:
我个人感觉数据可靠性的高低，和你的contig长度/数量没有直接关系呢？
你现在contig比较多的原因是因为：1 通量不足以拼的好；2 二代高通量读长比较短； 3 转录组本身de novo拼接就不好弄，并不能看出来怎么质量 ...

可能真是多虑了。
我先往后做做看好了。

赞一下

回复此楼

16楼2012-04-17 08:12:51

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主七八月的阳光的主题更新

返回列表

24小时热门版块排行榜

[交流] 用Trinity进行de novo拼装

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

» 抢金币啦！回帖就可以得到:查看全部散金贴

» 抢金币啦！回帖就可以得到:
查看全部散金贴