版块导航
正在加载中...
客户端APP下载
论文辅导
申博辅导
登录
注册
帖子
帖子
用户
本版
应《网络安全法》要求,自2017年10月1日起,未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用,请尽快对帐号进行手机号验证,感谢您的理解与支持!
24小时热门版块排行榜
>
论坛更新日志
(3666)
>
虫友互识
(341)
>
文献求助
(330)
>
导师招生
(267)
>
考博
(95)
>
招聘信息布告栏
(74)
>
论文道贺祈福
(64)
>
硕博家园
(64)
>
博后之家
(60)
>
休闲灌水
(52)
>
教师之家
(32)
>
找工作
(32)
>
基金申请
(27)
>
绿色求助(高悬赏)
(26)
>
SciFinder/Reaxys
(21)
>
论文投稿
(21)
小木虫论坛-学术科研互动平台
»
生物医药区
»
生物科学
»
用Trinity进行de novo拼装
9
1/1
返回列表
查看: 3221 | 回复: 16
查看全部回帖
@他人
存档
新回复提醒
(忽略)
收藏
在APP中查看
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖
七八月的阳光
铜虫
(初入文坛)
应助: 0
(幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475
[交流]
用Trinity进行de novo拼装
最近在公司做了转录组测序,植物样本,illumina Hiseq2000,三个样本共100M的clean reads,一起拼接。该公司用Trinity软件进行de novo拼接,拼出来contigs达40多万条,后来又用CD-HIT进行聚类,结果仍有30多万条,其中包含很多转录本的存在。从文献中看一般植物转录组de novo拼接也就几万条序列,太多的转录本会影响到后面表达量的比较。不知道是由于Trinity这个拼接软件的原因还是其他什么原因。
回复此楼
» 猜你喜欢
之前让一硕士生水了7个发明专利,现在这7个获批发明专利的维护费可从哪儿支出哈?
已经有5人回复
博士读完未来一定会好吗
已经有29人回复
博士申请都是内定的吗?
已经有5人回复
到新单位后,换了新的研究方向,没有团队,持续积累2区以上论文,能申请到面上吗
已经有12人回复
投稿精细化工
已经有4人回复
高职单位投计算机相关的北核或SCI四区期刊推荐,求支招!
已经有4人回复
导师想让我从独立一作变成了共一第一
已经有9人回复
读博
已经有4人回复
JMPT 期刊投稿流程
已经有4人回复
心脉受损
已经有5人回复
高级回复
» 本主题相关价值贴推荐,对您同样有帮助:
Trinity拼装contig数量
已经有0人回复
陈连福NGS生物信息分析 2015暑期培训班招生简章
已经有326人回复
模具咬花数字化:更简单更快地实现丰富的表面质感
已经有0人回复
单词演义(五)
已经有40人回复
关于de novo拼接结果的疑问
已经有1人回复
【迅雷】1024分辨率《加勒比海盗4》BD中英双字无水印
已经有6人回复
【迅雷】2011动作科幻大片《加勒比海盗4》BD国语配音中字1024高清
已经有5人回复
【迅雷】2011最新动作冒险大片《加勒比海盗4:惊涛怪浪》DVD中英双字
已经有65人回复
» 抢金币啦!回帖就可以得到:
查看全部散金贴
鲁东大学硕士研究生招生
+
1
/126
26申博自荐-电磁屏蔽材料方向
+
2
/74
双一流大学-湘潭大学“电化学能源储存与转换”湖南省重点实验室招生电池方向博士生
+
1
/69
2026申博自荐
+
1
/45
中国科学院理化所微纳材料与技术前沿交叉研究中心诚聘英才加盟
+
1
/35
西交利物浦大学黄彪院士招收26年全奖博士生1名(工业智能方向)
+
1
/31
QS TOP100英国南安普顿大学数字健康与生医工招博后,博士,Fellowship,访问学者
+
1
/30
数学与应用数学、非线性动力学、计算流体力学、控制工程、岩石力学相关专业博士招生
+
1
/28
2026年博士招生--北京理工大学交叉学科(航空,力学,能动,计算机等方向)
+
1
/27
智慧能源中心招聘启事|博士后 科研助理
+
1
/24
浙江工业大学国家优青朱艺涵团队在固态电池解构与设计方向招收2026年博士生2名
+
1
/22
中科院过程工程研究所 诚招博士后及科研助理
+
1
/8
哈尔滨工业大学(深圳)赵怡潞课题组诚招博士后
+
1
/6
Jade求助
+
1
/2
上海大学长江学者钟云波教授团队招收外场冶金或材料加工方向2026年博士研究生
+
1
/1
华中农业大学生命科学技术学院 “酶智能设计与农药生物合成”课题组招聘启事
+
1
/1
北理工柔性电子国家杰青团队招【科研助理(读博意向)】
+
1
/1
西交利物浦大学/氮化镓基 CMOS 技术的物理驱动与人工智能增强方法/招博士研究生
+
1
/1
西交利物浦大学/GaN电力电子器件方向/张洁老师招博士研究生
+
1
/1
西交利物浦大学(苏州)/刘雯教授师课题组/招博士研究生
+
1
/1
1楼
2012-04-11 16:40:10
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
七八月的阳光
铜虫
(初入文坛)
应助: 0
(幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475
引用回帖:
2楼
:
Originally posted by
gaoyang636
at 2012-04-11 16:50:53:
植物的基因组多大呢?
contig的N50有多少?
不知道呢,可能很大,有90多条染色体。
选取的contig为200bp以上,N50为558
不知道是不是和多倍体重复基因有关系
第一次发金币,发出去了吗?
赞
一下
回复此楼
3楼
2012-04-11 16:57:55
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
七八月的阳光
铜虫
(初入文坛)
应助: 0
(幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475
引用回帖:
4楼
:
Originally posted by
gaoyang636
at 2012-04-12 08:26:10:
我个人感觉是你的测序深度太小,而不是软件的问题,即便把其他的拼接软件都用一遍,也不会有什么明显改善。
如果你想把contig尽量拼好一点,进行项目的时候就应该和公司讨论好。才100M的reads,不够的。看看文献 ...
我看很多植物的文章里面也就是几十M的reads。
主要前期看的文献比较少,开展实验的时候时间比较仓促,到现在拿到数据进行结果分析的时候就开始头疼了。
因为后面还想直接比一下三个样本基因表达的差异,就怕转录本太多会干扰表达量结果。主要还是因为没有经验和背景知识比较缺乏。
先做做看好了。
赞
一下
回复此楼
5楼
2012-04-12 09:33:09
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
七八月的阳光
铜虫
(初入文坛)
应助: 0
(幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475
引用回帖:
6楼
:
Originally posted by
gaoyang636
at 2012-04-12 16:07:38:
是啊,我觉得现在很多课题组都是觉得用新技术好发paper,争先恐后的去测,抢占制高点。先测了再想。
特别是大多数课题组内没有任何人有高通量数据处理的经验,而老板往往又把这事情看的过于轻松愉快。
后期的数 ...
是像你说的那样啊。
我感觉国外人做的文章,很多都会采取多种方法拼接,或者采用不同的参数进行尝试,然后选取最优方式。但是我们做通常都是交给公司,公司一般也就常规化处理,多的服务也不乐意去做,更不可能站在我们生物学意义的角度来考虑。
感谢交流!
赞
一下
回复此楼
7楼
2012-04-13 09:19:25
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
七八月的阳光
铜虫
(初入文坛)
应助: 0
(幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475
引用回帖:
8楼
:
Originally posted by
zhusheng303
at 2012-04-13 09:38:17:
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一 ...
好多问题我自己都不确定啊,等我问问公司先。
还有一个问题是,第一次给我结果的时候拼接出来的contig共40多万条,里面有很多的相似序列,我就让他们做做聚类,结果公司用了CD-HIT做的,分别做了95,90,85和80的相似度,90的做下来也还有30多万条。我看很多文献里是用的CAP3,这个软件是不是会好一点啊。
赞
一下
回复此楼
11楼
2012-04-16 09:18:26
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
七八月的阳光
铜虫
(初入文坛)
应助: 0
(幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475
引用回帖:
8楼
:
Originally posted by
zhusheng303
at 2012-04-13 09:38:17:
我看到你的测序结果后感到很奇怪,有几个问题想问你:
(1)你的三个样本的reads长度是多少啊?如果reads太短,也会导致拼接的结果变化。还有就是你用哪种方式建库,single-end,mated-paired 和 paired-end?一 ...
(2)三个样本是分别建库,分别测序,然后所有序列放在一起拼接。建库时用barcode。
测序的结果三个样本的clean reads数目分别约是48000000,23000000,33000000个,实际测序长度是2*101,去掉质量不好的碱基后每个样本的具体碱基数约为9,4.4,6.4Gbp,三个样本总的碱基数约为20Gbp。我们的植物材料是草本植物,多倍体,有90多条染色体,基因组可能是很大。
这样的测序深度不够吗?
(3)输出的最小contig长度是200bp
(4)公司说这个是3位1体都要用到的
赞
一下
回复此楼
13楼
2012-04-16 15:48:05
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
七八月的阳光
铜虫
(初入文坛)
应助: 0
(幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475
引用回帖:
12楼
:
Originally posted by
gaoyang636
at 2012-04-16 09:56:13:
cd-hit的确是比较保守的,但是cap3没用过,刚看了一下介绍,是个Assembly tool,怀疑不会对你有什么大的帮助
我看华大的数据都是用de novo拼好以后再用CAP3进行比对得到consensus。哎,具体的原理和差异我都不懂。公司应该也是不愿意再给我用cap3做一次的了。
主要是得到的contig太多了,怀疑这样的数据的可靠性,尤其是后面还要依据该数据对三个样本的基因表达量进行比较。不知道这样往下做会不会都白做了。
赞
一下
回复此楼
14楼
2012-04-16 15:54:43
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
七八月的阳光
铜虫
(初入文坛)
应助: 0
(幼儿园)
金币: 334.9
帖子: 33
在线: 57.1小时
虫号: 957475
引用回帖:
15楼
:
Originally posted by
gaoyang636
at 2012-04-16 19:52:12:
我个人感觉数据可靠性的高低,和你的contig长度/数量没有直接关系呢?
你现在contig比较多的原因是因为:1 通量不足以拼的好;2 二代高通量读长比较短; 3 转录组本身de novo拼接就不好弄,并不能看出来怎么质量 ...
可能真是多虑了。
我先往后做做看好了。
赞
一下
回复此楼
16楼
2012-04-17 08:12:51
已阅
回复此楼
关注TA
给TA发消息
送TA红花
TA的回帖
相关版块跳转
新药研发
药学
药品生产
分子生物
微生物
动植物
生物科学
医学
我要订阅楼主
七八月的阳光
的主题更新
9
1/1
返回列表
如果回帖内容含有宣传信息,请如实选中。否则帐号将被全论坛禁言
普通表情
龙
兔
虎
猫
高级回复
(可上传附件)
百度网盘
|
360云盘
|
千易网盘
|
华为网盘
在新窗口页面中打开自己喜欢的网盘网站,将文件上传后,然后将下载链接复制到帖子内容中就可以了。
信息提示
关闭
请填处理意见
关闭
确定