24小时热门版块排行榜    

查看: 2260  |  回复: 4

大爷给跪了

新虫 (小有名气)

[求助] 测转录组遇到的一个问题 求高手解答 已有1人参与

最近在华大测了个转录组,基本所有东西都是分析好的

在看数据的时候遇到一个问题:
没有参考基因组,得到几万个unigene。现在用Nr数据库注释到的基因比如是n个,但是同时用Nr数据库预测CDS的时候,居然<n,这种情况怎么理解
我想的是基因注释做blast,unigene和NR库里的数据比对,哪怕不在CDS区也算是注释上?可能在非编码区比对上了也就算注释上了。

还有  我得到的cds序列不是从起始密码子开始,是不是转录组CDS预测不一定得到完整的cds

因为涉及到数据注释的一些问题了,也不太了解,求高手解答
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

growlywolf

金虫 (小有名气)

【答案】应助回帖

★ ★ ★
感谢参与,应助指数 +1
大爷给跪了(西门吹雪170代发): 金币+3, 鼓励热心回帖交流 2014-05-06 18:06:17
第一,ncbi nr数据库不是万能的,很多基因,尤其是近年来高通量测序得到的基因并不包含在该数据库中。
第二,unigene是用转录组测序的结果直接拼接然后去冗余得到的,在进行注释的时候,不仅仅是参考nr数据库。在数据库中没有同源序列,但有RNA-Seq数据支持的也算unigene,注释可能就是unknown protein.
第三,RNA-Seq是要把cDNA打断后建立短片段测序文库,因此不一定能拼接出完整的转录本。另一方面,真实的cDNA也是有UTR的,不是从ATG开始。
2楼2014-05-06 11:44:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

大爷给跪了

新虫 (小有名气)

引用回帖:
2楼: Originally posted by growlywolf at 2014-05-06 11:44:14
第一,ncbi nr数据库不是万能的,很多基因,尤其是近年来高通量测序得到的基因并不包含在该数据库中。
第二,unigene是用转录组测序的结果直接拼接然后去冗余得到的,在进行注释的时候,不仅仅是参考nr数据库。在数 ...

十分感谢growlywolf,让我知道我不是单机版
你说的基本理解了。那你的意思是不是  那些unknown protein  可能就是得不到CDS的?
3楼2014-05-06 16:57:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

growlywolf

金虫 (小有名气)

引用回帖:
3楼: Originally posted by 大爷给跪了 at 2014-05-06 16:57:09
十分感谢growlywolf,让我知道我不是单机版
你说的基本理解了。那你的意思是不是  那些unknown protein  可能就是得不到CDS的?...

对,unknown protein就是在nr、pfam等各类数据库中都找不到同源序列的基因。
4楼2014-05-07 09:29:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

一叶_孤城

新虫 (初入文坛)

楼主,能不能把华大反馈给你的数据分享给我一份,最近可能也要做转录组,想了解一下。万分感谢
5楼2015-09-29 18:32:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 大爷给跪了 的主题更新
信息提示
请填处理意见