| 查看: 3492 | 回复: 13 | |||
xp198766铁杆木虫 (著名写手)
小木虫职业打酱油滴~~!
|
[交流]
【求助/交流】请问,有没有谁知道,如何从NCBI上批量下载一类gene的核苷酸序列?已有7人参与
|
||
|
如题,我在NCBI上面搜索一个gene,得到一千多个结果,我想把这些结果的序列下载下来,可是,有些序列的ID号里面是基因组的ID号,就是说,我下载下来的是基因组序列,而我只想要里面相应基因的序列,NCBI里面搜索结果里,有对相关基因的定位,说是从哪个位点到哪个位点,有什么软件可以达到我的要求呢! 请了解相关知识的高手解答下,不胜感激! |
» 猜你喜欢
康复大学泰山学者周祺惠团队招收博士研究生
已经有6人回复
AI论文写作工具:是科研加速器还是学术作弊器?
已经有3人回复
孩子确诊有中度注意力缺陷
已经有6人回复
2026博士申请-功能高分子,水凝胶方向
已经有6人回复
论文投稿,期刊推荐
已经有4人回复
硕士和导师闹得不愉快
已经有13人回复
请问2026国家基金面上项目会启动申2停1吗
已经有5人回复
同一篇文章,用不同账号投稿对编辑决定是否送审有没有影响?
已经有3人回复
ACS Applied Polymer Materials投稿
已经有10人回复
RSC ADV状态问题
已经有4人回复
» 本主题相关价值贴推荐,对您同样有帮助:
如何撕取叶片的表皮结构
已经有38人回复
一类新药临床前研究是不是一定要把内毒素降下来
已经有14人回复
有谁知道博后基金送审几位专家审查?
已经有12人回复
菜鸟求助——着急求助解答:在NCBI上为什么下载不了FASTA格式的基因序列
已经有9人回复
在NCBI中查到一个基因怎么看操纵子和启动子区域?
已经有20人回复
向NCBI提交序列问题
已经有8人回复
知道氨基酸序列,如何得知核苷酸序列
已经有5人回复
提问-ncbi 序列修改
已经有4人回复
如何在ncbi上提交序列获得序列登记号
已经有5人回复
【求助/交流】我做了SSH,测序了400个。反转录序列与NCBI比对还用将其反向吗
已经有3人回复
【求助/交流】NCBI上注册基因序列,没有ACCESSION NUMEBER是怎么回事?谢谢
已经有6人回复
【求助/交流】如何向NCBI上传蛋白质序列
已经有5人回复
xp198766
铁杆木虫 (著名写手)
小木虫职业打酱油滴~~!
- 应助: 5 (幼儿园)
- 金币: 6525.1
- 散金: 262
- 红花: 25
- 帖子: 2193
- 在线: 554小时
- 虫号: 1046859
- 注册: 2010-06-24
- 性别: GG
- 专业: 环境微生物学
★ ★ ★ ★ ★
scelab(金币+5):good 2010-07-20 23:46:52
scelab(金币+5):good 2010-07-20 23:46:52
|
可以啊,你在NCBI里面有一个下拉列表框,里面可以选基因的,还可以用关键词搜基因呢,例如,用nitrogen搜索gene,可以找到与氮相关的基因,等等 例如这个是脂肪酶相关的基因 http://www.ncbi.nlm.nih.gov/gene/?term=Lipase [ Last edited by xp198766 on 2010-7-20 at 21:07 ] |
7楼2010-07-20 21:05:52
reasonspare
木虫 (著名写手)
- BioEPI: 10
- 应助: 0 (幼儿园)
- 贵宾: 0.894
- 金币: 2262.1
- 红花: 11
- 帖子: 1908
- 在线: 72.5小时
- 虫号: 180928
- 注册: 2006-02-10
- 专业: All in one
★ ★ ★
看天(金币+3):不会是斑竹自己写的吧?呵呵... 2010-07-21 09:09:21
xp198766(金币+10):谢谢您给我这么多的信息!谢谢,对我帮助很大,谢谢!我会认真看的 2010-07-23 15:52:53
看天(金币+3):不会是斑竹自己写的吧?呵呵... 2010-07-21 09:09:21
xp198766(金币+10):谢谢您给我这么多的信息!谢谢,对我帮助很大,谢谢!我会认真看的 2010-07-23 15:52:53
|
上面这个两个问题,如果大家稍微分析一下,其实很简单,就是批量下载, 哈哈,我经常批量下个大数据库的海量数据,也就是3-10G 左右,关键是如何确定你要的信息。 笨方法:MEGA 软件,你可以直接将你的基因通过该软件进行blast,然后手工选择下载每一个基因。 如果你稍微懂一点perl, 那么就非常容易了:下面一个关于蛋白序列批量下载的例子: 已经批量下载了带有注释的Genbank文件,大概有500M,每条信息中的内容既包含蛋白序列也包含核酸序列,使用SeqVerter 等软件只能导出核酸序列的的fasta文件。 现在想把其中的氨基酸序列也批量导出来,园子里倒是查到有高手编的perl模块可以实现这样的功能,但是我对编程语言一窍不通,linux也不会用,不知有什么现成的windows软件可以直接导出蛋白序列的fasta文件。以前写的,试试,在windows的doc下应该也差不多, #! /usr/local/bin/perl # name: gb2pep.pl # genbank input to pep sequences. # Vi.n. #usage: cat yourfile|perl gb2pep.pl # 2006-5-16. use strict; use warnings; my $pep_tag = 0; my $pep = ''; my $name = ''; my $name_tag = 0; while ( $name = $1 if /^LOCUS\s+(\S+)\s+/; $name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/; $name_tag = 0 if /^ACCESSION\s+/; $name.= " $1" if /^\s{12}(.*)/ && $name_tag; $pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/; $pep.=$1 if /^\s{21}(\w+)/ && $pep_tag; if (/^\s{21}\w+"$/ && $pep_tag) { print ">$name\n"; for (my $i = 0; $i*60 <= length $pep; $i++) { print substr($pep, $i*60, 60), "\n"; } $pep_tag = 0; } } 能编译成在windows下使用的程序吗?得益于高手“等天光的硬币”指点,实现在windows下从genbank数据包中轻松导出fasta格式的蛋白序列,非常感谢“等天光的硬币”的热心帮助! 写下这一过程与新手共享。(呵呵,未经“等天光的硬币”允许,不知会不会侵犯知识产权......) 开始: 1. 安装ActivePerl(perl for windows版本) http://downloads.activestate.com ... in32-x86-287188.msi 2. 把以下横线之间的字符粘贴到记事本中,“另存为”并选择保存类型为“所有文件”,命名为gb2pep.pl,放到一个目录下(比如C:\) ______________________________________________________________________ # 2006-5-16. use strict; use warnings; my $pep_tag = 0; my $pep = ''; my $name = ''; my $name_tag = 0; open(IN,$ARGV[0]); while ( $name = $1 if /^LOCUS\s+(\S+)\s+/; $name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/; $name_tag = 0 if /^ACCESSION\s+/; $name.= " $1" if /^\s{12}(.*)/ && $name_tag; $pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/; $pep.=$1 if /^\s{21}(\w+)/ && $pep_tag; if (/^\s{21}\w+"$/ && $pep_tag) { print ">$name\n"; for (my $i = 0; $i*60 <= length $pep; $i++) { print substr($pep, $i*60, 60), "\n"; } $pep_tag = 0; } } ______________________________________________________________________ 3. 将genbank文件(比如demo-genbank.gb)也拷贝到和gb2pep.pl相同的文件夹,比如C:\ 4. 点击windows桌面工具栏“开始”——“运行”——“cmd”进入dos命令窗口,此时文件夹位置一般处于C:\Documents and Settings\当前用户名> 5. 键入"cd\" 回到C盘根目录。输入命令行:perl gb2pep.pl demo-genbank.gb >demo_out.fasta 回车。 6.等一会儿就会在C盘根目录下出现名为 demo_out.fasta的文件,这就是我们处理得到的结果。 使用perl模块处理文本文件十分高效,我下载的一个genbank文件包有五百多兆,使用这个perl模块处理,只要几分钟的时间就得到了fasta格式的序列了,而且几乎不占什么系统资源。谢谢啦~上面的都不好。 用emboss包,基本的seqret操作: seqret -sequence a.gb -outseq a.fasta -osformat fasta 融合序列可以用cat指令: cat *.gb >a.gb 详情请google EMBOSS如果用perl脚本,最好用bioperl直接搞。 use strict; use Bio::SeqIO; my $file_in = shift; my $file_out = shift; my $IN = Bio::SeqIO->new(-file=>$file_in); my $OUT = Bio::SeqIO->new(-file=>">$file_out",-format=>'fasta'); while (my $obj = $IN->next_seq) { $OUT->write_seq($obj); } $IN->close; $OUT->close; |

9楼2010-07-21 04:58:58
hihoney
铁杆木虫 (职业作家)
- 应助: 10 (幼儿园)
- 金币: 6375.7
- 散金: 314
- 红花: 4
- 帖子: 3325
- 在线: 445.1小时
- 虫号: 349053
- 注册: 2007-04-19
- 性别: GG
- 专业: 病原细菌与放线菌生物学
2楼2010-07-20 14:05:42
xp198766
铁杆木虫 (著名写手)
小木虫职业打酱油滴~~!
- 应助: 5 (幼儿园)
- 金币: 6525.1
- 散金: 262
- 红花: 25
- 帖子: 2193
- 在线: 554小时
- 虫号: 1046859
- 注册: 2010-06-24
- 性别: GG
- 专业: 环境微生物学
3楼2010-07-20 16:48:29
姜大磊
木虫 (小有名气)
- 应助: 0 (幼儿园)
- 金币: 3645.9
- 散金: 236
- 红花: 1
- 帖子: 188
- 在线: 210.1小时
- 虫号: 868835
- 注册: 2009-10-11
- 性别: GG
- 专业: 生物技术

4楼2010-07-20 20:28:27
xp198766
铁杆木虫 (著名写手)
小木虫职业打酱油滴~~!
- 应助: 5 (幼儿园)
- 金币: 6525.1
- 散金: 262
- 红花: 25
- 帖子: 2193
- 在线: 554小时
- 虫号: 1046859
- 注册: 2010-06-24
- 性别: GG
- 专业: 环境微生物学
5楼2010-07-20 20:56:51
姜大磊
木虫 (小有名气)
- 应助: 0 (幼儿园)
- 金币: 3645.9
- 散金: 236
- 红花: 1
- 帖子: 188
- 在线: 210.1小时
- 虫号: 868835
- 注册: 2009-10-11
- 性别: GG
- 专业: 生物技术

6楼2010-07-20 21:00:01
cnlics
木虫 (小有名气)
- 应助: 2 (幼儿园)
- 金币: 3014.2
- 红花: 4
- 帖子: 270
- 在线: 422.4小时
- 虫号: 795158
- 注册: 2009-06-16
- 性别: GG
- 专业: 当代宗教
8楼2010-07-20 22:41:05
xp198766
铁杆木虫 (著名写手)
小木虫职业打酱油滴~~!
- 应助: 5 (幼儿园)
- 金币: 6525.1
- 散金: 262
- 红花: 25
- 帖子: 2193
- 在线: 554小时
- 虫号: 1046859
- 注册: 2010-06-24
- 性别: GG
- 专业: 环境微生物学
10楼2010-07-21 11:30:24













回复此楼