版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~！

应助: 5 (幼儿园)
金币: 6525.1
散金: 262
红花: 25
帖子: 2193
在线: 554小时
虫号: 1046859
注册: 2010-06-24
性别: GG
专业: 环境微生物学

[交流] 【求助/交流】请问，有没有谁知道，如何从NCBI上批量下载一类gene的核苷酸序列？已有7人参与

如题，我在NCBI上面搜索一个gene，得到一千多个结果，我想把这些结果的序列下载下来，可是，有些序列的ID号里面是基因组的ID号，就是说，我下载下来的是基因组序列，而我只想要里面相应基因的序列，NCBI里面搜索结果里，有对相关基因的定位，说是从哪个位点到哪个位点，有什么软件可以达到我的要求呢！

请了解相关知识的高手解答下，不胜感激！

回复此楼

» 猜你喜欢

依托企业入选了国家启明计划青年人才。有无高校可以引进的。已经有14人回复
表哥与省会女结婚，父母去帮带孩子被省会女气回家生重病了已经有11人回复
江汉大学解明教授课题组招博士研究生/博士后已经有3人回复
AI 太可怕了，写基金时，提出想法，直接生成的文字比自己想得深远，还有科学性已经有11人回复
同年申请2项不同项目，第1个项目里不写第2个项目的信息，可以吗已经有10人回复
依托企业入选了国家启明计划青年人才。有无高校可以引进的。已经有11人回复

» 本主题相关价值贴推荐，对您同样有帮助:

如何撕取叶片的表皮结构已经有38人回复
一类新药临床前研究是不是一定要把内毒素降下来已经有14人回复
有谁知道博后基金送审几位专家审查？已经有12人回复
菜鸟求助——着急求助解答：在NCBI上为什么下载不了FASTA格式的基因序列已经有9人回复
在NCBI中查到一个基因怎么看操纵子和启动子区域？已经有20人回复
向NCBI提交序列问题已经有8人回复
知道氨基酸序列，如何得知核苷酸序列已经有5人回复
提问-ncbi 序列修改已经有4人回复
如何在ncbi上提交序列获得序列登记号已经有5人回复
【求助/交流】我做了SSH，测序了400个。反转录序列与NCBI比对还用将其反向吗已经有3人回复
【求助/交流】NCBI上注册基因序列，没有ACCESSION NUMEBER是怎么回事？谢谢已经有6人回复
【求助/交流】如何向NCBI上传蛋白质序列已经有5人回复

1楼 2010-07-20 11:51:39

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

回帖支持 ( 显示支持度最高的前 50 名 )

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~！

应助: 5 (幼儿园)
金币: 6525.1
散金: 262
红花: 25
帖子: 2193
在线: 554小时
虫号: 1046859
注册: 2010-06-24
性别: GG
专业: 环境微生物学

★ ★ ★ ★ ★
scelab(金币+5):good 2010-07-20 23:46:52

引用回帖:

Originally posted by 姜大磊 at 2010-07-20 21:00:01:

知道这个基因的名称行不行啊，比如说脂肪酶基因，纤维素基因等等，谢谢！

可以啊，你在NCBI里面有一个下拉列表框，里面可以选基因的，还可以用关键词搜基因呢，例如，用nitrogen搜索gene，可以找到与氮相关的基因，等等

例如这个是脂肪酶相关的基因

http://www.ncbi.nlm.nih.gov/gene/?term=Lipase

[ Last edited by xp198766 on 2010-7-20 at 21:07 ]

赞一下(2人)

回复此楼

7楼2010-07-20 21:05:52

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

reasonspare

木虫 (著名写手)

BioEPI: 10
应助: 0 (幼儿园)
贵宾: 0.894
金币: 2262.1
红花: 11
帖子: 1908
在线: 72.5小时
虫号: 180928
注册: 2006-02-10
专业: All in one

★ ★ ★
看天(金币+3):不会是斑竹自己写的吧？呵呵... 2010-07-21 09:09:21
xp198766(金币+10):谢谢您给我这么多的信息！谢谢，对我帮助很大，谢谢！我会认真看的 2010-07-23 15:52:53

上面这个两个问题，如果大家稍微分析一下，其实很简单，就是批量下载，
哈哈，我经常批量下个大数据库的海量数据，也就是3-10G 左右，关键是如何确定你要的信息。
笨方法：ＭＥＧＡ　软件，你可以直接将你的基因通过该软件进行blast，然后手工选择下载每一个基因。

如果你稍微懂一点perl, 那么就非常容易了：下面一个关于蛋白序列批量下载的例子：

已经批量下载了带有注释的Genbank文件，大概有500M，每条信息中的内容既包含蛋白序列也包含核酸序列，使用SeqVerter 等软件只能导出核酸序列的的fasta文件。
现在想把其中的氨基酸序列也批量导出来，园子里倒是查到有高手编的perl模块可以实现这样的功能，但是我对编程语言一窍不通，linux也不会用，不知有什么现成的windows软件可以直接导出蛋白序列的fasta文件。以前写的，试试，在windows的doc下应该也差不多，

#! /usr/local/bin/perl
# name: gb2pep.pl
# genbank input to pep sequences.
# Vi.n.
#usage: cat yourfile|perl gb2pep.pl
# 2006-5-16.
use strict;
use warnings;
my $pep_tag = 0;
my $pep = '';
my $name = '';
my $name_tag = 0;
while ( {
$name = $1 if /^LOCUS\s+(\S+)\s+/;
$name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/;
$name_tag = 0 if /^ACCESSION\s+/;
$name.= " $1" if /^\s{12}(.*)/ && $name_tag;
$pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/;
$pep.=$1 if /^\s{21}(\w+)/ && $pep_tag;
if (/^\s{21}\w+"$/ && $pep_tag) {
print ">$name\n";
for (my $i = 0; $i*60 <= length $pep; $i++) {
print substr($pep, $i*60, 60), "\n";
}
$pep_tag = 0;
}
}

能编译成在windows下使用的程序吗?得益于高手“等天光的硬币”指点，实现在windows下从genbank数据包中轻松导出fasta格式的蛋白序列，非常感谢“等天光的硬币”的热心帮助！
写下这一过程与新手共享。（呵呵，未经“等天光的硬币”允许，不知会不会侵犯知识产权......）
开始：
1. 安装ActivePerl（perl for windows版本）
http://downloads.activestate.com ... in32-x86-287188.msi
2. 把以下横线之间的字符粘贴到记事本中，“另存为”并选择保存类型为“所有文件”，命名为gb2pep.pl，放到一个目录下（比如C:\）
______________________________________________________________________
# 2006-5-16.
use strict;
use warnings;
my $pep_tag = 0;
my $pep = '';
my $name = '';
my $name_tag = 0;
open(IN,$ARGV[0]);
while ( {
$name = $1 if /^LOCUS\s+(\S+)\s+/;
$name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/;
$name_tag = 0 if /^ACCESSION\s+/;
$name.= " $1" if /^\s{12}(.*)/ && $name_tag;
$pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/;
$pep.=$1 if /^\s{21}(\w+)/ && $pep_tag;
if (/^\s{21}\w+"$/ && $pep_tag) {
print ">$name\n";
for (my $i = 0;
$i*60 <= length $pep;
$i++) { print substr($pep, $i*60, 60), "\n";
}
$pep_tag = 0;
}
}
______________________________________________________________________
3. 将genbank文件（比如demo-genbank.gb）也拷贝到和gb2pep.pl相同的文件夹，比如C:\
4. 点击windows桌面工具栏“开始”——“运行”——“cmd”进入dos命令窗口，此时文件夹位置一般处于C:\Documents and Settings\当前用户名>
5. 键入"cd\" 回到C盘根目录。输入命令行：perl gb2pep.pl demo-genbank.gb >demo_out.fasta 回车。
6.等一会儿就会在C盘根目录下出现名为 demo_out.fasta的文件，这就是我们处理得到的结果。
使用perl模块处理文本文件十分高效，我下载的一个genbank文件包有五百多兆，使用这个perl模块处理，只要几分钟的时间就得到了fasta格式的序列了，而且几乎不占什么系统资源。谢谢啦~上面的都不好。
用emboss包，基本的seqret操作：
seqret -sequence a.gb -outseq a.fasta -osformat fasta
融合序列可以用cat指令：
cat *.gb >a.gb
详情请google EMBOSS如果用perl脚本，最好用bioperl直接搞。
use strict;
use Bio::SeqIO;
my $file_in = shift;
my $file_out = shift;
my $IN = Bio::SeqIO->new(-file=>$file_in);
my $OUT = Bio::SeqIO->new(-file=>">$file_out",-format=>'fasta');
while (my $obj = $IN->next_seq) {
$OUT->write_seq($obj);
}
$IN->close;
$OUT->close;

赞一下(3人)

回复此楼

大慈大悲观世音救苦救难观世音有求必应观世音普渡众生观世音千手千眼观世音官大敢管观世音无处不在观世音普观普长观世音南无观世音菩萨

9楼2010-07-21 04:58:58

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

普通回帖

hihoney

铁杆木虫 (职业作家)

应助: 10 (幼儿园)
金币: 6375.7
散金: 314
红花: 4
帖子: 3325
在线: 445.1小时
虫号: 349053
注册: 2007-04-19
性别: GG
专业: 病原细菌与放线菌生物学

★
小木虫(金币+0.5):给个红包，谢谢回帖交流

Are you mad?

做蓝藻分类也不需要这样啊。

赞一下(1人)

回复此楼

2楼2010-07-20 14:05:42

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~！

应助: 5 (幼儿园)
金币: 6525.1
散金: 262
红花: 25
帖子: 2193
在线: 554小时
虫号: 1046859
注册: 2010-06-24
性别: GG
专业: 环境微生物学

引用回帖:

Originally posted by hihoney at 2010-07-20 14:05:42:
Are you mad?

做蓝藻分类也不需要这样啊。

最近老板想让我做些生物信息学的东西，关于蓝藻的……我知道NCBI上面有个工具，NCBI eUtils，但是我现在还没有弄懂，希望高手予以解答！

赞一下

回复此楼

3楼2010-07-20 16:48:29

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

姜大磊

木虫 (小有名气)

应助: 0 (幼儿园)
金币: 3645.9
散金: 236
红花: 1
帖子: 188
在线: 210.1小时
虫号: 868835
注册: 2009-10-11
性别: GG
专业: 生物技术

★
小木虫(金币+0.5):给个红包，谢谢回帖交流

引用回帖:

Originally posted by xp198766 at 2010-07-20 11:51:39:
如题，我在NCBI上面搜索一个gene，得到一千多个结果，我想把这些结果的序列下载下来，可是，有些序列的ID号里面是基因组的ID号，就是说，我下载下来的是基因组序列，而我只想要里面相应基因的序列，NCBI里面搜索结 ...

非常感谢楼主这么有价值的问题。偶也想借助宝地顺便问一下怎么样使用NCBI查找已经明确的基因序列啊？谢谢！

赞一下(1人)

回复此楼

Nevergiveup,neverslowdown;Nevergrowold,nevereverdieyoung......

4楼2010-07-20 20:28:27

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~！

应助: 5 (幼儿园)
金币: 6525.1
散金: 262
红花: 25
帖子: 2193
在线: 554小时
虫号: 1046859
注册: 2010-06-24
性别: GG
专业: 环境微生物学

★ ★ ★
看天(金币+3):求助反而应助了 2010-07-21 09:07:46

引用回帖:

Originally posted by 姜大磊 at 2010-07-20 20:28:27:

非常感谢楼主这么有价值的问题。偶也想借助宝地顺便问一下怎么样使用NCBI查找已经明确的基因序列啊？谢谢！

明确是怎么样明确啊？
知道序列，还是基因ID等，如果知道序列的话，直接BLAST，知道ID的话，直接去里面用ID号搜也可以啊！

赞一下(1人)

回复此楼

5楼2010-07-20 20:56:51

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

姜大磊

木虫 (小有名气)

应助: 0 (幼儿园)
金币: 3645.9
散金: 236
红花: 1
帖子: 188
在线: 210.1小时
虫号: 868835
注册: 2009-10-11
性别: GG
专业: 生物技术

★
小木虫(金币+0.5):给个红包，谢谢回帖交流

引用回帖:

Originally posted by xp198766 at 2010-07-20 20:56:51:

明确是怎么样明确啊？
知道序列，还是基因ID等，如果知道序列的话，直接BLAST，知道ID的话，直接去里面用ID号搜也可以啊！

知道这个基因的名称行不行啊，比如说脂肪酶基因，纤维素基因等等，谢谢！

赞一下(1人)

回复此楼

Nevergiveup,neverslowdown;Nevergrowold,nevereverdieyoung......

6楼2010-07-20 21:00:01

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

cnlics

木虫 (小有名气)

应助: 2 (幼儿园)
金币: 3014.2
红花: 4
帖子: 270
在线: 422.4小时
虫号: 795158
注册: 2009-06-16
性别: GG
专业: 当代宗教

★ ★
小木虫(金币+0.5):给个红包，谢谢回帖交流
看天(金币+1):鼓励回答 2010-07-21 09:09:38

可以用Acceryls公司的DS gene这个工具试试，它可以找分类从GenBank中搜索数据，可以自动下载，只用过破解版，感觉这个功能很不爽，现在没有用了。

赞一下(2人)

回复此楼

8楼2010-07-20 22:41:05

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~！

应助: 5 (幼儿园)
金币: 6525.1
散金: 262
红花: 25
帖子: 2193
在线: 554小时
虫号: 1046859
注册: 2010-06-24
性别: GG
专业: 环境微生物学

引用回帖:

Originally posted by reasonspare at 2010-07-21 04:58:58:
上面这个两个问题，如果大家稍微分析一下，其实很简单，就是批量下载，
哈哈，我经常批量下个大数据库的海量数据，也就是3-10G 左右，关键是如何确定你要的信息。
笨方法：ＭＥＧＡ　软件，你可以直接将你的基因 ...

真是的非常感谢非常感谢！

我现在用NCBI里面的NCBI eUtils可以得到相关的ID号，找序列还是比较麻烦，谢谢你的指点！

赞一下(1人)

回复此楼

10楼2010-07-21 11:30:24

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 xp198766 的主题更新

返回列表

24小时热门版块排行榜

[交流] 【求助/交流】请问，有没有谁知道，如何从NCBI上批量下载一类gene的核苷酸序列？ 已有7人参与

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

[交流] 【求助/交流】请问，有没有谁知道，如何从NCBI上批量下载一类gene的核苷酸序列？已有7人参与