24小时热门版块排行榜    

CyRhmU.jpeg
查看: 3487  |  回复: 13

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~!

[交流] 【求助/交流】请问,有没有谁知道,如何从NCBI上批量下载一类gene的核苷酸序列?已有7人参与

如题,我在NCBI上面搜索一个gene,得到一千多个结果,我想把这些结果的序列下载下来,可是,有些序列的ID号里面是基因组的ID号,就是说,我下载下来的是基因组序列,而我只想要里面相应基因的序列,NCBI里面搜索结果里,有对相关基因的定位,说是从哪个位点到哪个位点,有什么软件可以达到我的要求呢!

请了解相关知识的高手解答下,不胜感激!
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~!

★ ★ ★ ★ ★
scelab(金币+5):good 2010-07-20 23:46:52
引用回帖:
Originally posted by 姜大磊 at 2010-07-20 21:00:01:

知道这个基因的名称行不行啊,比如说脂肪酶基因,纤维素基因等等,谢谢!

可以啊,你在NCBI里面有一个下拉列表框,里面可以选基因的,还可以用关键词搜基因呢,例如,用nitrogen搜索gene,可以找到与氮相关的基因,等等

例如这个是脂肪酶相关的基因

http://www.ncbi.nlm.nih.gov/gene/?term=Lipase

[ Last edited by xp198766 on 2010-7-20 at 21:07 ]
7楼2010-07-20 21:05:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

reasonspare

木虫 (著名写手)

★ ★ ★
看天(金币+3):不会是斑竹自己写的吧?呵呵... 2010-07-21 09:09:21
xp198766(金币+10):谢谢您给我这么多的信息!谢谢,对我帮助很大,谢谢!我会认真看的 2010-07-23 15:52:53
上面这个两个问题,如果大家稍微分析一下,其实很简单,就是批量下载,
哈哈,我经常批量下个大数据库的海量数据,也就是3-10G 左右,关键是如何确定你要的信息。
笨方法:MEGA 软件,你可以直接将你的基因通过该软件进行blast,然后手工选择下载每一个基因。

如果你稍微懂一点perl, 那么就非常容易了:下面一个关于蛋白序列批量下载的例子:

已经批量下载了带有注释的Genbank文件,大概有500M,每条信息中的内容既包含蛋白序列也包含核酸序列,使用SeqVerter 等软件只能导出核酸序列的的fasta文件。
现在想把其中的氨基酸序列也批量导出来,园子里倒是查到有高手编的perl模块可以实现这样的功能,但是我对编程语言一窍不通,linux也不会用,不知有什么现成的windows软件可以直接导出蛋白序列的fasta文件。以前写的,试试,在windows的doc下应该也差不多,


#! /usr/local/bin/perl
# name: gb2pep.pl
# genbank input to pep sequences.
# Vi.n.
#usage: cat yourfile|perl gb2pep.pl
# 2006-5-16.
use strict;
use warnings;
my $pep_tag = 0;
my $pep = '';
my $name = '';
my $name_tag = 0;
while ( {
$name = $1 if /^LOCUS\s+(\S+)\s+/;
$name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/;
$name_tag = 0 if /^ACCESSION\s+/;
$name.= " $1" if /^\s{12}(.*)/ && $name_tag;
$pep_tag = 1 && $pep = $1  if /^\s{21}\/translation="(\w+)/;
$pep.=$1 if /^\s{21}(\w+)/ && $pep_tag;
if (/^\s{21}\w+"$/ && $pep_tag) {
print ">$name\n";
for (my $i = 0; $i*60 <= length $pep; $i++) {
print substr($pep, $i*60, 60), "\n";
}
$pep_tag = 0;
}
}

能编译成在windows下使用的程序吗?得益于高手“等天光的硬币”指点,实现在windows下从genbank数据包中轻松导出fasta格式的蛋白序列,非常感谢“等天光的硬币”的热心帮助!
写下这一过程与新手共享。(呵呵,未经“等天光的硬币”允许,不知会不会侵犯知识产权......)
开始:
1. 安装ActivePerl(perl for windows版本)
http://downloads.activestate.com ... in32-x86-287188.msi
2. 把以下横线之间的字符粘贴到记事本中,“另存为”并选择保存类型为“所有文件”,命名为gb2pep.pl,放到一个目录下(比如C:\)
______________________________________________________________________
# 2006-5-16.
use strict;
use warnings;
my $pep_tag = 0;
my $pep = '';
my $name = '';
my $name_tag = 0;
open(IN,$ARGV[0]);
while ( {
$name = $1 if /^LOCUS\s+(\S+)\s+/;
$name_tag = 1 && $name.= $1 if /^DEFINITION(.*)/;
$name_tag = 0 if /^ACCESSION\s+/;
$name.= " $1" if /^\s{12}(.*)/ && $name_tag;
$pep_tag = 1 && $pep = $1 if /^\s{21}\/translation="(\w+)/;
$pep.=$1 if /^\s{21}(\w+)/ && $pep_tag;
if (/^\s{21}\w+"$/ && $pep_tag) {
print ">$name\n";
for (my $i = 0;
$i*60 <= length $pep;
$i++) { print substr($pep, $i*60, 60), "\n";
}
$pep_tag = 0;
}
}
______________________________________________________________________
3. 将genbank文件(比如demo-genbank.gb)也拷贝到和gb2pep.pl相同的文件夹,比如C:\
4. 点击windows桌面工具栏“开始”——“运行”——“cmd”进入dos命令窗口,此时文件夹位置一般处于C:\Documents and Settings\当前用户名>
5. 键入"cd\" 回到C盘根目录。输入命令行:perl gb2pep.pl demo-genbank.gb >demo_out.fasta 回车。
6.等一会儿就会在C盘根目录下出现名为 demo_out.fasta的文件,这就是我们处理得到的结果。
使用perl模块处理文本文件十分高效,我下载的一个genbank文件包有五百多兆,使用这个perl模块处理,只要几分钟的时间就得到了fasta格式的序列了,而且几乎不占什么系统资源。谢谢啦~上面的都不好。
用emboss包,基本的seqret操作:
seqret -sequence a.gb -outseq a.fasta -osformat fasta
融合序列可以用cat指令:
cat *.gb >a.gb
详情请google EMBOSS如果用perl脚本,最好用bioperl直接搞。
use strict;
use Bio::SeqIO;
my $file_in = shift;
my $file_out = shift;
my $IN = Bio::SeqIO->new(-file=>$file_in);
my $OUT = Bio::SeqIO->new(-file=>">$file_out",-format=>'fasta');
while (my $obj = $IN->next_seq) {
$OUT->write_seq($obj);
}
$IN->close;
$OUT->close;
大慈大悲观世音救苦救难观世音有求必应观世音普渡众生观世音千手千眼观世音官大敢管观世音无处不在观世音普观普长观世音南无观世音菩萨
9楼2010-07-21 04:58:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

hihoney

铁杆木虫 (职业作家)



小木虫(金币+0.5):给个红包,谢谢回帖交流
Are you mad?

做蓝藻分类也不需要这样啊。
2楼2010-07-20 14:05:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~!

引用回帖:
Originally posted by hihoney at 2010-07-20 14:05:42:
Are you mad?

做蓝藻分类也不需要这样啊。

最近老板想让我做些生物信息学的东西,关于蓝藻的……我知道NCBI上面有个工具,NCBI eUtils,但是我现在还没有弄懂,希望 高手予以解答!
3楼2010-07-20 16:48:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

姜大磊

木虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by xp198766 at 2010-07-20 11:51:39:
如题,我在NCBI上面搜索一个gene,得到一千多个结果,我想把这些结果的序列下载下来,可是,有些序列的ID号里面是基因组的ID号,就是说,我下载下来的是基因组序列,而我只想要里面相应基因的序列,NCBI里面搜索结 ...

非常感谢楼主这么有价值的问题。 偶也想借助宝地顺便问一下怎么样使用NCBI查找已经明确的基因序列啊?谢谢!
Nevergiveup,neverslowdown;Nevergrowold,nevereverdieyoung......
4楼2010-07-20 20:28:27
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~!

★ ★ ★
看天(金币+3):求助反而应助了 2010-07-21 09:07:46
引用回帖:
Originally posted by 姜大磊 at 2010-07-20 20:28:27:

非常感谢楼主这么有价值的问题。 偶也想借助宝地顺便问一下怎么样使用NCBI查找已经明确的基因序列啊?谢谢!

明确是怎么样明确啊?
知道序列,还是基因ID等,如果知道序列的话,直接BLAST,知道ID的话,直接去里面用ID号搜也可以啊!
5楼2010-07-20 20:56:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

姜大磊

木虫 (小有名气)


小木虫(金币+0.5):给个红包,谢谢回帖交流
引用回帖:
Originally posted by xp198766 at 2010-07-20 20:56:51:

明确是怎么样明确啊?
知道序列,还是基因ID等,如果知道序列的话,直接BLAST,知道ID的话,直接去里面用ID号搜也可以啊!

知道这个基因的名称行不行啊,比如说脂肪酶基因,纤维素基因等等,谢谢!
Nevergiveup,neverslowdown;Nevergrowold,nevereverdieyoung......
6楼2010-07-20 21:00:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cnlics

木虫 (小有名气)

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
看天(金币+1):鼓励回答 2010-07-21 09:09:38
可以用Acceryls公司的DS gene这个工具试试,它可以找分类从GenBank中搜索数据,可以自动下载,只用过破解版,感觉这个功能很不爽,现在没有用了。
8楼2010-07-20 22:41:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xp198766

铁杆木虫 (著名写手)

小木虫职业打酱油滴~~!

引用回帖:
Originally posted by reasonspare at 2010-07-21 04:58:58:
上面这个两个问题,如果大家稍微分析一下,其实很简单,就是批量下载,
哈哈,我经常批量下个大数据库的海量数据,也就是3-10G 左右,关键是如何确定你要的信息。
笨方法:MEGA 软件,你可以直接将你的基因 ...

真是的非常感谢非常感谢!

我现在用NCBI里面的NCBI eUtils可以得到相关的ID号,找序列还是比较麻烦,谢谢你的指点!
10楼2010-07-21 11:30:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 xp198766 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见