版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

ldy2140

金虫 (小有名气)

应助: 0 (幼儿园)
金币: 318.5
散金: 4
帖子: 66
在线: 23.7小时
虫号: 1662236
注册: 2012-03-03
专业: 食品科学基础

[交流] 讨论下怎么通过gi号批量获得物种的definition 已有4人参与

做生物信息学的大都避免不了要blast 有时尽管我们blast出来的结果很多很吓人但还是要将这些结果汇总成excel表格
最近就遇到了很让我头疼的事情我做了很多转运蛋白的微生物全库的blast 但得到的table里只有匹配物种的gi号在汇总结果的时候我想把gi号换成物种信息比如像GBFF里的definition这种能说明物种遗传背景的字符串
所以我考虑用perl的正则表达式替换写了如下的程序

CODE:

#!/usr/bin/perl

use Bio::Seq;

use Bio::DB::GenBank;

$gb = new Bio::DB::GenBank;

$^I = ".bak";

while (<>) {

  $line = $_;

  if ( /gi\|(\d+)\|/ ) {

    $gi = $1;

    $seq_obj = $gb->get_Seq_by_gi ($1);

    $def = $seq_obj->desc;

  }

  $_ = $line;

  s#\t.*?$gi.*?\t#\t$def\t#;

  print;

}

但是运行起来速度很慢而且很浪费带宽因为用到的模块是将gi号对应的整个序列信息都下载下来然后从中提取definition 所以效率很差这是我花很短时间学习perl和bioperl编写的急功近利的程序期待高手拍砖

[ Last edited by ldy2140 on 2012-8-28 at 21:55 ]

回复此楼

» 猜你喜欢

欢迎采矿、地质、岩土、计算机、人工智能等专业的同学报考已经有5人回复
279求调剂已经有4人回复
284求调剂已经有8人回复
材料复试调剂已经有4人回复
本子写完了，给DS兄弟看了，得了92分已经有7人回复
求调剂已经有6人回复
材料学硕318求调剂已经有13人回复
一志愿郑大材料学硕298分，求调剂已经有5人回复
材料化工调剂已经有13人回复
材料学硕318求调剂已经有5人回复

» 本主题相关价值贴推荐，对您同样有帮助:

Materials-studio 6.0中的很多模块没有analysis选项已经有3人回复
关于批准编号？已经有3人回复

伸手摘星，未必你如愿，但不会弄脏你的手。

1楼 2012-08-28 21:16:20

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

libralibra

至尊木虫 (著名写手)

骠骑将军

程序强帖: 40
应助: 817 (博后)
金币: 12914.1
红花: 64
帖子: 2238
在线: 287.3小时
虫号: 696514
注册: 2009-02-05
专业: 计算机软件

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

贴个例子看看

贴一个blast出来的结果(未处理的字符串)
贴一个你想要的结果(目标字符串)

赞一下

回复此楼

matlab/VB/python/c++/Java写程序请发QQ邮件:790404545@qq.com

2楼2012-08-28 22:41:10

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

ldy2140

金虫 (小有名气)

应助: 0 (幼儿园)
金币: 318.5
散金: 4
帖子: 66
在线: 23.7小时
虫号: 1662236
注册: 2012-03-03
专业: 食品科学基础

引用回帖:

2楼: Originally posted by libralibra at 2012-08-28 22:41:10
贴个例子看看

贴一个blast出来的结果(未处理的字符串)
贴一个你想要的结果(目标字符串)

sp|P23936|LACY_STRTR gi|169822596|gb|ABJK02000022.1| 61.65 631 241 1 5 634 344705 342813 0.0    714
sp|P23936|LACY_STRTR gi|223555729|gb|ACGH01000016.1| 57.01 628 260 1 2 619 65439 67322 0.0    692
替换后
sp|P23936|LACY_STRTR Streptococcus infantarius subsp. infantarius ATCC BAA-102 S_infantarius-2.0.1_Cont245, whole genome shotgun sequence. 61.65 631 241 1 5 634 344705 342813 0.0    714
sp|P23936|LACY_STRTR Lactobacillus buchneri ATCC 11577 contig00018, whole genome shotgun sequence. 57.01 628 260 1 2 619 65439 67322 0.0    692

赞一下

回复此楼

伸手摘星，未必你如愿，但不会弄脏你的手。

3楼2012-08-29 09:30:29

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

libralibra

至尊木虫 (著名写手)

骠骑将军

程序强帖: 40
应助: 817 (博后)
金币: 12914.1
红花: 64
帖子: 2238
在线: 287.3小时
虫号: 696514
注册: 2009-02-05
专业: 计算机软件

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

你是不是有gi和description的对应关系,如果有,直接正则替换gi那部分即可.
如果必须去网络上查,查回来肯定gi序号和description同时有的,你处理完了再写文件
生物不懂,不过有bioperl,搜了下,也有biopython,照着例子改改,可以直接打印gi号和对应的description,可以看看.
准备学个脚本语言的时候,看过perl和python的语法,果断选了python,perl不懂啊
biopython教程:
http://biopython.org/DIST/docs/tutorial/Tutorial.html

例子代码,测试过了

CODE:

# Import the modules for interfacing with BLAST and parsing the output

from Bio.Blast import NCBIWWW, NCBIXML

# Blast the sequence of interest (in this case using the accession number

result_handle = NCBIWWW.qblast("blastn", "nr", "8332116")

# Parse the resulting output

blast_record = NCBIXML.read(result_handle)

# Loop over the alignments printing some output of interest

E_VALUE_THRESH = 0.004

for alignment in blast_record.alignments:

    result = alignment.title

    print 'gi no.: '+result.split()[0]

    print 'gi-desc: '+' '.join(result.split()[1:])

    print

##    for hsp in alignment.hsps:

##        if hsp.expect < E_VALUE_THRESH:

##            print

##            print '****Alignment****'

##            print 'sequence:', alignment.title

##            print 'length:', alignment.length

##            print 'e value:', hsp.expect

##            print hsp.query[0:75] + '...'

##            print hsp.match[0:75] + '...'

##            print hsp.sbjct[0:75] + '...'

结果,gi号和description可以分别提取打印:

CODE:

gi no.: gi|224094601|ref|XM_002310151.1|

gi-desc: Populus trichocarpa predicted protein, mRNA

gi no.: gi|359495761|ref|XM_002274845.2|

gi-desc: PREDICTED: Vitis vinifera uncharacterized LOC100267774 (LOC100267774), mRNA

gi no.: gi|349709091|emb|FQ378501.1|

gi-desc: Vitis vinifera clone SS0AEB13YG07

gi no.: gi|255562758|ref|XM_002522339.1|

gi-desc: Ricinus communis COR413-PM2, putative, mRNA

gi no.: gi|358346403|ref|XM_003637210.1|

gi-desc: Medicago truncatula Cold acclimation protein-like protein (MTR_079s1009) mRNA, complete cds

gi no.: gi|358344000|ref|XM_003636035.1|

gi-desc: Medicago truncatula Cold acclimation protein-like protein (MTR_026s0005) mRNA, complete cds

gi no.: gi|356561272|ref|XM_003548859.1|

gi-desc: PREDICTED: Glycine max uncharacterized protein LOC100817084 (LOC100817084), mRNA

gi no.: gi|356502211|ref|XM_003519866.1|

gi-desc: PREDICTED: Glycine max uncharacterized protein LOC100810337 (LOC100810337), mRNA

gi no.: gi|225311746|dbj|AK326681.1|

gi-desc: Solanum lycopersicum cDNA, clone: LEFL2011M15, HTC in fruit

gi no.: gi|255762732|gb|GQ370517.1|

gi-desc: Salvia miltiorrhiza cold acclimation protein (COR) mRNA, complete cds

gi no.: gi|225428595|ref|XM_002284686.1|

gi-desc: PREDICTED: Vitis vinifera uncharacterized LOC100248690 (LOC100248690), mRNA

gi no.: gi|297819785|ref|XM_002877730.1|

gi-desc: Arabidopsis lyrata subsp. lyrata COR413-PM2, mRNA

gi no.: gi|86755971|gb|DQ359747.1|

gi-desc: Chimonanthus praecox cold acclimation protein COR413-PM1 mRNA, complete cds

gi no.: gi|145339339|ref|NM_114943.4|

gi-desc: Arabidopsis thaliana cold-regulated 413-plasma membrane 2 (COR413-PM2) mRNA, complete cds

gi no.: gi|15810634|gb|AY056356.1|

gi-desc: Arabidopsis thaliana putative cold acclimation protein (At3g50830) mRNA, complete cds

gi no.: gi|10121842|gb|AF283005.1|

gi-desc: Arabidopsis thaliana cold acclimation protein WCOR413-like protein beta form mRNA, complete cds

gi no.: gi|13430785|gb|AF360305.1|

gi-desc: Arabidopsis thaliana putative cold acclimation protein (At3g50830) mRNA, complete cds

gi no.: gi|60317457|gb|AY761065.1|

gi-desc: Gossypium barbadense cold-related protein Cor413 (Cor413) mRNA, complete cds

gi no.: gi|255556172|ref|XM_002519075.1|

gi-desc: Ricinus communis COR413-PM2, putative, mRNA

gi no.: gi|156567558|gb|EU077497.1|

gi-desc: Poncirus trifoliata cold acclimation WCOR413-like protein mRNA, complete cds

gi no.: gi|46577795|gb|AY587773.1|

gi-desc: Tamarix androssowii putative stress-responsive protein mRNA, complete cds

gi no.: gi|305690597|gb|HQ010041.1|

gi-desc: Corylus heterophylla COR413-PM1 mRNA, complete cds

gi no.: gi|224105476|ref|XM_002313788.1|

gi-desc: Populus trichocarpa predicted protein, mRNA

gi no.: gi|242389633|emb|FP100664.1|

gi-desc: Phyllostachys edulis cDNA clone: bphylf036p06, full insert sequence

gi no.: gi|242382816|emb|FP092058.1|

gi-desc: Phyllostachys edulis cDNA clone: bphyem114p22, full insert sequence

gi no.: gi|242382391|emb|FP097178.1|

gi-desc: Phyllostachys edulis cDNA clone: bphylf028m11, full insert sequence

gi no.: gi|242381728|emb|FP091375.1|

gi-desc: Phyllostachys edulis cDNA clone: bphyst020e14, full insert sequence

gi no.: gi|238007351|gb|BT084358.1|

gi-desc: Zea mays full-length cDNA clone ZM_BFb0105L06 mRNA, complete cds

gi no.: gi|195636267|gb|EU965484.1|

gi-desc: Zea mays clone 286348 cold acclimation protein COR413-PM1 mRNA, complete cds

gi no.: gi|54652523|gb|BT017742.1|

gi-desc: Zea mays clone EL01N0449E04.c mRNA sequence

gi no.: gi|162459269|ref|NM_001111732.1|

gi-desc: Zea mays LOC542099 (gpm455), mRNA >gi|27902672|gb|AY181208.1| Zea mays cold acclimation protein COR413-PM1 mRNA, complete cds

gi no.: gi|21209119|gb|AY106041.1|

gi-desc: Zea mays PCO103483 mRNA sequence

gi no.: gi|242037992|ref|XM_002466346.1|

gi-desc: Sorghum bicolor hypothetical protein, mRNA

gi no.: gi|255617390|ref|XM_002539789.1|

gi-desc: Ricinus communis COR413-PM2, putative, mRNA

gi no.: gi|30690903|ref|NM_119885.2|

gi-desc: Arabidopsis thaliana cold acclimation protein WCOR413 (AT4G37220) mRNA, complete cds

gi no.: gi|26449888|dbj|AK117399.1|

gi-desc: Arabidopsis thaliana At4g37220 mRNA for putative ap2 cold acclimation protein, complete cds, clone: RAFL16-98-J01

gi no.: gi|226504237|ref|NM_001155133.1|

gi-desc: Zea mays cold acclimation protein COR413-PM1 (LOC100282221), mRNA >gi|195620729|gb|EU960077.1| Zea mays clone 221611 cold acclimation protein COR413-PM1 mRNA, complete cds

gi no.: gi|166359605|gb|EU365626.1|

gi-desc: Thellungiella halophila stress responsive protein (COR) mRNA, complete cds

gi no.: gi|150172175|emb|CU406592.1|

gi-desc: Oryza rufipogon (W1943) cDNA clone: ORW1943C102K01, full insert sequence

gi no.: gi|115455578|ref|NM_001057925.1|

gi-desc: Oryza sativa Japonica Group Os03g0767800 (Os03g0767800) mRNA, complete cds

gi no.: gi|10121844|gb|AF283006.1|

gi-desc: Oryza sativa (japonica cultivar-group) cold acclimation protein WCOR413-like protein mRNA, complete cds

gi no.: gi|32976054|dbj|AK066036.1|

gi-desc: Oryza sativa Japonica Group cDNA clone:J013049B03, full insert sequence

gi no.: gi|32970924|dbj|AK060906.1|

gi-desc: Oryza sativa Japonica Group cDNA clone:001-035-F05, full insert sequence

gi no.: gi|32970018|dbj|AK060000.1|

gi-desc: Oryza sativa Japonica Group cDNA clone:006-301-G09, full insert sequence

gi no.: gi|28973358|gb|BT005584.1|

gi-desc: Arabidopsis thaliana clone U50435 putative cold acclimation protein homolog (At4g37220) mRNA, complete cds

gi no.: gi|326534181|dbj|AK358227.1|

gi-desc: Hordeum vulgare subsp. vulgare mRNA for predicted protein, complete cds, clone: NIASHv1071H11

gi no.: gi|160954667|emb|CU225096.1|

gi-desc: Populus EST from leave

gi no.: gi|160950966|emb|CU229055.1|

gi-desc: Populus EST from severe drought-stressed leaves

gi no.: gi|357114154|ref|XR_137736.1|

gi-desc: PREDICTED: Brachypodium distachyon uncharacterized LOC100844112 (LOC100844112), miscRNA

gi no.: gi|224035946|gb|BT070152.1|

gi-desc: Zea mays full-length cDNA clone ZM_BFc0138N11 mRNA, complete cds

赞一下

回复此楼

matlab/VB/python/c++/Java写程序请发QQ邮件:790404545@qq.com

4楼2012-08-29 17:25:33

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

wizardfan

至尊木虫 (著名写手)

应助: 599 (博士)
贵宾: 1.818
金币: 24632.2
散金: 197
红花: 48
沙发: 2
帖子: 2254
在线: 400.7小时
虫号: 1879241
注册: 2012-07-05
性别: GG
专业: 生物信息学

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

You know my comments on how to deal with high throughput data analysis: download the genbank flat file and parse the local file, which can improves the efficiency dramatically.

About your code:
1. Use "use strict;" all the time
2. Regular expression is fine, but I would use $` $' (special variables containing the previous and next part of the matching part) instead of another s/// statement

赞一下

回复此楼

5楼2012-08-29 22:54:33

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

321wangke321

金虫 (正式写手)

应助: 10 (幼儿园)
金币: 343.4
散金: 216
红花: 7
帖子: 517
在线: 287.2小时
虫号: 1169264
注册: 2010-12-13
性别: GG
专业: 园艺作物采后生物学

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

引用回帖:

5楼: Originally posted by wizardfan at 2012-08-29 22:54:33
You know my comments on how to deal with high throughput data analysis: download the genbank flat file and parse the local file, which can improves the efficiency dramatically.

About your code:
1 ...

如何从拟南芥的含有所有transcripts的txt文件中根据ID号批量提取相应的序列并且保存到一个文档中？

赞一下

回复此楼

王者风范，一切皆有可能。

6楼2014-04-07 16:16:17

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

semiangle12

金虫 (正式写手)

应助: 35 (小学生)
金币: 3463.9
散金: 966
红花: 5
帖子: 846
在线: 69.1小时
虫号: 2966295
注册: 2014-02-13
专业: 环境微生物学

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

引用回帖:

请问已知gb号，怎么在批量下载的时候选择连GI值一起下载呢，批量下载的时候无法选择GI

赞一下

回复此楼

7楼2017-04-26 10:47:59

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 ldy2140 的主题更新

返回列表

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[考研] 材料复试调剂 +3	学材料的点 2026-03-01	4/200	2026-03-02 00:07 by ccp273206157
[考研] 292求调剂 +6	yhk_819 2026-02-28	6/300	2026-03-01 23:23 by 向上的胖东
[考研] 275求调剂 +3	明远求学 2026-03-01	3/150	2026-03-01 22:29 by 刘兵
[考研] 材料类求调剂 +10	wana_kiko 2026-02-28	12/600	2026-03-01 22:10 by 海嵙Y
[考研] 274求调剂 +3	cgyzqwn 2026-03-01	6/300	2026-03-01 21:24 by cgyzqwn
[考研] 0805总分292，求调剂 +7	幻想之殇 2026-03-01	7/350	2026-03-01 21:22 by 公瑾逍遥
[考研] 299求调剂 +3	Y墨明棋妙Y 2026-02-28	5/250	2026-03-01 21:01 by tangxiaotian
[考研] 0856化工专硕求调剂 +12	董boxing 2026-03-01	12/600	2026-03-01 19:45 by 材子momo
[考研] 一志愿中南大学理学化学 +4	15779376950 2026-03-01	5/250	2026-03-01 19:00 by Fff-1
[考研] 272求调剂 +6	材紫有化 2026-02-28	6/300	2026-03-01 18:58 by 18137688336
[考研] 291分工科求调剂 +9	science饿饿 2026-03-01	10/500	2026-03-01 18:55 by 18137688336
[考研] 化工专硕348，一志愿985求调剂 +5	弗格个 2026-02-28	8/400	2026-03-01 17:25 by sunny81
[考研] 298求调剂 +9	人间唯你是清欢 2026-02-28	12/600	2026-03-01 14:23 by Ducount.Y
[考研] 302材料工程求调剂 +4	Doleres 2026-03-01	5/250	2026-03-01 11:52 by liqiongjy
[考研] 317一志愿华南理工电气工程求调剂 +6	Soliloquy_Q 2026-02-28	11/550	2026-03-01 11:14 by 歌liekkas
[论文投稿] 求助coordination chemistry reviews 的写作模板 10+3	ljplijiapeng 2026-02-27	4/200	2026-03-01 09:07 by babero
[考研] 材料调剂 +4	爱擦汗的可乐冰 2026-02-28	4/200	2026-03-01 00:38 by 猫猫球alter
[考研] 307求调剂 +4	73372112 2026-02-28	6/300	2026-03-01 00:04 by ll247
[考研] 276求调剂 +3	路lyh123 2026-02-28	4/200	2026-02-28 19:45 by 路lyh123
[高分子] 求环氧树脂研发1名 +3	孙xc 2026-02-25	11/550	2026-02-28 16:57 by ichall