| 查看: 2190 | 回复: 6 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
[交流]
讨论下怎么通过gi号批量获得物种的definition 已有4人参与
|
|||
|
做生物信息学的大都避免不了要blast 有时尽管我们blast出来的结果很多很吓人 但还是要将这些结果汇总成excel表格 最近就遇到了很让我头疼的事情 我做了很多转运蛋白的微生物全库的blast 但得到的table里只有匹配物种的gi号 在汇总结果的时候我想把gi号换成物种信息 比如像GBFF里的definition这种能说明物种遗传背景的字符串 所以我考虑用perl的正则表达式替换 写了如下的程序 但是运行起来速度很慢而且很浪费带宽 因为用到的模块是将gi号对应的整个序列信息都下载下来 然后从中提取definition 所以效率很差 这是我花很短时间学习perl和bioperl编写的急功近利的程序 期待高手拍砖 [ Last edited by ldy2140 on 2012-8-28 at 21:55 ] |
» 猜你喜欢
临港实验室与上科大联培博士招生1名
已经有7人回复
想换工作。大多数高校都是 评职称时 认可5年内在原单位取得的成果吗?
已经有4人回复
带资进组求博导收留
已经有9人回复
求助大佬们,伤口沾上了乙腈
已经有6人回复
26申博自荐
已经有6人回复
最近几年招的学生写论文不引自己组发的文章
已经有9人回复
A期刊撤稿
已经有4人回复
» 本主题相关价值贴推荐,对您同样有帮助:
Materials-studio 6.0中的很多模块没有analysis选项
已经有3人回复
关于批准编号?
已经有3人回复

libralibra
至尊木虫 (著名写手)
骠骑将军
- 程序强帖: 40
- 应助: 817 (博后)
- 金币: 12914.1
- 红花: 64
- 帖子: 2238
- 在线: 287.3小时
- 虫号: 696514
- 注册: 2009-02-05
- 专业: 计算机软件
★
小木虫: 金币+0.5, 给个红包,谢谢回帖
小木虫: 金币+0.5, 给个红包,谢谢回帖
|
你是不是有gi和description的对应关系,如果有,直接正则替换gi那部分即可. 如果必须去网络上查,查回来肯定gi序号和description同时有的,你处理完了再写文件 生物不懂,不过有bioperl,搜了下,也有biopython,照着例子改改,可以直接打印gi号和对应的description,可以看看. 准备学个脚本语言的时候,看过perl和python的语法,果断选了python,perl不懂啊 biopython教程: http://biopython.org/DIST/docs/tutorial/Tutorial.html 例子代码,测试过了 结果,gi号和description可以分别提取打印: |

4楼2012-08-29 17:25:33
libralibra
至尊木虫 (著名写手)
骠骑将军
- 程序强帖: 40
- 应助: 817 (博后)
- 金币: 12914.1
- 红花: 64
- 帖子: 2238
- 在线: 287.3小时
- 虫号: 696514
- 注册: 2009-02-05
- 专业: 计算机软件

2楼2012-08-28 22:41:10
|
sp|P23936|LACY_STRTR gi|169822596|gb|ABJK02000022.1| 61.65 631 241 1 5 634 344705 342813 0.0 714 sp|P23936|LACY_STRTR gi|223555729|gb|ACGH01000016.1| 57.01 628 260 1 2 619 65439 67322 0.0 692 替换后 sp|P23936|LACY_STRTR Streptococcus infantarius subsp. infantarius ATCC BAA-102 S_infantarius-2.0.1_Cont245, whole genome shotgun sequence. 61.65 631 241 1 5 634 344705 342813 0.0 714 sp|P23936|LACY_STRTR Lactobacillus buchneri ATCC 11577 contig00018, whole genome shotgun sequence. 57.01 628 260 1 2 619 65439 67322 0.0 692 |

3楼2012-08-29 09:30:29
wizardfan
至尊木虫 (著名写手)
- 应助: 599 (博士)
- 贵宾: 1.818
- 金币: 24628.2
- 散金: 197
- 红花: 48
- 沙发: 2
- 帖子: 2254
- 在线: 400.7小时
- 虫号: 1879241
- 注册: 2012-07-05
- 性别: GG
- 专业: 生物信息学
★
小木虫: 金币+0.5, 给个红包,谢谢回帖
小木虫: 金币+0.5, 给个红包,谢谢回帖
|
You know my comments on how to deal with high throughput data analysis: download the genbank flat file and parse the local file, which can improves the efficiency dramatically. About your code: 1. Use "use strict;" all the time 2. Regular expression is fine, but I would use $` $' (special variables containing the previous and next part of the matching part) instead of another s/// statement |
5楼2012-08-29 22:54:33













回复此楼