24小时热门版块排行榜    

北京石油化工学院2026年研究生招生接收调剂公告
查看: 1568  |  回复: 8
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

湖人湖人

铁杆木虫 (小有名气)

[求助] 请帮忙编写一个perl程序处理文本(提取GI号) 已有1人参与

现在我碰到这样一个问题,我有一个文本文件1.txt,是Blastx的结果,内容如下:
gi|293567070|gb|FS329526.1|FS329526,gi|219980050|emb|CAX06392.1|,33.96,106,70,0,406,723,256,361,5e-014,72.0
gi|293567070|gb|FS329526.1|FS329526,gi|219980050|emb|CAX06392.1|,30.43,161,107,3,244,711,28,188,7e-013,68.2
gi|293567070|gb|FS329526.1|FS329526,gi|219980050|emb|CAX06392.1|,32.31,130,84,2,334,711,180,309,1e-012,67.4
gi|293567065|gb|FS329521.1|FS329521,gi|388506924|gb|AFK41528.1|,42.27,220,115,1,107,766,67,274,9e-043, 167
gi|293567064|gb|FS329520.1|FS329520,gi|388510998|gb|AFK43565.1|,80.84,167,32,0,239,739,16,182,1e-079, 289
。。。。。。
后面还有很多序列,总共大概3M左右。
现在想提取前面核酸序列的GI号:gi|293567070,gi|293567065。。。输出为txt文本,其中重复的只输出一个,
另外,再输出一个文本,提取后面蛋白序列的GI号:gi|219980050,gi|388506924。。。重复的也是只输出一个。
各位大虾,请问怎样编写一个perl程序处理上面的问题啊?谢谢了!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

libralibra

至尊木虫 (著名写手)

骠骑将军

【答案】应助回帖

感谢参与,应助指数 +1
python的解法:正则+map数据结构应该是最简单的.
不知道perl有没有map类似的数据结构.
正则提取数据,map去重
matlab/VB/python/c++/Java写程序请发QQ邮件:790404545@qq.com
4楼2012-06-26 00:04:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 9 个回答

longwen36

铁杆木虫 (正式写手)

用正则表达式吧,规律一样的话。用matlab我会。
2楼2012-06-25 12:49:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

christina1213

木虫 (正式写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
湖人湖人: 金币+10, 有帮助, 用Excel删除重复项 2012-06-25 21:57:16
xzhdty: 金币+1, 谢谢 2012-06-26 06:19:02
湖人湖人: 金币+10, ★★★很有帮助 2012-06-26 21:02:39
#!/usr/bin/perl
use strict;
use warnings;

open (IN, "<1.txt";
open (OUT, ">>out.txt";

while (my $line= {
        my @cut=split("|gb|",$line);
        print OUT $cut[0]."\n";
}
close IN;
close OUT;
去重的话用EXCEL吧,一下就搞定了,不用写程序。
3楼2012-06-25 20:04:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

mycaas

铁杆木虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
cat 1.txt |perl -ne 'chomp;while(/(gi\|\d+)/g){print "$1\n";}' |sort |uniq
5楼2012-06-27 00:59:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 291求调剂 +6 Y-cap 2026-03-29 6/300 2026-03-29 18:02 by 83503孙老师
[考研] 322求调剂:一志愿湖南大学 材料与化工(085600),已过六级。 +4 XX小邓 2026-03-29 4/200 2026-03-29 17:34 by 无际的草原
[考研] 一志愿华东师范大学有机化学专业,初试351分,复试被刷求调剂! +3 真名有冰 2026-03-29 4/200 2026-03-29 08:47 by qingfeng258
[考研] 320分,材料与化工专业,求调剂 +9 一定上岸aaa 2026-03-27 13/650 2026-03-28 15:00 by 神马都不懂
[考研] 求调剂 +3 QiMing7 2026-03-25 4/200 2026-03-28 14:30 by QiMing7
[考研] 070300化学求调剂 +4 起个名咋这么难 2026-03-27 4/200 2026-03-27 21:39 by 83503孙老师
[考研] 265求调剂11408 +3 刘小鹿lu 2026-03-27 3/150 2026-03-27 20:53 by nihaoar
[考研] 安徽大学专硕生物与医药专业(086000)324分,英语已过四六级,六级521,求调剂 +4 美味可乐鸡翅 2026-03-26 4/200 2026-03-27 15:27 by 星空星月
[考研] 274求调剂 +17 顾九笙要谦虚 2026-03-24 23/1150 2026-03-27 15:16 by caszguilin
[考研] 化学308分求调剂 +8 你好明天你好 2026-03-23 9/450 2026-03-27 14:01 by 杨光于青云
[考研] 348求调剂 +4 小懒虫不懒了 2026-03-27 5/250 2026-03-27 12:47 by 果果妈咪
[硕博家园] 北京林业大学硕导招生广告 +6 kongweilin 2026-03-26 8/400 2026-03-27 10:18 by FF_16
[考研] 342求调剂 +3 加油a李zs 2026-03-26 3/150 2026-03-27 00:29 by wxiongid
[考研] 341求调剂 +7 青柠檬1 2026-03-26 7/350 2026-03-27 00:19 by wxiongid
[考研] 材料与化工328分调剂 +6 。,。,。,。i 2026-03-23 6/300 2026-03-25 22:30 by 418490947
[考研] 26考研-291分-厦门大学(085601)-柔性电子学院材料工程专业求调剂 +3 min3 2026-03-24 4/200 2026-03-25 18:22 by xcjcqu
[考研] 0854人工智能方向招收调剂 +4 章小鱼567 2026-03-24 4/200 2026-03-25 13:29 by 2177681040
[考研] 材料专硕331求调剂 +4 鲜当牛 2026-03-24 4/200 2026-03-24 15:58 by JourneyLucky
[考研] 344求调剂 +3 desto 2026-03-24 3/150 2026-03-24 10:09 by 搏击518
[论文投稿] 急发核心期刊论文 +3 贤达问津 2026-03-23 5/250 2026-03-23 17:13 by 妹子不好惹
信息提示
请填处理意见