24小时热门版块排行榜    

查看: 1462  |  回复: 8

湖人湖人

铁杆木虫 (小有名气)

[求助] 请帮忙编写一个perl程序处理文本(提取GI号) 已有1人参与

现在我碰到这样一个问题,我有一个文本文件1.txt,是Blastx的结果,内容如下:
gi|293567070|gb|FS329526.1|FS329526,gi|219980050|emb|CAX06392.1|,33.96,106,70,0,406,723,256,361,5e-014,72.0
gi|293567070|gb|FS329526.1|FS329526,gi|219980050|emb|CAX06392.1|,30.43,161,107,3,244,711,28,188,7e-013,68.2
gi|293567070|gb|FS329526.1|FS329526,gi|219980050|emb|CAX06392.1|,32.31,130,84,2,334,711,180,309,1e-012,67.4
gi|293567065|gb|FS329521.1|FS329521,gi|388506924|gb|AFK41528.1|,42.27,220,115,1,107,766,67,274,9e-043, 167
gi|293567064|gb|FS329520.1|FS329520,gi|388510998|gb|AFK43565.1|,80.84,167,32,0,239,739,16,182,1e-079, 289
。。。。。。
后面还有很多序列,总共大概3M左右。
现在想提取前面核酸序列的GI号:gi|293567070,gi|293567065。。。输出为txt文本,其中重复的只输出一个,
另外,再输出一个文本,提取后面蛋白序列的GI号:gi|219980050,gi|388506924。。。重复的也是只输出一个。
各位大虾,请问怎样编写一个perl程序处理上面的问题啊?谢谢了!
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

longwen36

铁杆木虫 (正式写手)

用正则表达式吧,规律一样的话。用matlab我会。
2楼2012-06-25 12:49:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

christina1213

木虫 (正式写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
湖人湖人: 金币+10, 有帮助, 用Excel删除重复项 2012-06-25 21:57:16
xzhdty: 金币+1, 谢谢 2012-06-26 06:19:02
湖人湖人: 金币+10, ★★★很有帮助 2012-06-26 21:02:39
#!/usr/bin/perl
use strict;
use warnings;

open (IN, "<1.txt";
open (OUT, ">>out.txt";

while (my $line= {
        my @cut=split("|gb|",$line);
        print OUT $cut[0]."\n";
}
close IN;
close OUT;
去重的话用EXCEL吧,一下就搞定了,不用写程序。
3楼2012-06-25 20:04:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

libralibra

至尊木虫 (著名写手)

骠骑将军

【答案】应助回帖

感谢参与,应助指数 +1
python的解法:正则+map数据结构应该是最简单的.
不知道perl有没有map类似的数据结构.
正则提取数据,map去重
matlab/VB/python/c++/Java写程序请发QQ邮件:790404545@qq.com
4楼2012-06-26 00:04:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

mycaas

铁杆木虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
cat 1.txt |perl -ne 'chomp;while(/(gi\|\d+)/g){print "$1\n";}' |sort |uniq
5楼2012-06-27 00:59:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wx8359166

铁虫 (初入文坛)

必须正则表达式啊
6楼2012-06-29 16:39:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

湖人湖人

铁杆木虫 (小有名气)

谢谢楼上各位的回复和帮助!对perl程序不太懂,只会简单的运行而已。
根据2楼的程序和提醒,现在问题基本解决了。谢谢各位!
7楼2012-06-30 21:11:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bovine

铜虫 (正式写手)

【答案】应助回帖

#!/usr/bin/perl -w
use strict;
open FH,'<','C:\Users\Administrator\Desktop\1.txt' or die "Cannot open this file $!";
open OUT, '>>','C:\Users\Administrator\Desktop\2.txt';
print OUT "核酸gi\t\t蛋白gi\n";
while (<FH> {
        chomp;
        push  my @cut, split("gb",$_);
        foreach (@cut){
                if (m/^(gi\|\d+\|)/){
                        print OUT $1."\t";
                }elsif (m/(gi\|\d+\|)/){
                        print OUT $1."\n";
                }
        }       
}
close FH;
close OUT;
8楼2013-11-05 22:38:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

rongren

木虫 (小有名气)

【答案】应助回帖

#!/usr/bin/perl  -w
open IN,"<1.txt";
my (@nuclearacid,@protein,@nuclearacidnew,@proteinnew);
my %hash;
while (<IN> {
        my @abc=split /\|gb\|/,$_;
        push @nuclearacid,$abc[0];
        my @def=split /,/,$abc[1];
        push @protein,$def[1];
        }
close IN;
open OUT1,">out1.txt";
foreach  (@nuclearacid) {
        print OUT1 "$_\n" unless $hash{$_}++;
}
close OUT1;
open OUT2,">out2.txt";
foreach  (@protein) {
        print OUT2 "$_\n" unless $hash{$_}++;
         }
close OUT2;
9楼2014-07-21 21:32:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 湖人湖人 的主题更新
信息提示
请填处理意见