版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

>论坛更新日志 (3772)
>基金申请 (356)
>文献求助 (166)
>虫友互识 (133)
>导师招生 (129)
>硕博家园 (103)
>休闲灌水 (97)
>考博 (69)
>考研 (69)
>论文投稿 (65)
>教师之家 (52)
>论文道贺祈福 (47)
>博后之家 (45)
>公派出国 (43)
>招聘信息布告栏 (26)
>找工作 (20)

返回列表

淡蓝幽香

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 243.5
散金: 1
帖子: 24
在线: 16.8小时
虫号: 644125
注册: 2008-11-03
专业: 生物信息学

[交流] perl程序继续中，脸红贴上自写程序，求拍砖。已有2人参与

首先，大力感谢cdtits 同学在另外一个帖子提供的帮助，下面的程序有涉及部分。

本人有如下两个文件：
Doc1
1       NA1       0       0       1
1       NA2       0       0       2
1       295       NA1       NA2       2
1       NA5       0       0       1
1       4       NA5       295       1
1       36       NA6       100       2
1       NA6       0       0       1
1       155       NA6       100       2
1       NA7       4       36       2
2       NA8       0       0       1
2       NA10       0       0       1
2       NA11       0       0       2
2       99       NA8       NA9       2
2       8       NA10       NA11       1
2       390       8       99       1
3       NA12       0       0       1
3       NA13       0       0       2
3       753       NA12       NA13       2
3       NA14       0       0       1
3       9       NA14       753       1
3       NA15       0       0       1
3       NA16       0       0       2
3       186       NA14       753       2
3       722       NA15       NA16       1
3       397       722       186       1
3       396       722       186       1

Doc2
295       2908       2       0

186       2612       3       1

722       2827       1       0

753       8601       3       na

100       1881       na       na

4       6358       2       0

155       4627       2       0

99       2996       2       0

1．两个文件的关系：
Doc2中的每一行的第一列数字项，都分别对应Doc1每一行的第二，第三，或者第四列纯数字项。

2．文件特点描述：
所有文件的列之间，都用制表符分隔
Doc1，每一行的第一列都是数字；第二，三，四列可能是数字，也可能是NAi（i代表数字）的组合；第五列是数字或者na。
Doc2，每一行的第一列均为纯数字，最多不超过三位数；第二列也是纯数字，都是固定的四位数；第三列和第四列要么是个位数字，要么就是na。
3．目的：
      在Doc1的每一行第二，三，四列的纯数字项中，分别找到他们各自在Doc2对应数据。用Doc2的第二列数据去取代在Doc1 中的原始数据。要把Doc2 中得最后两项补到Doc1后面。其中这部分的补充决定权在与Doc1的第二列（见另部分例子）。
如：       doc1的第三行：1       295       NA1       NA2       2
      在doc2中对应的行是295       2908       2       0
      结果是：       1       2908       NA1       NA2       2       2（此处用4个制表符分隔）0
另：       doc1       1       4       NA5       295       1；doc2       4       6358       2       0
结果是：       1       6358       NA5       2908       1       2       0

很惭愧地贴上我写的程序，求帮助，求批评，求指正：另外，怎样修改程序，才能让它跑起来更快呢？
use strict;
use warnings;

my $outfile = "o.txt";
open (OUT, ">$outfile"

or die("cannot open file"

;

my $A = "A.txt";
open(IN, "<$a"

;

my $C = "C.txt";
open(C, "<$C"

;

my %code;
my $num = 0;

while (my $l =
{
            $l =~ s/^\s+//g;
         $l =~ s/\s+$//g;
         next if !length($l);
         my($key, $value) = split (/\t/,$l,2);
         $code{$key} = $value;
}

close C;

my $value;
while (my $line =
{
         $line  =~ s/^\s+//g;
         $line  =~ s/\s+$//g;
         next if !length($line);
         $line =~ /^\d+\t(\w+\d+|\d+)\t(\w+\d+|\d+)\t(\w+\d+|\d+)\t.+/g;
         my ($m1,$m2,$m3)=($1,$2,$3);

         for my $key (keys %code)
         {
                  if ($m1 =~ /^\d+$/ && $key == $m1 )
                  {
                        my ($v1,$v2) = split(/\t/,$code{$key},2);
                        $line =~ s/$m1/$v1/;
                        my ($d1,$d2) = (/\t/,$v2,2);
                        print OUT "$line\t$d1\t\t\t\t$d2\n";
                  }
                  elsif($m2 =~ /^\d+$/ && $key == $m2)
{
                        my ($v1,$v2) = split(/\t/,$code{$key},2);
                        $line =~ s/$m2/$v1/;
                        print OUT $line."\n";
                  }
                  elsif($m3 =~ /^\d+$/ && $key == $m3)
{
                        my ($v1,$v2) = split(/\t/,$code{$key},2);
                        $line =~ s/$m3/$v1/;
                        print OUT $line."\n";
                  }
#头大，写不下去了。。。。错误好多。。。。
         }
}
      close IN;
close OUT;

回复此楼

» 收录本帖的淘帖专辑推荐

perl语言专栏

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

请帮忙编写一个perl程序处理文本已经有26人回复
小弟写了篇托福独立作文，快该考了，不知道自己什么水平，求拍砖啊！已经有15人回复
写一篇SCI文章难，投一篇SCI也难已经有15人回复
【素材】英文科技论文写作已经有906人回复
评审基金过程中发现有些申请人把正在审稿的文章也写上了已经有136人回复
论文那么难写吗？已经有13人回复
英文论文写作、投稿过程中的注意事项（转）已经有8人回复

1楼 2012-07-10 04:33:22

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

anntoy

木虫 (著名写手)

应助: 40 (小学生)
金币: 2318
散金: 962
红花: 1
沙发: 14
帖子: 1989
在线: 136.3小时
虫号: 1271536
注册: 2011-04-20

★ ★
小木虫: 金币+0.5, 给个红包，谢谢回帖
xzhdty: 金币+1, 谢谢参与 2012-07-10 15:41:59

代码应该写在代码块里
也就是

CODE:

[code]、

[/code]之间

赞一下

回复此楼

2楼2012-07-10 08:38:14

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

jackie1179

木虫 (正式写手)

应助: 11 (小学生)
金币: 1929.2
红花: 1
帖子: 460
在线: 47.2小时
虫号: 1119284
注册: 2010-10-11
专业: 生物信息学

★ ★ ★
小木虫: 金币+0.5, 给个红包，谢谢回帖
xzhdty: 金币+2, 谢谢参与 2012-07-10 15:42:21

给你写了个，希望能帮到你，另外你有一点说的不是很清楚，如果Doc1的第二列在Doc2中未匹配，而其他列有匹配，要在其后补充吗？本代码不进行补充。

CODE:

#!/usr/bin/perl -w

unless (@ARGV) {

  die "Arguments not enough!";

}

$doc1 = $ARGV[0];

$doc2 = $ARGV[1];

undef %string;

open(DOC2,"$doc2") || die "Cannot open this file!$!";

while() {

  next if(/^\n/);

  chomp;

  @array = split /\t/;

  $string{$array[0],2} = $array[1];

  $string{$array[1],3} = $array[2];

  $string{$array[1],4} = $array[3];

}

close DOC2;

open(DOC1,"$doc1") || die "Cannot open this file!$!";

$out = "output";

open(OUT,">$out") || die "Cannot write to this file!$!";

while() {

  chomp;

  @array = split /\t/;

  print $array[2],"=>",&isPureDigit($array[2]),"\n";

  $mark = 0;

  foreach $i(1 .. 3) {

    if(&isPureDigit($array[$i]) && defined $string{$array[$i],2}) {

      if($i == 1) { $mark = 1; }

      $array[$i] = $string{$array[$i],2};

    }

  }

  foreach (@array) {

    print OUT "$_\t";

  }

  if($mark == 1) {

    print OUT "$string{$array[1],3}\t\t\t\t$string{$array[1],4}";

  }

  print OUT "\n";

}

close DOC1;

close OUT;

sub isPureDigit {

  $arg = shift;

  if($arg =~ /^NA/) {

    return 0;

  } else {

    return 1;

  }  

}

赞一下

回复此楼

3楼2012-07-10 10:42:40

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

jackie1179

木虫 (正式写手)

应助: 11 (小学生)
金币: 1929.2
红花: 1
帖子: 460
在线: 47.2小时
虫号: 1119284
注册: 2010-10-11
专业: 生物信息学

★
小木虫: 金币+0.5, 给个红包，谢谢回帖

不好意思，忘了说用法：
保存为文件pro.pl
perl ./pro.pl doc1 doc2
输出文件名为 output

赞一下

回复此楼

4楼2012-07-10 10:44:45

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

淡蓝幽香

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 243.5
散金: 1
帖子: 24
在线: 16.8小时
虫号: 644125
注册: 2008-11-03
专业: 生物信息学

引用回帖:

3楼: Originally posted by jackie1179 at 2012-07-10 10:42:40
给你写了个，希望能帮到你，另外你有一点说的不是很清楚，如果Doc1的第二列在Doc2中未匹配，而其他列有匹配，要在其后补充吗？本代码不进行补充。

#!/usr/bin/perl -w

unless (@ARGV) {
die "Argumen ...

非常感谢哦。

关于你提到的：Doc1的第二列在Doc2中未匹配，而其他列有匹配，要在其后补充吗？

这个不用补充，只有Doc1第一列，在找到Doc2中的匹配项后，需要补充。Doc1的其他列都不用

赞一下

回复此楼

5楼2012-07-10 19:49:53

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主淡蓝幽香的主题更新

返回列表

24小时热门版块排行榜

淡蓝幽香

[交流] perl程序继续中，脸红贴上自写程序，求拍砖。 已有2人参与

» 收录本帖的淘帖专辑推荐

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

anntoy

jackie1179

jackie1179

淡蓝幽香

[交流] perl程序继续中，脸红贴上自写程序，求拍砖。已有2人参与