24小时热门版块排行榜

返回列表

essen11

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 1314.1
帖子: 44
在线: 216.1小时
虫号: 884955
注册: 2009-10-27
专业: 病毒学

引用回帖:

18楼: Originally posted by jackie1179 at 2012-05-11 11:28:51:
还有一个可能就是你用查找替换可能是不区分大小写的，如果你不需要区分大小写的话，那么可以再修改下

是需要区分大小写的。不用再修改了，我用查找替换找小写的共有14774处，但是我在程序返回的序列中搜索只有10261，看了一下程序返回的序列，这里面的差异有一部分肯定是因为返回序列不完整引起的，但还有一部分是不是因为程序没找到漏掉了。因此我在想，可以怎样修改一下这个程序可以将不含有短序列的序列找出来，这样，两者的和应该是我的序列总数。但我试着改了一下，只返回3000多条序列，肯定是我没处理好。不知道你是否可以帮着改一下程序，返回不含有gggggcg的序列。谢谢！

赞一下

回复此楼

21楼2012-05-15 21:43:30

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

jackie1179

木虫 (正式写手)

应助: 11 (小学生)
金币: 1929.2
红花: 1
帖子: 460
在线: 47.2小时
虫号: 1119284
注册: 2010-10-11
专业: 生物信息学

引用回帖:

21楼: Originally posted by essen11 at 2012-05-15 21:43:30:
是需要区分大小写的。不用再修改了，我用查找替换找小写的共有14774处，但是我在程序返回的序列中搜索只有10261，看了一下程序返回的序列，这里面的差异有一部分肯定是因为返回序列不完整引起的，但还有一部分是 ...

这个程序它是先将分布在多行的每条序列合并为一条完整的序列后再进行正则匹配的，所以一般不会出现匹配不到的情况，下面程序中将不含短序列的序列放到文件out2.txt中，其余不变
#!/usr/bin/perl
use strict;
use warnings;

my @name;
my @seqs;
if($ARGV[0] eq '-h' || $ARGV[0] eq '--help') {
  print "Usage: perl ./$0  input_file  substring\n";
  exit(0);
}
if(@ARGV < 2) {
  print "Arguments not enough!\n";
  exit(0);
}
my $cnt=0;
my $subseq=$ARGV[1];
open IN,"<$ARGV[0]";
open OUTFILE, ">outfile.txt";
open OUTFILE2,">out2.txt";
while({
  if (/^>/) {
++$cnt;
$name[$cnt]=$_;

  }

  if(/^[ATCGatcg]/) {
chomp;
$seqs[$cnt] .= $_;
  }

}
close IN;
my $i;
my $length;
my $hits=0;
foreach (1..$cnt) {
  if($seqs[$_]=~/$subseq/) {
++$hits;
print OUTFILE "$name[$_]";
$length=length $seqs[$_];
for($i=1;$i<=$length;$i++) {
   printf OUTFILE "%s",substr($seqs[$_],$i-1,1);
   if($i%50 == 0) {
      print OUTFILE "\n";
   }

}
print OUTFILE "\n";
  } else {
print OUTFILE2 "$name[$_]";
$length=length $seqs[$_];
for($i=1;$i<=$length;$i++) {
   printf OUTFILE2 "%s",substr($seqs[$_],$i-1,1);
   if($i%50 == 0) {
      print OUTFILE2 "\n";
   }
}
print OUTFILE2 "\n";
  }
}
print "A total of $hits sequences matched.\n";

close OUTFILE;
close OUTFILE2;

赞一下

回复此楼

22楼2012-05-16 09:14:03

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

essen11

铜虫 (初入文坛)

应助: 0 (幼儿园)
金币: 1314.1
帖子: 44
在线: 216.1小时
虫号: 884955
注册: 2009-10-27
专业: 病毒学

引用回帖:

22楼: Originally posted by jackie1179 at 2012-05-16 09:14:03:
这个程序它是先将分布在多行的每条序列合并为一条完整的序列后再进行正则匹配的，所以一般不会出现匹配不到的情况，下面程序中将不含短序列的序列放到文件out2.txt中，其余不变
#!/usr/bin/perl
use strict;
...

if(/^[ATCGatcg]/) {这句话是干什么用的，我怎么改为我要查找的序列之后输出结果就不对了。这里不是起到判别序列里是否有我需要的序列的作用吗?

赞一下

回复此楼

23楼2012-05-16 18:44:01

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖