24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1525  |  回复: 9

xiezhancnu

木虫 (小有名气)

[求助] perl程序求助,请大神们赐教~~~

我现在有十个基因,附件里的两个文件分别是这十个基因任意两个之间的相关系数和p-alue的值,附件应该是很容易看懂的,呵呵~~,现在呢,我想改变一下输出的格式,将两个文件整合一下,输出成这种格式:
基因1              基因2               相关系数           p-value (这一行可有可无)
DR_2577      DR_A0328           0.81186                   0.0000000171
……
输出结果不算可有可无的第一行的话,应该总共有45行,就是这么一个程序~~
我觉得应该是说清楚了,呵呵~~若是哪里说的不够清楚的话,请大神们主动提出来,呵呵~~谢谢啦~~~
回复此楼

» 本帖附件资源列表

  • 欢迎监督和反馈:小木虫仅提供交流平台,不对该内容负责。
    本内容由用户自主发布,如果其内容涉及到知识产权问题,其责任在于用户本人,如对版权有异议,请联系邮箱:xiaomuchong@tal.com
  • 附件 1 : pvalue.csv
  • 2012-08-10 21:25:34, 11.5 K
  • 附件 2 : cor.xls
  • 2012-08-10 21:25:40, 12 K

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wizardfan

至尊木虫 (著名写手)

优秀版主

本来是想帮你的,但是以前帮过你以后,一点回音都没有http://muchong.com/bbs/viewthread.php?tid=4773466&fpage=1,我也建议别人不要帮助没有基本礼仪的人。
2楼2012-08-11 01:58:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiezhancnu

木虫 (小有名气)

引用回帖:
2楼: Originally posted by wizardfan at 2012-08-11 01:58:24
本来是想帮你的,但是以前帮过你以后,一点回音都没有http://muchong.com/bbs/viewthread.php?tid=4773466&fpage=1,我也建议别人不要帮助没有基本礼仪的人。

不是的,我晕~~,现在放假了,那几天家里有事回去了,我家农村的,家里又上不了网!在家带了十来天,就把那个帖子给忘了,平时小木虫上的又不多,请您不要生气了哈~~现在把金币给您~~晕~~·
3楼2012-08-11 09:30:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackie1179

木虫 (正式写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
xiezhancnu: 金币+10 2012-08-11 09:45:21
xzhdty: 金币+1, 谢谢参与 2012-08-13 22:21:08
你的原始文件要保存为文本文档才好操作(用制表符分隔),因为用perl操作excel表格我也不会
CODE:
#!/usr/bin/perl

use warnings;

$cor_file = "cor.csv";
$pvalue_file = "pvalue.csv";
$out = "out";

undef %cor;
undef %pvalue;

open(COR,"$cor_file") || die "Cannot open this file$!";
=~ /(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)/;
for($i = 1; $i <= 10; $i++) {
  push @gene,$$i;
}
print @gene,"\n";
$cnt = 0;
while() {
  $cnt++;
  $_ =~ /^\S+\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)/;
  for($j = $cnt; $j < 10 ; $j++ ) {
    $cor{$gene[$cnt - 1],$gene[$j]} = ${$j + 1};
  }
}
close COR;

foreach (sort keys %cor) {
  print $_,"=>","$cor{$_}\n";
}

open(PVALUE,"$pvalue_file") || die "Cannot open this file$!";
;
$cnt = 0;
while() {
  $cnt++;
  $_ =~ /^\S+\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)/;
  for($j = $cnt; $j < 10; $j++) {
    $pvalue{$gene[$cnt - 1],$gene[$j]} = ${$j + 1};
  }
}
close PVALUE;

open(OUT,">$out") || die "Cannot write to this file$!";
print OUT "gene1\tgene2\tcorrelation efficient\t p-value\n";
for($i = 0; $i < 10; $i++) {
  for($j = 0; $j < 10; $j++) {
    if(exists $cor{$gene[$i],$gene[$j]}) {
      printf OUT "%-8s\t%-8s\t%8s\t%8s\n",$gene[$i],$gene[$j],$cor{$gene[$i],$gene[$j]},$pvalue{$gene[$i],$gene[$j]};
    }
  }
}

close OUT;

4楼2012-08-11 09:32:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiezhancnu

木虫 (小有名气)

引用回帖:
4楼: Originally posted by jackie1179 at 2012-08-11 09:32:35
你的原始文件要保存为文本文档才好操作(用制表符分隔),因为用perl操作excel表格我也不会

#!/usr/bin/perl

use warnings;

$cor_file = "cor.csv";
$pvalue_file = "pvalue.csv";
...

你好,刚刚看了一下您的程序,发现您的程序采用了正则表达式捕获变量的方法,但是实际要处理的基因并不是10个,是3000多个,这样的话,您的程序就完全不是用了,/^\S+\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)\t(\S+)/总不能延长到3000多个吧,不知道您可不可以写一个适用于任意数目基因的程序?谢谢了~~
5楼2012-08-11 15:00:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

herter

金虫 (著名写手)

楼上的程序写的很好啊;
另外给个建议,没有时间写整个程序的;
1,把输入数据放到txt中,不用excel,excel处理没做过,估计不会简单;excel中都放进去了,放到txt中应该不难;
2,每一行的数据之间用空格分隔,到时候程序分段数据,会很方便的;
3,如果3000多条数据,互相需要两两比较的话,计算量到了千万级别,如果每一次比较的速度慢的话,会需要几天时间才能算完一次;我曾经算过两两比较两个4k的基因组(调用外部blast程序);如果每一次速度很快,估计半小时内算完;
4,如果第一条中没有办法获取原始数据,就只好把excel数据直接复制放到txt中,把宽的空格替换成一个空格,然后就可以用perl读取数据和输出数据了;
5,不要等哪位大哥能直接写出程序来,没有这个时间和耐心的;自己做出应该不难;

» 本帖已获得的红花(最新10朵)

6楼2012-08-12 16:13:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

herter

金虫 (著名写手)

补充,
二维数组,换成一维就可以的;
每次读入perl中一行,分别记录了,1-2,1-3,1-4,。。。,1-3000;
第二行,2-3,2-4,2-5,...,2-3000;
直到最后一行,全部完成;
7楼2012-08-12 16:18:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiezhancnu

木虫 (小有名气)

送鲜花一朵
引用回帖:
6楼: Originally posted by herter at 2012-08-12 16:13:28
楼上的程序写的很好啊;
另外给个建议,没有时间写整个程序的;
1,把输入数据放到txt中,不用excel,excel处理没做过,估计不会简单;excel中都放进去了,放到txt中应该不难;
2,每一行的数据之间用空格分隔, ...

谢谢您~~我试试~~
8楼2012-08-12 16:32:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackie1179

木虫 (正式写手)


xzhdty: 金币+1, 谢谢 2012-08-13 22:22:35
借鉴了wizardfan在你新帖中的split方法,对原程序稍加修改,或许可以满足你的要求。
CODE:
#!/usr/bin/perl


use warnings;

$cor_file = "cor.csv";
$pvalue_file = "pvalue.csv";
$out = "out";

undef %cor;
undef %pvalue;

open(COR,"$cor_file") || die "Cannot open this file$!";
$tmp= ;
chomp($tmp);
$line =~ s/^\t//;
@gene = split(/\t/,$tmp);

print @gene,"\n";
$cnt = 0;
while() {
  $cnt++;
  chomp;
  @array = split(/\t/,$_);
  
  for($j = $cnt; $j < 10 ; $j++ ) {
    $cor{$gene[$cnt - 1],$gene[$j]} = $array[$j + 1];
  }
}
close COR;

foreach (sort keys %cor) {
  print $_,"=>","$cor{$_}\n";
}

open(PVALUE,"$pvalue_file") || die "Cannot open this file$!";
;
$cnt = 0;
while() {
  $cnt++;
  chomp;
  @array = split(/\t/,$_);

  for($j = $cnt; $j < 10; $j++) {
    $pvalue{$gene[$cnt - 1],$gene[$j]} = $array[$j + 1];
  }
}
close PVALUE;

open(OUT,">$out") || die "Cannot write to this file$!";
print OUT "gene1\tgene2\tcorrelation efficient\t p-value\n";
for($i = 0; $i < 10; $i++) {
  for($j = 0; $j < 10; $j++) {
    if(exists $cor{$gene[$i],$gene[$j]}) {
      printf OUT "%-8s\t%-8s\t%8s\t%8s\n",$gene[$i],$gene[$j],$cor{$gene[$i],$gene[$j]},$pvalue{$gene[$i],$gene[$j]};
    }
  }
}

close OUT;

» 本帖已获得的红花(最新10朵)

9楼2012-08-13 10:01:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiezhancnu

木虫 (小有名气)

送鲜花一朵
引用回帖:
9楼: Originally posted by jackie1179 at 2012-08-13 10:01:38
借鉴了wizardfan在你新帖中的split方法,对原程序稍加修改,或许可以满足你的要求。

#!/usr/bin/perl


use warnings;

$cor_file = "cor.csv";
$pvalue_file = "pvalue.csv";
$out ...

10楼2012-08-14 13:12:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 xiezhancnu 的主题更新
信息提示
请填处理意见