24小时热门版块排行榜    

查看: 1510  |  回复: 9
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

淡蓝幽香

新虫 (初入文坛)

[求助] 程序求解:重复的相同数据用同样的代码取代

小女有如下数据,片段截取如下(每列用了制表符分隔)
Col1        Col2        Col3        Col4        Col5        Col6
1        G L        0        0        1        0
1        EL        0        0        2        0
1        (5)W S        G L        EL        2        0
1        G S        0        0        1        0
1        A S        0        0        2        0
1        (10)A D        G S        A S        2        0
1        (65)B        B D        (10)A D        2        0
1        M M K        (4)M K        (65)B        2        0

2        J K        0        0        1        0
2        A        0        0        2        0
2        P R        0        0        1        0
2        A R        0        0        2        0
2        (59)M Z J K        A        2        0
2        (30)M R        (8)A R        (19)L R        1        0

其中第一列表示组号,希望得到如下的结果:
1. 在每一组里,不带有数字的字母项,用符号表示。其中具有相同字母的项目(没有数字的字母列),用相同符号表示,如NA1,如第一行G L————NA1,第三行的G L也是NA1,但是第二行的EL为NA2
2.同一组里,带有数字的字母项,字母删除,只留下数字


自己尝试的写了下,发现,乱成了一团,紧急求助各位达人,先谢过啦!!!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

淡蓝幽香

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by jjdg at 2012-07-07 01:15:44
还是不太清楚你的意图

恩,就是啊,数据中第一列表示组号,每个组都希望做到以下的事情,如组一
1.有字母没有数字的项目,都替换成NAi,其中i 的取值根据情况而定. 如第一个碰见的字母组合是G L,那么自然是NA 1, 而第一行和第三行的字母相同,都是 G L,那么就用相同的NA1表示,第二行EL则用NA2表示,依次类推。

2.有字母,有数字的项目,只留下数字,不要字母。

还有哪里不清楚么?
3楼2012-07-07 05:35:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 10 个回答

jjdg

版主 (知名作家)

优秀版主

还是不太清楚你的意图
努力学习!以正当途径!获得需要的知识!
2楼2012-07-07 01:15:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackie1179

木虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
给你写了个perl脚本,希望能够帮到你。
用法:perl  ./pro.pl  input_file output_file
贴上代码:
#!/usr/bin/perl -w

unless(@ARGV) {
  die "Arguments not enough!$!";
}
$in = $ARGV[0];
$out = $ARGV[1];
open(IN,"$in" || die "Cannot open this file!$!";
open(OUT,">$out" || die "Cannot write to this file!$!";
undef %string;
$cnt = 0;
while( {
  chomp;
  @array = split /\t/;
  foreach $ele(@array) {
    if($ele lt '0' || $ele gt '9') {
      print $ele,"\t";
      if($ele =~ /\((\d+)\)/) {
        $ele = $1;
      } else {
        if(!defined $string{$ele}) {
         
          $cnt++;
          $string{$ele} = $cnt;
          $ele = "NA" . $cnt;
        } else {
          $ele = "NA" . $string{$ele};
        }
      
      }
      
    }
    print OUT "$ele\t";
  }
  print OUT "\n";
  
}

close IN;
close OUT;
4楼2012-07-07 10:08:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xioooli

金虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
好吧,来个python版的,使用:
python2 /path/to/your/datafile
CODE:
import sys, re
d = {}
l = []
n = 1
regx0 = re.compile(r'\(([0-9]+)\)[A-Z]+')
regx1 = re.compile(r'[A-Z]+')
repl = lambda g: g.groups()[0]
for line in open(sys.argv[1], 'r'):
    tmpl = []
    if line.startswith('Col'):
        l.append(line.strip())
        continue
    line = regx0.sub(repl, line)
    for i in line.strip().split('\t'):
        if regx1.match(i):
            if not i in d.keys():
                d[i] = 'NA%s' %n
                n += 1
            tmpl.append(d[i])
        else:
            tmpl.append(i)
    l.append('\t'.join(tmpl))
print '\n'.join(l)

5楼2012-07-07 11:10:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 初始318分求调剂(有工作经验) +3 1911236844 2026-03-17 3/150 2026-03-21 02:33 by JourneyLucky
[考研] 085700资源与环境308求调剂 +12 墨墨漠 2026-03-18 13/650 2026-03-21 01:42 by JourneyLucky
[考研] 南昌大学材料专硕311分求调剂 +5 77chaselx 2026-03-20 5/250 2026-03-20 23:42 by lovewei0727
[考研] 一志愿南昌大学,327分,材料与化工085600 +9 Ncdx123456 2026-03-19 9/450 2026-03-20 23:41 by lovewei0727
[考研] 330求调剂 +4 小材化本科 2026-03-18 4/200 2026-03-20 23:13 by JourneyLucky
[考研] 287求调剂 +7 晨昏线与星海 2026-03-19 8/400 2026-03-20 22:19 by JourneyLucky
[考研] 085600材料与化工 +8 安全上岸! 2026-03-16 8/400 2026-03-20 22:13 by luoyongfeng
[考研] 材料与化工 322求调剂 +4 然11 2026-03-19 4/200 2026-03-20 22:12 by luoyongfeng
[考研] 一志愿华中农业071010,总分320求调剂 +3 困困困困坤坤 2026-03-20 3/150 2026-03-20 20:38 by 学员8dgXkO
[考研] 材料学求调剂 +4 Stella_Yao 2026-03-20 4/200 2026-03-20 20:28 by ms629
[考研] 0703化学调剂 ,六级已过,有科研经历 +13 曦熙兮 2026-03-15 13/650 2026-03-20 19:35 by Dream007008
[考研] 261求B区调剂,科研经历丰富 +3 牛奶很忙 2026-03-20 4/200 2026-03-20 19:34 by JourneyLucky
[考研] 工科材料085601 279求调剂 +7 困于星晨 2026-03-17 9/450 2026-03-20 17:38 by 无懈可击111
[考研] 08工学调剂 +5 用户573181 2026-03-20 5/250 2026-03-20 15:47 by xia_2003
[考研] 0817调剂 +3 没有答案_ 2026-03-14 3/150 2026-03-19 09:51 by Xu de nuo
[考研] 0703化学 305求调剂 +4 FY_yy 2026-03-14 4/200 2026-03-19 05:54 by anny19840123
[考研] 化学工程321分求调剂 +15 大米饭! 2026-03-15 18/900 2026-03-18 14:52 by haxia
[考研] 0854,计算机类招收调剂 +3 胡辣汤放糖 2026-03-15 6/300 2026-03-18 12:09 by 上岸上岸……..
[考研] 304求调剂 +4 ahbd 2026-03-14 4/200 2026-03-16 16:48 by 我的船我的海
[考研] 321求调剂 +5 大米饭! 2026-03-15 5/250 2026-03-16 16:33 by houyaoxu
信息提示
请填处理意见