24小时热门版块排行榜    

查看: 1500  |  回复: 9

淡蓝幽香

新虫 (初入文坛)

[求助] 程序求解:重复的相同数据用同样的代码取代

小女有如下数据,片段截取如下(每列用了制表符分隔)
Col1        Col2        Col3        Col4        Col5        Col6
1        G L        0        0        1        0
1        EL        0        0        2        0
1        (5)W S        G L        EL        2        0
1        G S        0        0        1        0
1        A S        0        0        2        0
1        (10)A D        G S        A S        2        0
1        (65)B        B D        (10)A D        2        0
1        M M K        (4)M K        (65)B        2        0

2        J K        0        0        1        0
2        A        0        0        2        0
2        P R        0        0        1        0
2        A R        0        0        2        0
2        (59)M Z J K        A        2        0
2        (30)M R        (8)A R        (19)L R        1        0

其中第一列表示组号,希望得到如下的结果:
1. 在每一组里,不带有数字的字母项,用符号表示。其中具有相同字母的项目(没有数字的字母列),用相同符号表示,如NA1,如第一行G L————NA1,第三行的G L也是NA1,但是第二行的EL为NA2
2.同一组里,带有数字的字母项,字母删除,只留下数字


自己尝试的写了下,发现,乱成了一团,紧急求助各位达人,先谢过啦!!!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jjdg

版主 (知名作家)

优秀版主

还是不太清楚你的意图
努力学习!以正当途径!获得需要的知识!
2楼2012-07-07 01:15:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

淡蓝幽香

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by jjdg at 2012-07-07 01:15:44
还是不太清楚你的意图

恩,就是啊,数据中第一列表示组号,每个组都希望做到以下的事情,如组一
1.有字母没有数字的项目,都替换成NAi,其中i 的取值根据情况而定. 如第一个碰见的字母组合是G L,那么自然是NA 1, 而第一行和第三行的字母相同,都是 G L,那么就用相同的NA1表示,第二行EL则用NA2表示,依次类推。

2.有字母,有数字的项目,只留下数字,不要字母。

还有哪里不清楚么?
3楼2012-07-07 05:35:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackie1179

木虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
给你写了个perl脚本,希望能够帮到你。
用法:perl  ./pro.pl  input_file output_file
贴上代码:
#!/usr/bin/perl -w

unless(@ARGV) {
  die "Arguments not enough!$!";
}
$in = $ARGV[0];
$out = $ARGV[1];
open(IN,"$in" || die "Cannot open this file!$!";
open(OUT,">$out" || die "Cannot write to this file!$!";
undef %string;
$cnt = 0;
while( {
  chomp;
  @array = split /\t/;
  foreach $ele(@array) {
    if($ele lt '0' || $ele gt '9') {
      print $ele,"\t";
      if($ele =~ /\((\d+)\)/) {
        $ele = $1;
      } else {
        if(!defined $string{$ele}) {
         
          $cnt++;
          $string{$ele} = $cnt;
          $ele = "NA" . $cnt;
        } else {
          $ele = "NA" . $string{$ele};
        }
      
      }
      
    }
    print OUT "$ele\t";
  }
  print OUT "\n";
  
}

close IN;
close OUT;
4楼2012-07-07 10:08:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xioooli

金虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
好吧,来个python版的,使用:
python2 /path/to/your/datafile
CODE:
import sys, re
d = {}
l = []
n = 1
regx0 = re.compile(r'\(([0-9]+)\)[A-Z]+')
regx1 = re.compile(r'[A-Z]+')
repl = lambda g: g.groups()[0]
for line in open(sys.argv[1], 'r'):
    tmpl = []
    if line.startswith('Col'):
        l.append(line.strip())
        continue
    line = regx0.sub(repl, line)
    for i in line.strip().split('\t'):
        if regx1.match(i):
            if not i in d.keys():
                d[i] = 'NA%s' %n
                n += 1
            tmpl.append(d[i])
        else:
            tmpl.append(i)
    l.append('\t'.join(tmpl))
print '\n'.join(l)

5楼2012-07-07 11:10:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xioooli

金虫 (小有名气)

【答案】应助回帖

使用写错啦。

保存成xxx.py

然后 python2 xxx.py /path/to/your/datafile
6楼2012-07-07 11:13:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

anntoy

木虫 (著名写手)

用c写了个,第一行那个标题处理不了
CODE:
#include
#include
#include

#define INBUFSIZE 1024
#define OUTBUFSIZE 100
#define MAXLET 50
#define MAXINDEX 50

char table[MAXINDEX][MAXLET];
int maxindex;

int isAllNum(char *p)
{
        while(*p >= '0' && *p <= '9') {
                p++;
        }
        return *p == '\t' || !*p;
}

int isAllLetter(char *p)
{
        while((*p >= 'a' && *p <= 'z')||(*p >= 'A' && *p <= 'Z')) {
                p++;
        }
        return *p == '\t' || !*p;
}

int kickLetter(char *in)
{
        int i = 0;
        char *out = in;
        while(*in){
                if(*in >= '0' && *in <= '9') {
                        *out = *in;
                        out++;
                        i++;
                }
                in++;
        }
        *(out++) = '\t';
        *out = 0;
        return ++i;
}

int getcol(char *in, char *out)
{
        int i = 0;
        while(*(in + i) != '\t' && *(in + i)) {
                *(out + i) = *(in + i);
                i++;
        }       
        *(out + i) = 0;
        return i == 0 ? 0 : i + !!*(in + i);
}

int getIndex(char *p)
{
        int i = maxindex;
        while(i--)
                if(!strcmp(table[i], p))
                        return i;
        maxindex++;
        sprintf(table[maxindex], p);
        return maxindex;
}

int main()
{
        char *inbuf, *outbuf;
        int group = 0, ret, ret2;
        FILE * fpi, *fpo;
        fpi = fopen("in","r");
        fpo = fopen("out","w");
        inbuf = malloc(INBUFSIZE);
        outbuf = malloc(OUTBUFSIZE);
        while(fgets(inbuf, INBUFSIZE, fpi)){
                if(*inbuf == '\n'){
                        fwrite("\n", 1, 1, fpo);
                        continue;
                }                       
                if(inbuf[strlen(inbuf) - 1] == '\t')
                        inbuf[strlen(inbuf) - 1] = 0;
                ret = getcol(inbuf, outbuf);
                if(group != atoi(outbuf)){
                        group = atoi(outbuf);
                        maxindex = 0;
                }
                fwrite(inbuf, ret, 1, fpo);
                while(ret2 = getcol(inbuf + ret, outbuf)){
                        ret += ret2;
                        if(isAllNum(outbuf)){
                                ret2 = sprintf(outbuf, "%s\t", outbuf);
                                fwrite(outbuf, ret2, 1, fpo);
                        } else if(isAllLetter(outbuf)) {
                                ret2 = sprintf(outbuf, "NA%d\t", getIndex(outbuf));
                                fwrite(outbuf, ret2, 1, fpo);
                        } else {
                                ret2 = kickLetter(outbuf);
                                fwrite(outbuf, ret2, 1, fpo);
                        }
                }
                fseek(fpo, -1, SEEK_CUR);
                fwrite("\n", 1, 1, fpo);
        }
        fclose(fpi);
        fclose(fpo);
        free(inbuf);
        return 0;
}

7楼2012-07-07 12:29:19
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

淡蓝幽香

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by jackie1179 at 2012-07-07 10:08:13
给你写了个perl脚本,希望能够帮到你。
用法:perl  ./pro.pl  input_file output_file
贴上代码:
#!/usr/bin/perl -w

unless(@ARGV) {
  die "Arguments not enough!$!";
}
$in = $ARGV;
$ou ...

要怎么支付你金币:)
8楼2012-07-09 05:38:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackie1179

木虫 (正式写手)

不给也行,我也不知道怎么给金币!
9楼2012-07-09 23:08:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jackie1179

木虫 (正式写手)

还有提醒你一下,正如6楼所说的处理不了第一行标题的问题:

$cnt = 0;

while( {
在此两行代码间加入:; 这样一行即可.
10楼2012-07-09 23:12:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 淡蓝幽香 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 一志愿 南京航空航天大学大学 ,080500材料科学与工程学硕 +3 @taotao 2026-03-20 3/150 2026-03-20 09:01 by 每天只摆一小会
[考研] 085600材料与化工 求调剂 +17 enenenhui 2026-03-13 18/900 2026-03-20 08:55 by xingguangj
[考研] 能源材料化学课题组招收硕士研究生8-10名 +4 脱颖而出 2026-03-16 13/650 2026-03-20 08:32 by 脱颖而出
[考研] 一志愿吉林大学材料学硕321求调剂 +9 Ymlll 2026-03-18 12/600 2026-03-20 00:01 by 23Postgrad
[考研] 081700化工学硕调剂 +3 【1】 2026-03-16 3/150 2026-03-19 23:40 by edmund7
[考研] 320求调剂0856 +3 不想起名字112 2026-03-19 3/150 2026-03-19 22:53 by 学员8dgXkO
[考研] 一志愿南京理工大学085701资源与环境302分求调剂 +3 葵梓卫队 2026-03-18 5/250 2026-03-19 19:35 by 给你你注意休息
[考研] 0703化学调剂 +4 18889395102 2026-03-18 4/200 2026-03-19 16:13 by 30660438
[考研] 0703化学调剂 +5 pupcoco 2026-03-17 8/400 2026-03-19 13:58 by houyaoxu
[考研] 304求调剂 +6 司空. 2026-03-18 6/300 2026-03-18 23:03 by 星空星月
[考研] 材料专硕306英一数二 +10 z1z2z3879 2026-03-16 13/650 2026-03-18 14:20 by 007_lilei
[考研] 331求调剂(0703有机化学 +7 ZY-05 2026-03-13 8/400 2026-03-18 14:13 by 007_lilei
[考研] 302求调剂 +10 呼呼呼。。。。 2026-03-17 10/500 2026-03-18 12:45 by Linda Hu
[基金申请] 被我言中:新模板不强调格式了,假专家开始管格式了 +4 beefly 2026-03-14 4/200 2026-03-17 22:04 by 黄鸟于飞Chao
[考研] 考研化学学硕调剂,一志愿985 +4 张vvvv 2026-03-15 6/300 2026-03-17 17:15 by ruiyingmiao
[考研] 材料专硕326求调剂 +6 墨煜姒莘 2026-03-15 7/350 2026-03-17 17:10 by ruiyingmiao
[考研] 275求调剂 +4 太阳花天天开心 2026-03-16 4/200 2026-03-17 10:53 by 功夫疯狂
[论文投稿] 有没有大佬发小论文能带我个二作 +3 增锐漏人 2026-03-17 4/200 2026-03-17 09:26 by xs74101122
[考研] 中科院材料273求调剂 +4 yzydy 2026-03-15 4/200 2026-03-16 15:59 by Gaodh_82
[考研] 070303 总分349求调剂 +3 LJY9966 2026-03-15 5/250 2026-03-16 14:24 by xwxstudy
信息提示
请填处理意见