版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

>论坛更新日志 (2636)
>基金申请 (263)
>虫友互识 (27)
>休闲灌水 (12)
>考博 (11)
>公派出国 (7)
>考研 (6)
>硕博家园 (5)
>导师招生 (4)
>招聘信息布告栏 (4)
>教师之家 (4)
>文献求助 (4)
>药学 (4)
>物理 (3)
>信息科学 (3)
>医学 (3)

返回列表

brightfuture01

木虫之王 (文坛精英)

我爱打老虎

应助: 24 (小学生)
贵宾: 1.2
金币: 113395
散金: 1526
红花: 224
沙发: 1
帖子: 28957
在线: 3716.2小时
虫号: 464575
注册: 2007-11-21
性别: GG
专业: 神经生物学

[求助] 求编程，求应助

这个任务是否可以用脚本完成？不能的话用C++如何实现？本人编程知识欠缺，烦请大家帮忙。如给出运行程序如脚本或者C++程序，本人不胜感激，金币不是问题。

问题描述：

(1) 数据： FASTA格式核酸序列（>+注释语言+换行+核酸序列）10000条左右，两个>之间为一个基因，格式如下：

>hg19_refGene_NM_052933 range=chr7:130353386-130373406 5'pad=0 3'pad=0 strand=- repeatMasking=none
tcttccaacgtggcccagggaagccaaaagattggacaccctgcttcaga
gcccatattaggttttttttttttttttttttggtcataaactgcagaaa
tgaaccctaagaaaataaaggatttatttgaaagaatattaggaaagctc
acagaactgaagagaaaattgtgtagtcttgctttaggaaggactagatc
tggggcagctccggggacctcagcaggtagagctcagagctcagagtctt
ccagcctgggataccacatgaggtggctcaggtgcaatcatcttacagct
ctgtgggtcattagcaaactttcaaattcttagtataacctggttggcca
cctttgaatcaatcatccagagctaggatgcaggagtgaatggcactaat
tggtgatggctatagacccttataatttctcaacccctcctcagcactgt
catagacttctcaaggacctctttgcatctttctaatctatagttcttct
gtctttccaatctatagttcacatgccactatttttgtatttctaaaata
tatattgttcaataaggagattatacctcatttaaaatctcttgttagcg
cttcattactcagaataacccacaaacttcctatcaaatagttcatttta
ggatttggatcctgtcttcctctctagtctcacctctcactacccttccc
ctaaatcttatgttcctggcatattgcaattacagtattttcaattcccc
taaataagccaggctttgttgtattctcatgtttttgcctctgcttctcc
ctctttctcaaatgtctgtcctctcatcacctggttaattcacactcatc
ttccccagctcagtttaggcagtagttccaaatctctctcagtctcttct
cagtatgggttaagtccccttcctcattgcttccatagtaccctaaattt
agatctaatttggcattctactctgttgcaatcaaccgtttctttgtctc
tcttcctggctaaactgtgagctcctaaaggagctcaagaattacatctg
atttatgctttgttctcatcacctaggagagtgtctaatatgtcataaat
gttcagcaaatatattgaaataagcaaacactagttttgaatgcataaga
tacaaagcactgggaggggggcacaaatatgtttaaaatttacatttcca
cttttaagggactcacagcttaagaggcagacaagacccgcacataagaa
aagtgaaaacagaactacaagacactatacaatgacatgcacaaaaccca
gtgactatagtctagagtttgggattgcattaatctagaaaatcttctct
ttaaaggaaTGACCTgagtagtaacataaagaaagaagattcagggctgg
gcatggtggctcatgcctgtaatcccagcactttgggaggctgaggtggg
tggatcacaAGGTCAagagatcgagaccatcctggccaacatggtgaaac
cccgtctctactaaaaatacaaaaattagctgggcatggtggcaggcgcc
tgtagtcccagctactctggaggctgaggcaggaaaatcacttgaaccag
ggagacagaggttgcagtgaactgagactgtgccactgcactccagcctt
gtgacagtgtgaggctccgtcagaagaaagagaaggagaaggagaaggag
aagattcaaatggctgaagagattggggacagcattttaagtatggggaa
taagaaaaaatgctcactgtatttgaagaatgcagtgaaaacattggctt
aggtagaggtagattaagagatggtgaagatgtgtgtgtgtgtgtgtgtg
tgtgtgtgtgtgtgtgtgtgtgtgtagagaagtcataggctggcaaaata
agagattggcagattttgtttaaatatgcctttaagttttggccttttca
ttctctgtctccaacacagaacacctcagcattctagattgcctattcat
>hg19_refGene_NR_030165 range=chr7:136585914-136588141 5'pad=0 3'pad=0 strand=+ repeatMasking=none
gagtgccctgggaaaggaaaaattccatttccaagatccaggcatgtgag
aattacgtgaaattaaatatgtggacttgcggtttttggttcttggaaaa
atagaaaggtatagtgggttgcatgcagttctagctgcattccagctaga
aacagattgagacagttcagattcacaggcacttgcagggcaagttttca
atgtcactgtggctttaccacgtaggcaaatttgaaaatagacacactaa
atattgactacaggaaaagaaaaatgtgtatttattcatacaaaacacat
ttatttagcatctataatgtgctgtgcccTGACCTatagtgacccaaaca
gattagcagatctcacccgatcttgtagtgcagtgatttgaatagcaatg
atctttggaccctaagcaacccagtttggccattccctgatgtcattttt
ttcccccatttccattgttattttttgagaacatacagacgctttttgat
ccatttgttgtaagaacctagcctcttgatcagttgcatttacaaaataa
caacattgataatttcataaatgtgtaagatttacagcttacaaagaact
tgcacacacatctcatgcataactcacaaaacctcttaattctttcccaa
taatacaggggaatcatggactcaggggcTGACCTccaaagacgctgttg
gtggtaaattgttagagccccgagatgtgacttaaatttaggttttctga
cagaggtgtgctgctcgtctctatgctaatccattacacagccagacagg
aagaactgtcagtagattctgatcaatttctctttctataaaaaaaaatg
ataagcttagttaaattgtattagataagtgaagggttgtttataacagt
ccagcctccccttagcttcttctatggctttcattaggctccatcaaagc
ctactctcaaaacaaaatataaaaataattgttaactactaacattgatt
ctgtgatcttccttttaaactcatctatctatctatcgatctatctatcc
atccatccatccatccatccatccatccatccatccatctatccacctag
ctatccttctatgtttgcagtcagttgctagttattaagataatcagaat
tgctttcagaattaataattggtataaatttcagaagagtttgaatttag
gtggcaaattcataataagtgagaaggtaagctatagcatcctctgataa
tgtgtgcagtttactttttatctgtctctttctaattgaaaactaacaaa
tatagccccaattaaatgcacgtaaaaattagaagctggtgggatagggt
attaaacacaatcctagatgactcttatgaactcataccataagcagcca
ctttctttctcgagcaaactatagtgagaatgaagcatcttagattgaga
agggattaggacgaccctgaatggaatgggcaaatcataaacagctaggc
ccttagaatttggttgcagtcccaaacccAGGTCAgtttttaaacatgac
tatcagctagatatcctttctccaccatacaataatagataacaacctta
ataagacgtgtagacattaaactttgaaattccacagtaagatgtaaata
tttgctcaatcaagtacaatttaatatgtttgttatacagcaactgcaga
gcacagaattttgtactctttggatgtttatgataaggtacacattattt
gcaagtttttgcttgtttccttgttcagtttttcattatcaaacaaacaa
agcttctcagcctgggattaacctggagtctggaaagtatacattatggc
cagcaactttaaacaataggccagagatgggaaatgaatgaatgaaattc
tgacacagaagacaaacaacagaaactcatttgggctagtgtaggtgtag
gttttttattcttcaaccaacggtggtgaagaggatctcccttcacttta
>hg19_refGene_NM_001190906 range=chr7:137759178-137803150 5'pad=0 3'pad=0 strand=+ repeatMasking=none
gcctgagggtcagtttcctgaggaaaaaactcagttaagacataagtttc
aagttttaagacagagggcacatttctatgtttattcaaaaatccataaa
tatgggacaatttggccagtttcaacttcaggacattttaaccattgtgg
actcagTGACCTgtgaagtgtacaggccagggaaacttcctctttgcctt
ctgaagtttcactgaaaaatcaactcacaaaaggcagattaattggagaa
aaggtattcaattttatttaactatatgtttacacagggagaaccacaga
gtgattacccacccacaacagggtttagaagcttatttactggtaaatca
ggttatgggagaggggaaaagaggaattctgttgaggagatcactaggga
gaatgaatggatcagggagtagagattaacttgtacattaccttgtgaaa
gggtttgttcaggaaaggttacattcttagtcttacagggagaggaagaa
aaacgaattgttccttttggtgggtctggatcttaggcagataaaggaac
ttcactttgggagaggtggtagggagtagAGGTCAgagggaccttgaggc
ttttccagttcagtatgtcaaagtgccatattttggggtatcagtttctg
actcccaacacattctttgtcttctttttttgtaatggatcatgagataa
caggtaggggaaaaagaacaattgtcctccttggtgggtccatcctatct
ttatgtagacaggggaaagtctcttccagagcccgttgatctctaagggt
ctttacttcaaaatcttcattataccagggagccatatgttggggtggaa
tttcctgcctccttcaacccccagctccaaatttggaaatggcttctaat
ttttttaaggaaatgtcttttatttcctttggccactgtgattgatttca
cgatggatccatgaaccaagaaaggcaatcaaggctaacaagtttcaatt
tcaggactactgtttgagctactgagaaagtaaaatctctttttcgttgt
ttgagctggaaaccttgtcactccaaggacagtcagtaaacacttttcaa
tgttaagggaactgagagagagagtttcctgagagaacaggaaggcagag
agacgaatgagaagtgagaaattggtcctggccatgttattgttcctcta
gtccagtttaactggtgataagcttaacttgtgataaagatcctagatcc
ctttccagtcctgctgcatccaaatctcccaggaagtcctagaaaatgtc
tagtctcccctgaagctagccctactgccagaatttgaggaatatgaacc
aataaatttccattatagtttaagagaatttaagatagatgtgtgtatta
gttcattctcacactgctaataaagacaaccaagactgggtaattaacaa
agaaaaagagatttaatgggctcacagttccacatggctggggaggcctc
acaatcatggcagaaggtgaaagaggagcaaaggcatgtcttacatggca
ggaggcaagagagcatgtgcaggggaactgtccttcataaaaccatcaga
tcttgtgagacttattcactatcacaagagcagcatgggaaaaaaacacc
cccatgattcaattacctcccactgagtccctcccatgacattggggatt
gtgggagctacaattcaagatgagatttggttgaggacgcagccaaacta
tgtcagtctcttatttgccaacaaaagcatcctaactgatagaggccaga
cagatttgtttctttttgttttttcaatcttttgttgtgaagaagtaagc
ataaactctcaataggttacgttttacaagcctctgatgaagttcaaagg
acaaccatgcttaggatttccaggacaacctggaaaaaaaaacaggttga
gaaataggtgtgttaatctcccttccctctgctcctccctctggccttcc
.
.
.
.
.
.
>hg19_refGene_NM_005989 range=chr7:137759178-137803150 5'pad=0 3'pad=0 strand=+ repeatMasking=none
gcctgagggtcagtttcctgaggaaaaaactcagttaagacataagtttc
aagttttaagacagagggcacatttctatgtttattcaaaaatccataaa
tatgggacaatttggccagtttcaacttcaggacattttaaccattgtgg
actcagTGACCTgtgaagtgtacaggccagggaaacttcctctttgcctt
ctgaagtttcactgaaaaatcaactcacaaaaggcagattaattggagaa
aaggtattcaattttatttaactatatgtttacacagggagaaccacaga
gtgattacccacccacaacagggtttagaagcttatttactggtaaatca
ggttatgggagaggggaaaagaggaattctgttgaggagatcactaggga
gaatgaatggatcagggagtagagattaacttgtacattaccttgtgaaa
gggtttgttcaggaaaggttacattcttagtcttacagggagaggaagaa
aaacgaattgttccttttggtgggtctggatcttaggcagataaaggaac
ttcactttgggagaggtggtagggagtagAGGTCAgagggaccttgaggc
ttttccagttcagtatgtcaaagtgccatattttggggtatcagtttctg
actcccaacacattctttgtcttctttttttgtaatggatcatgagataa
caggtaggggaaaaagaacaattgtcctccttggtgggtccatcctatct
ttatgtagacaggggaaagtctcttccagagcccgttgatctctaagggt
ctttacttcaaaatcttcattataccagggagccatatgttggggtggaa
tttcctgcctccttcaacccccagctccaaatttggaaatggcttctaat
ttttttaaggaaatgtcttttatttcctttggccactgtgattgatttca
cgatggatccatgaaccaagaaaggcaatcaaggctaacaagtttcaatt
tcaggactactgtttgagctactgagaaagtaaaatctctttttcgttgt
ttgagctggaaaccttgtcactccaaggacagtcagtaaacacttttcaa
tgttaagggaactgagagagagagtttcctgagagaacaggaaggcagag
agacgaatgagaagtgagaaattggtcctggccatgttattgttcctcta
gtccagtttaactggtgataagcttaacttgtgataaagatcctagatcc
ctttccagtcctgctgcatccaaatctcccaggaagtcctagaaaatgtc
tagtctcccctgaagctagccctactgccagaatttgaggaatatgaacc
aataaatttccattatagtttaagagaatttaagatagatgtgtgtatta
gttcattctcacactgctaataaagacaaccaagactgggtaattaacaa
agaaaaagagatttaatgggctcacagttccacatggctggggaggcctc
acaatcatggcagaaggtgaaagaggagcaaaggcatgtcttacatggca
ggaggcaagagagcatgtgcaggggaactgtccttcataaaaccatcaga
tcttgtgagacttattcactatcacaagagcagcatgggaaaaaaacacc
cccatgattcaattacctcccactgagtccctcccatgacattggggatt
gtgggagctacaattcaagatgagatttggttgaggacgcagccaaacta
tgtcagtctcttatttgccaacaaaagcatcctaactgatagaggccaga
cagatttgtttctttttgttttttcaatcttttgttgtgaagaagtaagc
ataaactctcaataggttacgttttacaagcctctgatgaagttcaaagg
acaaccatgcttaggatttccaggacaacctggaaaaaaaaacaggttga
gaaataggtgtgttaatctcccttccctctgctcctccctctggccttcc

(2) 任务描述：在所有10000条基因中查找两个字符串，比如"ATCG"和"GCTAT"，按照两个字符串所含数目之和将10000条基因由大到小排序：比如，基因A中查到5个，基因B中查到4个，基因C和D中查到3个，基因EFGH中没有，则按照ABCDEFGH排序。

(3) 排序完成后，将每条基因的ID，即>hg19_refGene_NM_005989 range=chr7:137759178-137803150 5'pad=0 3'pad=0 strand=+ repeatMasking=none 中refgene 之后，range 之前的部分”NM_005989“ 按序提取到独立的excel中，第一栏为基因ID，第二栏为所含字符串个数，第三栏为每条基因所含碱基个数

[ Last edited by brightfuture01 on 2012-12-5 at 14:43 ]

回复此楼

» 猜你喜欢

小木虫没落了，除了祈祷帖子，几乎看不到有价值的帖子已经有6人回复
国自然面上D口祈祷已经有3人回复
内心匮乏已经有12人回复
没收到消息，再次陪跑已经有3人回复
E口会评已经有10人回复
跨出版社商投稿已经有3人回复
不要再数国自然申请书的 filecode 的分隔符个数了已经有20人回复
明天E口面上会评已经有9人回复
MSER送审了还被拒稿已经有6人回复
祈祷青基必中已经有16人回复

» 本主题相关价值贴推荐，对您同样有帮助:

如何用matlab求解矩阵系数的二阶微分方程已经有13人回复
有个概率公式，有积分。用啥软件可以实现呢？已经有7人回复
求助一个编程问题！已经有10人回复
关于发布求助帖、应助回帖及应助指数的说明已经有15人回复
药学版关于求助帖刷应助指数的说明已经有13人回复
小木虫论坛引入“专业版应助”参数，大家多多参与哦~~ 已经有16人回复
药审中心品种审评进度查询求助应助专贴已经有92人回复
mathematica 编程求助已经有9人回复
【活动】关于快速给予应助者完美的答复的提议已经有22人回复
★对于有有效应助的帖子，请求助者将金币全部发放★ 已经有55人回复
求助正交设计助手软件的空白列的问题已经有1人回复
求助施耐德XBTL1003触摸屏编程软件已经有4人回复
【求助】请问matlab编程语言如何打包成为独立的应用程序啊？谢谢已经有8人回复
【求助】VC++.NET编程，MFC基于对话框应用程序编写已经有18人回复
求助用imageJ处理共聚焦显微荧光图片(未得到应助，应楼主要求取消求助) 已经有4人回复
如何利用EndNote管理论文中的图或表（应楼主要求取消应助）已经有1人回复
积极应助虫友的问题，是否应该得到金币奖励已经有67人回复

The world is a fine place and worth fighting for. I agree with the second part.

1楼 2012-12-05 14:31:14

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

libralibra

至尊木虫 (著名写手)

骠骑将军

程序强帖: 40
应助: 817 (博后)
金币: 12914.1
红花: 64
帖子: 2238
在线: 287.3小时
虫号: 696514
注册: 2009-02-05
专业: 计算机软件

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
感谢参与，应助指数 +1
xzhdty: 金币+2, 专家考核, 谢谢骠骑将军 2012-12-05 22:00:51
brightfuture01: 金币+500, ★★★★★最佳答案, Thanks a million O(∩_∩)O 2012-12-06 13:43:08

字符串解析用脚本语言应该是最爽的,下面是个python脚本,基因字符串保存在gene.txt,跟这个.py文件放在同一个文件夹下,运行完后会生成data.txt,里面是基因id,字符串数目和碱基数目3列数据,用tab分割
这样的好处是直接复制内容,copy进excel就行了.
如果用python去写excel也行,不过需要额外的库,跟复制粘贴相比工作量要增加不少,不合算.

CODE:

 #! /usr/bin/env python

# -*- coding: cp936 -*-

from operator import itemgetter

# 测试基因字符串

s = open(r'gene.txt','r').read()

# 得到每个基因字符串

m = ['>'+x for x in s.split('>')[1:]]

# 生成 基因字符串:包含2个字符串数目之和 的字典

d = {}

for c in m:

        d[c] = c.upper().count('ATCG')+c.upper().count('GCTAT')

# 按照数目之和排序,从大到小,得到一个list of tuple

d = sorted(d.iteritems(), key=itemgetter(1), reverse=True)

# 构造结果字符串

ss = ''

for ge in d:

        # 基因ID

        refGene = ge[0][ge[0].index('_refGene_')+len('_refGene_'):ge[0].index('range')]

        # 所含字符串数目之和

        strNum = ge[1]

        # 碱基数目

        baseNum = sum([x.upper() in 'ATCG' and 1 or 0 for x in ge[0][ge[0].index('none')+len('none'):]])

        ss += refGene+'\t'+str(strNum)+'\t'+str(baseNum)+'\n'

# 输出结果到文件

f = open(r'data.txt','w')

f.write(ss)

f.close()

print 'Done'

结果

CODE:

 NR_030165         2        2000

NM_052933         2        2000

NM_005989         0        2000

NM_001190906         0        2000

赞一下

回复此楼

matlab/VB/python/c++/Java写程序请发QQ邮件:790404545@qq.com

2楼2012-12-05 21:05:29

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

cmdblock

银虫 (正式写手)

应助: 23 (小学生)
金币: 234.2
散金: 79
帖子: 719
在线: 123.7小时
虫号: 1520796
注册: 2011-12-02
性别: GG
专业: 计算机网络

引用回帖:

2楼: Originally posted by libralibra at 2012-12-05 21:05:29
字符串解析用脚本语言应该是最爽的,下面是个python脚本,基因字符串保存在gene.txt,跟这个.py文件放在同一个文件夹下,运行完后会生成data.txt,里面是基因id,字符串数目和碱基数目3列数据,用tab分割
这样的好处是直接 ...

python编写程序如此之简单，看来我也的从c系转python了

赞一下

回复此楼

3楼2012-12-06 08:03:43

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

chembetsey

木虫 (小有名气)

应助: 125 (高中生)
金币: 3820.1
散金: 5
红花: 9
帖子: 262
在线: 281.8小时
虫号: 1781694
注册: 2012-04-27
专业: 理论和计算化学

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
感谢参与，应助指数 +1
brightfuture01: 金币+50, ★★★★★最佳答案, Many thanks. 2012-12-06 13:44:07
xzhdty: 金币+2, 谢谢 2012-12-07 08:12:13

awk 'BEGIN {RS=">"}
{ N=0
ID=$1
gsub(/hg19_refGene.+repeatMasking=none/, ""

gsub("\n", ""

gsub("\r", ""

$0=toupper($0)
Numb=length($0)
N+=gsub("ATCG", "&", $0)+gsub("GCTAT", "&", $0)
print ID, N, Numb} ' Gen.txt | sort -n -r -k 2
结果
hg19_refGene_NR_030165 3 2000
hg19_refGene_NM_052933 2 2000
hg19_refGene_NM_005989 0 2000
hg19_refGene_NM_001190906 0 2000

赞一下

回复此楼

4楼2012-12-06 09:25:09

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 brightfuture01 的主题更新

返回列表