| 查看: 1660 | 回复: 3 | ||
brightfuture01木虫之王 (文坛精英)
我爱打老虎
|
[求助]
求编程,求应助
|
|
这个任务是否可以用脚本完成?不能的话用C++如何实现?本人编程知识欠缺,烦请大家帮忙。 如给出运行程序如脚本或者C++程序,本人不胜感激,金币不是问题。 问题描述: (1) 数据: FASTA格式核酸序列(>+注释语言+换行+核酸序列)10000条左右,两个>之间为一个基因,格式如下: >hg19_refGene_NM_052933 range=chr7:130353386-130373406 5'pad=0 3'pad=0 strand=- repeatMasking=none tcttccaacgtggcccagggaagccaaaagattggacaccctgcttcaga gcccatattaggttttttttttttttttttttggtcataaactgcagaaa tgaaccctaagaaaataaaggatttatttgaaagaatattaggaaagctc acagaactgaagagaaaattgtgtagtcttgctttaggaaggactagatc tggggcagctccggggacctcagcaggtagagctcagagctcagagtctt ccagcctgggataccacatgaggtggctcaggtgcaatcatcttacagct ctgtgggtcattagcaaactttcaaattcttagtataacctggttggcca cctttgaatcaatcatccagagctaggatgcaggagtgaatggcactaat tggtgatggctatagacccttataatttctcaacccctcctcagcactgt catagacttctcaaggacctctttgcatctttctaatctatagttcttct gtctttccaatctatagttcacatgccactatttttgtatttctaaaata tatattgttcaataaggagattatacctcatttaaaatctcttgttagcg cttcattactcagaataacccacaaacttcctatcaaatagttcatttta ggatttggatcctgtcttcctctctagtctcacctctcactacccttccc ctaaatcttatgttcctggcatattgcaattacagtattttcaattcccc taaataagccaggctttgttgtattctcatgtttttgcctctgcttctcc ctctttctcaaatgtctgtcctctcatcacctggttaattcacactcatc ttccccagctcagtttaggcagtagttccaaatctctctcagtctcttct cagtatgggttaagtccccttcctcattgcttccatagtaccctaaattt agatctaatttggcattctactctgttgcaatcaaccgtttctttgtctc tcttcctggctaaactgtgagctcctaaaggagctcaagaattacatctg atttatgctttgttctcatcacctaggagagtgtctaatatgtcataaat gttcagcaaatatattgaaataagcaaacactagttttgaatgcataaga tacaaagcactgggaggggggcacaaatatgtttaaaatttacatttcca cttttaagggactcacagcttaagaggcagacaagacccgcacataagaa aagtgaaaacagaactacaagacactatacaatgacatgcacaaaaccca gtgactatagtctagagtttgggattgcattaatctagaaaatcttctct ttaaaggaaTGACCTgagtagtaacataaagaaagaagattcagggctgg gcatggtggctcatgcctgtaatcccagcactttgggaggctgaggtggg tggatcacaAGGTCAagagatcgagaccatcctggccaacatggtgaaac cccgtctctactaaaaatacaaaaattagctgggcatggtggcaggcgcc tgtagtcccagctactctggaggctgaggcaggaaaatcacttgaaccag ggagacagaggttgcagtgaactgagactgtgccactgcactccagcctt gtgacagtgtgaggctccgtcagaagaaagagaaggagaaggagaaggag aagattcaaatggctgaagagattggggacagcattttaagtatggggaa taagaaaaaatgctcactgtatttgaagaatgcagtgaaaacattggctt aggtagaggtagattaagagatggtgaagatgtgtgtgtgtgtgtgtgtg tgtgtgtgtgtgtgtgtgtgtgtgtagagaagtcataggctggcaaaata agagattggcagattttgtttaaatatgcctttaagttttggccttttca ttctctgtctccaacacagaacacctcagcattctagattgcctattcat >hg19_refGene_NR_030165 range=chr7:136585914-136588141 5'pad=0 3'pad=0 strand=+ repeatMasking=none gagtgccctgggaaaggaaaaattccatttccaagatccaggcatgtgag aattacgtgaaattaaatatgtggacttgcggtttttggttcttggaaaa atagaaaggtatagtgggttgcatgcagttctagctgcattccagctaga aacagattgagacagttcagattcacaggcacttgcagggcaagttttca atgtcactgtggctttaccacgtaggcaaatttgaaaatagacacactaa atattgactacaggaaaagaaaaatgtgtatttattcatacaaaacacat ttatttagcatctataatgtgctgtgcccTGACCTatagtgacccaaaca gattagcagatctcacccgatcttgtagtgcagtgatttgaatagcaatg atctttggaccctaagcaacccagtttggccattccctgatgtcattttt ttcccccatttccattgttattttttgagaacatacagacgctttttgat ccatttgttgtaagaacctagcctcttgatcagttgcatttacaaaataa caacattgataatttcataaatgtgtaagatttacagcttacaaagaact tgcacacacatctcatgcataactcacaaaacctcttaattctttcccaa taatacaggggaatcatggactcaggggcTGACCTccaaagacgctgttg gtggtaaattgttagagccccgagatgtgacttaaatttaggttttctga cagaggtgtgctgctcgtctctatgctaatccattacacagccagacagg aagaactgtcagtagattctgatcaatttctctttctataaaaaaaaatg ataagcttagttaaattgtattagataagtgaagggttgtttataacagt ccagcctccccttagcttcttctatggctttcattaggctccatcaaagc ctactctcaaaacaaaatataaaaataattgttaactactaacattgatt ctgtgatcttccttttaaactcatctatctatctatcgatctatctatcc atccatccatccatccatccatccatccatccatccatctatccacctag ctatccttctatgtttgcagtcagttgctagttattaagataatcagaat tgctttcagaattaataattggtataaatttcagaagagtttgaatttag gtggcaaattcataataagtgagaaggtaagctatagcatcctctgataa tgtgtgcagtttactttttatctgtctctttctaattgaaaactaacaaa tatagccccaattaaatgcacgtaaaaattagaagctggtgggatagggt attaaacacaatcctagatgactcttatgaactcataccataagcagcca ctttctttctcgagcaaactatagtgagaatgaagcatcttagattgaga agggattaggacgaccctgaatggaatgggcaaatcataaacagctaggc ccttagaatttggttgcagtcccaaacccAGGTCAgtttttaaacatgac tatcagctagatatcctttctccaccatacaataatagataacaacctta ataagacgtgtagacattaaactttgaaattccacagtaagatgtaaata tttgctcaatcaagtacaatttaatatgtttgttatacagcaactgcaga gcacagaattttgtactctttggatgtttatgataaggtacacattattt gcaagtttttgcttgtttccttgttcagtttttcattatcaaacaaacaa agcttctcagcctgggattaacctggagtctggaaagtatacattatggc cagcaactttaaacaataggccagagatgggaaatgaatgaatgaaattc tgacacagaagacaaacaacagaaactcatttgggctagtgtaggtgtag gttttttattcttcaaccaacggtggtgaagaggatctcccttcacttta >hg19_refGene_NM_001190906 range=chr7:137759178-137803150 5'pad=0 3'pad=0 strand=+ repeatMasking=none gcctgagggtcagtttcctgaggaaaaaactcagttaagacataagtttc aagttttaagacagagggcacatttctatgtttattcaaaaatccataaa tatgggacaatttggccagtttcaacttcaggacattttaaccattgtgg actcagTGACCTgtgaagtgtacaggccagggaaacttcctctttgcctt ctgaagtttcactgaaaaatcaactcacaaaaggcagattaattggagaa aaggtattcaattttatttaactatatgtttacacagggagaaccacaga gtgattacccacccacaacagggtttagaagcttatttactggtaaatca ggttatgggagaggggaaaagaggaattctgttgaggagatcactaggga gaatgaatggatcagggagtagagattaacttgtacattaccttgtgaaa gggtttgttcaggaaaggttacattcttagtcttacagggagaggaagaa aaacgaattgttccttttggtgggtctggatcttaggcagataaaggaac ttcactttgggagaggtggtagggagtagAGGTCAgagggaccttgaggc ttttccagttcagtatgtcaaagtgccatattttggggtatcagtttctg actcccaacacattctttgtcttctttttttgtaatggatcatgagataa caggtaggggaaaaagaacaattgtcctccttggtgggtccatcctatct ttatgtagacaggggaaagtctcttccagagcccgttgatctctaagggt ctttacttcaaaatcttcattataccagggagccatatgttggggtggaa tttcctgcctccttcaacccccagctccaaatttggaaatggcttctaat ttttttaaggaaatgtcttttatttcctttggccactgtgattgatttca cgatggatccatgaaccaagaaaggcaatcaaggctaacaagtttcaatt tcaggactactgtttgagctactgagaaagtaaaatctctttttcgttgt ttgagctggaaaccttgtcactccaaggacagtcagtaaacacttttcaa tgttaagggaactgagagagagagtttcctgagagaacaggaaggcagag agacgaatgagaagtgagaaattggtcctggccatgttattgttcctcta gtccagtttaactggtgataagcttaacttgtgataaagatcctagatcc ctttccagtcctgctgcatccaaatctcccaggaagtcctagaaaatgtc tagtctcccctgaagctagccctactgccagaatttgaggaatatgaacc aataaatttccattatagtttaagagaatttaagatagatgtgtgtatta gttcattctcacactgctaataaagacaaccaagactgggtaattaacaa agaaaaagagatttaatgggctcacagttccacatggctggggaggcctc acaatcatggcagaaggtgaaagaggagcaaaggcatgtcttacatggca ggaggcaagagagcatgtgcaggggaactgtccttcataaaaccatcaga tcttgtgagacttattcactatcacaagagcagcatgggaaaaaaacacc cccatgattcaattacctcccactgagtccctcccatgacattggggatt gtgggagctacaattcaagatgagatttggttgaggacgcagccaaacta tgtcagtctcttatttgccaacaaaagcatcctaactgatagaggccaga cagatttgtttctttttgttttttcaatcttttgttgtgaagaagtaagc ataaactctcaataggttacgttttacaagcctctgatgaagttcaaagg acaaccatgcttaggatttccaggacaacctggaaaaaaaaacaggttga gaaataggtgtgttaatctcccttccctctgctcctccctctggccttcc . . . . . . >hg19_refGene_NM_005989 range=chr7:137759178-137803150 5'pad=0 3'pad=0 strand=+ repeatMasking=none gcctgagggtcagtttcctgaggaaaaaactcagttaagacataagtttc aagttttaagacagagggcacatttctatgtttattcaaaaatccataaa tatgggacaatttggccagtttcaacttcaggacattttaaccattgtgg actcagTGACCTgtgaagtgtacaggccagggaaacttcctctttgcctt ctgaagtttcactgaaaaatcaactcacaaaaggcagattaattggagaa aaggtattcaattttatttaactatatgtttacacagggagaaccacaga gtgattacccacccacaacagggtttagaagcttatttactggtaaatca ggttatgggagaggggaaaagaggaattctgttgaggagatcactaggga gaatgaatggatcagggagtagagattaacttgtacattaccttgtgaaa gggtttgttcaggaaaggttacattcttagtcttacagggagaggaagaa aaacgaattgttccttttggtgggtctggatcttaggcagataaaggaac ttcactttgggagaggtggtagggagtagAGGTCAgagggaccttgaggc ttttccagttcagtatgtcaaagtgccatattttggggtatcagtttctg actcccaacacattctttgtcttctttttttgtaatggatcatgagataa caggtaggggaaaaagaacaattgtcctccttggtgggtccatcctatct ttatgtagacaggggaaagtctcttccagagcccgttgatctctaagggt ctttacttcaaaatcttcattataccagggagccatatgttggggtggaa tttcctgcctccttcaacccccagctccaaatttggaaatggcttctaat ttttttaaggaaatgtcttttatttcctttggccactgtgattgatttca cgatggatccatgaaccaagaaaggcaatcaaggctaacaagtttcaatt tcaggactactgtttgagctactgagaaagtaaaatctctttttcgttgt ttgagctggaaaccttgtcactccaaggacagtcagtaaacacttttcaa tgttaagggaactgagagagagagtttcctgagagaacaggaaggcagag agacgaatgagaagtgagaaattggtcctggccatgttattgttcctcta gtccagtttaactggtgataagcttaacttgtgataaagatcctagatcc ctttccagtcctgctgcatccaaatctcccaggaagtcctagaaaatgtc tagtctcccctgaagctagccctactgccagaatttgaggaatatgaacc aataaatttccattatagtttaagagaatttaagatagatgtgtgtatta gttcattctcacactgctaataaagacaaccaagactgggtaattaacaa agaaaaagagatttaatgggctcacagttccacatggctggggaggcctc acaatcatggcagaaggtgaaagaggagcaaaggcatgtcttacatggca ggaggcaagagagcatgtgcaggggaactgtccttcataaaaccatcaga tcttgtgagacttattcactatcacaagagcagcatgggaaaaaaacacc cccatgattcaattacctcccactgagtccctcccatgacattggggatt gtgggagctacaattcaagatgagatttggttgaggacgcagccaaacta tgtcagtctcttatttgccaacaaaagcatcctaactgatagaggccaga cagatttgtttctttttgttttttcaatcttttgttgtgaagaagtaagc ataaactctcaataggttacgttttacaagcctctgatgaagttcaaagg acaaccatgcttaggatttccaggacaacctggaaaaaaaaacaggttga gaaataggtgtgttaatctcccttccctctgctcctccctctggccttcc (2) 任务描述: 在所有10000条基因中查找两个字符串,比如"ATCG"和"GCTAT",按照两个字符串所含数目之和将10000条基因由大到小排序:比如,基因A中查到5个,基因B中查到4个,基因C和D中查到3个,基因EFGH中没有,则按照ABCDEFGH排序。 (3) 排序完成后,将每条基因的ID,即>hg19_refGene_NM_005989 range=chr7:137759178-137803150 5'pad=0 3'pad=0 strand=+ repeatMasking=none 中refgene 之后,range 之前的部分”NM_005989“ 按序提取到独立的excel中,第一栏为基因ID,第二栏为所含字符串个数,第三栏为每条基因所含碱基个数 [ Last edited by brightfuture01 on 2012-12-5 at 14:43 ] |
» 猜你喜欢
读博
已经有5人回复
到新单位后,换了新的研究方向,没有团队,持续积累2区以上论文,能申请到面上吗
已经有13人回复
博士申请都是内定的吗?
已经有6人回复
之前让一硕士生水了7个发明专利,现在这7个获批发明专利的维护费可从哪儿支出哈?
已经有5人回复
博士读完未来一定会好吗
已经有29人回复
投稿精细化工
已经有4人回复
高职单位投计算机相关的北核或SCI四区期刊推荐,求支招!
已经有4人回复
导师想让我从独立一作变成了共一第一
已经有9人回复
心脉受损
已经有5人回复
Springer期刊投稿求助
已经有4人回复
» 本主题相关价值贴推荐,对您同样有帮助:
如何用matlab求解矩阵系数的二阶微分方程
已经有13人回复
有个概率公式,有积分。用啥软件可以实现呢?
已经有7人回复
求助一个编程问题!
已经有10人回复
关于发布求助帖、应助回帖及应助指数的说明
已经有15人回复
药学版关于求助帖刷应助指数的说明
已经有13人回复
小木虫论坛引入“专业版应助”参数,大家多多参与哦~~
已经有16人回复
药审中心品种审评进度查询求助应助专贴
已经有92人回复
mathematica 编程求助
已经有9人回复
【活动】关于快速给予应助者完美的答复的提议
已经有22人回复
★对于有有效应助的帖子,请求助者将金币全部发放★
已经有55人回复
求助 正交设计助手 软件 的 空白列 的问题
已经有1人回复
求助施耐德XBTL1003触摸屏编程软件
已经有4人回复
【求助】请问matlab编程语言如何打包成为独立的应用程序啊?谢谢
已经有8人回复
【求助】VC++.NET编程,MFC基于对话框应用程序编写
已经有18人回复
求助用imageJ处理共聚焦显微荧光图片(未得到应助,应楼主要求取消求助)
已经有4人回复
如何利用EndNote管理论文中的图或表(应楼主要求取消应助)
已经有1人回复
积极应助虫友的问题,是否应该得到金币奖励
已经有67人回复

libralibra
至尊木虫 (著名写手)
骠骑将军
- 程序强帖: 40
- 应助: 817 (博后)
- 金币: 12914.1
- 红花: 64
- 帖子: 2238
- 在线: 287.3小时
- 虫号: 696514
- 注册: 2009-02-05
- 专业: 计算机软件
【答案】应助回帖
★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
感谢参与,应助指数 +1
xzhdty: 金币+2, 专家考核, 谢谢骠骑将军 2012-12-05 22:00:51
brightfuture01: 金币+500, ★★★★★最佳答案, Thanks a million O(∩_∩)O 2012-12-06 13:43:08
感谢参与,应助指数 +1
xzhdty: 金币+2, 专家考核, 谢谢骠骑将军 2012-12-05 22:00:51
brightfuture01: 金币+500, ★★★★★最佳答案, Thanks a million O(∩_∩)O 2012-12-06 13:43:08
|
字符串解析用脚本语言应该是最爽的,下面是个python脚本,基因字符串保存在gene.txt,跟这个.py文件放在同一个文件夹下,运行完后会生成data.txt,里面是基因id,字符串数目和碱基数目3列数据,用tab分割 这样的好处是直接复制内容,copy进excel就行了. 如果用python去写excel也行,不过需要额外的库,跟复制粘贴相比工作量要增加不少,不合算. 结果 |

2楼2012-12-05 21:05:29
cmdblock
银虫 (正式写手)
- 应助: 23 (小学生)
- 金币: 234.2
- 散金: 79
- 帖子: 719
- 在线: 123.7小时
- 虫号: 1520796
- 注册: 2011-12-02
- 性别: GG
- 专业: 计算机网络
3楼2012-12-06 08:03:43
chembetsey
木虫 (小有名气)
- 应助: 125 (高中生)
- 金币: 3820.1
- 散金: 5
- 红花: 9
- 帖子: 262
- 在线: 281.8小时
- 虫号: 1781694
- 注册: 2012-04-27
- 专业: 理论和计算化学
【答案】应助回帖
★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ...
感谢参与,应助指数 +1
brightfuture01: 金币+50, ★★★★★最佳答案, Many thanks. 2012-12-06 13:44:07
xzhdty: 金币+2, 谢谢 2012-12-07 08:12:13
感谢参与,应助指数 +1
brightfuture01: 金币+50, ★★★★★最佳答案, Many thanks. 2012-12-06 13:44:07
xzhdty: 金币+2, 谢谢 2012-12-07 08:12:13
|
awk 'BEGIN {RS=">"} { N=0 ID=$1 gsub(/hg19_refGene.+repeatMasking=none/, "" ![]() gsub("\n", "" ![]() gsub("\r", "" ![]() $0=toupper($0) Numb=length($0) N+=gsub("ATCG", "&", $0)+gsub("GCTAT", "&", $0) print ID, N, Numb} ' Gen.txt | sort -n -r -k 2 结果 hg19_refGene_NR_030165 3 2000 hg19_refGene_NM_052933 2 2000 hg19_refGene_NM_005989 0 2000 hg19_refGene_NM_001190906 0 2000 |
4楼2012-12-06 09:25:09













回复此楼
