24小时热门版块排行榜    

查看: 424  |  回复: 1

amo11000

金虫 (小有名气)

[交流] 【求助】谁能帮忙设计一个查找蛋白质序列中的氨基酸重复的软件? 已有1人参与

有三条FASTA格式的蛋白质序列,
>sp|Q8JIV9|AGGA1_AGKAC Agglucetin subunit alpha-1 OS=Agkistrodon acutus PE=1 SV=1
MGRFIFVSFGLLLLLLVVFLSLSGTGADVDCLPGWSAYDQSCYRVFKLLKTWDDAEKFCTERPK
GGHLVSIESAGERDFVAQLVSENKQTDNVWLGLKIQSKGQQCSTEWTDGSSVSYENFSEY
QSKKCFVLEKNTGFRTWLNLNCGSEYAFVCKSPPRTRTRTRTRT
>sp|Q8AYA5|AGGA2_AGKAC Agglucetin subunit alpha-2 OS=Agkistrodon acutus PE=1 SV=1
MGRFIFVSFGLLVVFLSLSGTGADFNCPPGWSAYDQYCYQVIKEPKNWDDAERFCTEQAD
GGHLVSIESKGERDFVAQLVSQNIESVEDHVWTGLRVQNKEKQCSTEWSDGSSVSYENLL
ELYMRKCGALERETGFHKWINLGCIQLNPFVCKFPPQCPPQCPPQCPPQC
>sp|Q9I841|AGGA_AGKRH Rhodocytin subunit alpha OS=Agkistrodon rhodostoma PE=1 SV=1
GLEDCDFGWSPYDQHCYQGLEGLEGLEGLEAFNEQKTWDEAEKFCRAQENGAHLASIESNGEADFVSWLISQKDELADEDYVWIGLRAQNKEQQCSSEWSDGSSVSYENLIDLHTKKCGALEKLTGFRKWVN
YYCEQMHAFVCKLLPY
现想查找其中氨基酸重复,例如LLLLLL, LVCLVCLVC,一共有20种氨基酸,所有这一类的串联的重复都要被找到,请问谁能帮忙设计一个这样的软件。
回复此楼

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

movren

新虫 (初入文坛)

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
余泽成(金币+1):谢谢参与应助! 2010-06-27 21:36:11
引用回帖:
Originally posted by amo11000 at 2010-06-18 10:31:37:
有三条FASTA格式的蛋白质序列,
>sp|Q8JIV9|AGGA1_AGKAC Agglucetin subunit alpha-1 OS=Agkistrodon acutus PE=1 SV=1
MGRFIFVSFGLLLLLLVVFLSLSGTGADVDCLPGWSAYDQSCYRVFKLLKTWDDAEKFCTERPK
GGHLVSIESAGERD ...

抱歉,刚刚才看到你给我的站内信,我看你的意思就是寻找k-mer,相同的k联体有多少吧,这个应该不难,你要的k联体,k是要从多少到多少啊?
我自己编过一个dna序列的k-mer计数程序,氨基酸一样的,dna是四进制,氨基酸就把四进制改了就好了,然后看k联体有多少个,比如基因序列的2联体aa是1,tt就是16,挨个统计,累加就好,我用vb编的,不复杂
2楼2010-06-27 16:53:39
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 amo11000 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见