24小时热门版块排行榜    

查看: 1987  |  回复: 1

ldy2140

金虫 (小有名气)

[求助] 本地数据库无法用makeblastdb格式化

从hmpdacc下载了一个蛋白数据库 fasta格式的 但里面有重复序列 运行makeblastdb时会报错
CODE:
Duplicate seqids are found:
……

文件比较大 在全部读进内存之前就会死机 手动改不了
不知有没有给本地数据库去冗余的perl模块或程序包 望高手指点
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

伸手摘星,未必你如愿,但不会弄脏你的手。
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wizardfan

至尊木虫 (著名写手)

优秀版主

【答案】应助回帖

★ ★ ★ ★ ★
ldy2140: 金币+5, 有帮助, Thanks a lot. This problem has been solved by rebuilding the database from other source. 2013-06-25 15:07:17
a quick hash in perl will do the job.
When you open a filehandle in Perl, little memory is used. then while( only reads in one line, would not cost anything.
2楼2013-02-06 19:26:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 ldy2140 的主题更新
信息提示
请填处理意见