24小时热门版块排行榜    

查看: 3340  |  回复: 14

ValYu

银虫 (小有名气)

[求助] 关于uniprot的批量序列下载

我想从uniprot上批量下载400多个kinase的protein kinase domain,手工操作太麻烦且容易出错,网站自身又没有批处理功能,怎样能够实现这样的程序化批量下载呢?是不是要编写什么网页脚本?求大神指教!如回答的好我会继续加金币的!

[ 来自科研家族 化学生物学 ]
回复此楼
生命灿烂,精神永恒
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

547star

木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
wizardfan: 金币+2, BLAST也是个可行的思路 2013-04-20 08:21:40
ValYu: 金币+5, 有帮助 2013-04-21 09:20:25
坐等高手。
如果是我,会选择做BLAST,把blast结果下载,其中的fasta格式基本满足我的需要,想需要多的序列,BLAST的时候先设置一下参数。可以参考刚做的结果: http://www.uniprot.org/blast/uniprot/201304196009B639SI.* 或 http://www.uniprot.org/blast/uni ... e=yes&limit=250
为什么
2楼2013-04-19 21:54:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wizardfan

至尊木虫 (著名写手)

优秀版主

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
silicare: 金币+5, 应助指数+1, 可行,不过这个工程太浩大了,做到精确下载有难度 2013-04-20 08:46:56
ValYu: 金币+5, 有帮助 2013-04-21 09:20:36
去ftp网站上下载你所需物种的全部蛋白质FASTA序列,然后写了perl或者其他啥的,只要描述行里有kinase的就保留。
不过你到底要的是domain,还是整个蛋白?如果是domain的话,就不能光下载FASTA文件,而是要下载DAT文件了。
3楼2013-04-20 08:20:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

帘外飞雪

银虫 (小有名气)

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
wizardfan: 金币+2, 谢谢参与,不过这个效率不高,还容易被屏蔽IP 2013-04-21 08:13:12
写perl批量抓网页,分析网页,提取想要的东东
4楼2013-04-20 19:49:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ValYu

银虫 (小有名气)

引用回帖:
4楼: Originally posted by 帘外飞雪 at 2013-04-20 19:49:15
写perl批量抓网页,分析网页,提取想要的东东

我正准备学python,据说比perl简单
生命灿烂,精神永恒
5楼2013-04-21 09:12:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ValYu

银虫 (小有名气)

引用回帖:
3楼: Originally posted by wizardfan at 2013-04-20 08:20:25
去ftp网站上下载你所需物种的全部蛋白质FASTA序列,然后写了perl或者其他啥的,只要描述行里有kinase的就保留。
不过你到底要的是domain,还是整个蛋白?如果是domain的话,就不能光下载FASTA文件,而是要下载DAT文 ...

是domain,像这个网页中这样的http://www.uniprot.org/blast/?about=P21860[709-966]

我只要文本框中的东西,实际上是把文本框中的东西复制粘贴下来,不是那种链接式的下载。正准备学python实现这个
生命灿烂,精神永恒
6楼2013-04-21 09:16:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ValYu

银虫 (小有名气)

引用回帖:
2楼: Originally posted by 547star at 2013-04-19 21:54:23
坐等高手。
如果是我,会选择做BLAST,把blast结果下载,其中的fasta格式基本满足我的需要,想需要多的序列,BLAST的时候先设置一下参数。可以参考刚做的结果: http://www.uniprot.org/blast/uniprot/20130419600 ...

感觉blast不会那么精确吧?我想要的就是像这个网页中的文本框的那段序列http://www.uniprot.org/blast/?about=P21860[709-966]
是相应条目中Sequence annotation中Protein kinase的部分,一般不到300个残基,你的结果明显太长了哈
生命灿烂,精神永恒
7楼2013-04-21 09:20:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

帘外飞雪

银虫 (小有名气)

引用回帖:
5楼: Originally posted by ValYu at 2013-04-21 09:12:46
我正准备学python,据说比perl简单...

学哪个都可以,不要同时学就行
8楼2013-04-21 10:22:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wizardfan

至尊木虫 (著名写手)

优秀版主

【答案】应助回帖

引用回帖:
6楼: Originally posted by ValYu at 2013-04-21 09:16:38
是domain,像这个网页中这样的http://www.uniprot.org/blast/?about=P21860

我只要文本框中的东西,实际上是把文本框中的东西复制粘贴下来,不是那种链接式的下载。正准备学python实现这个...

看起来你是只要序列的一部分,如果要批处理的话,你必须可以自动获得这些坐标,有想法了没有?
9楼2013-04-21 17:46:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ValYu

银虫 (小有名气)

引用回帖:
9楼: Originally posted by wizardfan at 2013-04-21 17:46:18
看起来你是只要序列的一部分,如果要批处理的话,你必须可以自动获得这些坐标,有想法了没有?...

问过搞编程的,说完全可以实现,因为链接的方式是固定的,文本框中的东西也可以自动搞下来,所以正在奋力学Python……
生命灿烂,精神永恒
10楼2013-04-22 08:44:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 ValYu 的主题更新
信息提示
请填处理意见