版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

惟舞幽游

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 48.2
帖子: 13
在线: 3.5小时
虫号: 2035562
注册: 2012-09-28

引用回帖:

2楼: Originally posted by 菜鸟学python at 2016-07-29 15:58:43
同求，这个困让我很久了

你到哪一步了

发自小木虫Android客户端

回复此楼

11楼2016-08-05 23:00:22

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

邪恶胖子

铜虫 (正式写手)

应助: 7 (幼儿园)
金币: 7994.1
散金: 302
红花: 6
帖子: 826
在线: 153.6小时
虫号: 1405613
注册: 2011-09-17
专业: 有机合成

引用回帖:

8楼: Originally posted by 惟舞幽游 at 2016-08-05 22:57:57
刚刚学习，老师催的急，有什么快速学习的好规划吗？
...

快就用框架，然后直接正则表达式处理文本就好了

发自小木虫Android客户端

赞一下

回复此楼

Just fight like a real man.

12楼2016-08-05 23:03:56

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

惟舞幽游

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 48.2
帖子: 13
在线: 3.5小时
虫号: 2035562
注册: 2012-09-28

引用回帖:

12楼: Originally posted by 邪恶胖子 at 2016-08-05 23:03:56
快就用框架，然后直接正则表达式处理文本就好了
...

尝试过scrapy框架，可能学的时间太短，spider里还不怎么会实现想要的功能，正则总是记不住

发自小木虫Android客户端

赞一下

回复此楼

13楼2016-08-05 23:08:02

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

JumperSX

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 884.1
帖子: 8
在线: 40.3小时
虫号: 4520295
注册: 2016-03-19
性别: GG
专业: 机械工程

先看能不能直接构造url,不行的话看看有没有api,再没有的话就用fiddler抓包，看能不能分析数据包。再不行的话我也不会了。

发自小木虫Android客户端

赞一下

回复此楼

14楼2016-08-05 23:36:40

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

邪恶胖子

铜虫 (正式写手)

应助: 7 (幼儿园)
金币: 7994.1
散金: 302
红花: 6
帖子: 826
在线: 153.6小时
虫号: 1405613
注册: 2011-09-17
专业: 有机合成

引用回帖:

13楼: Originally posted by 惟舞幽游 at 2016-08-05 23:08:02
尝试过scrapy框架，可能学的时间太短，spider里还不怎么会实现想要的功能，正则总是记不住
...

scrpay够你学的，正则是必须学的

发自小木虫Android客户端

赞一下

回复此楼

Just fight like a real man.

15楼2016-08-05 23:38:06

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

wy_zidu2012

金虫 (小有名气)

应助: 4 (幼儿园)
金币: 1050.7
散金: 400
红花: 6
帖子: 195
在线: 156.7小时
虫号: 4116504
注册: 2015-10-03
专业: 计算机应用技术

引用回帖:

7楼: Originally posted by 惟舞幽游 at 2016-08-05 22:54:13
谢谢你，目前用selenium实现了关键词自动输入搜索，但不知道怎么判断一个页面是否抓完，然后再翻页抓下一页
...

selenium没用过，只写过原生实现和scrapy。
基本原理是，请求一个页面，先保存页面中搜索结果位置处的连接在队列中，也就是通过bs4把含有下一层的连接拿到，然后要抓什么东西直接自己修改就可以。至于翻页的逻辑，大多数网站的URL中都有一个表示当前页码的字段，一般的网站的时候，当前页码都是通过get方法发送，所以直接修改请求的URL就可以拿到下一页了。如果实在找不到，可以抓包，看下处理过程，然后再操作。

赞一下

回复此楼

16楼2016-08-06 08:39:46

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

惟舞幽游

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 48.2
帖子: 13
在线: 3.5小时
虫号: 2035562
注册: 2012-09-28

引用回帖:

14楼: Originally posted by JumperSX at 2016-08-05 23:36:40
先看能不能直接构造url,不行的话看看有没有api,再没有的话就用fiddler抓包，看能不能分析数据包。再不行的话我也不会了。

谢谢啦，我摸索摸索

发自小木虫Android客户端

赞一下

回复此楼

17楼2016-08-06 08:46:57

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

惟舞幽游

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 48.2
帖子: 13
在线: 3.5小时
虫号: 2035562
注册: 2012-09-28

引用回帖:

16楼: Originally posted by wy_zidu2012 at 2016-08-06 08:39:46
selenium没用过，只写过原生实现和scrapy。
基本原理是，请求一个页面，先保存页面中搜索结果位置处的连接在队列中，也就是通过bs4把含有下一层的连接拿到，然后要抓什么东西直接自己修改就可以。至于翻页的逻辑， ...

感谢，再摸索摸索，不会了再请教你

发自小木虫Android客户端

赞一下

回复此楼

18楼2016-08-06 08:52:54

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

邪恶胖子

铜虫 (正式写手)

应助: 7 (幼儿园)
金币: 7994.1
散金: 302
红花: 6
帖子: 826
在线: 153.6小时
虫号: 1405613
注册: 2011-09-17
专业: 有机合成

【答案】应助回帖

真拿你没办法
木虫上面貌似没有代码块啊！
给你一个简单的吧
这个是一个简单的抓取百度的展示：

import urllib.request
import urllib.parse
import gzip
import io

#baidu
url = 'http://www.baidu.com/'
#360
url = 'https://www.so.com/'
client_header = {
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'Host': 'www.baidu.com',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36',
'Referer': 'http://www.baidu.com/'
}

#baidu
params = urllib.parse.urlencode({'word': 'test','tn': '94755996_hao_pg'})
url = "http://www.baidu.com/s?%s" % params
#360
# params = urllib.parse.urlencode({'q': 'test'})
# url = "http://www.so.com/s?%s" % params
print(url)
req = urllib.request.Request(url,headers=client_header)
with urllib.request.urlopen(req,timeout=1000) as f:

buf = io.BytesIO(f.read())
gf = gzip.GzipFile(fileobj=buf,mode='rb')
html = gf.read().decode('utf-8')
print(html)
f = open('baidu.txt','wb+')
f.write(bytes(html.encode('utf-8')))
f.close()

模拟的是火狐的浏览器，最简单的，你看一下吧！希望对你有帮助

赞一下

回复此楼

Just fight like a real man.

19楼2016-08-06 13:15:38

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

邪恶胖子

铜虫 (正式写手)

应助: 7 (幼儿园)
金币: 7994.1
散金: 302
红花: 6
帖子: 826
在线: 153.6小时
虫号: 1405613
注册: 2011-09-17
专业: 有机合成

【答案】应助回帖

注意了，每个搜索引擎的参数和验证方法不一样，多用自己喜欢的工具抓包，很简单的

赞一下

回复此楼

Just fight like a real man.

20楼2016-08-06 13:16:49

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主惟舞幽游的主题更新

返回列表

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[基金申请] 情人节自我反思：在爱情中有过遗憾吗？ +5	瞬息宇宙 2026-02-15	6/300	2026-02-18 12:51 by 月下雪林
[找工作] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	i3cz6qj6l2 2026-02-17	3/150	2026-02-18 11:09 by lqtl9djx19
[考博] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	i3cz6qj6l2 2026-02-17	3/150	2026-02-18 10:54 by lqtl9djx19
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	i3cz6qj6l2 2026-02-17	3/150	2026-02-18 10:39 by lqtl9djx19
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	pnpwoqbg8f 2026-02-17	3/150	2026-02-18 08:53 by lqtl9djx19
[硕博家园] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	pnpwoqbg8f 2026-02-17	3/150	2026-02-18 08:38 by lqtl9djx19
[找工作] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	pnpwoqbg8f 2026-02-17	4/200	2026-02-18 07:55 by lotyj5cz79
[基金申请] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	pnpwoqbg8f 2026-02-16	4/200	2026-02-18 07:40 by lotyj5cz79
[考研] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	pnpwoqbg8f 2026-02-16	4/200	2026-02-18 07:38 by lotyj5cz79
[硕博家园] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	pnpwoqbg8f 2026-02-16	4/200	2026-02-18 07:23 by lotyj5cz79
[论文投稿] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +4	pnpwoqbg8f 2026-02-16	4/200	2026-02-18 07:08 by lotyj5cz79
[公派出国] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	pnpwoqbg8f 2026-02-16	3/150	2026-02-18 06:53 by lotyj5cz79
[论文投稿] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	pnpwoqbg8f 2026-02-17	3/150	2026-02-18 00:40 by tk2gfblvuz
[找工作] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	pnpwoqbg8f 2026-02-17	4/200	2026-02-18 00:23 by tk2gfblvuz
[公派出国] 售SCI一区文章，我:8 O5 51O 54,科目齐全,可+急 +3	pnpwoqbg8f 2026-02-17	3/150	2026-02-17 23:40 by tk2gfblvuz
[基金申请] 基金正文30页指的是报告正文还是整个申请书 +3	successhe 2026-02-16	4/200	2026-02-17 20:56 by successhe
[基金申请] 今年春晚有几个节目很不错，点赞！ +5	瞬息宇宙 2026-02-16	6/300	2026-02-17 12:49 by jymy19840415
[微米和纳米] 球磨粉体时遇到了大的问题，请指教！ 10+3	6sbiam 2026-02-12	15/750	2026-02-16 15:03 by tgzxzqj
[基金申请] 过年走亲戚时感受到了所开私家车的鄙视链 +3	瞬息宇宙 2026-02-15	5/250	2026-02-16 14:23 by aspect3000
[硕博家园] 江汉大学解明教授课题组招博士研究生/博士后 +3	cleverlyy 2026-02-12	3/150	2026-02-12 21:02 by qsdf1