| 查看: 3965 | 回复: 9 | |||
[交流]
今年不知道还有没有爬虫大神 已有8人参与
|
|
今年不知道还能还能用网络爬虫爬结果,上年有一个爬虫大神利用短暂的漏洞时间,爬了不少中标的项目 发自小木虫Android客户端 |
» 猜你喜欢
拟解决的关键科学问题还要不要写
已经有8人回复
最失望的一年
已经有12人回复
存款400万可以在学校里躺平吗
已经有29人回复
求推荐英文EI期刊
已经有5人回复
请教限项目规定
已经有4人回复
国自然申请面上模板最新2026版出了吗?
已经有20人回复
26申博
已经有3人回复
基金委咋了?2026年的指南还没有出来?
已经有10人回复
基金申报
已经有6人回复
疑惑?
已经有5人回复
★
小木虫: 金币+0.5, 给个红包,谢谢回帖
小木虫: 金币+0.5, 给个红包,谢谢回帖
|
本帖内容被屏蔽 |
2楼2021-08-10 11:58:51
caiqing
铁杆木虫 (著名写手)
- 应助: 21 (小学生)
- 金币: 7629.3
- 散金: 2380
- 红花: 11
- 帖子: 2898
- 在线: 569.7小时
- 虫号: 339096
- 注册: 2007-04-06
- 性别: GG
- 专业: 敏感电子学与传感器
3楼2021-08-10 12:04:13
4楼2021-08-10 12:05:08
yzy202
新虫 (正式写手)
- 应助: 0 (幼儿园)
- 金币: 723.2
- 帖子: 493
- 在线: 59小时
- 虫号: 21600662
- 注册: 2020-03-25
- 性别: GG
- 专业: 交叉学科中的光学问题
5楼2021-08-10 12:06:30
6楼2021-08-10 12:07:34
★
小木虫: 金币+0.5, 给个红包,谢谢回帖
小木虫: 金币+0.5, 给个红包,谢谢回帖
|
楼上说的罪名是一方面,另一方面,网站是否允许爬虫是有行规的,会写一个robots.txt的文件放在网站根目录 看看isisn是怎么写的(https://isisn.nsfc.gov.cn/robot.txt): user-agent: * disallow: / 第二行的意思就是,所有目录都不允许爬取。 当然可以无视这个文件,但是这个文件代表了官方的态度 不过不得不吐槽一下他们负责网站建设的人,这个robot.txt应该写成robots.txt,这个错误导致了百度在爬他们的网站 |
7楼2021-08-10 12:17:34
yzb85
木虫 (正式写手)
- 应助: 5 (幼儿园)
- 金币: 1717.1
- 散金: 1090
- 红花: 14
- 帖子: 556
- 在线: 324.5小时
- 虫号: 270668
- 注册: 2006-08-06
- 性别: GG
- 专业: 人工智能与知识工程
8楼2021-08-10 12:18:48
9楼2021-08-10 12:33:27
且听虎啸
捐助贵宾 (小有名气)
- 应助: 0 (幼儿园)
- 金币: 276.9
- 散金: 122
- 帖子: 111
- 在线: 119.5小时
- 虫号: 17444376
- 注册: 2019-09-14
- 专业: 计算机科学的基础理论
10楼2021-08-10 15:07:16













回复此楼