24小时热门版块排行榜    

查看: 693  |  回复: 7
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

后会有期wq

新虫 (初入文坛)

[求助] 提取大量网页文本已有1人参与

现在有一道数学建模题,需要提取网页中的文本(网页已经给出,数量很多,大概几万个网址),然后找出这些文本中的关键词(或高频词)。但是不知道如何提取这么多网页中的文本。
求虫友赐教,如有代码,不甚感激!
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fan_q

金虫 (小有名气)

【答案】应助回帖

火车头采集器,你可以试试看
手起刀落头拿走
8楼2016-05-25 22:09:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 8 个回答

moverzp

银虫 (小有名气)

我爬去过豆瓣11W本书籍信息,一时半会讲不清楚。你需要学习python爬虫。

发自小木虫Android客户端
InnerPeace&KeepMoving
2楼2016-05-21 15:43:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

iyx_yao

至尊木虫 (职业作家)

隐形码农

寓学于乐
3楼2016-05-22 14:25:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

一生十年

铁杆木虫 (职业作家)

锤锤帮小罗罗

安定中。。。
4楼2016-05-22 17:38:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见