| 查看: 695 | 回复: 7 | ||
[求助]
提取大量网页文本已有1人参与
|
|
现在有一道数学建模题,需要提取网页中的文本(网页已经给出,数量很多,大概几万个网址),然后找出这些文本中的关键词(或高频词)。但是不知道如何提取这么多网页中的文本。 求虫友赐教,如有代码,不甚感激! |
» 猜你喜欢
投稿Elsevier的Neoplasia杂志,到最后选publishing options时页面空白,不能完成投稿
已经有22人回复
申请26博士
已经有5人回复
职称评审没过,求安慰
已经有22人回复
垃圾破二本职称评审标准
已经有15人回复
EST投稿状态问题
已经有7人回复
毕业后当辅导员了,天天各种学生超烦
已经有4人回复
聘U V热熔胶研究人员
已经有10人回复
求助文献
已经有3人回复
投稿返修后收到这样的回复,还有希望吗
已经有8人回复
三无产品还有机会吗
已经有6人回复
» 本主题相关价值贴推荐,对您同样有帮助:
10个不能错过的Chrome 浏览器扩展工具
已经有3人回复

2楼2016-05-21 15:43:30
iyx_yao
至尊木虫 (职业作家)
隐形码农
- 应助: 24 (小学生)
- 金币: 18681.6
- 红花: 15
- 沙发: 1
- 帖子: 3729
- 在线: 912.5小时
- 虫号: 3085910
- 注册: 2014-03-24
- 性别: GG
- 专业: 交通工程

3楼2016-05-22 14:25:53
一生十年
铁杆木虫 (职业作家)
锤锤帮小罗罗
- 应助: 0 (幼儿园)
- 金币: 7844.6
- 散金: 2060
- 红花: 20
- 沙发: 18
- 帖子: 4466
- 在线: 427小时
- 虫号: 4120063
- 注册: 2015-10-05
- 性别: GG
- 专业: 计算机科学的基础理论

4楼2016-05-22 17:38:45
5楼2016-05-23 22:19:39
6楼2016-05-24 15:41:45
ljw4010
荣誉版主 (职业作家)
小木虫从头派教主
- 应助: 116 (高中生)
- 贵宾: 5.434
- 金币: 26571.7
- 散金: 4305
- 红花: 69
- 沙发: 10
- 帖子: 4104
- 在线: 889.1小时
- 虫号: 3019479
- 注册: 2014-03-05
- 专业: 半导体微纳机电器件与系统
- 管辖: 计算模拟

7楼2016-05-24 17:56:13
fan_q
金虫 (小有名气)
- 应助: 10 (幼儿园)
- 金币: 1239.9
- 红花: 2
- 帖子: 174
- 在线: 298.9小时
- 虫号: 1952675
- 注册: 2012-08-23
- 性别: GG
- 专业: 生物化学

8楼2016-05-25 22:09:33













回复此楼