| 查看: 721 | 回复: 7 | ||
[求助]
提取大量网页文本 已有1人参与
|
|
现在有一道数学建模题,需要提取网页中的文本(网页已经给出,数量很多,大概几万个网址),然后找出这些文本中的关键词(或高频词)。但是不知道如何提取这么多网页中的文本。 求虫友赐教,如有代码,不甚感激! |
» 猜你喜欢
Materials Today Chemistry审稿周期
已经有5人回复
溴的反应液脱色
已经有7人回复
国自然申请面上模板最新2026版出了吗?
已经有11人回复
推荐一本书
已经有12人回复
基金申报
已经有4人回复
计算机、0854电子信息(085401-058412)调剂
已经有4人回复
纳米粒子粒径的测量
已经有7人回复
常年博士招收(双一流,工科)
已经有4人回复
参与限项
已经有5人回复
有没有人能给点建议
已经有5人回复
» 本主题相关价值贴推荐,对您同样有帮助:
10个不能错过的Chrome 浏览器扩展工具
已经有3人回复

2楼2016-05-21 15:43:30
iyx_yao
至尊木虫 (职业作家)
隐形码农
- 应助: 24 (小学生)
- 金币: 18681.6
- 红花: 15
- 沙发: 1
- 帖子: 3729
- 在线: 913.2小时
- 虫号: 3085910
- 注册: 2014-03-24
- 性别: GG
- 专业: 交通工程

3楼2016-05-22 14:25:53
一生十年
铁杆木虫 (职业作家)
锤锤帮小罗罗
- 应助: 0 (幼儿园)
- 金币: 7859.6
- 散金: 2060
- 红花: 20
- 沙发: 18
- 帖子: 4469
- 在线: 427小时
- 虫号: 4120063
- 注册: 2015-10-05
- 性别: GG
- 专业: 计算机科学的基础理论

4楼2016-05-22 17:38:45
5楼2016-05-23 22:19:39
6楼2016-05-24 15:41:45
ljw4010
荣誉版主 (职业作家)
小木虫从头派教主
- 应助: 116 (高中生)
- 贵宾: 5.434
- 金币: 26572.7
- 散金: 4305
- 红花: 70
- 沙发: 10
- 帖子: 4104
- 在线: 889.1小时
- 虫号: 3019479
- 注册: 2014-03-05
- 专业: 半导体微纳机电器件与系统
- 管辖: 计算模拟

7楼2016-05-24 17:56:13
fan_q
金虫 (小有名气)
- 应助: 10 (幼儿园)
- 金币: 1239.9
- 红花: 2
- 帖子: 175
- 在线: 299.1小时
- 虫号: 1952675
- 注册: 2012-08-23
- 性别: GG
- 专业: 生物化学

8楼2016-05-25 22:09:33












回复此楼