| 查看: 860 | 回复: 15 | |||
| 当前主题已经存档。 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
[交流]
批量提取网页中的有用信息 (需要htm基础)
|
|||
|
最近为想为民间中医建立一个中医网页.下载了一些网页. 想要提取其中的一些数据.本来想复制粘贴.但数据比较多.不太方便. 想起以前批量提取超星书名(例子1 例子2) 但是因为我没有htm基础 而且事情比较急,发个帖子.希望大家帮帮忙:) 例子1 使用说明: cxjxcx.txt是将超星结果用“TextPro V5.0 中文文本批处理软件”预处理的批量正则替换表。 1、在TextPro V5.0 中文文本批处理软件中,“设置”-“批量正则替换表”载入该替换表; 2、将超星结果粘贴到“TextPro V5.0 ”编辑器中; 3、然后用“编辑”-“批量正则替换”预处理即可 可处理超星主站的每日新书、分类查询、数字图书检索结果、镜像站点的分类查询、检索结果。 预处理的结果为: --------------------------------------------------- 书名:毛泽东哲学的历史发展 作者: 雍涛主编 索书号:A84/107: SS号:10983686 出版日期:1993年08月第1版 页数:336 例子1的批量正则替换表 ^\s*首页.*$ \n ^\s*(\u:) \1 ^\s*阅读\s+下载\s+$ \d 作者: \n作者: SS号: \nSS号: 索书号: \n索书号: 出版日期: \n出版日期: 页数: \n页数: SS号: \nSS号: SSID: \nSS号: 索书号: \n索书号: 出版日期: \n出版日期: 页数: \n页数: \s*$ ^\s+ 书名: ^\u:.+$ 书名:\d ^$ \d 《(.+)》$ 书名:\1 书名: \n书名: 书名:$ \d [ Last edited by eyelee on 2006-10-25 at 12:05 ] |
» 猜你喜欢
三无产品还有机会吗
已经有6人回复
垃圾破二本职称评审标准
已经有7人回复
投稿返修后收到这样的回复,还有希望吗
已经有7人回复
博士申请都是内定的吗?
已经有14人回复
谈谈两天一夜的“延安行”
已经有13人回复
氨基封端PDMS和HDI反应快速固化
已经有11人回复
之前让一硕士生水了7个发明专利,现在这7个获批发明专利的维护费可从哪儿支出哈?
已经有11人回复
论文投稿求助
已经有4人回复
Applied Surface Science 这个期刊。有哪位虫友投过的能把word模板发给我参考一下嘛
已经有3人回复

rsb_long
至尊木虫 (著名写手)
- 博学EPI: 1
- 应助: 15 (小学生)
- 金币: 19110.9
- 帖子: 1268
- 在线: 405.3小时
- 虫号: 80232
- 注册: 2005-07-14
- 专业: 计算机软件
6楼2006-10-25 22:35:52
|
主贴是 例子1所用的批处理软件 TextPro V5.0 以及例子1的 批量正则替换表 跟贴1例子2的网页 和例子2的 批量正则替换表 跟帖2是我要提取的网页 只要把批量正则替换表 写出来就好了 因为你问我答不能传附件 就都传在下面的板块中了. http://muchong.com/bbs/viewthread.php?tid=338556&fpage=1 [ Last edited by eyelee on 2006-10-25 at 12:00 ] |

2楼2006-10-25 19:21:47

3楼2006-10-25 19:33:56
★
eyelee(金币+1):多谢支持.
eyelee(金币+1):多谢支持.
|
本帖内容被屏蔽 |
4楼2006-10-25 20:13:17













回复此楼