| 查看: 867 | 回复: 15 | |||
| 当前主题已经存档。 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
[交流]
批量提取网页中的有用信息 (需要htm基础)
|
|||
|
最近为想为民间中医建立一个中医网页.下载了一些网页. 想要提取其中的一些数据.本来想复制粘贴.但数据比较多.不太方便. 想起以前批量提取超星书名(例子1 例子2) 但是因为我没有htm基础 而且事情比较急,发个帖子.希望大家帮帮忙:) 例子1 使用说明: cxjxcx.txt是将超星结果用“TextPro V5.0 中文文本批处理软件”预处理的批量正则替换表。 1、在TextPro V5.0 中文文本批处理软件中,“设置”-“批量正则替换表”载入该替换表; 2、将超星结果粘贴到“TextPro V5.0 ”编辑器中; 3、然后用“编辑”-“批量正则替换”预处理即可 可处理超星主站的每日新书、分类查询、数字图书检索结果、镜像站点的分类查询、检索结果。 预处理的结果为: --------------------------------------------------- 书名:毛泽东哲学的历史发展 作者: 雍涛主编 索书号:A84/107: SS号:10983686 出版日期:1993年08月第1版 页数:336 例子1的批量正则替换表 ^\s*首页.*$ \n ^\s*(\u:) \1 ^\s*阅读\s+下载\s+$ \d 作者: \n作者: SS号: \nSS号: 索书号: \n索书号: 出版日期: \n出版日期: 页数: \n页数: SS号: \nSS号: SSID: \nSS号: 索书号: \n索书号: 出版日期: \n出版日期: 页数: \n页数: \s*$ ^\s+ 书名: ^\u:.+$ 书名:\d ^$ \d 《(.+)》$ 书名:\1 书名: \n书名: 书名:$ \d [ Last edited by eyelee on 2006-10-25 at 12:05 ] |
» 猜你喜欢
拟解决的关键科学问题还要不要写
已经有8人回复
26申博
已经有3人回复
存款400万可以在学校里躺平吗
已经有22人回复
最失望的一年
已经有4人回复
国自然申请面上模板最新2026版出了吗?
已经有19人回复
请教限项目规定
已经有3人回复
基金委咋了?2026年的指南还没有出来?
已经有10人回复
基金申报
已经有6人回复
推荐一本书
已经有13人回复
疑惑?
已经有5人回复

9楼2006-10-26 00:22:44
|
主贴是 例子1所用的批处理软件 TextPro V5.0 以及例子1的 批量正则替换表 跟贴1例子2的网页 和例子2的 批量正则替换表 跟帖2是我要提取的网页 只要把批量正则替换表 写出来就好了 因为你问我答不能传附件 就都传在下面的板块中了. http://muchong.com/bbs/viewthread.php?tid=338556&fpage=1 [ Last edited by eyelee on 2006-10-25 at 12:00 ] |

2楼2006-10-25 19:21:47

3楼2006-10-25 19:33:56
★
eyelee(金币+1):多谢支持.
eyelee(金币+1):多谢支持.
|
本帖内容被屏蔽 |
4楼2006-10-25 20:13:17













回复此楼