| 查看: 862 | 回复: 15 | |||
| 当前主题已经存档。 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
[交流]
批量提取网页中的有用信息 (需要htm基础)
|
|||
|
最近为想为民间中医建立一个中医网页.下载了一些网页. 想要提取其中的一些数据.本来想复制粘贴.但数据比较多.不太方便. 想起以前批量提取超星书名(例子1 例子2) 但是因为我没有htm基础 而且事情比较急,发个帖子.希望大家帮帮忙:) 例子1 使用说明: cxjxcx.txt是将超星结果用“TextPro V5.0 中文文本批处理软件”预处理的批量正则替换表。 1、在TextPro V5.0 中文文本批处理软件中,“设置”-“批量正则替换表”载入该替换表; 2、将超星结果粘贴到“TextPro V5.0 ”编辑器中; 3、然后用“编辑”-“批量正则替换”预处理即可 可处理超星主站的每日新书、分类查询、数字图书检索结果、镜像站点的分类查询、检索结果。 预处理的结果为: --------------------------------------------------- 书名:毛泽东哲学的历史发展 作者: 雍涛主编 索书号:A84/107: SS号:10983686 出版日期:1993年08月第1版 页数:336 例子1的批量正则替换表 ^\s*首页.*$ \n ^\s*(\u:) \1 ^\s*阅读\s+下载\s+$ \d 作者: \n作者: SS号: \nSS号: 索书号: \n索书号: 出版日期: \n出版日期: 页数: \n页数: SS号: \nSS号: SSID: \nSS号: 索书号: \n索书号: 出版日期: \n出版日期: 页数: \n页数: \s*$ ^\s+ 书名: ^\u:.+$ 书名:\d ^$ \d 《(.+)》$ 书名:\1 书名: \n书名: 书名:$ \d [ Last edited by eyelee on 2006-10-25 at 12:05 ] |
» 猜你喜欢
职称评审没过,求安慰
已经有10人回复
EST投稿状态问题
已经有4人回复
聘U V热熔胶研究人员
已经有10人回复
求助文献
已经有3人回复
垃圾破二本职称评审标准
已经有10人回复
投稿返修后收到这样的回复,还有希望吗
已经有8人回复
三无产品还有机会吗
已经有6人回复
谈谈两天一夜的“延安行”
已经有13人回复
氨基封端PDMS和HDI反应快速固化
已经有11人回复

★
eyelee(金币+1):多谢支持.
eyelee(金币+1):多谢支持.













回复此楼