24小时热门版块排行榜    

查看: 862  |  回复: 15
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

eyelee

荣誉版主 (著名写手)

阿弥陀佛

[交流] 批量提取网页中的有用信息 (需要htm基础)

最近为想为民间中医建立一个中医网页.下载了一些网页.
想要提取其中的一些数据.本来想复制粘贴.但数据比较多.不太方便.
想起以前批量提取超星书名(例子1 例子2)
但是因为我没有htm基础  而且事情比较急,发个帖子.希望大家帮帮忙:)

例子1

使用说明:
cxjxcx.txt是将超星结果用“TextPro V5.0 中文文本批处理软件”预处理的批量正则替换表。
1、在TextPro V5.0 中文文本批处理软件中,“设置”-“批量正则替换表”载入该替换表;
2、将超星结果粘贴到“TextPro V5.0 ”编辑器中;  
3、然后用“编辑”-“批量正则替换”预处理即可

可处理超星主站的每日新书、分类查询、数字图书检索结果、镜像站点的分类查询、检索结果。
预处理的结果为:
---------------------------------------------------
书名:毛泽东哲学的历史发展
作者: 雍涛主编
索书号:A84/107:  
SS号:10983686
出版日期:1993年08月第1版
页数:336


例子1的批量正则替换表
^\s*首页.*$ \n
^\s*(\u:)        \1   
^\s*阅读\s+下载\s+$        \d
作者:        \n作者:
SS号:        \nSS号:
索书号:        \n索书号:
出版日期:        \n出版日期:
页数:        \n页数:
SS号:        \nSS号:
SSID:        \nSS号:
索书号:        \n索书号:
出版日期:        \n出版日期:
页数:        \n页数:
\s*$       
^\s+        书名:
^\u:.+$        书名:\d
^$        \d
《(.+)》$        书名:\1
书名:        \n书名:
书名:$        \d

[ Last edited by eyelee on 2006-10-25 at 12:05 ]

» 猜你喜欢

左右矛盾,遁入中庸,素食中国.我的目标是让一亿中国人吃素!
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

风声

禁虫 (职业作家)


eyelee(金币+1):多谢支持.
相关版块跳转 我要订阅楼主 eyelee 的主题更新
信息提示
请填处理意见