24小时热门版块排行榜    

查看: 856  |  回复: 15
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

eyelee

荣誉版主 (著名写手)

阿弥陀佛

[交流] 批量提取网页中的有用信息 (需要htm基础)

最近为想为民间中医建立一个中医网页.下载了一些网页.
想要提取其中的一些数据.本来想复制粘贴.但数据比较多.不太方便.
想起以前批量提取超星书名(例子1 例子2)
但是因为我没有htm基础  而且事情比较急,发个帖子.希望大家帮帮忙:)

例子1

使用说明:
cxjxcx.txt是将超星结果用“TextPro V5.0 中文文本批处理软件”预处理的批量正则替换表。
1、在TextPro V5.0 中文文本批处理软件中,“设置”-“批量正则替换表”载入该替换表;
2、将超星结果粘贴到“TextPro V5.0 ”编辑器中;  
3、然后用“编辑”-“批量正则替换”预处理即可

可处理超星主站的每日新书、分类查询、数字图书检索结果、镜像站点的分类查询、检索结果。
预处理的结果为:
---------------------------------------------------
书名:毛泽东哲学的历史发展
作者: 雍涛主编
索书号:A84/107:  
SS号:10983686
出版日期:1993年08月第1版
页数:336


例子1的批量正则替换表
^\s*首页.*$ \n
^\s*(\u:)        \1   
^\s*阅读\s+下载\s+$        \d
作者:        \n作者:
SS号:        \nSS号:
索书号:        \n索书号:
出版日期:        \n出版日期:
页数:        \n页数:
SS号:        \nSS号:
SSID:        \nSS号:
索书号:        \n索书号:
出版日期:        \n出版日期:
页数:        \n页数:
\s*$       
^\s+        书名:
^\u:.+$        书名:\d
^$        \d
《(.+)》$        书名:\1
书名:        \n书名:
书名:$        \d

[ Last edited by eyelee on 2006-10-25 at 12:05 ]
左右矛盾,遁入中庸,素食中国.我的目标是让一亿中国人吃素!
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

玉米糊糊

觉得用vb写段程序更简单一些
10楼2006-10-26 00:34:13
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 16 个回答

eyelee

荣誉版主 (著名写手)

阿弥陀佛

主贴是 例子1所用的批处理软件 TextPro V5.0   以及例子1的 批量正则替换表


跟贴1例子2的网页   和例子2的 批量正则替换表

跟帖2是我要提取的网页  只要把批量正则替换表 写出来就好了







因为你问我答不能传附件 就都传在下面的板块中了.
http://muchong.com/bbs/viewthread.php?tid=338556&fpage=1

[ Last edited by eyelee on 2006-10-25 at 12:00 ]
左右矛盾,遁入中庸,素食中国.我的目标是让一亿中国人吃素!
2楼2006-10-25 19:21:47
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

eyelee

荣誉版主 (著名写手)

阿弥陀佛

只要把我上传的网页的内容循环采集下来的批量正则替换表  写出来
并且好用就可以了!

[ Last edited by eyelee on 2006-10-25 at 12:02 ]
左右矛盾,遁入中庸,素食中国.我的目标是让一亿中国人吃素!
3楼2006-10-25 19:33:56
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

风声

禁虫 (职业作家)


eyelee(金币+1):多谢支持.
本帖内容被屏蔽

4楼2006-10-25 20:13:17
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见