| 查看: 862 | 回复: 15 | |||
| 当前主题已经存档。 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
[交流]
批量提取网页中的有用信息 (需要htm基础)
|
|||
|
最近为想为民间中医建立一个中医网页.下载了一些网页. 想要提取其中的一些数据.本来想复制粘贴.但数据比较多.不太方便. 想起以前批量提取超星书名(例子1 例子2) 但是因为我没有htm基础 而且事情比较急,发个帖子.希望大家帮帮忙:) 例子1 使用说明: cxjxcx.txt是将超星结果用“TextPro V5.0 中文文本批处理软件”预处理的批量正则替换表。 1、在TextPro V5.0 中文文本批处理软件中,“设置”-“批量正则替换表”载入该替换表; 2、将超星结果粘贴到“TextPro V5.0 ”编辑器中; 3、然后用“编辑”-“批量正则替换”预处理即可 可处理超星主站的每日新书、分类查询、数字图书检索结果、镜像站点的分类查询、检索结果。 预处理的结果为: --------------------------------------------------- 书名:毛泽东哲学的历史发展 作者: 雍涛主编 索书号:A84/107: SS号:10983686 出版日期:1993年08月第1版 页数:336 例子1的批量正则替换表 ^\s*首页.*$ \n ^\s*(\u:) \1 ^\s*阅读\s+下载\s+$ \d 作者: \n作者: SS号: \nSS号: 索书号: \n索书号: 出版日期: \n出版日期: 页数: \n页数: SS号: \nSS号: SSID: \nSS号: 索书号: \n索书号: 出版日期: \n出版日期: 页数: \n页数: \s*$ ^\s+ 书名: ^\u:.+$ 书名:\d ^$ \d 《(.+)》$ 书名:\1 书名: \n书名: 书名:$ \d [ Last edited by eyelee on 2006-10-25 at 12:05 ] |
» 猜你喜欢
垃圾破二本职称评审标准
已经有17人回复
职称评审没过,求安慰
已经有30人回复
回收溶剂求助
已经有6人回复
投稿Elsevier的Neoplasia杂志,到最后选publishing options时页面空白,不能完成投稿
已经有22人回复
申请26博士
已经有5人回复
EST投稿状态问题
已经有7人回复
毕业后当辅导员了,天天各种学生超烦
已经有4人回复
聘U V热熔胶研究人员
已经有10人回复
求助文献
已经有3人回复
投稿返修后收到这样的回复,还有希望吗
已经有8人回复


14楼2006-10-26 08:27:08
|
主贴是 例子1所用的批处理软件 TextPro V5.0 以及例子1的 批量正则替换表 跟贴1例子2的网页 和例子2的 批量正则替换表 跟帖2是我要提取的网页 只要把批量正则替换表 写出来就好了 因为你问我答不能传附件 就都传在下面的板块中了. http://muchong.com/bbs/viewthread.php?tid=338556&fpage=1 [ Last edited by eyelee on 2006-10-25 at 12:00 ] |

2楼2006-10-25 19:21:47

3楼2006-10-25 19:33:56
★
eyelee(金币+1):多谢支持.
eyelee(金币+1):多谢支持.
|
本帖内容被屏蔽 |
4楼2006-10-25 20:13:17













回复此楼