24小时热门版块排行榜    

查看: 898  |  回复: 15
当前主题已经存档。

eyelee

荣誉版主 (著名写手)

阿弥陀佛

[交流] 批量提取网页中的有用信息 (需要htm基础)

最近为想为民间中医建立一个中医网页.下载了一些网页.
想要提取其中的一些数据.本来想复制粘贴.但数据比较多.不太方便.
想起以前批量提取超星书名(例子1 例子2)
但是因为我没有htm基础  而且事情比较急,发个帖子.希望大家帮帮忙:)

例子1

使用说明:
cxjxcx.txt是将超星结果用“TextPro V5.0 中文文本批处理软件”预处理的批量正则替换表。
1、在TextPro V5.0 中文文本批处理软件中,“设置”-“批量正则替换表”载入该替换表;
2、将超星结果粘贴到“TextPro V5.0 ”编辑器中;  
3、然后用“编辑”-“批量正则替换”预处理即可

可处理超星主站的每日新书、分类查询、数字图书检索结果、镜像站点的分类查询、检索结果。
预处理的结果为:
---------------------------------------------------
书名:毛泽东哲学的历史发展
作者: 雍涛主编
索书号:A84/107:  
SS号:10983686
出版日期:1993年08月第1版
页数:336


例子1的批量正则替换表
^\s*首页.*$ \n
^\s*(\u:)        \1   
^\s*阅读\s+下载\s+$        \d
作者:        \n作者:
SS号:        \nSS号:
索书号:        \n索书号:
出版日期:        \n出版日期:
页数:        \n页数:
SS号:        \nSS号:
SSID:        \nSS号:
索书号:        \n索书号:
出版日期:        \n出版日期:
页数:        \n页数:
\s*$       
^\s+        书名:
^\u:.+$        书名:\d
^$        \d
《(.+)》$        书名:\1
书名:        \n书名:
书名:$        \d

[ Last edited by eyelee on 2006-10-25 at 12:05 ]

» 猜你喜欢

左右矛盾,遁入中庸,素食中国.我的目标是让一亿中国人吃素!
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

eyelee

荣誉版主 (著名写手)

阿弥陀佛

主贴是 例子1所用的批处理软件 TextPro V5.0   以及例子1的 批量正则替换表


跟贴1例子2的网页   和例子2的 批量正则替换表

跟帖2是我要提取的网页  只要把批量正则替换表 写出来就好了







因为你问我答不能传附件 就都传在下面的板块中了.
http://muchong.com/bbs/viewthread.php?tid=338556&fpage=1

[ Last edited by eyelee on 2006-10-25 at 12:00 ]
左右矛盾,遁入中庸,素食中国.我的目标是让一亿中国人吃素!
2楼2006-10-25 19:21:47
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

eyelee

荣誉版主 (著名写手)

阿弥陀佛

只要把我上传的网页的内容循环采集下来的批量正则替换表  写出来
并且好用就可以了!

[ Last edited by eyelee on 2006-10-25 at 12:02 ]
左右矛盾,遁入中庸,素食中国.我的目标是让一亿中国人吃素!
3楼2006-10-25 19:33:56
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

风声

禁虫 (职业作家)


eyelee(金币+1):多谢支持.
本帖内容被屏蔽

4楼2006-10-25 20:13:17
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

cy0361

金虫 (正式写手)

楼主的金币的确很诱惑人啊.....


    恩,其实你直接复制所要提取的网页的源代码不就可以了吗?
抵制日货, 一种习惯!!
5楼2006-10-25 21:21:27
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

rsb_long

至尊木虫 (著名写手)

直接选择源代码,将其放置于任何一个网页制作中,就可以选择出来.用不着如此大动干戈
6楼2006-10-25 22:35:52
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

killl

荣誉版主 (职业作家)

灌水

优秀版主

那个正则不熟悉,估计学习还不如自己写个快,要不你等着,我写给你?

需要提取号码、名称、介绍对吗?那么不公开的怎么办?
灌水
7楼2006-10-25 22:45:52
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
8楼2006-10-26 00:16:06
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

玉米糊糊

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
eyelee(金币+25):多谢老兄的支持.金币分配不过来.等会再发个帖子 把我的金币转移给你一些
没看明白要干什么 不过要是htm的话 我应该可以搞定的
9楼2006-10-26 00:22:44
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

玉米糊糊

觉得用vb写段程序更简单一些
10楼2006-10-26 00:34:13
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 eyelee 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 290求调剂 +6 材料专硕调剂; 2026-02-28 7/350 2026-03-01 09:21 by L135790
[考研] 0856求调剂285 +5 吕仔龙 2026-02-28 5/250 2026-03-01 09:18 by L135790
[考研] 298求调剂 +5 axyz3 2026-02-28 5/250 2026-03-01 06:45 by 刘兵
[考研] 285求调剂 +6 满头大汗的学生 2026-02-28 6/300 2026-03-01 06:29 by Trying]
[考研] 材料调剂 +4 爱擦汗的可乐冰 2026-02-28 4/200 2026-03-01 00:38 by 猫猫球alter
[基金申请] 面上模板改不了页边距吧? +5 ieewxg 2026-02-25 6/300 2026-03-01 00:10 by addressing
[考研] 307求调剂 +4 73372112 2026-02-28 6/300 2026-03-01 00:04 by ll247
[考研] 304求调剂 +3 52hz~~ 2026-02-28 5/250 2026-03-01 00:00 by 52hz~~
[考研] 化工专硕348,一志愿985求调剂 +4 弗格个 2026-02-28 6/300 2026-02-28 22:00 by wang_dand
[考研] 292求调剂 +3 yhk_819 2026-02-28 3/150 2026-02-28 21:57 by gaoxiaoniuma
[考博] 26申博 +4 想申博! 2026-02-26 4/200 2026-02-28 21:37 by limorning
[考研] 材料学调剂 +5 提神豆沙包 2026-02-28 5/250 2026-02-28 21:34 by gaoxiaoniuma
[考研] 高分子化学与物理调剂 +4 好好好1233 2026-02-28 7/350 2026-02-28 20:42 by 好好好1233
[考研] 085600材料工程一志愿中科大总分312求调剂 +8 吃宵夜1 2026-02-28 10/500 2026-02-28 20:27 by L135790
[考研] 298求调剂 +8 人间唯你是清欢 2026-02-28 11/550 2026-02-28 20:26 by L135790
[考研] 265分求调剂不调专业和学校有行学上就 +4 礼堂丁真258 2026-02-28 6/300 2026-02-28 16:18 by 求调剂zz
[考研] 0856调剂 +3 刘梦微 2026-02-28 3/150 2026-02-28 13:22 by houyaoxu
[硕博家园] 博士自荐 +6 科研狗111 2026-02-26 9/450 2026-02-28 12:32 by seaskyy
[基金申请] 面上可以超过30页吧? +12 阿拉贡aragon 2026-02-22 13/650 2026-02-26 22:09 by Hahaxia
[硕博家园] 【博士招生】太原理工大学2026化工博士 +4 N1ce_try 2026-02-24 8/400 2026-02-26 08:40 by N1ce_try
信息提示
请填处理意见