24小时热门版块排行榜    

CyRhmU.jpeg
查看: 445  |  回复: 5
当前主题已经存档。

zhu0011

铜虫 (初入文坛)

[交流] 【原创】如何处理把一个文本转成数据已有2人参与

我是一个初学者,请高手赐教。
高手们可能都知道co-trainning算法中的数据集 course,里面有1051个事例(每个事例是一个网页),类标签是no course或者 course。
显然,这个文件(可以从tom michael指定的地方下载)不能直接放到我们的程序中(例如knn算法)运行,因为我们的程序只接受数字型的数据,而不是html格式的数据。
现在的问题是:

1,怎么把这1051个html文件(也就是1051个事例)包括他们相应的类标签转成一个txt文件,在txt文件里面只出现0,1,2,--9这样的数据呢?
2.有什么教材或者免费可以用吗?

非常着急,因为实验要马上开始了,不知道怎么处理
谢谢!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bemoner

金虫 (正式写手)

打开html
文件菜单
另存为
保存类型 选择 纯文本

不过这是单个的做法,批量的好像不现实!
2楼2009-11-06 09:49:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhu0011

铜虫 (初入文坛)

非常感谢你的答复。
我的意思好像是:
随便给一个网页,你介绍一个方法通过提取网页特征来帮我把一个网页转成一个事例的数据,这个事例有很多个属性,最后还有一个类标签。
3楼2009-11-07 12:57:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wskingfly

新虫 (初入文坛)


小木虫(金币+0.5):给个红包,谢谢回帖交流
用Dreamweaver试试看吧 或者有那种html代码转换器的

[ Last edited by wskingfly on 2009-11-7 at 13:55 ]
4楼2009-11-07 13:53:47
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ltyong

木虫 (正式写手)

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
zhmc001(金币+1):鼓励交流! 2010-04-06 23:39
写个程序,用类似正则表达式的东西把你需要的东西取出来就OK了
5楼2010-04-05 23:09:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhu0011

铜虫 (初入文坛)

zhmc001:如果对于解答比较满意, 请在标题最后标上【已解决】 2010-04-06 23:40
非常感谢大家的帮助,谢谢
6楼2010-04-06 11:35:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhu0011 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见