24小时热门版块排行榜    

查看: 1343  |  回复: 5

胖果果

木虫 (著名写手)

平凡的教师

[求助] 请问如何统计数据聚类的结果?

请问如何统计数据聚类的结果,比如用K-Means对数据集Iris进行聚类,那么如何计算聚类的正确率呢?(Iris数据集中各个数据的标记已知)

谢谢。
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

远看两怪兽,近看两禽兽,仔细一看是教授,后面跟着副教授。而我是一名平凡的教师,主要工作是教书育人以及科学研究。我热爱家庭、热爱生活、热爱工作。
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

摘星者

铁杆木虫 (正式写手)

【答案】应助回帖

胖果果(金币+2): 谢谢谢 2011-06-10 14:50:56
评价聚类结果好坏的方法有很多,正确率只是其中的一种而已。简单的说,就是为聚类模型中的每一个簇寻找它在真实分类中对应的类别,而该簇中来自其它类的样本聚类错误。如果你想知道具体的算法,可以找WEKA的源代码,weka.clusterers.ClusterEvaluation 里有完整的算法,前提是你懂得用JAVA编程。

还有其他的评价指标,例如RI、NMI、ARI等等,随便找一篇有关聚类的论文都能看到其中一种或多种的评价指标。追着参考文献看吧。
2楼2011-06-10 12:27:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

胖果果

木虫 (著名写手)

平凡的教师

引用回帖:
Originally posted by 摘星者 at 2011-06-10 12:27:34:
评价聚类结果好坏的方法有很多,正确率只是其中的一种而已。简单的说,就是为聚类模型中的每一个簇寻找它在真实分类中对应的类别,而该簇中来自其它类的样本聚类错误。如果你想知道具体的算法,可以找WEKA的源代码 ...

除了WEKA,还有其他Code或论文来谈评价方法吗?尤其是正确率方面的
远看两怪兽,近看两禽兽,仔细一看是教授,后面跟着副教授。而我是一名平凡的教师,主要工作是教书育人以及科学研究。我热爱家庭、热爱生活、热爱工作。
3楼2011-06-10 15:00:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

摘星者

铁杆木虫 (正式写手)

★ ★
mze04532(金币+2): 热心应助~奖励~ 2011-06-10 21:40:00
如果有几个算法,想比较它们的聚类效果,可以用正确率。不过现在一般不会仅使用正确率评价算法的聚类效果,而是给出多个评价指标的评价结果,因为单个指标往往有一些缺陷,多个指标更有说服力。就正确率而言,如果数据集中各个类的样本数相差很悬殊,有可能得到正确率很高但是样本数少的类别完全分错的结果。此时通过正确率评价聚类模型是不合理的。

code需要你自己写,推荐你看WEKA是因为它在数据挖掘领域算是权威的,而且有不少经典算法的实现。下面这个网站有一些关于指标的例子和说明(http://nlp.stanford.edu/IR-book/ ... f-clustering-1.html),更多更详细的你可以去找相关文献。用指标的名字直接google就有资料了。参考文献只要你随便找一篇核心刊物关于聚类的文章,实验部分是一定有的。
4楼2011-06-10 16:34:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

胖果果

木虫 (著名写手)

平凡的教师

引用回帖:
Originally posted by 摘星者 at 2011-06-10 16:34:52:
如果有几个算法,想比较它们的聚类效果,可以用正确率。不过现在一般不会仅使用正确率评价算法的聚类效果,而是给出多个评价指标的评价结果,因为单个指标往往有一些缺陷,多个指标更有说服力。就正确率而言,如果 ...

好的,谢谢
远看两怪兽,近看两禽兽,仔细一看是教授,后面跟着副教授。而我是一名平凡的教师,主要工作是教书育人以及科学研究。我热爱家庭、热爱生活、热爱工作。
5楼2011-06-10 19:05:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

londonbell

木虫 (著名写手)

【答案】应助回帖

胖果果(金币+1): 谢谢!不过我更想知道精确度如何算? 2011-06-20 17:27:12
不是有个比值么
聚类内离散度、聚类间离散度两者之比
6楼2011-06-20 10:40:39
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 胖果果 的主题更新
信息提示
请填处理意见