24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1969  |  回复: 11

qdairman

新虫 (初入文坛)

[交流] k-means算法的相关问题已有5人参与

对于k-means这种无监督学习算法来说,在聚类后只是知道有几个聚类中心,如何评价好坏(有聚类错的情况),有没有性能指标?类似于监督学习的精度,求大神知道,谢谢了
回复此楼

» 收录本帖的淘帖专辑推荐

感兴趣的文章

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

netivs

专家顾问 (知名作家)

DataHacker

关注一下
机器学习爱好者
2楼2014-04-07 08:20:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xgj2008best

至尊木虫 (知名作家)


小木虫: 金币+0.5, 给个红包,谢谢回帖
没有明确的评价标准,你可以尝试做误差分析。另外,k的取值不同结果也不尽相同,可以去多值测试。最后选取最优k值。
3楼2014-04-07 09:27:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

qdairman

新虫 (初入文坛)

引用回帖:
3楼: Originally posted by xgj2008best at 2014-04-07 09:27:32
没有明确的评价标准,你可以尝试做误差分析。另外,k的取值不同结果也不尽相同,可以去多值测试。最后选取最优k值。

首先谢谢你的回复
1.对于k的取值,有办法可以确定
2.你所说的误差分析是什么?
4楼2014-04-07 20:11:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xgj2008best

至尊木虫 (知名作家)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
4楼: Originally posted by qdairman at 2014-04-07 20:11:31
首先谢谢你的回复
1.对于k的取值,有办法可以确定
2.你所说的误差分析是什么?...

k的取值没有合理的方法,只有自己不段取值测试。或许8是个不错的选择。

针对k在不同值是影响实际的结果,我理解的误差分析分析是指,每次k的取值结果和上次k的结果情况进行比较得出的差值与上次k值取商。
当然有其他更多的办法,这得根据你文章的实际安排。
但有一点的是,做误差分析是给论文提分的。
5楼2014-04-07 21:13:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

耗子囧rz

铁虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
k-means 这种古董级算法,一般是用来作为别的聚类算法的指标的。

要改进的话,可以试试k众数或k中心值算法,多换几个k看看。

不限于用这些划分方法的话,一般还是用层次聚类法比较好,可以通过类之间距离的最大化确定类的数目。

[ 发自小木虫客户端 ]
6楼2014-04-07 22:41:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

qdairman

新虫 (初入文坛)

引用回帖:
5楼: Originally posted by xgj2008best at 2014-04-07 21:13:24
k的取值没有合理的方法,只有自己不段取值测试。或许8是个不错的选择。

针对k在不同值是影响实际的结果,我理解的误差分析分析是指,每次k的取值结果和上次k的结果情况进行比较得出的差值与上次k值取商。
当然 ...

谢谢你的回复
1.对于k,有个叫elbow method的方法可以比较好的解决
2.主要是之前看别人说的,事先是知道了具体类别(监督学习),但用的时候当它是没有类别(无监督),用聚类,最后在与之前有标签的进行对比,计算精度
就是感觉这样的方法“不纯”,所以就比较想知道对于根本就不知道类别的数据进行聚类的好坏
7楼2014-04-08 10:26:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

qdairman

新虫 (初入文坛)

引用回帖:
6楼: Originally posted by 耗子囧rz at 2014-04-07 22:41:01
k-means 这种古董级算法,一般是用来作为别的聚类算法的指标的。

要改进的话,可以试试k众数或k中心值算法,多换几个k看看。

不限于用这些划分方法的话,一般还是用层次聚类法比较好,可以通过类之间距离的最 ...

谢谢回复,目前就是针对k-means,正如你说的是古董级算法,所以先多了解点
8楼2014-04-08 10:33:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

摘星者

铁杆木虫 (正式写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
7楼: Originally posted by qdairman at 2014-04-08 10:26:06
谢谢你的回复
1.对于k,有个叫elbow method的方法可以比较好的解决
2.主要是之前看别人说的,事先是知道了具体类别(监督学习),但用的时候当它是没有类别(无监督),用聚类,最后在与之前有标签的进行对比,计 ...

没有什么纯不纯的。

什么叫相似?什么叫不相似?太主观了。内部指标有很多啊,db、cs、dunn等等,太多了,层出不穷。它们不使用标签,但是都包含了提出者自己对于相似的主观印象,是有偏向的。用这些指标证明a算法比b算法好,就必须证明a算法在聚类过程中没有迎合所选指标,无论有意无意。否则如何让人信服?

相比之下,外部指标通过将聚类结果和真实标签比较的方法评价聚类效果是比较客观的。虽然外部指标也有各种问题,也带有一定的主观性,但至少不在样本的真实标签上存在主观的判断。而作为评价标准,客观很重要。
9楼2014-04-11 01:21:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jssw

金虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
聚类评价指标有很多,Rand Index较为常用
10楼2014-04-11 08:24:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 qdairman 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见