24小时热门版块排行榜    

查看: 2199  |  回复: 9
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

xmcrobbie

银虫 (小有名气)

[求助] kmeans聚类的问题请教! 已有2人参与

每类训练样本约200多不等,如果只选用其中的两类进行kmeans自动聚类,准确率会相对的高。但是如果把所有的18类样本进行自动聚类。正确率不到3%。 难道样本类型越多,每类所需要的样本个数越多码?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

摘星者

铁杆木虫 (正式写手)

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与,应助指数 +1
xmcrobbie: 金币+5, ★★★★★最佳答案 2014-01-09 16:57:13
首先,k-means(KM)确实有准确率的说法,这是一种外部指标。所谓的无监督不过是指在聚类过程中没用使用到标签之类的信息而已。

然后是楼主的问题。我没有看过你使用的是什么样子的数据集。但是把所有的18类样本进行自动聚类正确率下降并不奇怪。你说的自动聚类是指不指定聚类数吗?要算法自己找到合适的聚类数并不容易。即便指定聚类数,类别多了正确率也容易下降。

KM只适用于每类样本在空间中分布呈超球体且超球中心间的距离明显大于超球半径的情况。当这些条件不满足的时候,很容易出现错分。楼主仅仅选择两类样本,这些样本在空间中的分布比较容易满足KM的要求,故准确率较高。18类样本放在一起,相互影响之下准确率自然就低了。

Liu Y, Li Z, Xiong H, et al. Understanding of internal clustering validation measures[C]//Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010: 911-916.
还有一篇类似的论文在IEEE trans. 上,楼主不妨看看,也许对你了解这个问题有帮助。
6楼2014-01-09 14:39:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 10 个回答

youth0826

至尊木虫 (著名写手)

weibo.com/138147022

【答案】应助回帖

感谢参与,应助指数 +1
kmeans只是无监督聚类,没有正确率的说法。。。

[ 发自手机版 http://muchong.com/3g ]
QQ群:202610705,关注计算机视觉,模式识别,模式分析,机器学习,人工智能,统计学习,图像处理等,欢迎加入!
2楼2014-01-09 07:08:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xmcrobbie

银虫 (小有名气)

引用回帖:
2楼: Originally posted by youth0826 at 2014-01-09 07:08:41
kmeans只是无监督聚类,没有正确率的说法。。。

kmeans是无监督聚类,但是把聚类结果和它的label对照一下不就可以知道正确率了吗?
3楼2014-01-09 08:02:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fhjianke

金虫 (初入文坛)

什么是无监督什么是监督你分清楚了么。。。
4楼2014-01-09 10:23:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见