24小时热门版块排行榜

>论坛更新日志 (3243)
>导师招生 (233)
>文献求助 (216)
>虫友互识 (194)
>休闲灌水 (133)
>考博 (113)
>硕博家园 (109)
>招聘信息布告栏 (81)
>论文投稿 (73)
>基金申请 (69)
>博后之家 (60)
>考研 (49)
>找工作 (30)
>公派出国 (29)
>教师之家 (28)
>论文道贺祈福 (27)

返回列表

当前只显示满足指定条件的回帖，点击这里查看本话题的所有回帖

xmcrobbie

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 868.2
红花: 2
帖子: 262
在线: 27小时
虫号: 2625854
注册: 2013-08-30
性别: GG
专业: 模式识别

[求助] kmeans聚类的问题请教！已有2人参与

每类训练样本约200多不等，如果只选用其中的两类进行kmeans自动聚类，准确率会相对的高。但是如果把所有的18类样本进行自动聚类。正确率不到3%。难道样本类型越多，每类所需要的样本个数越多码？

回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

请教一个聚类的问题已经有32人回复
土地利用的栅格影像如何进行空间聚类已经有5人回复
K均值聚类matlab算法完善版已经有321人回复
请教各位，聚类分析图和系统发生树有什么区别？已经有5人回复
【求助】kmeans函数错误：Empty cluster created at iteration 1 已经有7人回复

1楼 2014-01-09 02:01:19

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

摘星者

铁杆木虫 (正式写手)

应助: 27 (小学生)
金币: 8207.2
散金: 50
红花: 4
帖子: 397
在线: 506.3小时
虫号: 494941
注册: 2008-01-14
专业: 人工智能与知识工程

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与，应助指数 +1
xmcrobbie: 金币+5, ★★★★★最佳答案 2014-01-09 16:57:13

首先，k-means(KM)确实有准确率的说法，这是一种外部指标。所谓的无监督不过是指在聚类过程中没用使用到标签之类的信息而已。

然后是楼主的问题。我没有看过你使用的是什么样子的数据集。但是把所有的18类样本进行自动聚类正确率下降并不奇怪。你说的自动聚类是指不指定聚类数吗？要算法自己找到合适的聚类数并不容易。即便指定聚类数，类别多了正确率也容易下降。

KM只适用于每类样本在空间中分布呈超球体且超球中心间的距离明显大于超球半径的情况。当这些条件不满足的时候，很容易出现错分。楼主仅仅选择两类样本，这些样本在空间中的分布比较容易满足KM的要求，故准确率较高。18类样本放在一起，相互影响之下准确率自然就低了。

Liu Y, Li Z, Xiong H, et al. Understanding of internal clustering validation measures[C]//Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010: 911-916.
还有一篇类似的论文在IEEE trans. 上，楼主不妨看看，也许对你了解这个问题有帮助。