版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

xmcrobbie

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 868.2
红花: 2
帖子: 262
在线: 27小时
虫号: 2625854
注册: 2013-08-30
性别: GG
专业: 模式识别

[求助] kmeans聚类的问题请教！已有2人参与

每类训练样本约200多不等，如果只选用其中的两类进行kmeans自动聚类，准确率会相对的高。但是如果把所有的18类样本进行自动聚类。正确率不到3%。难道样本类型越多，每类所需要的样本个数越多码？

回复此楼

» 猜你喜欢

求调剂已经有4人回复
一志愿郑大材料学硕298分，求调剂已经有5人回复
材料学硕318求调剂已经有12人回复
材料化工调剂已经有13人回复
材料学硕318求调剂已经有5人回复
292求调剂已经有6人回复
0856材料与化工，270求调剂已经有6人回复
江苏省农科院招调剂1名已经有3人回复
0854复试调剂 276 已经有3人回复
265分求调剂不调专业和学校有行学上就已经有8人回复

» 本主题相关价值贴推荐，对您同样有帮助:

请教一个聚类的问题已经有32人回复
土地利用的栅格影像如何进行空间聚类已经有5人回复
K均值聚类matlab算法完善版已经有321人回复
请教各位，聚类分析图和系统发生树有什么区别？已经有5人回复
【求助】kmeans函数错误：Empty cluster created at iteration 1 已经有7人回复

1楼 2014-01-09 02:01:19

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

youth0826

至尊木虫 (著名写手)

weibo.com/138147022

应助: 172 (高中生)
金币: 10458.4
散金: 145
红花: 4
帖子: 1726
在线: 149.4小时
虫号: 707170
注册: 2009-02-23
专业: 模式识别

【答案】应助回帖

感谢参与，应助指数 +1

kmeans只是无监督聚类，没有正确率的说法。。。

[ 发自手机版 http://muchong.com/3g ]

赞一下

回复此楼

QQ群：202610705，关注计算机视觉，模式识别，模式分析，机器学习，人工智能，统计学习，图像处理等，欢迎加入！

2楼2014-01-09 07:08:41

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

xmcrobbie

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 868.2
红花: 2
帖子: 262
在线: 27小时
虫号: 2625854
注册: 2013-08-30
性别: GG
专业: 模式识别

引用回帖:

2楼: Originally posted by youth0826 at 2014-01-09 07:08:41
kmeans只是无监督聚类，没有正确率的说法。。。

kmeans是无监督聚类，但是把聚类结果和它的label对照一下不就可以知道正确率了吗？

赞一下

回复此楼

3楼2014-01-09 08:02:00

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

fhjianke

金虫 (初入文坛)

应助: 6 (幼儿园)
金币: 7828.5
帖子: 36
在线: 219.7小时
虫号: 549512
注册: 2008-04-21
专业: 通信与信息系统/视频编码

什么是无监督什么是监督你分清楚了么。。。

赞一下

回复此楼

4楼2014-01-09 10:23:29

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

xmcrobbie

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 868.2
红花: 2
帖子: 262
在线: 27小时
虫号: 2625854
注册: 2013-08-30
性别: GG
专业: 模式识别

引用回帖:

4楼: Originally posted by fhjianke at 2014-01-09 10:23:29
什么是无监督什么是监督你分清楚了么。。。

没有参照，你怎么知道自动聚类算法的好坏，纯粹靠测试样本吗？我觉得没必要被名词套住！

[ 发自小木虫客户端 ]

赞一下

回复此楼

5楼2014-01-09 11:10:34

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

摘星者

铁杆木虫 (正式写手)

应助: 27 (小学生)
金币: 8207.2
散金: 50
红花: 4
帖子: 397
在线: 506.3小时
虫号: 494941
注册: 2008-01-14
专业: 人工智能与知识工程

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与，应助指数 +1
xmcrobbie: 金币+5, ★★★★★最佳答案 2014-01-09 16:57:13

首先，k-means(KM)确实有准确率的说法，这是一种外部指标。所谓的无监督不过是指在聚类过程中没用使用到标签之类的信息而已。

然后是楼主的问题。我没有看过你使用的是什么样子的数据集。但是把所有的18类样本进行自动聚类正确率下降并不奇怪。你说的自动聚类是指不指定聚类数吗？要算法自己找到合适的聚类数并不容易。即便指定聚类数，类别多了正确率也容易下降。

KM只适用于每类样本在空间中分布呈超球体且超球中心间的距离明显大于超球半径的情况。当这些条件不满足的时候，很容易出现错分。楼主仅仅选择两类样本，这些样本在空间中的分布比较容易满足KM的要求，故准确率较高。18类样本放在一起，相互影响之下准确率自然就低了。

Liu Y, Li Z, Xiong H, et al. Understanding of internal clustering validation measures[C]//Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010: 911-916.
还有一篇类似的论文在IEEE trans. 上，楼主不妨看看，也许对你了解这个问题有帮助。

赞一下(5人)

回复此楼

6楼2014-01-09 14:39:09

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

xmcrobbie

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 868.2
红花: 2
帖子: 262
在线: 27小时
虫号: 2625854
注册: 2013-08-30
性别: GG
专业: 模式识别

引用回帖:

6楼: Originally posted by 摘星者 at 2014-01-09 14:39:09
首先，k-means(KM)确实有准确率的说法，这是一种外部指标。所谓的无监督不过是指在聚类过程中没用使用到标签之类的信息而已。

然后是楼主的问题。我没有看过你使用的是什么样子的数据集。但是把所有的18类样本进 ...

太感谢了，这是最有价值的回复，我只是想用这种办法看看聚类的结果和期待的结果差别大不大！

[ 发自小木虫客户端 ]

赞一下

回复此楼

7楼2014-01-09 16:56:20

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

fhjianke

金虫 (初入文坛)

应助: 6 (幼儿园)
金币: 7828.5
帖子: 36
在线: 219.7小时
虫号: 549512
注册: 2008-04-21
专业: 通信与信息系统/视频编码

引用回帖:

5楼: Originally posted by xmcrobbie at 2014-01-09 11:10:34
没有参照，你怎么知道自动聚类算法的好坏，纯粹靠测试样本吗？我觉得没必要被名词套住！
...

我只是觉得，直接拿样本丢到k-means里面做，不同类样本之间的区分程度随着种类增多直觉上就会下降，样本在这个场景里面根本没起到监督学习里面样本的作用，扩大样本个数也应该不会有啥用。。。
楼下说的k-means的适应场景特点之类的，倒是确实没有考虑到，学习了~

赞一下

回复此楼

8楼2014-01-10 13:45:11

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

丁云

铁虫 (小有名气)

应助: 0 (幼儿园)
金币: 666.8
红花: 1
帖子: 243
在线: 9.9小时
虫号: 2301402
注册: 2013-02-26
性别: GG
专业: 计算机科学的基础理论

引用回帖:

你好，摘星者，我想问一下，在做k-means聚类的时候，是直接对原始数据直接聚类呢，还是说在需要进行第一步：归一化第二步：主成分分析之类的操作，取得的效果会更佳呢？还是说要进行聚类的原始矩阵有什么符合的要求才能进行k-means呢？？

赞一下

回复此楼

做难事必有所得！

9楼2016-03-15 10:54:11

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

摘星者

铁杆木虫 (正式写手)

应助: 27 (小学生)
金币: 8207.2
散金: 50
红花: 4
帖子: 397
在线: 506.3小时
虫号: 494941
注册: 2008-01-14
专业: 人工智能与知识工程

引用回帖:

9楼: Originally posted by 丁云 at 2016-03-15 10:54:11
你好，摘星者，我想问一下，在做k-means聚类的时候，是直接对原始数据直接聚类呢，还是说在需要进行第一步：归一化第二步：主成分分析之类的操作，取得的效果会更佳呢？还是说要进行聚类的原始矩阵有什么符合的 ...

首先是归一化的问题。归一化是因为各个属性的取值区间大小不一致，而km算法是基于距离的聚类方法。因此，在不为属性添加权值的情况下，如果有个别属性的区间跨度明显大于其它属性，那么这些属性将成为距离的主要因素，导致其它属性被忽略。归一化使所有属性能公平地比较，所以聚类前进行归一化是有理由的。归一化有可能能使得聚类算法得到更好的效果，但不是绝对的。结合km的适用情况，如果在归一化前样本的分布呈超球体，归一化后可能就会变成一个椭球体，聚类效果就可能变差。反过来，归一化前呈椭球体分布，归一化后有可能变成超球体，聚类效果就可能变好。因此，不能一概而论。

主成分分析的问题。这是一种降维方法，被提取的主成分是样本分布差异大的方向。主成分分析法不是必须的，一般会在需要降维的时候使用。虽然主成分分析法的降维效果相当出色，但也有很明显的不足。通过主成分分析获取的新属性会失去原有的现实意义，也就是说，属性的可解释性会降低。如果在你的应用中属性的可解释性是重要的，为属性添加权值，即子空间聚类，是一个可以考虑的选择。无论选择哪一种方法，都能一定程度上去除冗余、不相关属性对聚类的影响，有可能提高聚类效果。但是，这是从排除干扰的角度上得到的结论，虽然这两种方法都有提高聚类效果的研究成果，并没有严格证明这种提升是绝对的，至少我没有看到这样的推导。

只要数据集是通过数据矩阵的方式给出，即给出各样本在各个属性上的值，就可以使用km算法。然而，要取得好的聚类效果，最理想的状态是各类样本分布呈超球体，且两个超球体相互远离（球心距离大于两个超球体中半径较大一个的半径的两倍）。这是因为，km算法对样本进行划分时实际上是对样本空间进行分割，分割面通过聚类中心连心线中点且与连心线垂直。显然，对于两个聚类中心间的样本空间而言，这种分割是均匀的。在上述的分布下，各类样本不会跨越分割面导致误分。当然，这不是不导致误分的必要条件。只要各类样本相隔足够远，分布不是超球体也是可以的。

赞一下

回复此楼

10楼2016-03-16 22:32:45

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 xmcrobbie 的主题更新

返回列表

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[考研] 一志愿郑大材料学硕298分，求调剂 +5	wsl111 2026-03-01	5/250	2026-03-01 23:45 by 暮雨星晴
[考研] 材料化工调剂 +12	今夏不夏 2026-03-01	13/650	2026-03-01 23:32 by L135790
[考研] 292求调剂 +6	yhk_819 2026-02-28	6/300	2026-03-01 23:23 by 向上的胖东
[考研] 26考研报考西工大材料308分求调剂 +3	weizhong123 2026-03-01	3/150	2026-03-01 21:42 by 公瑾逍遥
[考研] 0856求调剂285 +10	吕仔龙 2026-02-28	10/500	2026-03-01 21:37 by 公瑾逍遥
[考研] 299求调剂 +3	Y墨明棋妙Y 2026-02-28	5/250	2026-03-01 21:01 by tangxiaotian
[考研] 306分材料调剂 +4	chuanzhu川烛 2026-03-01	5/250	2026-03-01 19:48 by 无际的草原
[考研] 化工299分求调剂一志愿985落榜 +5	嘻嘻(^ω^) 2026-03-01	5/250	2026-03-01 19:47 by 无际的草原
[考研] 0856材料求调剂 +11	hyf hyf hyf 2026-02-28	12/600	2026-03-01 18:57 by 18137688336
[考研] 291分工科求调剂 +9	science饿饿 2026-03-01	10/500	2026-03-01 18:55 by 18137688336
[考博] 26申博 +4	想申博！ 2026-02-26	6/300	2026-03-01 17:32 by 想申博！
[考研] 290求调剂 +9	材料专硕调剂； 2026-02-28	11/550	2026-03-01 17:21 by sunny81
[考研] 321求调剂一志愿东北林业大学材料与化工英二数二 +4	虫虫虫虫虫7 2026-03-01	7/350	2026-03-01 16:52 by caszguilin
[考研] 307求调剂 +5	wyyyqx 2026-03-01	5/250	2026-03-01 15:21 by Fff-1
[考研] 304求调剂 +6	曼殊2266 2026-02-28	7/350	2026-03-01 15:14 by wjLi2017
[考研] 课题组接收材料类调剂研究生 +3	gaoxiaoniuma 2026-02-28	4/200	2026-03-01 14:30 by jjj三跨
[考研] 调剂 +3	简木ChuFront 2026-02-28	3/150	2026-03-01 11:46 by 王伟要上岸啊
[硕博家园] 2025届双非化工硕士毕业，申博 +3	更多的是 2026-02-27	4/200	2026-03-01 10:04 by ztg729
[基金申请] 面上模板改不了页边距吧？ +5	ieewxg 2026-02-25	6/300	2026-03-01 00:10 by addressing
[考研] 276求调剂 +3	路lyh123 2026-02-28	4/200	2026-02-28 19:45 by 路lyh123

24小时热门版块排行榜

[求助] kmeans聚类的问题请教！ 已有2人参与

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

【答案】应助回帖

【答案】应助回帖

[求助] kmeans聚类的问题请教！已有2人参与