24小时热门版块排行榜    

CyRhmU.jpeg
查看: 757  |  回复: 4
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

yzx405311728

[交流] 【讨论】算法探讨:K-均值聚类怎样自动确定K值已有2人参与

最近在研究K均值算法,将其用于一个数据集的分类。但是,K均值缺点限制了有效利用。我对我要处理的数据集并不知道能够分几类,也就是K值未知,我不想手动输入K值进行分类。我打算用其他算法改进,不知道如何入手。大家可以探讨一下啊!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lghit

铁杆木虫 (著名写手)

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
haixing2008(金币+1):多谢交流! 2010-04-09 14:59
哦,这要看你选的是什么代价函数了。如果选择的是类间距离的话,那随着K增加,代价函数肯定要增加呀。
4楼2010-04-09 10:16:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 5 个回答

lghit

铁杆木虫 (著名写手)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
waveact(金币+2):谢谢帮助 2010-04-09 10:00
目前对K值的选取没有理论上的依据,有些文献引入了自定义的代价函数,对K值进行寻优;也有人通过和其他方法结合,比如SOM,来预先确定K值,但我觉得这些并没取得有价值的成果。个人认为对于一个未知类数的数据进行分类,应参考这组数据的物理意义,如工程背景等,在一个范围内搜索,或许有些工程意义。这也是数据挖掘方向一个悬而未决的问题,大家一起探讨吧。
2楼2010-04-09 09:46:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yzx405311728

引用回帖:
Originally posted by lghit at 2010-04-09 09:46:25:
目前对K值的选取没有理论上的依据,有些文献引入了自定义的代价函数,对K值进行寻优;也有人通过和其他方法结合,比如SOM,来预先确定K值,但我觉得这些并没取得有价值的成果。个人认为对于一个未知类数的数据进行 ...

是的,我也看到文献中引入代价函数进行对K寻优,我也是试着做了,就是把K选在一个范围内循环,每个K值对应一个代价函数值,然后寻找代价函数的最小值,但是发现代价函数是随着K的增加而递增。不知是何原因?
3楼2010-04-09 10:00:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yzx405311728


haixing2008(金币+1):鼓励一下! 2010-04-09 14:59
mgflyx_001:欢迎交流! 2010-04-09 21:03
引用回帖:
Originally posted by lghit at 2010-04-09 10:16:38:
哦,这要看你选的是什么代价函数了。如果选择的是类间距离的话,那随着K增加,代价函数肯定要增加呀。

你QQ多少?向你请教一下!
我的是405311728
5楼2010-04-09 10:38:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复(可上传附件)
信息提示
请填处理意见