24小时热门版块排行榜

返回列表

当前只显示满足指定条件的回帖，点击这里查看本话题的所有回帖

iverson闫

木虫 (初入文坛)

应助: 0 (幼儿园)
金币: 6922.5
帖子: 29
在线: 12.2小时
虫号: 1092229
注册: 2010-09-07
专业: 管理科学与工程

[求助] 支持向量机分类精度和样本数量大小的关系

1.对于机器学习，一般来说，样本数量越大训练出来的分类器分类正确率越高。
可是支持向量机对于大样本分类效率下降，占用内存高。这会不会影响到支持向量机对样本数量多时的准确率？
相同实验环境下，会不会产生200个样本训练出来的SVM要优于600个样本训练出来的SVM这种情况，还是一定是1000个样本训练结果好于800的好于600的？

2.对于这个问题，我用陆振波教授的工具箱在UCI数据集tic-tac-toe上做了模拟实验，结果显示200数据量训练出来的SVM最好，优于 900数据量训练出来的SVM，优于600数据量训练出来的SVM。
这是为什么？难道真的是支持向量机相当于只有一个神经元而记不住太大数据？还是我实验过程中产生了错误？还是我的参数设置不对？

以上两个问题，跪求大神解答！

回复此楼

» 猜你喜欢

收到国自然专家邀请后几年才会有本子送过来评已经有4人回复
考博已经有5人回复
26年申博自荐-计算机视觉已经有4人回复
药化及相关博士的申请已经有3人回复
一篇MDPI论文改变了学习工作和生活已经有4人回复
一个化合物的合成路线：CAS:367929-02-0 名称：8β-乙烯基雌二醇已经有4人回复
中国地质大学（北京）博士招生补录，数理学院材料科学与工程专业和材料与化工专业已经有3人回复

1楼 2013-03-16 16:45:03

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

orcimbalance

木虫 (著名写手)

应助: 22 (小学生)
金币: 2057.1
散金: 937
红花: 3
帖子: 1306
在线: 428.9小时
虫号: 1401449
注册: 2011-09-14
性别: GG
专业: 计算机体系结构

【答案】应助回帖

★ ★
感谢参与，应助指数 +1
webbery: 金币+2, 感谢经验分享 2013-03-19 07:54:21

样本越大只是使SVM的训练速度变慢，不是说样本越大越容易导致精确度下降，像你这种情况可能是数据量增大，导致数据偏斜，从而使学习得到的分类器产生了误差。前面好多同学说到，过拟合问题，其实SVM是很完美的解决了过拟合问题的，在SVM的优化过程中，其实已经加了入了惩罚变量C来解决过拟合问题，通过对训练样本几倍交叉验证来调节C及不同核函数的相关参数，也就是说训练样本中经过这个过程，产生的支持向量有的在超平（曲）面上，有的在两个超平（曲）面之间，后者就是为了解决过拟合而“牺牲”掉的。总之，我觉得是你的训练样本增大，然后其中一部分类别数量大幅增加，而存在另一部分的类随着样本数量增加而变化不大，即随着加入大量数据产生的数据偏斜问题。