24小时热门版块排行榜    

查看: 2831  |  回复: 4

choirboy999

新虫 (初入文坛)


[交流] 关于SVM训练样本的数量与选取问题

看了好多贴子,还是不太明白。如果我要对100000个点进行分类,分5类。那么我的训练样本选取多少合适呢?每个类别平均选取还是怎样?另外,在选取样本时有没有什么讲究呢?是手动选取吗?有没有自动选取算法?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yuanmd

至尊木虫 (知名作家)



小木虫: 金币+0.5, 给个红包,谢谢回帖
训练样本选的一样好处理一些。样本随机选取比较好,训练和测试样本要没有重叠。。。随机产生选取方法,多次求平均。。。
2楼2012-04-20 22:54:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

liuzhen8936

金虫 (正式写手)



小木虫: 金币+0.5, 给个红包,谢谢回帖
关键是选取有代表性的样本,SVM对于小样本的训练数据,效果还是比较好的,关键是训练样本的质量要好!反而,当选取了较多的样本作为训练数据,效果可能会不好,容易出现过学习的情况。
3楼2012-04-22 23:45:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

choirboy999

新虫 (初入文坛)


引用回帖:
2楼: Originally posted by yuanmd at 2012-04-20 22:54:15:
训练样本选的一样好处理一些。样本随机选取比较好,训练和测试样本要没有重叠。。。随机产生选取方法,多次求平均。。。

训练样本和测试样本一定要没有重叠吗?如果从100个总体样本中选10个做为训练样本,预测的时候是不是只能对剩下的90个样本进行预测?如果对100个样本(包含10个训练样本)进行预测会出现什么样的结果?
4楼2012-04-25 13:04:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yuanmd

至尊木虫 (知名作家)



小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
4楼: Originally posted by choirboy999 at 2012-04-25 13:04:04:
训练样本和测试样本一定要没有重叠吗?如果从100个总体样本中选10个做为训练样本,预测的时候是不是只能对剩下的90个样本进行预测?如果对100个样本(包含10个训练样本)进行预测会出现什么样的结果?

感觉不应该重叠。。。
如果完全重叠的话,就相当于对训练样本进行分类,那识别率是100%,毫无意义,没有推广能力啊
5楼2012-04-25 23:10:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 choirboy999 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见