24小时热门版块排行榜    

查看: 568  |  回复: 2

gotosky

金虫 (小有名气)

[求助] 哪个分类算法恰当 已有1人参与

请教大家,想做样本分类识别,有三类样本,一类100个样本,一类只有8个样本,另外一类30个样本,30个的其实是无法确定为前两类的数据样本,样本数不均,应该用什么方法分类比较好呢?
回复此楼
佛在心中,用心生活
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

RobinWang92

木虫 (小有名气)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
gotosky(conanwj代发): 金币+10 2016-09-30 23:27:27
你这个问题主要是样本分布不均匀的问题。除了选用分类方法之外,还有一个很大的解决措施就是怎么去重构你的训练集。
一、具体的如何重构训练集来解决样本分布不均,应该有很多相关的论文和资料可以检索一下,我大概说一下我的理解。
1. 你的样本是图像,还是文本类数据?如果是图像,可以用平移、旋转等操作人为的扩大一下样本数目
2. 重构的核心是要么重复采样,就是不断的重复小样本,要么欠采样大样本,从你的情况来看,只能采取小样本过采样了。
二、另一方面,关于分类器的选择,主要是通过调节各类样本之间的代价函数、对于不同类的样本设置不同的权值、改变概率密度、调整分类边界等措施使其更有利于少数类的分类。
我推荐你重点看看Gradient Boost算法,Adaboost算法,Transductive SVM (TSVM)等
此外,直接学一类也是一种策略,但是由于你要分3类,这种策略可能不是那么适用。
2楼2016-07-01 23:41:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gotosky

金虫 (小有名气)

谢谢指导,样本都是分类变量,虽然少但是也是全样本,不同于信号,不知道您说的平移旋转,小样本过采样是否满足,直接学一类算什么,回归?应该可以学,只是不好解释

发自小木虫Android客户端
佛在心中,用心生活
3楼2016-07-02 01:24:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 gotosky 的主题更新
信息提示
请填处理意见