24小时热门版块排行榜

>论坛更新日志 (4481)
>基金申请 (535)
>文献求助 (318)
>虫友互识 (294)
>休闲灌水 (235)
>导师招生 (208)
>硕博家园 (202)
>论文投稿 (138)
>考研 (109)
>考博 (104)
>公派出国 (76)
>教师之家 (75)
>博后之家 (65)
>论文道贺祈福 (65)
>招聘信息布告栏 (40)
>SciFinder/Reaxys (37)

返回列表

gotosky

金虫 (小有名气)

应助: 0 (幼儿园)
金币: 1247.1
散金: 20
帖子: 106
在线: 38.3小时
虫号: 889139
注册: 2009-10-30
性别: GG
专业: 交通工程

[求助] 哪个分类算法恰当已有1人参与

请教大家，想做样本分类识别，有三类样本，一类100个样本，一类只有8个样本，另外一类30个样本，30个的其实是无法确定为前两类的数据样本，样本数不均，应该用什么方法分类比较好呢？

回复此楼

» 猜你喜欢

佛在心中，用心生活

1楼 2016-06-30 23:50:59

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

RobinWang92

木虫 (小有名气)

应助: 3 (幼儿园)
金币: 4770.2
散金: 199
红花: 3
帖子: 186
在线: 190小时
虫号: 3622797
注册: 2015-01-01
性别: GG
专业: 自然语言理解与机器翻译

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与，应助指数 +1
gotosky(conanwj代发): 金币+10 2016-09-30 23:27:27

你这个问题主要是样本分布不均匀的问题。除了选用分类方法之外，还有一个很大的解决措施就是怎么去重构你的训练集。
一、具体的如何重构训练集来解决样本分布不均，应该有很多相关的论文和资料可以检索一下，我大概说一下我的理解。
1. 你的样本是图像，还是文本类数据？如果是图像，可以用平移、旋转等操作人为的扩大一下样本数目
2. 重构的核心是要么重复采样，就是不断的重复小样本，要么欠采样大样本，从你的情况来看，只能采取小样本过采样了。
二、另一方面，关于分类器的选择，主要是通过调节各类样本之间的代价函数、对于不同类的样本设置不同的权值、改变概率密度、调整分类边界等措施使其更有利于少数类的分类。
我推荐你重点看看Gradient Boost算法，Adaboost算法，Transductive SVM (TSVM)等
此外，直接学一类也是一种策略，但是由于你要分3类，这种策略可能不是那么适用。