| 查看: 574 | 回复: 2 | |||
gotosky金虫 (小有名气)
|
[求助]
哪个分类算法恰当 已有1人参与
|
| 请教大家,想做样本分类识别,有三类样本,一类100个样本,一类只有8个样本,另外一类30个样本,30个的其实是无法确定为前两类的数据样本,样本数不均,应该用什么方法分类比较好呢? |
» 猜你喜欢
拟解决的关键科学问题还要不要写
已经有8人回复
26申博
已经有3人回复
存款400万可以在学校里躺平吗
已经有22人回复
最失望的一年
已经有4人回复
国自然申请面上模板最新2026版出了吗?
已经有19人回复
请教限项目规定
已经有3人回复
基金委咋了?2026年的指南还没有出来?
已经有10人回复
基金申报
已经有6人回复
推荐一本书
已经有13人回复
疑惑?
已经有5人回复

RobinWang92
木虫 (小有名气)
- 应助: 3 (幼儿园)
- 金币: 4770.2
- 散金: 199
- 红花: 3
- 帖子: 186
- 在线: 190小时
- 虫号: 3622797
- 注册: 2015-01-01
- 性别: GG
- 专业: 自然语言理解与机器翻译
【答案】应助回帖
★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
gotosky(conanwj代发): 金币+10 2016-09-30 23:27:27
感谢参与,应助指数 +1
gotosky(conanwj代发): 金币+10 2016-09-30 23:27:27
|
你这个问题主要是样本分布不均匀的问题。除了选用分类方法之外,还有一个很大的解决措施就是怎么去重构你的训练集。 一、具体的如何重构训练集来解决样本分布不均,应该有很多相关的论文和资料可以检索一下,我大概说一下我的理解。 1. 你的样本是图像,还是文本类数据?如果是图像,可以用平移、旋转等操作人为的扩大一下样本数目 2. 重构的核心是要么重复采样,就是不断的重复小样本,要么欠采样大样本,从你的情况来看,只能采取小样本过采样了。 二、另一方面,关于分类器的选择,主要是通过调节各类样本之间的代价函数、对于不同类的样本设置不同的权值、改变概率密度、调整分类边界等措施使其更有利于少数类的分类。 我推荐你重点看看Gradient Boost算法,Adaboost算法,Transductive SVM (TSVM)等 此外,直接学一类也是一种策略,但是由于你要分3类,这种策略可能不是那么适用。 |
2楼2016-07-01 23:41:03
gotosky
金虫 (小有名气)
- 应助: 0 (幼儿园)
- 金币: 1247.1
- 散金: 20
- 帖子: 106
- 在线: 38.3小时
- 虫号: 889139
- 注册: 2009-10-30
- 性别: GG
- 专业: 交通工程
|
谢谢指导,样本都是分类变量,虽然少但是也是全样本,不同于信号,不知道您说的平移旋转,小样本过采样是否满足,直接学一类算什么,回归?应该可以学,只是不好解释 发自小木虫Android客户端 |

3楼2016-07-02 01:24:41













回复此楼