24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2034  |  回复: 8

prettyfarmer

新虫 (初入文坛)


[交流] 对声音信号在svm里识别,识别率能达到100%,这样的结果正常么?

最近在对一维信号识别,包括声音信号
后期分类识别使用的是libSVM,发现识别效果都很高,基本上98%以上。
有一些识别率低的,对训练数据人工选取和对svm参数寻优调整后,也能上升到90%-100%。
这样的结果正常么? 会不会太高了
本人用的测试数据是和训练数据不同的。
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

chentianyu1

木虫 (小有名气)


★ ★ ★
prettyfarmer(金币+1): 谢谢参与
prettyfarmer: 金币+2 2012-12-08 13:24:38
判断方法很简单,拿一组真实的数据,用你训练出的模型分类一下,如果依然正确率很高,那么就没问题了。
可能存在的问题是,你数据本身的类内误差很小、类间误差很大,或者测试集与训练集太接近。
举例来说,假设是根据输入的声音文件分析场景,一个场景是卧室,另一个场景是街道,这个通过分贝平均值的特征进行分类显然正确率99%以上很正常,这就属于数据本身类内误差小类间误差大,出现这种情况可能说明你的分类问题很简单,或者你为某个较难的分类问题找到了很好的描述特征。
同样是这个声音分析场景的问题,假如你要通过声音数据区分会议室和化学实验室,这个显然分类效果应该比较差。但是,如果你采集的数据中会议室都是女性讲话的声音,实验室都是男性讲话的声音,则问题退化为男声女声分类,使用声音平均频率作为特征值,也很可能正确率超过90%。然而,这时候你重新采集另外一组会议室、实验室的声音测试,就会发现这个分类器完全不适用,这就是由你的测试集与训练集太接近造成的。
2楼2012-12-07 16:14:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

prettyfarmer

新虫 (初入文坛)


引用回帖:
2楼: Originally posted by chentianyu1 at 2012-12-07 16:14:58
判断方法很简单,拿一组真实的数据,用你训练出的模型分类一下,如果依然正确率很高,那么就没问题了。
可能存在的问题是,你数据本身的类内误差很小、类间误差很大,或者测试集与训练集太接近。
举例来说,假设是 ...

so~ga~  谢谢哦 ~~ 我再测试
3楼2012-12-08 13:24:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dsigma

铜虫 (初入文坛)



prettyfarmer(金币+1): 谢谢参与
我个人认为训练数据和测试数据的选取理应符合同一场景,不然训练的意义何在?所以,只要你使用了优秀的分类算法,并且选取了有效的训练数据,那么恭喜你!
对于不同场景的识别是这个分类器以外的课题了
5楼2012-12-10 22:15:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

爱红茶的猫

木虫 (小有名气)



小木虫: 金币+0.5, 给个红包,谢谢回帖
不知道楼主采用什么特征训练模型的,是否可以考虑更多的情况,如高频率,低频率,带不同种类噪声的数据。另外,如果训练数据和测试数据特征接近的话,99%或100%都是有可能的。
6楼2012-12-11 01:12:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

prettyfarmer

新虫 (初入文坛)


引用回帖:
6楼: Originally posted by 爱红茶的猫 at 2012-12-11 01:12:05
不知道楼主采用什么特征训练模型的,是否可以考虑更多的情况,如高频率,低频率,带不同种类噪声的数据。另外,如果训练数据和测试数据特征接近的话,99%或100%都是有可能的。

谢谢指点的~~再请教下,出现这种情况后 我在论文里 能直接写 识别结果能达到这么高么?? 一般要多少测试数据 才会让这种结果比较可靠呢??
7楼2013-02-15 04:33:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

prettyfarmer

新虫 (初入文坛)


引用回帖:
2楼: Originally posted by chentianyu1 at 2012-12-07 16:14:58
判断方法很简单,拿一组真实的数据,用你训练出的模型分类一下,如果依然正确率很高,那么就没问题了。
可能存在的问题是,你数据本身的类内误差很小、类间误差很大,或者测试集与训练集太接近。
举例来说,假设是 ...

再请教下,出现这种情况后 我在论文里 能直接写 识别结果能达到这么高么?? 一般要多少测试数据 才会让这种结果比较可靠呢??
8楼2013-02-15 04:33:47
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

爱红茶的猫

木虫 (小有名气)



小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
7楼: Originally posted by prettyfarmer at 2013-02-15 04:33:17
谢谢指点的~~再请教下,出现这种情况后 我在论文里 能直接写 识别结果能达到这么高么?? 一般要多少测试数据 才会让这种结果比较可靠呢??...

我一般是用 cross validation,将数据分成2组,一组训练,另一组测试。分组的时候可以采用随机分组,避免重复情况。
9楼2013-02-16 00:10:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
简单回复
2012-12-08 20:10   回复  
prettyfarmer(金币+1): 谢谢参与
相关版块跳转 我要订阅楼主 prettyfarmer 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见