24小时热门版块排行榜    

查看: 2345  |  回复: 9

gaoyanyan3

银虫 (正式写手)

[求助] 有没研究最大熵(机器学习)的朋友,帮忙看一下!

我用最大熵训练一个训练集(10000条记录,每条记录20维,即20个属性),然后对对一个测试集(1000条记录)测试,把得分最高(99.8)的测试集的一条记录再加入训练集(变为10001条记录),而测试集不变。重新训练,
结果为:
1)测试集的准确率竟然降低了,为什么呀?
   要知道我只加入一条最有可能是真的记录呀。
2)该条记录的得分(概率)竟然从99.8降到99.7, 为什么?
  这个更无法理解了,这条记录的信息量增加了,概率按理说应该增加。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cc3510050

金虫 (正式写手)

这是不是所谓的有效信息降低了
2楼2012-04-16 18:21:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyanyan3

银虫 (正式写手)

引用回帖:
2楼: Originally posted by cc3510050 at 2012-04-16 18:21:13:
这是不是所谓的有效信息降低了

不对呀,我只加一条信息,而且这条信息的得分率本身是最高的,
也就是基本是准确答案了。
3楼2012-04-16 18:37:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wsy525

金虫 (正式写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
gaoyanyan3: 金币+10, 10 2012-06-08 11:40:37
说明你之前的训练,对现在的测试数据识别效果不好
4楼2012-04-17 10:38:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyanyan3

银虫 (正式写手)

引用回帖:
4楼: Originally posted by wsy525 at 2012-04-17 10:38:33:
说明你之前的训练,对现在的测试数据识别效果不好

不对呀,整体识别效果有81%呢。
5楼2012-04-17 11:37:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyanyan3

银虫 (正式写手)

1.我用最大熵训练一个训练集(10000条记录,每条记录20维,即20个属性),然后对对一个测试集(1000条记录)测试,把得分最高(99.8)的测试集的一条记录(a1,a2,...a20),该记录的分类结果如:
B1:0.01   B2:99.8 B3:0.00  B4:0.00 B5:0.01
(其中B指分类类别,0.01指相应概率)

2.指该记录(a1,a2,...a20),加入到训练集(变为10001条记录),再训练,该记录分类结果为:B1:0.01   B2:99.7 B3:0.01 B4:0.00 B5:0.01

从理论上分析,加入这条记录a1,a2..a20等各属性做为B2的可能性增大,应该整体概率也应提高才对呀。。
哪位大哥大姐帮忙再看一下呀!
6楼2012-04-17 11:46:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyanyan3

银虫 (正式写手)

7楼2012-04-19 08:36:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

choirboy999

新虫 (初入文坛)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
gaoyanyan3: 金币+20 2012-06-08 11:40:29
这个应该是正常的吧。在机器学习算法中,有时候预测结果是有点出乎意料。比如特征维数的增加并不能带来分类精度的一定提高,交叉验证精度的提高也不总是能带来分类精度的提高。楼主将一条可信度很高的记录加入训练样本,精度没有提高我想也是这个原因,有一定的随机性,况且你加入的那条记录为真的可能性虽然极高,但只是上一次训练的判断,这次再进行训练判断时,有可能就判断为假了,这是有可能的吧。
8楼2012-04-20 09:30:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

liuzhen8936

金虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
想问个比较弱的问题,熵到底是个什么东西啊,怎么理解
做有意义的事
9楼2012-04-21 08:59:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gaoyanyan3

银虫 (正式写手)

10楼2012-04-25 16:54:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 gaoyanyan3 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 311求调剂 +5 26研0 2026-03-15 5/250 2026-03-16 16:21 by a不易
[考研] 一志愿华中师范071000,325求调剂 +6 RuitingC 2026-03-12 6/300 2026-03-16 14:50 by 可淡不可忘
[考研] 0703化学调剂 290分有科研经历,论文在投 +7 腻腻gk 2026-03-14 7/350 2026-03-16 10:12 by houyaoxu
[教师之家] 焦虑 +7 水冰月月野兔 2026-03-13 9/450 2026-03-16 10:00 by Quakerbird
[考研] 294求调剂 +3 Zys010410@ 2026-03-13 4/200 2026-03-15 10:59 by zhq0425
[考研] 255求调剂 +3 李嘉慧, 2026-03-12 4/200 2026-03-14 16:58 by 有只狸奴
[考研] 求调剂 +6 yfihxh 2026-03-09 6/300 2026-03-14 01:18 by JourneyLucky
[考研] 招收0805(材料)调剂 +3 18595523086 2026-03-13 3/150 2026-03-14 00:33 by 123%、
[考研] 求调剂,一志愿江南大学环境工程085701 +3 Djdjj12 2026-03-10 4/200 2026-03-14 00:31 by JourneyLucky
[考研] 327求调剂 +4 Ffff03 2026-03-10 4/200 2026-03-14 00:17 by JourneyLucky
[考研] 279求调剂 +3 抓着星星的女孩 2026-03-10 3/150 2026-03-13 23:47 by userper
[考研] 290求调剂 +9 ADT 2026-03-11 9/450 2026-03-13 21:55 by JourneyLucky
[考研] (081700)化学工程与技术-298分求调剂 +12 11啦啦啦 2026-03-11 35/1750 2026-03-13 21:25 by JourneyLucky
[考研] 311求调剂 +3 冬十三 2026-03-13 3/150 2026-03-13 20:41 by JourneyLucky
[硕博家园] 085600 260分求调剂 +3 天空还下雨么 2026-03-13 5/250 2026-03-13 18:46 by 天空还下雨么
[考研] 求调剂 +5 一定有学上- 2026-03-12 5/250 2026-03-13 18:31 by ms629
[考研] 化工学硕306求调剂 +9 42838695 2026-03-12 9/450 2026-03-13 10:16 by houyaoxu
[考研] 420求调剂 +4 莫向外求11 2026-03-10 6/300 2026-03-12 14:41 by ruiyingmiao
[考研] 279求调剂 +3 莫xiao 2026-03-10 4/200 2026-03-11 08:06 by 斩魂滴兔子!
[考研] 哈工大材料324求调剂 +6 闫旭东 2026-03-10 8/400 2026-03-10 22:49 by 星空星月
信息提示
请填处理意见