24小时热门版块排行榜    

查看: 983  |  回复: 6
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

sailovego

新虫 (初入文坛)

[求助] 关于强化学习的一个问题

Q学习中的Q值更新公式为:Q t+1(st, at) = (1 - a) Qt(st, at) + [ Rt(st, at) + maxQ(st+1, ai)]
如果所有Q值初始化都为1的话,那么对于所有的Q t+1(st, at)在第二步的时候,这个公式的第一项(1 - a) Qt(st, at)是相同的,回报值Rt(st, at)是做出行为后的回报,也是相同的,而第三项也是相同的,这就导致所有的 Q t+1(st, at)都是相同的,就不能做出下一步的行为选择了.
一直被这个问题困扰,希望有懂的人给我解答一下,谢谢了

回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by dreamrequiem at 2013-03-12 12:44:16
是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?...

我之前没表达清楚,不好意思了,
我的意思是所有的状态-行为对Q的值,例如在初始化的时候都初始化为0,随机选择一个行为执行后,会产生一个Rt(st, at),那么再计算Q t+1(st, at)的时候,在st状态下的所有行为ai的Q值都是相同的了
5楼2013-03-12 19:58:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 7 个回答

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。
2楼2013-03-12 04:39:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by dreamrequiem at 2013-03-12 04:39:49
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。

Rt(st, at)不是t时刻行为at的reward吗,
3楼2013-03-12 10:26:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

引用回帖:
3楼: Originally posted by sailovego at 2013-03-12 10:26:23
Rt(st, at)不是t时刻行为at的reward吗,...

是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?
4楼2013-03-12 12:44:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 359求调剂 +3 王了个楠 2026-03-25 3/150 2026-03-25 12:50 by Dyhoer
[考研] 求调剂323材料与化工 +4 1124361 2026-03-24 4/200 2026-03-25 11:19 by shulmg
[考研] 299求调剂 +7 shxchem 2026-03-20 9/450 2026-03-25 10:41 by lbsjt
[考研] 287求调剂 +10 晨昏线与星海 2026-03-19 11/550 2026-03-25 10:35 by userper
[考研] 085404电子信息284分求调剂 +4 13659058978 2026-03-24 4/200 2026-03-24 12:15 by syl20081243
[考研] 材料与化工328分调剂 +4 。,。,。,。i 2026-03-23 4/200 2026-03-24 11:03 by 544594351
[考博] 26申博自荐 +3 whh869393 2026-03-24 3/150 2026-03-24 09:55 by 21018060
[考研] 384求调剂 +3 子系博 2026-03-22 6/300 2026-03-23 21:45 by 子系博
[考研] 269求调剂 +4 我想读研11 2026-03-23 4/200 2026-03-23 21:25 by pswait
[考研] 328求调剂 +4 LHHL66 2026-03-23 4/200 2026-03-23 14:55 by lbsjt
[考研] 308求调剂 +3 墨墨漠 2026-03-21 3/150 2026-03-22 16:54 by i_cooler
[考研] 寻找调剂 +4 倔强芒? 2026-03-21 4/200 2026-03-22 16:14 by 木托莫露露
[考研] 319求调剂 +4 小力气珂珂 2026-03-20 4/200 2026-03-22 15:53 by ColorlessPI
[考研] 一志愿华中科技大学071000,求调剂 +4 沿岸有贝壳6 2026-03-21 4/200 2026-03-22 07:21 by ilovexiaobin
[考研] 0703化学调剂 +4 妮妮ninicgb 2026-03-21 4/200 2026-03-21 18:39 by 学员8dgXkO
[考研] 一志愿深大,0703化学,总分302,求调剂 +4 七月-七七 2026-03-21 4/200 2026-03-21 18:20 by 学员8dgXkO
[考研] 311求调剂 +3 勇敢的小吴 2026-03-20 3/150 2026-03-21 17:40 by ColorlessPI
[考研] 0805材料320求调剂 +3 深海物语 2026-03-20 3/150 2026-03-21 15:46 by 无际的草原
[考研] 279求调剂 +5 红衣隐官 2026-03-21 5/250 2026-03-21 14:59 by lature00
[考研] 22408 344分 求调剂 一志愿 华电计算机技术 +4 solanXXX 2026-03-20 4/200 2026-03-20 23:49 by alg094825
信息提示
请填处理意见