24小时热门版块排行榜    

查看: 978  |  回复: 6

sailovego

新虫 (初入文坛)

[求助] 关于强化学习的一个问题

Q学习中的Q值更新公式为:Q t+1(st, at) = (1 - a) Qt(st, at) + [ Rt(st, at) + maxQ(st+1, ai)]
如果所有Q值初始化都为1的话,那么对于所有的Q t+1(st, at)在第二步的时候,这个公式的第一项(1 - a) Qt(st, at)是相同的,回报值Rt(st, at)是做出行为后的回报,也是相同的,而第三项也是相同的,这就导致所有的 Q t+1(st, at)都是相同的,就不能做出下一步的行为选择了.
一直被这个问题困扰,希望有懂的人给我解答一下,谢谢了

回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。
2楼2013-03-12 04:39:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by dreamrequiem at 2013-03-12 04:39:49
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。

Rt(st, at)不是t时刻行为at的reward吗,
3楼2013-03-12 10:26:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

引用回帖:
3楼: Originally posted by sailovego at 2013-03-12 10:26:23
Rt(st, at)不是t时刻行为at的reward吗,...

是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?
4楼2013-03-12 12:44:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by dreamrequiem at 2013-03-12 12:44:16
是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?...

我之前没表达清楚,不好意思了,
我的意思是所有的状态-行为对Q的值,例如在初始化的时候都初始化为0,随机选择一个行为执行后,会产生一个Rt(st, at),那么再计算Q t+1(st, at)的时候,在st状态下的所有行为ai的Q值都是相同的了
5楼2013-03-12 19:58:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖


sailovego: 金币+1, 有帮助 2013-03-13 10:09:53
引用回帖:
5楼: Originally posted by sailovego at 2013-03-12 19:58:20
我之前没表达清楚,不好意思了,
我的意思是所有的状态-行为对Q的值,例如在初始化的时候都初始化为0,随机选择一个行为执行后,会产生一个Rt(st, at),那么再计算Q t+1(st, at)的时候,在st状态下的所有行为ai的 ...

不理解 。
单步只更新当前的Q(st, at),其他的Q(st, ai)并不改变,何以“在st状态下的所有行为ai的Q值都是相同的了”
6楼2013-03-13 03:02:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
6楼: Originally posted by dreamrequiem at 2013-03-13 03:02:52
不理解 。
单步只更新当前的Q(st, at),其他的Q(st, ai)并不改变,何以“在st状态下的所有行为ai的Q值都是相同的了”...

自己想了一下,发现自己进入了一误区,现在好像想明白了,谢谢你了
7楼2013-03-13 10:09:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 sailovego 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 294求调剂材料与化工专硕 +16 陌の森林 2026-03-18 16/800 2026-03-25 10:20 by 雾散后相遇lc
[考研] 311求调剂 +3 冬十三 2026-03-24 3/150 2026-03-24 21:31 by peike
[考研] 081700 调剂 267分 +9 迷人的哈哈 2026-03-23 9/450 2026-03-24 11:58 by 544594351
[考研] 材料与化工328分调剂 +4 。,。,。,。i 2026-03-23 4/200 2026-03-24 11:03 by 544594351
[考博] 26申博自荐 +3 whh869393 2026-03-24 3/150 2026-03-24 09:55 by 21018060
[考研] 333求调剂 +6 87639 2026-03-21 10/500 2026-03-23 10:41 by Iveryant
[考研] 280分求调剂 一志愿085802 +4 PUMPT 2026-03-22 7/350 2026-03-22 22:13 by 星空星月
[考研] 石河子大学(211、双一流)硕博研究生长期招生公告 +3 李子目 2026-03-22 3/150 2026-03-22 21:01 by 怎么释怀
[考研] 材料与化工085600,总分304,本科有两篇sci参与,求调剂 +4 幸运的酱酱 2026-03-22 5/250 2026-03-22 20:15 by edmund7
[考研] 324求调剂 +6 lucky呀呀呀鸭 2026-03-20 6/300 2026-03-22 16:01 by ColorlessPI
[考研] 298求调剂一志愿211 +3 上岸6666@ 2026-03-20 3/150 2026-03-22 15:50 by ColorlessPI
[考研] 生物学调剂 +5 Surekei 2026-03-21 5/250 2026-03-22 14:39 by tcx007
[考研] 354求调剂 +7 Tyoumou 2026-03-18 10/500 2026-03-22 11:11 by 人来盛
[考研] 材料求调剂 +5 @taotao 2026-03-21 5/250 2026-03-21 20:55 by lbsjt
[考研] 22 350 本科985求调剂,求老登收留 +3 李轶男003 2026-03-20 3/150 2026-03-21 13:28 by 搏击518
[考研] 330求调剂0854 +3 assdll 2026-03-21 3/150 2026-03-21 13:01 by 搏击518
[考研] 求调剂 +6 Mqqqqqq 2026-03-19 6/300 2026-03-21 08:04 by JourneyLucky
[考研] 304求调剂 +7 司空. 2026-03-18 7/350 2026-03-20 23:08 by JourneyLucky
[考研] 一志愿 西北大学 ,070300化学学硕,总分287,双非一本,求调剂。 +4 晨昏线与星海 2026-03-19 4/200 2026-03-20 22:15 by JourneyLucky
[考研] 一志愿苏州大学材料求调剂,总分315(英一) +5 sbdksD 2026-03-19 5/250 2026-03-20 22:10 by luoyongfeng
信息提示
请填处理意见