24小时热门版块排行榜    

查看: 985  |  回复: 6

sailovego

新虫 (初入文坛)

[求助] 关于强化学习的一个问题

Q学习中的Q值更新公式为:Q t+1(st, at) = (1 - a) Qt(st, at) + [ Rt(st, at) + maxQ(st+1, ai)]
如果所有Q值初始化都为1的话,那么对于所有的Q t+1(st, at)在第二步的时候,这个公式的第一项(1 - a) Qt(st, at)是相同的,回报值Rt(st, at)是做出行为后的回报,也是相同的,而第三项也是相同的,这就导致所有的 Q t+1(st, at)都是相同的,就不能做出下一步的行为选择了.
一直被这个问题困扰,希望有懂的人给我解答一下,谢谢了

回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。
2楼2013-03-12 04:39:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by dreamrequiem at 2013-03-12 04:39:49
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。

Rt(st, at)不是t时刻行为at的reward吗,
3楼2013-03-12 10:26:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

引用回帖:
3楼: Originally posted by sailovego at 2013-03-12 10:26:23
Rt(st, at)不是t时刻行为at的reward吗,...

是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?
4楼2013-03-12 12:44:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by dreamrequiem at 2013-03-12 12:44:16
是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?...

我之前没表达清楚,不好意思了,
我的意思是所有的状态-行为对Q的值,例如在初始化的时候都初始化为0,随机选择一个行为执行后,会产生一个Rt(st, at),那么再计算Q t+1(st, at)的时候,在st状态下的所有行为ai的Q值都是相同的了
5楼2013-03-12 19:58:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖


sailovego: 金币+1, 有帮助 2013-03-13 10:09:53
引用回帖:
5楼: Originally posted by sailovego at 2013-03-12 19:58:20
我之前没表达清楚,不好意思了,
我的意思是所有的状态-行为对Q的值,例如在初始化的时候都初始化为0,随机选择一个行为执行后,会产生一个Rt(st, at),那么再计算Q t+1(st, at)的时候,在st状态下的所有行为ai的 ...

不理解 。
单步只更新当前的Q(st, at),其他的Q(st, ai)并不改变,何以“在st状态下的所有行为ai的Q值都是相同的了”
6楼2013-03-13 03:02:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
6楼: Originally posted by dreamrequiem at 2013-03-13 03:02:52
不理解 。
单步只更新当前的Q(st, at),其他的Q(st, ai)并不改变,何以“在st状态下的所有行为ai的Q值都是相同的了”...

自己想了一下,发现自己进入了一误区,现在好像想明白了,谢谢你了
7楼2013-03-13 10:09:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 sailovego 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 各位老师您好:本人初试372分 +5 jj涌77 2026-03-25 6/300 2026-03-25 14:15 by mapenggao
[考研] 085600材料与化工调剂 +9 A-哆啦Z梦 2026-03-23 15/750 2026-03-25 11:18 by Ainin_
[考研] 考研化学308分求调剂 +10 你好明天你好 2026-03-23 11/550 2026-03-25 10:23 by userper
[考研] B区考研调剂 +4 yqdszhdap- 2026-03-22 5/250 2026-03-25 08:51 by baoball
[考研] 上海电力大学材料防护与新材料重点实验室招收调剂研究生(材料、化学、电化学,环境) +4 我爱学电池 2026-03-23 4/200 2026-03-25 00:59 by 1027_324
[考研] 307求调剂 +5 超级伊昂大王 2026-03-24 5/250 2026-03-24 15:46 by 星空星月
[考研] 材料与化工328分调剂 +4 。,。,。,。i 2026-03-23 4/200 2026-03-24 11:03 by 544594351
[考研] 环境学硕288求调剂 +8 皮皮皮123456 2026-03-22 8/400 2026-03-23 23:47 by 热情沙漠
[考研] 384求调剂 +3 子系博 2026-03-22 6/300 2026-03-23 21:45 by 子系博
[考研] 336化工调剂 +4 王大坦1 2026-03-23 5/250 2026-03-23 18:32 by allen-yin
[考研] 一志愿上海交大生物与医药专硕324分,求调剂 +5 jiajunX 2026-03-22 5/250 2026-03-23 18:07 by YMU施老师
[考研] 工科0856求调剂 +5 沐析汀汀 2026-03-21 5/250 2026-03-23 17:56 by 海瑟薇-
[考研] 求老师收我 +3 zzh16938784 2026-03-23 3/150 2026-03-23 12:56 by ztnimte
[考研] 280分求调剂 一志愿085802 +4 PUMPT 2026-03-22 7/350 2026-03-22 22:13 by 星空星月
[考研] 275求调剂 +6 shansx 2026-03-22 8/400 2026-03-22 15:27 by barlinike
[考研] 初试 317 +7 半拉月丙 2026-03-20 7/350 2026-03-21 22:26 by peike
[考研] 330求调剂0854 +3 assdll 2026-03-21 3/150 2026-03-21 13:01 by 搏击518
[考研] 321求调剂 +9 何润采123 2026-03-18 11/550 2026-03-20 23:19 by JourneyLucky
[考研] 求调剂一志愿南京航空航天大学289分 +3 @taotao 2026-03-19 3/150 2026-03-20 21:34 by JourneyLucky
[考研] 295材料求调剂,一志愿武汉理工085601专硕 +5 Charlieyq 2026-03-19 5/250 2026-03-20 20:35 by JourneyLucky
信息提示
请填处理意见