24小时热门版块排行榜    

查看: 904  |  回复: 6

sailovego

新虫 (初入文坛)

[求助] 关于强化学习的一个问题

Q学习中的Q值更新公式为:Q t+1(st, at) = (1 - a) Qt(st, at) + [ Rt(st, at) + maxQ(st+1, ai)]
如果所有Q值初始化都为1的话,那么对于所有的Q t+1(st, at)在第二步的时候,这个公式的第一项(1 - a) Qt(st, at)是相同的,回报值Rt(st, at)是做出行为后的回报,也是相同的,而第三项也是相同的,这就导致所有的 Q t+1(st, at)都是相同的,就不能做出下一步的行为选择了.
一直被这个问题困扰,希望有懂的人给我解答一下,谢谢了

回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。
2楼2013-03-12 04:39:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by dreamrequiem at 2013-03-12 04:39:49
Rt(st, at)为什么是相同的?
time t的reward只会用来更新Q(st,at),不影响其他state action pair的Q值。

Rt(st, at)不是t时刻行为at的reward吗,
3楼2013-03-12 10:26:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

引用回帖:
3楼: Originally posted by sailovego at 2013-03-12 10:26:23
Rt(st, at)不是t时刻行为at的reward吗,...

是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?
4楼2013-03-12 12:44:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by dreamrequiem at 2013-03-12 12:44:16
是,但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西,代表唯一的一个state action pair。何来“所有”之说?...

我之前没表达清楚,不好意思了,
我的意思是所有的状态-行为对Q的值,例如在初始化的时候都初始化为0,随机选择一个行为执行后,会产生一个Rt(st, at),那么再计算Q t+1(st, at)的时候,在st状态下的所有行为ai的Q值都是相同的了
5楼2013-03-12 19:58:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖


sailovego: 金币+1, 有帮助 2013-03-13 10:09:53
引用回帖:
5楼: Originally posted by sailovego at 2013-03-12 19:58:20
我之前没表达清楚,不好意思了,
我的意思是所有的状态-行为对Q的值,例如在初始化的时候都初始化为0,随机选择一个行为执行后,会产生一个Rt(st, at),那么再计算Q t+1(st, at)的时候,在st状态下的所有行为ai的 ...

不理解 。
单步只更新当前的Q(st, at),其他的Q(st, ai)并不改变,何以“在st状态下的所有行为ai的Q值都是相同的了”
6楼2013-03-13 03:02:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

引用回帖:
6楼: Originally posted by dreamrequiem at 2013-03-13 03:02:52
不理解 。
单步只更新当前的Q(st, at),其他的Q(st, ai)并不改变,何以“在st状态下的所有行为ai的Q值都是相同的了”...

自己想了一下,发现自己进入了一误区,现在好像想明白了,谢谢你了
7楼2013-03-13 10:09:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 sailovego 的主题更新
信息提示
请填处理意见