版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

sailovego

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 346.5
帖子: 12
在线: 6.4小时
虫号: 2317051
注册: 2013-03-04
专业: 控制理论与方法

[求助] 关于强化学习的一个问题

Q学习中的Q值更新公式为：Q t+1(st, at) = (1 - a) Qt(st, at) + [ Rt(st, at) + maxQ(st+1, ai)]
如果所有Q值初始化都为1的话，那么对于所有的Q t+1(st, at)在第二步的时候，这个公式的第一项(1 - a) Qt(st, at)是相同的，回报值Rt(st, at)是做出行为后的回报，也是相同的，而第三项也是相同的，这就导致所有的 Q t+1(st, at)都是相同的，就不能做出下一步的行为选择了.
一直被这个问题困扰，希望有懂的人给我解答一下，谢谢了

回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐，对您同样有帮助:

名师教学思想与教法研究—《课堂教学常见问题处理技能强化训练》【转载】已经有283人回复
请教关于考研准备后期英语学习的问题已经有11人回复
请教数学学习规划问题已经有8人回复
关于托福报班的一个问题已经有6人回复
我想问个问题，怎么才能克服在听英语的时候自动翻译，如果不翻译就听不懂的现象呀已经有8人回复
关于简历中学习和工作的时间连续性问题已经有9人回复
求助：机器学习和模式识别领域的一个基本问题已经有5人回复
申请博后关于提供学习成绩单的问题已经有13人回复
一篇关于基于强化学习的跟踪算法请问投哪些SCI期刊好中？感谢已经有4人回复
请教关于粉末冶金法制备颗粒弥散强化铜基复合材料工艺中的成型剂和润滑剂问题已经有7人回复
【专题】学习生物专业的人的工作问题已经有33人回复
【求助】关于时效强化问题。已经有12人回复
【问题求助】怎么才能让我快快的进入学习状态啊已经有39人回复
【问题求助】我该怎么办？脑袋里面总想着一个人，或一件事，而无法专心学习和工作。已经有76人回复
请教关于表面增强拉曼散射的问题, 谢谢! 已经有3人回复
求助：怎样增强论文的理论性？已经有5人回复

1楼 2013-03-11 20:44:04

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

应助: 17 (小学生)
金币: 3948.3
红花: 3
帖子: 186
在线: 1215.4小时
虫号: 1302136
注册: 2011-05-21
专业: 人工智能与知识工程

【答案】应助回帖

感谢参与，应助指数 +1

Rt(st, at)为什么是相同的？
time t的reward只会用来更新Q(st,at)，不影响其他state action pair的Q值。

赞一下

回复此楼

2楼2013-03-12 04:39:49

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 346.5
帖子: 12
在线: 6.4小时
虫号: 2317051
注册: 2013-03-04
专业: 控制理论与方法

引用回帖:

2楼: Originally posted by dreamrequiem at 2013-03-12 04:39:49
Rt(st, at)为什么是相同的？
time t的reward只会用来更新Q(st,at)，不影响其他state action pair的Q值。

Rt(st, at)不是t时刻行为at的reward吗，

赞一下

回复此楼

3楼2013-03-12 10:26:23

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

应助: 17 (小学生)
金币: 3948.3
红花: 3
帖子: 186
在线: 1215.4小时
虫号: 1302136
注册: 2011-05-21
专业: 人工智能与知识工程

【答案】应助回帖

引用回帖:

3楼: Originally posted by sailovego at 2013-03-12 10:26:23
Rt(st, at)不是t时刻行为at的reward吗，...

是，但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西，代表唯一的一个state action pair。何来“所有”之说？

赞一下

回复此楼

4楼2013-03-12 12:44:16

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 346.5
帖子: 12
在线: 6.4小时
虫号: 2317051
注册: 2013-03-04
专业: 控制理论与方法

引用回帖:

4楼: Originally posted by dreamrequiem at 2013-03-12 12:44:16
是，但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西，代表唯一的一个state action pair。何来“所有”之说？...

我之前没表达清楚，不好意思了，
我的意思是所有的状态-行为对Q的值，例如在初始化的时候都初始化为0，随机选择一个行为执行后，会产生一个Rt(st, at)，那么再计算Q t+1(st, at)的时候，在st状态下的所有行为ai的Q值都是相同的了

赞一下

回复此楼

5楼2013-03-12 19:58:20

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

应助: 17 (小学生)
金币: 3948.3
红花: 3
帖子: 186
在线: 1215.4小时
虫号: 1302136
注册: 2011-05-21
专业: 人工智能与知识工程

【答案】应助回帖

★
sailovego: 金币+1, ★有帮助 2013-03-13 10:09:53

引用回帖:

5楼: Originally posted by sailovego at 2013-03-12 19:58:20
我之前没表达清楚，不好意思了，
我的意思是所有的状态-行为对Q的值，例如在初始化的时候都初始化为0，随机选择一个行为执行后，会产生一个Rt(st, at)，那么再计算Q t+1(st, at)的时候，在st状态下的所有行为ai的 ...

不理解。
单步只更新当前的Q(st, at)，其他的Q(st, ai)并不改变，何以“在st状态下的所有行为ai的Q值都是相同的了”

赞一下(1人)

回复此楼

6楼2013-03-13 03:02:52

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 346.5
帖子: 12
在线: 6.4小时
虫号: 2317051
注册: 2013-03-04
专业: 控制理论与方法

引用回帖:

6楼: Originally posted by dreamrequiem at 2013-03-13 03:02:52
不理解。
单步只更新当前的Q(st, at)，其他的Q(st, ai)并不改变，何以“在st状态下的所有行为ai的Q值都是相同的了”...

自己想了一下，发现自己进入了一误区，现在好像想明白了，谢谢你了

赞一下

回复此楼

7楼2013-03-13 10:09:38

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 sailovego 的主题更新

返回列表