版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

当前只显示满足指定条件的回帖，点击这里查看本话题的所有回帖

sailovego

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 346.5
帖子: 12
在线: 6.4小时
虫号: 2317051
注册: 2013-03-04
专业: 控制理论与方法

[求助] 关于强化学习的一个问题

Q学习中的Q值更新公式为：Q t+1(st, at) = (1 - a) Qt(st, at) + [ Rt(st, at) + maxQ(st+1, ai)]
如果所有Q值初始化都为1的话，那么对于所有的Q t+1(st, at)在第二步的时候，这个公式的第一项(1 - a) Qt(st, at)是相同的，回报值Rt(st, at)是做出行为后的回报，也是相同的，而第三项也是相同的，这就导致所有的 Q t+1(st, at)都是相同的，就不能做出下一步的行为选择了.
一直被这个问题困扰，希望有懂的人给我解答一下，谢谢了

回复此楼

» 猜你喜欢

359求调剂已经有3人回复
各位老师您好：本人初试372分已经有5人回复
285求调剂已经有3人回复
282求调剂已经有3人回复
081700 调剂 267分已经有10人回复
293求调剂已经有7人回复
303求调剂已经有7人回复
材料277求调剂已经有3人回复
北科281学硕材料求调剂已经有10人回复
085602 289分求调剂已经有6人回复

» 本主题相关价值贴推荐，对您同样有帮助:

名师教学思想与教法研究—《课堂教学常见问题处理技能强化训练》【转载】已经有283人回复
请教关于考研准备后期英语学习的问题已经有11人回复
请教数学学习规划问题已经有8人回复
关于托福报班的一个问题已经有6人回复
我想问个问题，怎么才能克服在听英语的时候自动翻译，如果不翻译就听不懂的现象呀已经有8人回复
关于简历中学习和工作的时间连续性问题已经有9人回复
求助：机器学习和模式识别领域的一个基本问题已经有5人回复
申请博后关于提供学习成绩单的问题已经有13人回复
一篇关于基于强化学习的跟踪算法请问投哪些SCI期刊好中？感谢已经有4人回复
请教关于粉末冶金法制备颗粒弥散强化铜基复合材料工艺中的成型剂和润滑剂问题已经有7人回复
【专题】学习生物专业的人的工作问题已经有33人回复
【求助】关于时效强化问题。已经有12人回复
【问题求助】怎么才能让我快快的进入学习状态啊已经有39人回复
【问题求助】我该怎么办？脑袋里面总想着一个人，或一件事，而无法专心学习和工作。已经有76人回复
请教关于表面增强拉曼散射的问题, 谢谢! 已经有3人回复
求助：怎样增强论文的理论性？已经有5人回复

1楼 2013-03-11 20:44:04

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 346.5
帖子: 12
在线: 6.4小时
虫号: 2317051
注册: 2013-03-04
专业: 控制理论与方法

引用回帖:

2楼: Originally posted by dreamrequiem at 2013-03-12 04:39:49
Rt(st, at)为什么是相同的？
time t的reward只会用来更新Q(st,at)，不影响其他state action pair的Q值。

Rt(st, at)不是t时刻行为at的reward吗，

赞一下

回复此楼

3楼2013-03-12 10:26:23

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

查看全部 7 个回答

dreamrequiem

木虫 (小有名气)

应助: 17 (小学生)
金币: 3948.3
红花: 3
帖子: 186
在线: 1215.4小时
虫号: 1302136
注册: 2011-05-21
专业: 人工智能与知识工程

【答案】应助回帖

感谢参与，应助指数 +1

Rt(st, at)为什么是相同的？
time t的reward只会用来更新Q(st,at)，不影响其他state action pair的Q值。

赞一下

回复此楼

2楼2013-03-12 04:39:49

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

应助: 17 (小学生)
金币: 3948.3
红花: 3
帖子: 186
在线: 1215.4小时
虫号: 1302136
注册: 2011-05-21
专业: 人工智能与知识工程

【答案】应助回帖

引用回帖:

3楼: Originally posted by sailovego at 2013-03-12 10:26:23
Rt(st, at)不是t时刻行为at的reward吗，...

是，但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西，代表唯一的一个state action pair。何来“所有”之说？

赞一下

回复此楼

4楼2013-03-12 12:44:16

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

sailovego

新虫 (初入文坛)

应助: 0 (幼儿园)
金币: 346.5
帖子: 12
在线: 6.4小时
虫号: 2317051
注册: 2013-03-04
专业: 控制理论与方法

引用回帖:

4楼: Originally posted by dreamrequiem at 2013-03-12 12:44:16
是，但是at指的是单独的一个action。

你所说的“所有的 Q t+1(st, at)都是相同的”。Q t+1(st, at)和Q t(st, at)是同一个东西，代表唯一的一个state action pair。何来“所有”之说？...

我之前没表达清楚，不好意思了，
我的意思是所有的状态-行为对Q的值，例如在初始化的时候都初始化为0，随机选择一个行为执行后，会产生一个Rt(st, at)，那么再计算Q t+1(st, at)的时候，在st状态下的所有行为ai的Q值都是相同的了

赞一下

回复此楼

5楼2013-03-12 19:58:20

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

查看全部 7 个回答

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[考研] 各位老师您好：本人初试372分 +4	jj涌77 2026-03-25	5/250	2026-03-25 12:37 by jj涌77
[考研] 303求调剂 +6	元夕元 2026-03-20	7/350	2026-03-25 12:00 by edmund7
[考研] 0854电子信息求调剂 324 +4	Promise-jyl 2026-03-23	4/200	2026-03-25 11:36 by Sugarlight
[考研] 总分293求调剂 +3	加一一九 2026-03-25	3/150	2026-03-25 10:49 by JourneyLucky
[考研] 306求0703调剂一志愿华中师范 +10	纸鱼ly 2026-03-21	11/550	2026-03-24 17:22 by qingfeng258
[考研] 321求调剂 +4	Ymlll 2026-03-24	4/200	2026-03-24 14:44 by sprinining
[考研] 一志愿吉大化学322求调剂 +4	17501029541 2026-03-23	6/300	2026-03-24 10:21 by 戴围脖的小蚊子
[考博] 26申博自荐 +3	whh869393 2026-03-24	3/150	2026-03-24 09:55 by 21018060
[考研] 一志愿山东大学药学学硕求调剂 +3	开开心心没烦恼 2026-03-23	4/200	2026-03-24 00:06 by 开开心心没烦恼
[考研] 材料专业求调剂 +11	hanamiko 2026-03-18	11/550	2026-03-23 23:12 by peike
[考研] 一志愿国科过程所081700，274求调剂 +3	三水研0水立方 2026-03-23	3/150	2026-03-23 23:11 by MajorWen
[考研] 材料/农业专业，07/08开头均可，过线就行 +3	呵唔哦豁 2026-03-23	4/200	2026-03-23 22:30 by 汪！？！
[考研] 336求调剂 +4	收到VS 2026-03-20	4/200	2026-03-23 19:02 by macy2011
[考研] 工科0856求调剂 +5	沐析汀汀 2026-03-21	5/250	2026-03-23 17:56 by 海瑟薇-
[考研] 接收2026硕士调剂(学硕+专硕) +4	allen-yin 2026-03-23	6/300	2026-03-23 15:04 by 汪！？！
[考研] 298求调剂一志愿211 +3	上岸6666@ 2026-03-20	3/150	2026-03-22 15:50 by ColorlessPI
[考研] 材料学硕301分求调剂 +7	Liyouyumairs 2026-03-21	7/350	2026-03-21 22:31 by peike
[考研] 22408 344分求调剂一志愿华电计算机技术 +4	solanXXX 2026-03-20	4/200	2026-03-20 23:49 by alg094825
[考研] 一志愿吉林大学材料学硕321求调剂 +11	Ymlll 2026-03-18	15/750	2026-03-20 19:40 by 丁丁*
[考研] 招收调剂硕士 +4	lidianxing 2026-03-19	12/600	2026-03-20 12:25 by lidianxing