版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

nbdxkfq

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 314.4
散金: 101
红花: 1
帖子: 78
在线: 72.1小时
虫号: 1619955
注册: 2012-02-16
专业: 人工智能与知识工程

[求助] 关于reinforcement learning: an introduction中通过policy产生episode的问题已有1人参与

在读reinforcement learning: an introduction这本书的时候，伪代码里面经常出现generate an episode using \pi, 但是也没有说具体怎么产生。看到有一个例子里面，说产生的是s0, a0, r0, s1, a1, r1, ....也就是说会产生state, action 和reward,那么请问这里的s0, s1是随机的吗？有没有人有关于通过policy产生episode的具体例子或者材料？谢谢

回复此楼

» 猜你喜欢

生物学学硕求调剂已经有10人回复
上海电力大学材料防护与新材料重点实验室招收调剂研究生（材料、化学、电化学，环境）已经有4人回复
材料学求调剂已经有6人回复
303求调剂已经有5人回复
一志愿武理085500机械专业总分300求调剂已经有7人回复
考研调剂已经有4人回复
281求调剂已经有4人回复
0805 316求调剂已经有6人回复
085601求调剂总分293英一数二已经有3人回复
08工学调剂已经有17人回复

» 本主题相关商家推荐: (我也要在这里推广)

1楼 2014-02-28 08:44:03

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

应助: 17 (小学生)
金币: 3948.3
红花: 3
帖子: 186
在线: 1215.4小时
虫号: 1302136
注册: 2011-05-21
专业: 人工智能与知识工程

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与，应助指数 +1
nbdxkfq: 金币+5, ★★★★★最佳答案 2014-02-28 12:06:55

1随机产生第一个状态 s0, （如在maze环境中把agent随机放在一个cell中）
2然后通过policy给agent赋予在s0中的执行的action a0，此时agent会移动到一个新的状态 s1
3同时，执行完a0后可以观测到获得的reward r0
4这个时候agent的当前状态变成了s1，重复2,3步骤，直到最后停止条件满足。

赞一下

回复此楼

2楼2014-02-28 11:45:07

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

nbdxkfq

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 314.4
散金: 101
红花: 1
帖子: 78
在线: 72.1小时
虫号: 1619955
注册: 2012-02-16
专业: 人工智能与知识工程

引用回帖:

2楼: Originally posted by dreamrequiem at 2014-02-28 11:45:07
1随机产生第一个状态 s0, （如在maze环境中把agent随机放在一个cell中）
2然后通过policy给agent赋予在s0中的执行的action a0，此时agent会移动到一个新的状态 s1
3同时，执行完a0后可以观测到获得的reward r0
4 ...

谢谢，明白了。请问不知道你有没有接触过一个叫 regionalised policy representation 的算法？

赞一下

回复此楼

3楼2014-02-28 12:06:47

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

应助: 17 (小学生)
金币: 3948.3
红花: 3
帖子: 186
在线: 1215.4小时
虫号: 1302136
注册: 2011-05-21
专业: 人工智能与知识工程

引用回帖:

3楼: Originally posted by nbdxkfq at 2014-02-28 12:06:47
谢谢，明白了。请问不知道你有没有接触过一个叫 regionalised policy representation 的算法？...

不了解，
我只做过TD-Learning.

赞一下

回复此楼

4楼2014-02-28 12:41:08

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

nbdxkfq

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 314.4
散金: 101
红花: 1
帖子: 78
在线: 72.1小时
虫号: 1619955
注册: 2012-02-16
专业: 人工智能与知识工程

引用回帖:

4楼: Originally posted by dreamrequiem at 2014-02-28 12:41:08
不了解，
我只做过TD-Learning....

哦，这样啊，那谢谢了

赞一下

回复此楼

5楼2014-02-28 12:52:26

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 nbdxkfq 的主题更新

返回列表

最具人气热帖推荐 [查看全部]		作者	回/看	最后发表

[考研] 上海电力大学材料防护与新材料重点实验室招收调剂研究生（材料、化学、电化学，环境） +4	我爱学电池 2026-03-23	4/200	2026-03-25 00:59 by 1027_324
[考研] 303求调剂 +4	元夕元 2026-03-20	5/250	2026-03-25 00:20 by 元夕元
[考研] 311求调剂 +3	冬十三 2026-03-24	3/150	2026-03-24 21:31 by peike
[考研] 300分，材料，求调剂，英一数二 +5	超赞的 2026-03-24	5/250	2026-03-24 21:07 by 星空星月
[考研] 求调剂，一志愿:南京航空航天大学大学，080500材料科学与工程学硕，总分289分 +5	@taotao 2026-03-19	5/250	2026-03-24 21:07 by greychen00
[考研] 材料学硕333求调剂 +3	北道巷 2026-03-24	3/150	2026-03-24 19:17 by pswait
[考研] 材料专硕331求调剂 +4	鲜当牛 2026-03-24	4/200	2026-03-24 15:58 by JourneyLucky
[考研] 求调剂一志愿武汉理工大学材料工程（085601） +5	WW.' 2026-03-23	7/350	2026-03-24 14:50 by sprinining
[考研] 材料与化工328分调剂 +4	。，。，。，。i 2026-03-23	4/200	2026-03-24 11:03 by 544594351
[考研] 344求调剂 +3	desto 2026-03-24	3/150	2026-03-24 10:09 by 搏击518
[考研] 269求调剂 +4	我想读研11 2026-03-23	4/200	2026-03-23 21:25 by pswait
[论文投稿] 急发核心期刊论文 +3	贤达问津 2026-03-23	5/250	2026-03-23 17:13 by 妹子不好惹
[考研] 291 求调剂 +4	化工2026届毕业� 2026-03-21	5/250	2026-03-23 16:46 by 化工2026届毕业�
[考研] 接收2026硕士调剂(学硕+专硕) +4	allen-yin 2026-03-23	6/300	2026-03-23 15:04 by 汪！？！
[考研] 一志愿070300浙大化学358分，求调剂！ +4	酥酥鱼.. 2026-03-21	4/200	2026-03-23 08:12 by Iveryant
[考研] 293求调剂 +3	涛涛Wjt 2026-03-22	5/250	2026-03-22 22:21 by jiangpengfei
[考研] 315分，诚求调剂，材料与化工085600 +3	13756423260 2026-03-22	3/150	2026-03-22 20:11 by edmund7
[考研] 354求调剂 +7	Tyoumou 2026-03-18	10/500	2026-03-22 11:11 by 人来盛
[考研] 311求调剂 +3	勇敢的小吴 2026-03-20	3/150	2026-03-21 17:40 by ColorlessPI
[考研] 一志愿重庆大学085700资源与环境总分308求调剂 +7	墨墨漠 2026-03-20	7/350	2026-03-21 16:36 by barlinike

24小时热门版块排行榜

nbdxkfq

[求助] 关于reinforcement learning: an introduction中通过policy产生episode的问题 已有1人参与

» 猜你喜欢

» 本主题相关商家推荐: (我也要在这里推广)

dreamrequiem

【答案】应助回帖

nbdxkfq

dreamrequiem

nbdxkfq

[求助] 关于reinforcement learning: an introduction中通过policy产生episode的问题已有1人参与