24小时热门版块排行榜    

查看: 758  |  回复: 4
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

nbdxkfq

银虫 (小有名气)

[求助] 关于reinforcement learning: an introduction中通过policy产生episode的问题 已有1人参与

在读reinforcement learning: an introduction这本书的时候,伪代码里面经常出现generate an episode using \pi, 但是也没有说具体怎么产生。看到有一个例子里面,说产生的是s0, a0, r0, s1, a1, r1, ....也就是说会产生state, action 和reward,那么请问 这里的s0, s1是随机的吗?有没有人有关于通过policy产生episode的具体例子或者材料?谢谢
回复此楼

» 猜你喜欢

» 本主题相关商家推荐: (我也要在这里推广)

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nbdxkfq

银虫 (小有名气)

引用回帖:
2楼: Originally posted by dreamrequiem at 2014-02-28 11:45:07
1随机产生第一个状态 s0, (如在maze环境中把agent随机放在一个cell中)
2然后通过policy给agent赋予在s0中的执行的action a0,此时agent会移动到一个新的状态 s1
3同时,执行完a0后可以观测到获得的reward r0
4 ...

谢谢,明白了。请问不知道你有没有接触过 一个叫 regionalised policy representation 的算法?
3楼2014-02-28 12:06:47
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 5 个回答

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与,应助指数 +1
nbdxkfq: 金币+5, ★★★★★最佳答案 2014-02-28 12:06:55
1随机产生第一个状态 s0, (如在maze环境中把agent随机放在一个cell中)
2然后通过policy给agent赋予在s0中的执行的action a0,此时agent会移动到一个新的状态 s1
3同时,执行完a0后可以观测到获得的reward r0
4这个时候agent的当前状态变成了s1,重复2,3步骤,直到最后停止条件满足。
2楼2014-02-28 11:45:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

引用回帖:
3楼: Originally posted by nbdxkfq at 2014-02-28 12:06:47
谢谢,明白了。请问不知道你有没有接触过 一个叫 regionalised policy representation 的算法?...

不了解,
我只做过TD-Learning.
4楼2014-02-28 12:41:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nbdxkfq

银虫 (小有名气)

引用回帖:
4楼: Originally posted by dreamrequiem at 2014-02-28 12:41:08
不了解,
我只做过TD-Learning....

哦,这样啊,那谢谢了
5楼2014-02-28 12:52:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 生物学学硕求调剂 +7 小羊睡着了? 2026-03-23 10/500 2026-03-25 02:24 by 清风拂扬。 m
[考研] 上海电力大学材料防护与新材料重点实验室招收调剂研究生(材料、化学、电化学,环境) +4 我爱学电池 2026-03-23 4/200 2026-03-25 00:59 by 1027_324
[考研] 材料调剂 +6 匹克i 2026-03-23 6/300 2026-03-24 21:09 by greychen00
[考研] 调剂 +4 13853210211 2026-03-24 4/200 2026-03-24 19:44 by ms629
[考研] 材料学硕333求调剂 +3 北道巷 2026-03-24 3/150 2026-03-24 19:17 by pswait
[考研] 一志愿南航材料专317分求调剂 +5 炸呀炸呀炸薯条 2026-03-23 5/250 2026-03-24 16:52 by 星空星月
[考研] 材料292调剂 +8 橘颂思美人 2026-03-23 8/400 2026-03-24 16:33 by laoshidan
[考研] 一志愿北京化工大学材料与化工 264分各科过A区国家线 +3 哈哈157349 2026-03-21 3/150 2026-03-24 14:11 by zhyzzh
[考研] 0854电子信息求调剂 324 +3 Promise-jyl 2026-03-23 3/150 2026-03-23 13:43 by wangkm
[考研] 北科281学硕材料求调剂 +8 tcxiaoxx 2026-03-20 9/450 2026-03-23 12:16 by tcxiaoxx
[考研] 求调剂材料学硕080500,总分289分 5+3 @taotao 2026-03-19 21/1050 2026-03-23 10:17 by 冠c哥
[考研] 求调剂一志愿海大,0703化学学硕304分,有大创项目,四级已过 +6 幸运哩哩 2026-03-22 10/500 2026-03-22 20:10 by edmund7
[考研] 285求调剂 +6 ytter 2026-03-22 6/300 2026-03-22 12:09 by 星空星月
[考研] 材料与化工(0856)304求B区调剂 +3 邱gl 2026-03-20 7/350 2026-03-21 19:05 by 15709483992
[考研] 材料学硕333求调剂 +3 北道巷 2026-03-18 3/150 2026-03-21 18:17 by 学员8dgXkO
[考研] 22 350 本科985求调剂,求老登收留 +3 李轶男003 2026-03-20 3/150 2026-03-21 13:28 by 搏击518
[考研] 330求调剂0854 +3 assdll 2026-03-21 3/150 2026-03-21 13:01 by 搏击518
[考研] 材料学学硕080502 337求调剂-一志愿华中科技大学 +4 顺顺顺mr 2026-03-18 5/250 2026-03-21 10:22 by luoyongfeng
[考研] 320求调剂0856 +3 不想起名字112 2026-03-19 3/150 2026-03-19 22:53 by 学员8dgXkO
[考研] 收复试调剂生 +4 雨后秋荷 2026-03-18 4/200 2026-03-18 14:16 by elevennnne
信息提示
请填处理意见