24小时热门版块排行榜    

查看: 755  |  回复: 4

nbdxkfq

银虫 (小有名气)

[求助] 关于reinforcement learning: an introduction中通过policy产生episode的问题 已有1人参与

在读reinforcement learning: an introduction这本书的时候,伪代码里面经常出现generate an episode using \pi, 但是也没有说具体怎么产生。看到有一个例子里面,说产生的是s0, a0, r0, s1, a1, r1, ....也就是说会产生state, action 和reward,那么请问 这里的s0, s1是随机的吗?有没有人有关于通过policy产生episode的具体例子或者材料?谢谢
回复此楼

» 猜你喜欢

» 本主题相关商家推荐: (我也要在这里推广)

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与,应助指数 +1
nbdxkfq: 金币+5, ★★★★★最佳答案 2014-02-28 12:06:55
1随机产生第一个状态 s0, (如在maze环境中把agent随机放在一个cell中)
2然后通过policy给agent赋予在s0中的执行的action a0,此时agent会移动到一个新的状态 s1
3同时,执行完a0后可以观测到获得的reward r0
4这个时候agent的当前状态变成了s1,重复2,3步骤,直到最后停止条件满足。
2楼2014-02-28 11:45:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nbdxkfq

银虫 (小有名气)

引用回帖:
2楼: Originally posted by dreamrequiem at 2014-02-28 11:45:07
1随机产生第一个状态 s0, (如在maze环境中把agent随机放在一个cell中)
2然后通过policy给agent赋予在s0中的执行的action a0,此时agent会移动到一个新的状态 s1
3同时,执行完a0后可以观测到获得的reward r0
4 ...

谢谢,明白了。请问不知道你有没有接触过 一个叫 regionalised policy representation 的算法?
3楼2014-02-28 12:06:47
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

引用回帖:
3楼: Originally posted by nbdxkfq at 2014-02-28 12:06:47
谢谢,明白了。请问不知道你有没有接触过 一个叫 regionalised policy representation 的算法?...

不了解,
我只做过TD-Learning.
4楼2014-02-28 12:41:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nbdxkfq

银虫 (小有名气)

引用回帖:
4楼: Originally posted by dreamrequiem at 2014-02-28 12:41:08
不了解,
我只做过TD-Learning....

哦,这样啊,那谢谢了
5楼2014-02-28 12:52:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 nbdxkfq 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 材料学求调剂 +6 Stella_Yao 2026-03-20 6/300 2026-03-25 00:37 by baoball
[考研] 340求调剂 +4 话梅糖111 2026-03-24 4/200 2026-03-24 21:41 by yuyu98412
[考研] 【考研调剂】化学专业 281分,一志愿四川大学,诚心求调剂 +15 吃吃吃才有意义 2026-03-19 16/800 2026-03-24 19:51 by 了了了了。。
[考研] 307求调剂 +3 余意卿 2026-03-21 6/300 2026-03-24 15:03 by 余意卿
[考研] 一志愿国科过程所081700,274求调剂 +3 三水研0水立方 2026-03-23 3/150 2026-03-23 23:11 by MajorWen
[考研] 284求调剂 +3 yanzhixue111 2026-03-23 6/300 2026-03-23 22:58 by pswait
[考研] 生物学一志愿985,分数349求调剂 +6 zxts12 2026-03-21 9/450 2026-03-23 18:37 by macy2011
[考研] 接收2026硕士调剂(学硕+专硕) +4 allen-yin 2026-03-23 6/300 2026-03-23 15:04 by 汪!?!
[考研] 306求调剂 +9 chuanzhu川烛 2026-03-18 9/450 2026-03-23 13:17 by luoyongfeng
[考研] 一志愿070300浙大化学358分,求调剂! +4 酥酥鱼.. 2026-03-21 4/200 2026-03-23 08:12 by Iveryant
[考研] 323求调剂 +6 洼小桶 2026-03-18 6/300 2026-03-23 00:29 by king123!
[考研] 一志愿东华大学化学070300,求调剂 +7 2117205181 2026-03-21 8/400 2026-03-22 22:55 by chixmc
[考研] 293求调剂 +3 涛涛Wjt 2026-03-22 5/250 2026-03-22 22:21 by jiangpengfei
[考研] 298求调剂一志愿211 +3 上岸6666@ 2026-03-20 3/150 2026-03-22 15:50 by ColorlessPI
[考研] 085600材料与化工306 +4 z1z2z3879 2026-03-21 4/200 2026-03-21 23:44 by ms629
[考研] 材料学硕333求调剂 +3 北道巷 2026-03-18 3/150 2026-03-21 18:17 by 学员8dgXkO
[考研] 266求调剂 +3 哇呼哼呼哼 2026-03-20 3/150 2026-03-21 16:46 by barlinike
[考研] 一志愿重庆大学085700资源与环境总分308求调剂 +7 墨墨漠 2026-03-20 7/350 2026-03-21 16:36 by barlinike
[考研] 一志愿武理材料305分求调剂 +6 想上岸的鲤鱼 2026-03-18 7/350 2026-03-21 01:03 by JourneyLucky
[考研] 一志愿 西北大学 ,070300化学学硕,总分287,双非一本,求调剂。 +4 晨昏线与星海 2026-03-19 4/200 2026-03-20 22:15 by JourneyLucky
信息提示
请填处理意见