24小时热门版块排行榜

返回列表

nbdxkfq

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 314.4
散金: 101
红花: 1
帖子: 78
在线: 72.1小时
虫号: 1619955
注册: 2012-02-16
专业: 人工智能与知识工程

[求助] 关于reinforcement learning: an introduction中通过policy产生episode的问题已有1人参与

在读reinforcement learning: an introduction这本书的时候，伪代码里面经常出现generate an episode using \pi, 但是也没有说具体怎么产生。看到有一个例子里面，说产生的是s0, a0, r0, s1, a1, r1, ....也就是说会产生state, action 和reward,那么请问这里的s0, s1是随机的吗？有没有人有关于通过policy产生episode的具体例子或者材料？谢谢

回复此楼

» 猜你喜欢

» 本主题相关商家推荐: (我也要在这里推广)

1楼 2014-02-28 08:44:03

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

dreamrequiem

木虫 (小有名气)

应助: 17 (小学生)
金币: 3948.3
红花: 3
帖子: 186
在线: 1215.4小时
虫号: 1302136
注册: 2011-05-21
专业: 人工智能与知识工程

【答案】应助回帖

★ ★ ★ ★ ★
感谢参与，应助指数 +1
nbdxkfq: 金币+5, ★★★★★最佳答案 2014-02-28 12:06:55

1随机产生第一个状态 s0, （如在maze环境中把agent随机放在一个cell中）
2然后通过policy给agent赋予在s0中的执行的action a0，此时agent会移动到一个新的状态 s1
3同时，执行完a0后可以观测到获得的reward r0
4这个时候agent的当前状态变成了s1，重复2,3步骤，直到最后停止条件满足。

赞一下

回复此楼

2楼2014-02-28 11:45:07

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

nbdxkfq

银虫 (小有名气)

应助: 0 (幼儿园)
金币: 314.4
散金: 101
红花: 1
帖子: 78
在线: 72.1小时
虫号: 1619955
注册: 2012-02-16
专业: 人工智能与知识工程

引用回帖:

2楼: Originally posted by dreamrequiem at 2014-02-28 11:45:07
1随机产生第一个状态 s0, （如在maze环境中把agent随机放在一个cell中）
2然后通过policy给agent赋予在s0中的执行的action a0，此时agent会移动到一个新的状态 s1
3同时，执行完a0后可以观测到获得的reward r0
4 ...

谢谢，明白了。请问不知道你有没有接触过一个叫 regionalised policy representation 的算法？

赞一下

回复此楼

3楼2014-02-28 12:06:47

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖