| 查看: 725 | 回复: 4 | ||
[求助]
关于reinforcement learning: an introduction中通过policy产生episode的问题 已有1人参与
|
| 在读reinforcement learning: an introduction这本书的时候,伪代码里面经常出现generate an episode using \pi, 但是也没有说具体怎么产生。看到有一个例子里面,说产生的是s0, a0, r0, s1, a1, r1, ....也就是说会产生state, action 和reward,那么请问 这里的s0, s1是随机的吗?有没有人有关于通过policy产生episode的具体例子或者材料?谢谢 |
» 猜你喜欢
有时候真觉得大城市人没有县城人甚至个体户幸福
已经有11人回复
表哥与省会女结婚,父母去帮带孩子被省会女气回家生重病了
已经有7人回复
同年申请2项不同项目,第1个项目里不写第2个项目的信息,可以吗
已经有8人回复
依托企业入选了国家启明计划青年人才。有无高校可以引进的。
已经有7人回复
依托企业入选了国家启明计划青年人才。有无高校可以引进的。
已经有10人回复
天津大学招2026.09的博士生,欢迎大家推荐交流(博导是本人)
已经有9人回复
有院领导为了换新车,用横向课题经费买了俩车
已经有10人回复
AI 太可怕了,写基金时,提出想法,直接生成的文字比自己想得深远,还有科学性
已经有6人回复
» 本主题相关商家推荐: (我也要在这里推广)
dreamrequiem
木虫 (小有名气)
- 应助: 17 (小学生)
- 金币: 3948.3
- 红花: 3
- 帖子: 186
- 在线: 1215.4小时
- 虫号: 1302136
- 注册: 2011-05-21
- 专业: 人工智能与知识工程
2楼2014-02-28 11:45:07
3楼2014-02-28 12:06:47
dreamrequiem
木虫 (小有名气)
- 应助: 17 (小学生)
- 金币: 3948.3
- 红花: 3
- 帖子: 186
- 在线: 1215.4小时
- 虫号: 1302136
- 注册: 2011-05-21
- 专业: 人工智能与知识工程
4楼2014-02-28 12:41:08
5楼2014-02-28 12:52:26













回复此楼