• 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
  • 深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)
21年品牌 40万+商家 超1.5亿件商品

深度强化学习实践(原书第2版)(正版\有防伪标识\少量笔记\实物拍摄)

30 2.0折 149 八五品

仅1件

四川成都
认证卖家担保交易快速发货售后保障

作者[俄]马克西姆·拉潘(Maxim Lapan)

出版社机械工业出版社

出版时间2021-08

版次1

装帧其他

货号

上书时间2024-06-27

川大北苑书店

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
图书标准信息
  • 作者 [俄]马克西姆·拉潘(Maxim Lapan)
  • 出版社 机械工业出版社
  • 出版时间 2021-08
  • 版次 1
  • ISBN 9787111687382
  • 定价 149.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 胶版纸
  • 字数 522千字
【内容简介】
本书理论与实践相结合,系统阐述强化学习的基础知识,以及如何动手编写智能体以执行一系列实际任务。通过阅读本书,读者将获得深层Q网络、策略梯度方法、连续控制问题以及高度可扩展的非梯度方法等主题领域的可行洞见,还将学会如何构建一个经过强化学习训练、价格低廉的真实硬件机器人,并通过一步步代码优化在短短30分钟的训练后解决Pong环境。此外,本书还专门介绍了强化学习的新发展,包括离散优化(解决魔方问题)、多智能体方法、Microsoft的TextWorld环境、高级探索技术等。
【目录】
译者序

前言

作者简介

审校者简介

第1章 什么是强化学习1

1.1 机器学习分类2

1.1.1 监督学习2

1.1.2 非监督学习2

1.1.3 强化学习2

1.2 强化学习的复杂性4

1.3 强化学习的形式4

1.3.1 奖励5

1.3.2 智能体6

1.3.3 环境6

1.3.4 动作7

1.3.5 观察7

1.4 强化学习的理论基础9

1.4.1 马尔可夫决策过程9

1.4.2 策略17

1.5 总结18

第2章 OpenAI Gym19

2.1 剖析智能体19

2.2 硬件和软件要求21

2.3 OpenAI Gym API23

2.3.1 动作空间23

2.3.2 观察空间23

2.3.3 环境25

2.3.4 创建环境26

2.3.5 车摆系统28

2.4 随机CartPole智能体30

2.5 Gym的额外功能:包装器和监控器30

2.5.1 包装器31

2.5.2 监控器33

2.6 总结35

第3章 使用PyTorch进行深度学习36

3.1 张量36

3.1.1 创建张量37

3.1.2 零维张量39

3.1.3 张量操作39

3.1.4 GPU张量40

3.2 梯度41

3.3 NN构建块44

3.4 自定义层45

3.5 终黏合剂:损失函数和优化器47

3.5.1 损失函数48

3.5.2 优化器48

3.6 使用TensorBoard进行监控50

3.6.1 TensorBoard 10150

3.6.2 绘图52

3.7 示例:将GAN应用于Atari图像53

3.8 PyTorch Ignite57

3.9 总结61

第4章 交叉熵方法62

4.1 RL方法的分类62

4.2 交叉熵方法的实践63

4.3 交叉熵方法在CartPole中的应用65

4.4 交叉熵方法在FrozenLake中的应用72

4.5 交叉熵方法的理论背景78

4.6 总结79

第5章 表格学习和Bellman方程80

5.1 价值、状态和性80

5.2 Bellman方程82

5.3 动作的价值84

5.4 价值迭代法86

5.5 价值迭代实践87

5.6 Q-learning在FrozenLake中的应用92

5.7 总结94

第6章 深度Q-network95

6.1 现实的价值迭代95

6.2 表格Q-learning96

6.3 深度Q-learning100

6.3.1 与环境交互102

6.3.2 SGD优化102

6.3.3 步骤之间的相关性103

6.3.4 马尔可夫性质103

6.3.5 DQN训练的终形式103

6.4 DQN应用于Pong游戏104

6.4.1 包装器105

6.4.2 DQN模型109

6.4.3 训练110

6.4.4 运行和性能118

6.4.5 模型实战120

6.5 可以尝试的事情122

6.6 总结123

第7章 高级强化学习库124

7.1 为什么使用强化学习库124

7.2 PTAN库125

7.2.1 动作选择器126

7.2.2 智能体127

7.2.3 经验源131

7.2.4 经验回放缓冲区136

7.2.5 TargetNet类137

7.2.6 Ignite帮助类139

7.3 PTAN版本的CartPole解决方案139

7.4 其他强化学习库141

7.5 总结141

第8章 DQN扩展142

8.1 基础DQN143

8.1.1 通用库143

8.1.2 实现147

8.1.3 结果148

8.2 N步DQN150

8.2.1 实现152

8.2.2 结果152

8.3 Double DQN153

8.3.1 实现154

8.3.2 结果155

8.4 噪声网络156

8.4.1 实现157

8.4.2 结果159

8.5 带优先级的回放缓冲区160

8.5.1 实现161

8.5.2 结果164

8.6 Dueling DQN165

8.6.1 实现166

8.6.2 结果167

8.7 Categorical DQN168

8.7.1 实现171

8.7.2 结果175

8.8 组合所有方法178

8.9 总结180

8.10 参考文献180

第9章 加速强化学习训练的方法182

9.1 为什么速度很重要182

9.2 基线184

9.3 PyTorch中的计算图186

9.4 多个环境188

9.5 在不同进程中分别交互和训练190

9.6 调整包装器194

9.7 基准测试总结198

9.8 硬核CuLE199

9.9 总结199

9.10 参考文献199

第10章 使用强化学习进行股票交易200

10.1 交易200

10.2 数据201

10.3 问题陈述和关键决策202

10.4 交易环境203

10.5 模型210

10.6 训练代码211

10.7 结果211

10.7.1 前馈模型212

10.7.2 卷积模型217

10.8 可以尝试的事情218

10.9 总结219

第11章 策略梯度:一种替代方法220

11.1 价值与策略220

11.1.1 为什么需要策略221

11.1.2 策略表示221

11.1.3 策略梯度222

11.2 REINFORCE方法222

11.2.1 CartPole示例223

11.2.2 结果227

11.2.3 基于策略的方法与基于价值的方法228

11.3 REINFORCE的问题229

11.3.1 需要完整片段229

11.3.2 高梯度方差229

11.3.3 探索230

11.3.4 样本相关性230

11.4 用于CartPole的策略梯度方法230

11.4.1 实现231

11.4.2 结果233

11.5 用于Pong的策略梯度方法237

11.5.1 实现238

11.5.2 结果239

11.6 总结240

第12章 actor-critic方法241

12.1 减小方差241

12.2 CartPole的方差243

12.3 actor-crit
点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP