深度强化学习：入门与实践指南

正版全新，绝无盗版，可开发票

75.9 6.4折 119 全新

库存2件

湖北武汉

认证卖家担保交易快速发货售后保障

作者[俄]马克西姆•拉潘(Maxim Lapan) 著王静怡刘斌程

出版社机械工业出版社

出版时间2021-03

版次1

装帧其他

上书时间2024-05-11

石坪图书专营店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 18小时
好评率暂无

最新上架

精神的力量——航天精神引领中华民族探索浩瀚宇宙 ¥118.00

光影旅程——陆震伟摄影作品500幅 ¥148.00

孟子文献集成（第二十二卷） ¥910.00

奥匈帝国民族治理研究 ¥98.00

大型原创交响合唱(附光盘奋进新时代)(精) ¥345.00

男科疾病诊疗理念李宏军2019观点 ¥128.00

南亚研究丛书：印度文明 ¥98.00

七色龙汉语分级阅读第三级:学校 ¥128.00

中国心学（第2辑） ¥55.80

商品详情

品相描述：全新

图书标准信息

作者 [俄]马克西姆•拉潘(Maxim Lapan) 著王静怡刘斌程
出版社机械工业出版社
出版时间 2021-03
版次 1
ISBN 9787111668084
定价 119.00元
装帧其他
开本 16开
纸张胶版纸
页数 384页
字数 551千字

【内容简介】: 强化学习是机器学习发展非常迅速的一个领域，由于其灵活性和通用性，可以应用在从玩游戏到优化复杂制造过程的许多实际情况。本书帮助读者迅速理解深度强化学习，并从原理到新近算法进行全面探索。关于强化学习的新资料很多，但多数过于专业和抽象，很不容易理解，并且从理解原理到可以实际解决问题之间还有巨大差距，而本书意在填补强化学习方法在实用性和结构化信息方面的不足，以帮助读者从整体上轻松理解深度强化学习。同时本书的另一个特点是面向实践，从简单到非常复杂，将每种方法实际应用在各种具体环境中，以帮助读者在实际研究和工作中应用深度强化学习来解决问题。

本书适合深度强化学习、机器学习、人工智能相关行业从业者、学习者阅读参考。
【作者简介】: Maxim Lapan

深度学习研究者，作为一名软件开发人员和系统架构师，具有超过15年的专业经验，涵盖了从Linux内核驱动程序开发到可在数千台服务器上工作的分布式应用项目的设计与性能优化。他在大数据、机器学习以及大型并行分布式HPC系统方面拥有丰富的工作经验，并擅长使用简单的文字和生动的示例来解释复杂事物。他目前专注的领域是深度学习的实际应用，例如深度自然语言处理和深度强化学习。Maxim目前在以色列一家初创公司工作，担任高级NLP开发人员。
【目录】: 目　录

原书前言

第1章　什么是强化学习 // 1

1.1　学习—监督、无监督和强化 // 1

1.2　RL形式和关系 // 3

1.2.1　奖励 // 4

1.2.2　智能体 // 5

1.2.3　环境 // 5

1.2.4　动作 // 6

1.2.5　观察 // 6

1.3　马尔可夫决策过程简介 // 8

1.3.1　马尔可夫过程 // 8

1.3.2　马尔可夫奖励过程 // 11

1.3.3　马尔可夫决策过程 // 13

1.4　本章小结 // 16

第2章　OpenAI Gym开源平台 // 17

2.1　智能体剖析 // 17

2.2　硬件和软件要求 // 19

2.3　OpenAI Gym API // 20

2.3.1　动作空间 // 21

2.3.2　观察空间 // 21

2.3.3　环境 // 22

2.3.4　创建环境 // 23

2.3.5　CartPole会话 // 25

2.4　随机CartPole智能体 // 26

2.5　额外的Gym功能—Wrapper和Monitor // 27

2.5.1　Wrapper // 28

2.5.2　Monitor // 30

2.6　本章小结 // 32

第3章　使用PyTorch进行深度学习 // 33

3.1　张量 // 33

3.1.1　创建张量 // 33

3.1.2　标量张量 // 35

3.1.3　张量操作 // 36

3.1.4　GPU张量 // 36

3.2　梯度 // 37

3.2.1　张量和梯度 // 38

3.3　NN构建块 // 40

3.4　定制层级 // 41

3.5　最终的黏合剂—损失函数和优化器 // 43

3.5.1　损失函数 // 44

3.5.2　优化器 // 44

3.6　使用TensorBoard监控 // 45

3.6.1　TensorBoard简介 // 46

3.6.2　绘图工具 // 47

3.7　示例：在Atari图像上使用GAN // 48

3.8　本章小结 // 52

第4章　交叉熵方法 // 53

4.1　RL方法的分类 // 53

4.2　实践交叉熵 // 54

4.3　CartPole上的交叉熵方法 // 55

4.4　FrozenLake上的交叉熵方法 // 62

4.5　交叉熵方法的理论背景 // 67

4.6　本章小结 // 68

第5章　表格学习与Bellman方程 // 69

5.1　值、状态、最优性 // 69

5.2　最优的Bellman方程 // 70

5.3　动作的值 // 72

5.4　值迭代法 // 74

5.5　实践中的值迭代 // 75

5.6　FrozenLake中的Q-learning // 80

5.7　本章小结 // 82

第6章　深度Q网络 // 83

6.1　现实中的值迭代 // 83

6.2　表格式Q-learning // 84

6.3　深度Q-learning // 88

6.3.1　与环境的交互 // 89

6.3.2　SGD优化 // 90

6.3.3　步骤之间的相关性 // 90

6.3.4　马尔可夫性 // 90

6.3.5　DQN训练的最终形式 // 91

6.4　Pong上的DQN // 91

6.4.1　封装 // 92

6.4.2　DQN模型 // 96

6.4.3　训练 // 98

6.4.4　运行与性能 // 105

6.4.5　动作中的模型 // 107

6.5　本章小结 // 109

第7章　DQN扩展 // 110

7.1　PyTorch Agent Net函数库 // 110

7.1.1　智能体 // 111

7.1.2　智能体的经验 // 112

7.1.3　经验缓冲区 // 113

7.1.4　Gym env封装 // 113

7.2　基本DQN // 113

7.3　N步DQN // 119

7.3.1　实现 // 121

7.4　双DQN // 123

7.4.1　实现 // 123

7.4.2　结果 // 126

7.5　有噪网络 // 127

7.5.1　实现 // 127

7.5.2　结果 // 130

7.6　优先级重放缓冲区 // 132

7.6.1　实现 // 133

7.6.2　结果 // 137

7.7　竞争DQN // 137

7.7.1　实现 // 138

7.7.2　结果 // 139

7.8　分类 // 140

7.8.1　实现 // 142

7.8.2　结果 // 148

7.9　结合所有 // 149

7.9.1　实现 // 150

7.9.2　结果 // 154

7.10　本章小结 // 155

参考文献 // 155

第8章　RL用于股票交易 // 156

8.1　贸易 // 156

8.2　数据 // 156

8.3　问题陈述和关键决策 // 157

8.4　交易环境 // 159

8.5　模型 // 165

8.6　训练代码 // 166

8.7　结果 // 167

8.7.1　前馈模型 // 167

8.7.2　卷积模型 // 170

8.8　要尝试的事 // 173

8.9　本章小结 // 173

第9章　策略梯度法：一种替代方案 // 174

9.1　值与策略 // 174

9.1.1　为什么是策略 // 174

9.1.2　策略表示 // 175

9.1.3　策略梯度 // 175

9.2　强化方法 // 176

9.2.1　CartPole的例子 // 177

9.2.2　结果 // 180

9.2.3　基于策略的方法与基于值的方法 // 181

9.3　强化问题 // 181

9.3.1　完整episode是必需的 // 182

9.3.2　高梯度方差 // 182

9.3.3　探索 // 182

9.3.4　样本之间的相关性 // 183

9.4　CartPole上的PG // 183

9.5　Pong上的PG // 187

9.6　本章小结 // 190

第10章　Actor-Critic方法 // 191

10.1　方差减少 // 191

10.2　CartPole方差 // 192

10.3　Actor-Critic // 194

10.4　Pong上的A2C // 196

10.5　Pong上的A2C的结果 // 201

10.6　调整超参数 // 202

10.6.1　学习率 // 203

10.6.2　熵beta // 203

10.6.3　环境数量 // 204

10.6.4　batch大小 // 204

10.7　本章小结 // 204

第11章　异步优势Actor-Critic方法 // 205

11.1　相关性和样本效率 // 205

11.2　在A2C中添加另一个A // 206

11.3　Python中的多处理 // 208

11.4　A3C—数据并行 // 208

11.5　A3C—梯度并行 // 214

11.6　本章小结 // 219

第12章　用 RL训练聊天机器人 // 220