• 深度强化学习 基于Python的理论及实践
  • 深度强化学习 基于Python的理论及实践
21年品牌 40万+商家 超1.5亿件商品

深度强化学习 基于Python的理论及实践

全新正版 假一赔十 可开发票

74 6.2折 119 全新

库存4件

北京东城
认证卖家担保交易快速发货售后保障

作者(美)劳拉·格雷泽,(美)龚辉伦

出版社机械工业出版社

ISBN9787111689331

出版时间2021-09

装帧平装

开本16开

定价119元

货号1202496942

上书时间2024-09-13

轻阅书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
赞誉

译者序

序言

前言

致谢

第1章强化学习简介1

1.1强化学习1

1.2强化学习中的MDP4

1.3强化学习中的学习函数7

1.4深度强化学习算法9

1.4.1基于策略的算法9

1.4.2基于值的算法10

1.4.3基于模型的算法10

1.4.4组合方法11

1.4.5本书中的算法12

1.4.6同策略和异策略算法12

1.4.7小结12

1.5强化学习中的深度学习13

1.6强化学习与监督学习14

1.6.1缺乏先知14

1.6.2反馈稀疏性15

1.6.3数据生成15

1.7总结16

第一部分基于策略的算法和基于值的算法

第2章REINFORCE18

2.1策略18

2.2目标函数19

2.3策略梯度19

2.3.1策略梯度推导20

2.4蒙特卡罗采样22

2.5REINFORCE算法23

2.5.1改进的REINFORCE算法23

2.6实现REINFORCE24

2.6.1一种最小化REINFORCE的实现24

2.6.2用PyTorch构建策略26

2.6.3采样动作28

2.6.4计算策略损失29

2.6.5REINFORCE训练循环30

2.6.6同策略内存回放31

2.7训练REINFORCE智能体33

2.8实验结果36

2.8.1实验:评估折扣因子γ的影响36

2.8.2实验:评估基准线的影响37

2.9总结39

2.10扩展阅读39

2.11历史回顾39

第3章SARSA40

3.1Q函数和V函数40

3.2时序差分学习42

3.2.1时间差分学习示例44

3.3SARSA中的动作选择48

3.3.1探索和利用49

3.4SARSA算法50

3.4.1同策略算法51

3.5实现SARSA52

3.5.1动作函数:ε-贪婪52

3.5.2计算Q损失52

3.5.3SARSA训练循环54

3.5.4同策略批处理内存回放55

3.6训练SARSA智能体56

3.7实验结果58

3.7.1实验:评估学习率的影响58

3.8总结60

3.9扩展阅读60

3.10历史回顾60

第4章深度Q网络62

4.1学习DQN中的Q函数62

4.2DQN中的动作选择64

4.2.1Boltzmann策略65

4.3经验回放67

4.4DQN算法68

4.5实现DQN69

4.5.1计算Q损失70

4.5.2DQN训练循环70

4.5.3内存回放71

4.6训练DQN智能体74

4.7实验结果77

4.7.1实验:评估网络架构的影响77

4.8总结78

4.9扩展阅读79

4.10历史回顾79

第5章改进的深度Q网络80

5.1目标网络80

5.2双重DQN算法82

5.3优先级经验回放85

5.3.1重要性抽样86

5.4实现改进的DQN88

5.4.1网络初始化88

5.4.2计算Q损失89

5.4.3更新目标网络90

5.4.4包含目标网络的DQN91

5.4.5双重DQN91

5.4.6优先级经验回放91

5.5训练DQN智能体玩Atari游戏96

5.6实验结果101

5.6.1实验:评估双重DQN与PER的影响101

5.7总结104

5.8扩展阅读104

第二部分组合方法

第6章优势演员-评论家算法106

6.1演员106

6.2评论家107

6.2.1优势函数107

6.2.2学习优势函数110

6.3A2C算法111

6.4实现A2C113

6.4.1优势估计113

6.4.2计算值损失和策略损失115

6.4.3演员-评论家训练循环116

6.5网络架构117

6.6训练A2C智能体118

6.6.1在Pong上使用n步回报的A2C算法118

6.6.2在Pong上使用GAE的A2C算法121

6.6.3在BipedalWalker上使用n步回报的A2C算法122

6.7实验结果124

6.7.1实验:评估n步回报的影响124

6.7.2实验:评估GAE中λ的影响126

6.8总结127

6.9扩展阅读128

6.10历史回顾128

第7章近端策略优化算法130

7.1替代目标函数130

7.1.1性能突然下降130

7.1.2修改目标函数132

7.2近端策略优化136

7.3PPO算法139

7.4实现PPO141

7.4.1计算PPO的策略损失141

7.4.2PPO训练循环142

7.5训练PPO智能体143

7.5.1在Pong上使用PPO算法143

7.5.2在BipedalWalker上使用PPO算法146

7.6实验结果149

7.6.1实验:评估GAE中λ的影响149

7.6.2实验:评估裁剪变量ε的影响150

7.7总结152

7.8扩展阅读152

第8章并行方法153

8.1同步并行153

8.2异步并行154

8.2.1Hogwild!算法155

8.3训练A3C智能体157

8.4总结160

8.5扩展阅读160

第9章算法总结161

第三部分实践细节

第10章深度强化学习工程实践164

10.1软件工程实践164

10.1.1单元测试164

10.1.2代码质量169

10.1.3Git工作流170

10.2调试技巧171

10.2.1生命迹象172

10.2.2策略梯度诊断172

10.2.3数据诊断173

10.2.4预处理器174

10.2.5内存174

10.2.6算法函数174

10.2.7神经网络175

10.2.8算法简化177

10.2.9问题简化177

10.2.10超参数178

10.2.11实验室工作流178

10.3Atari技巧179

10.4深度强化学习小结181

10.4.1超参数表181

10.4.2算法性能比较184

10.5总结186

第11章SLM Lab187

11.1SLM Lab算法实现187

11.2spec文件188

11.2.1搜索spec语法190

11.3运行SLM Lab192

11.3.1SLM Lab指令193

11.4分析实验结果193

11.4.1实验数据概述193

11.5总结195

第12章神经网络架构196

12.1神经网络的类型196

12.1.1多层感知机196

12.1.2卷积神经网络198

12.1.3循环神经网络199

12.2选择网络族的指导方法199

12.2.1MDP与POMDP200

12.2.2根据环境选择网络202

12.3网络API204

12.3.1输入层和输出层形状推断205

12.3.2自动构建网络207

12.3.3训练步骤209

12.3.4基础方法的使用210

12.4总结211

12.5扩展阅读212

第13章硬件213

13.1计算机213

13.2数据类型217

13.3在强化学习中优化数据类型219

13.4选择硬件222

13.5总结223

第四部分环境设计

第14章状态226

14.1状态示例226

14.2状态完整性231

14.3状态复杂性231

14.4状态信息损失235

14.4.1图像灰度235

14.4.2离散化235

14.4.3散列冲突236

14.4.4元信息损失236

14.5预处理238

14.5.1标准化239

14.5.2图像预处理240

14.5.3时间预处理241

14.6总结244

第15章动作245

15.1动作示例245

15.2动作完整性247

15.3动作复杂性248

15.4总结251

15.5扩展阅读:日常事务中的动作设计252

第16章奖励255

16.1奖励的作用255

16.2奖励设计准则256

16.3总结259

第17章转换函数260

17.1可行性检测260

17.2真实性检测262

17.3总结263后记264

附录A深度强化学习时间线267

附录B示例环境269

参考文献274

内容摘要
本书围绕深度强化学习进行讲解,结构合理有序,内容重点突出,理论结合实践,全面讨论了深度强化学习的研究成果及实践工具。本书分为四部分,共17章,涉及的主要内容包括:REINFORCE、SARSA、深度Q网络、改进的深度Q网络、优势演员-评论家算法、近端策略优化算法、并行方法、深度强化学习工程实践、SLMLab、神经网络架构、硬件、状态、动作、奖励、转换函数等。

本书可以作为高等院校人工智能、计算机、大数据等相关专业的本科或研究生教材,也可以作为人工智能相关领域的硏究人员和技术人员的参考书籍。

主编推荐
阐述深度强化机器学习理论和优化算法。围绕深度强化学习的体系特征进行深入浅出地讲解探讨,特点鲜明。本书采用端到端的方式引入深度强化学习,即从感性认识开始,而后解释理论和算法,*后提供代码实现和实用性技巧。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP