消息首页搜索举报

深度强化学基于python的理论及实践大中专理科计算机 (美)劳拉·格雷泽,(美)龚辉伦新华正版

72 6.1折 119 全新

库存4件

河北保定

认证卖家担保交易快速发货售后保障

作者(美)劳拉·格雷泽,(美)龚辉伦

出版社机械工业出版社

ISBN9787111689331

出版时间2021-09

版次1

装帧平装

开本16

页数308页

定价119元

货号xhwx_1202496942

上书时间2024-09-15

浩子书屋

八年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 14小时
好评率暂无

最新上架

要素市场化改革经济理论、法规彭森主编新华正版 ¥52.60

昆曲(汉英对照) 戏剧、舞蹈刘韶方,尹婵杰,魏向清等编新华正版 ¥43.95

新生儿臂丛神经损伤中西医康复图解中西医结合张鸿雁,逄辉编新华正版 ¥28.51

飘插图珍藏版(全2册) 外国文学名著读物 (美)玛格丽特·米切尔新华正版 ¥144.99

一本写好初中英语主题写作初中常备综合新东方教研中心编新华正版 ¥27.55

高英语语法填空集训150篇高中高考辅导新东方试研究中心编新华正版 ¥22.00

小小博学家.第二辑(全14册) 少儿科普 (法)瓦莱丽·吉杜等新华正版 ¥85.96

星体社科其他罗德里克·列文哈特新华正版 ¥34.48

上分攻略高中数学必修册人教a版 2025 高中数学同步讲解训练杨文彬编新华正版 ¥33.43

商品详情

品相描述：全新: 正版特价新书

商品描述: 主编：

阐述深度强化机器学理论和优化算法。围绕深度强化学的体系特征进行深入浅出地讲解探讨，特点鲜明。本书采用端到端的方式引入深度强化学，即从感认识开始，而后解释理论和算法，后提供代码实现和实用。

目录：

赞誉

译者序

序言

前言

致谢

章强化学简介1

1.1强化学1

1.2强化学中的mdp4

1.3强化学中的学函数7

1.4深度强化学算法9

1.4.1基于策略的算法9

1.4.2基于值的算法10

1.4.3基于模型的算法10

1.4.4组合方法11

1.4.5本书中的算法12

1.4.6同策略和异策略算法12

1.4.7小结12

1.5强化学中的深度学13

1.6强化学与监督学14

1.6.1缺乏先知14

1.6.2反馈稀疏15

1.6.3数据生成15

1.7结16

部分基于策略的算法和基于值的算法

第2章reinforce18

2.1策略18

2.2目标函数19

2.3策略梯度19

2.3.1策略梯度推导20

2.4蒙特卡罗采样22

2.5reinforce算法23

2.5.1改进的reinforce算法23

2.6实现reinforce24

2.6.1一种小化reinforce的实现24

2.6.2用pytorch构建策略26

2.6.3采样动作28

2.6.4计算策略损失29

2.6.5reinforce训练循环30

2.6.6同策略内存回放31

2.7训练reinforce智能体33

2.8实验结果36

2.8.1实验：评估折扣因子γ的影响36

2.8.2实验：评估基准线的影响37

2.9结39

2.10扩展阅读39

2.11历史回顾39

第3章sarsa40

3.1q函数和v函数40

3.2时序差分学42

3.2.1时间差分学示例44

3.3sarsa中的动作选择48

3.3.1探索和利用49

3.4sarsa算法50

3.4.1同策略算法51

3.5实现sarsa52

3.5.1动作函数：ε-贪婪52

3.5.2计算q损失52

3.5.3sarsa训练循环54

3.5.4同策略批处理内存回放55

3.6训练sarsa智能体56

3.7实验结果58

3.7.1实验：评估学率的影响58

3.8结60

3.9扩展阅读60

3.10历史回顾60

第4章深度q网络62

4.1学dqn中的q函数62

4.2dqn中的动作选择64

4.2.1boltzmann策略65

4.3经验回放67

4.4dqn算法68

4.5实现dqn69

4.5.1计算q损失70

4.5.2dqn训练循环70

4.5.3内存回放71

4.6训练dqn智能体74

4.7实验结果77

4.7.1实验：评估网络架构的影响77

4.8结78

4.9扩展阅读79

4.10历史回顾79

第5章改进的深度q网络80

5.1目标网络80

5.2双重dqn算法82

5.3优先级经验回放85

5.3.1重要抽样86

5.4实现改进的dqn88

5.4.1网络初始化88

5.4.2计算q损失89

5.4.3更新目标网络90

5.4.4包含目标网络的dqn91

5.4.5双重dqn91

5.4.6优先级经验回放91

5.5训练dqn智能体玩atari游戏96

5.6实验结果101

5.6.1实验：评估双重dqn与per的影响101

5.7结104

5.8扩展阅读104

第二部分组合方法

第6章优势演员-家算法106

6.1演员106

6.2家107

6.2.1优势函数107

6.2.2学优势函数110

6.3a2c算法111

6.4实现a2c113

6.4.1优势估计113

6.4.2计算值损失和策略损失115

6.4.3演员-家训练循环116

6.5网络架构117

6.6训练a2c智能体118

6.6.1在pong上使用n步回报的a2c算法118

6.6.2在pong上使用gae的a2c算法121

6.6.3在bipedalwalker上使用n步回报的a2c算法122

6.7实验结果124

6.7.1实验：评估n步回报的影响124

6.7.2实验：评估gae中λ的影响126

6.8结127

6.9扩展阅读128

6.10历史回顾128

第7章近端策略优化算法130

7.1替代目标函数130

7.1.1能突然下降130

7.1.2修改目标函数132

7.2近端策略优化136

7.3ppo算法139

7.4实现ppo141

7.4.1计算ppo的策略损失141

7.4.2ppo训练循环142

7.5训练ppo智能体143

7.5.1在pong上使用ppo算法143

7.5.2在bipedalwalker上使用ppo算法146

7.6实验结果149

7.6.1实验：评估gae中λ的影响149

7.6.2实验：评估裁剪变量ε的影响150

7.7结152

7.8扩展阅读152

第8章并行方法153

8.1同步并行153

8.2异步并行154

8.2.1hogwild!算法155

8.3训练a3c智能体157

8.4结160

8.5扩展阅读160

第9章算法结161

第三部分实践细节

0章深度强化学工程实践164

10.1软件工程实践164

10.1.1单元测试164

10.1.2代码质量169

10.1.3git工作流170

10.2调试171

10.2.1生命迹象172

10.2.2策略梯度诊断172

10.2.3数据诊断173

10.2.4预处理器174

10.2.5内存174

10.2.6算法函数174

10.2.7神经网络175

10.2.8算法简化177

10.2.9问题简化177

10.2.10超参数178

10.2.11实验室工作流178

10.3atari179

10.4深度强化学小结181

10.4.1超参数表181

10.4.2算法能比较184

10.5结186

1章slm lab187

11.1slm lab算法实现187

11.2spec文件188

11.2.1搜索spec语法190

11.3运行slm lab192

11.3.1slm lab指令193

11.4分析实验结果193

11.4.1实验数据概述193

11.5结195

2章神经网络架构196

12.1神经网络的类型196

12.1.1多层感知机196

12.1.2卷积神经网络198

12.1.3循环神经网络199

12.2选择网络族的指导方法199

12.2.1mdp与pomdp200

12.2.2根据环境选择网络202

12.3网络api204

12.3.1输入层和输出层形状推断205

12.3.2自动构建网络207

12.3.3训练步骤209

12.3.4基础方法的使用210

12.4结211

12.5扩展阅读212

3章硬件213

13.1计算机213

13.2数据类型217

13.3在强化学中优化数据类型219

13.4选择硬件222

13.5结223

第四部分环境设计

4章226

14.1示例226

14.2完整231

14.3复杂231

14.4信息损失235

14.4.1图像灰度235

14.4.2离散化235

14.4.3散列236

14.4.4元信息损失236

14.5预处理238

14.5.1标准化239

14.5.2图像预处理240

14.5.3时间预处理241

14.6结244

5章动作245

15.1动作示例245

15.2动作完整247

15.3动作复杂248

15.4结251

15.5扩展阅读：常事务中的动作设计252

6章奖励255

16.1奖励的作用255

16.2奖励设计准则256

16.3结259

7章转换函数260

17.1可行检测260

17.2真实检测262

17.3结263后记264

附录a深度强化学时间线267

附录b示例环境269

参文献274

内容简介：

本书围绕深度强化学进行讲解，结构合理有序，内容重点突出，理论结合实践，全面讨论了深度强化学的研究成果及实践工具。本书分为四部分，共17章，涉及的主要内容包括：reinforce、ara、深度q网络、改进的深度q网络、优势演员家算法、近端策略优化算法、并行方法、深度强化学工程实践、lmlab、神经网络架构、硬件、、动作、奖励、转换函数等。
本书可以作为高等院校人工智能、计算机、大数据等相关专业的本科或教材，也可以作为人工智能相关领域的硏究人员和技术人员的参书籍。

— 没有更多了 —

深度强化学 基于python的理论及实践 大中专理科计算机 (美)劳拉·格雷泽,(美)龚辉伦 新华正版

浩子书屋

商品详情

深度强化学基于python的理论及实践大中专理科计算机 (美)劳拉·格雷泽,(美)龚辉伦新华正版