深度强化学习 基于Python的理论及实践
全新正版 极速发货
¥
67.93
5.7折
¥
119
全新
库存3件
作者(美)劳拉·格雷泽,(美)龚辉伦
出版社机械工业出版社
ISBN9787111689331
出版时间2021-09
装帧平装
开本16开
定价119元
货号1202496942
上书时间2024-12-02
商品详情
- 品相描述:全新
- 商品描述
-
目录
赞誉
译者序
序言
前言
致谢
第1章强化学习简介1
1.1强化学习1
1.2强化学习中的MDP4
1.3强化学习中的学习函数7
1.4深度强化学习算法9
1.4.1基于策略的算法9
1.4.2基于值的算法10
1.4.3基于模型的算法10
1.4.4组合方法11
1.4.5本书中的算法12
1.4.6同策略和异策略算法12
1.4.7小结12
1.5强化学习中的深度学习13
1.6强化学习与监督学习14
1.6.1缺乏先知14
1.6.2反馈稀疏性15
1.6.3数据生成15
1.7总结16
第一部分基于策略的算法和基于值的算法
第2章REINFORCE18
2.1策略18
2.2目标函数19
2.3策略梯度19
2.3.1策略梯度推导20
2.4蒙特卡罗采样22
2.5REINFORCE算法23
2.5.1改进的REINFORCE算法23
2.6实现REINFORCE24
2.6.1一种最小化REINFORCE的实现24
2.6.2用PyTorch构建策略26
2.6.3采样动作28
2.6.4计算策略损失29
2.6.5REINFORCE训练循环30
2.6.6同策略内存回放31
2.7训练REINFORCE智能体33
2.8实验结果36
2.8.1实验:评估折扣因子γ的影响36
2.8.2实验:评估基准线的影响37
2.9总结39
2.10扩展阅读39
2.11历史回顾39
第3章SARSA40
3.1Q函数和V函数40
3.2时序差分学习42
3.2.1时间差分学习示例44
3.3SARSA中的动作选择48
3.3.1探索和利用49
3.4SARSA算法50
3.4.1同策略算法51
3.5实现SARSA52
3.5.1动作函数:ε-贪婪52
3.5.2计算Q损失52
3.5.3SARSA训练循环54
3.5.4同策略批处理内存回放55
3.6训练SARSA智能体56
3.7实验结果58
3.7.1实验:评估学习率的影响58
3.8总结60
3.9扩展阅读60
3.10历史回顾60
第4章深度Q网络62
4.1学习DQN中的Q函数62
4.2DQN中的动作选择64
4.2.1Boltzmann策略65
4.3经验回放67
4.4DQN算法68
4.5实现DQN69
4.5.1计算Q损失70
4.5.2DQN训练循环70
4.5.3内存回放71
4.6训练DQN智能体74
4.7实验结果77
4.7.1实验:评估网络架构的影响77
4.8总结78
4.9扩展阅读79
4.10历史回顾79
第5章改进的深度Q网络80
5.1目标网络80
5.2双重DQN算法82
5.3优先级经验回放85
5.3.1重要性抽样86
5.4实现改进的DQN88
5.4.1网络初始化88
5.4.2计算Q损失89
5.4.3更新目标网络90
5.4.4包含目标网络的DQN91
5.4.5双重DQN91
5.4.6优先级经验回放91
5.5训练DQN智能体玩Atari游戏96
5.6实验结果101
5.6.1实验:评估双重DQN与PER的影响101
5.7总结104
5.8扩展阅读104
第二部分组合方法
第6章优势演员-评论家算法106
6.1演员106
6.2评论家107
6.2.1优势函数107
6.2.2学习优势函数110
6.3A2C算法111
6.4实现A2C113
6.4.1优势估计113
6.4.2计算值损失和策略损失115
6.4.3演员-评论家训练循环116
6.5网络架构117
6.6训练A2C智能体118
6.6.1在Pong上使用n步回报的A2C算法118
6.6.2在Pong上使用GAE的A2C算法121
6.6.3在BipedalWalker上使用n步回报的A2C算法122
6.7实验结果124
6.7.1实验:评估n步回报的影响124
6.7.2实验:评估GAE中λ的影响126
6.8总结127
6.9扩展阅读128
6.10历史回顾128
第7章近端策略优化算法130
7.1替代目标函数130
7.1.1性能突然下降130
7.1.2修改目标函数132
7.2近端策略优化136
7.3PPO算法139
7.4实现PPO141
7.4.1计算PPO的策略损失141
7.4.2PPO训练循环142
7.5训练PPO智能体143
7.5.1在Pong上使用PPO算法143
7.5.2在BipedalWalker上使用PPO算法146
7.6实验结果149
7.6.1实验:评估GAE中λ的影响149
7.6.2实验:评估裁剪变量ε的影响150
7.7总结152
7.8扩展阅读152
第8章并行方法153
8.1同步并行153
8.2异步并行154
8.2.1Hogwild!算法155
8.3训练A3C智能体157
8.4总结160
8.5扩展阅读160
第9章算法总结161
第三部分实践细节
第10章深度强化学习工程实践164
10.1软件工程实践164
10.1.1单元测试164
10.1.2代码质量169
10.1.3Git工作流170
10.2调试技巧171
10.2.1生命迹象172
10.2.2策略梯度诊断172
10.2.3数据诊断173
10.2.4预处理器174
10.2.5内存174
10.2.6算法函数174
10.2.7神经网络175
10.2.8算法简化177
10.2.9问题简化177
10.2.10超参数178
10.2.11实验室工作流178
10.3Atari技巧179
10.4深度强化学习小结181
10.4.1超参数表181
10.4.2算法性能比较184
10.5总结186
第11章SLM Lab187
11.1SLM Lab算法实现187
11.2spec文件188
11.2.1搜索spec语法190
11.3运行SLM Lab192
11.3.1SLM Lab指令193
11.4分析实验结果193
11.4.1实验数据概述193
11.5总结195
第12章神经网络架构196
12.1神经网络的类型196
12.1.1多层感知机196
12.1.2卷积神经网络198
12.1.3循环神经网络199
12.2选择网络族的指导方法199
12.2.1MDP与POMDP200
12.2.2根据环境选择网络202
12.3网络API204
12.3.1输入层和输出层形状推断205
12.3.2自动构建网络207
12.3.3训练步骤209
12.3.4基础方法的使用210
12.4总结211
12.5扩展阅读212
第13章硬件213
13.1计算机213
13.2数据类型217
13.3在强化学习中优化数据类型219
13.4选择硬件222
13.5总结223
第四部分环境设计
第14章状态226
14.1状态示例226
14.2状态完整性231
14.3状态复杂性231
14.4状态信息损失235
14.4.1图像灰度235
14.4.2离散化235
14.4.3散列冲突236
14.4.4元信息损失236
14.5预处理238
14.5.1标准化239
14.5.2图像预处理240
14.5.3时间预处理241
14.6总结244
第15章动作245
15.1动作示例245
15.2动作完整性247
15.3动作复杂性248
15.4总结251
15.5扩展阅读:日常事务中的动作设计252
第16章奖励255
16.1奖励的作用255
16.2奖励设计准则256
16.3总结259
第17章转换函数260
17.1可行性检测260
17.2真实性检测262
17.3总结263后记264
附录A深度强化学习时间线267
附录B示例环境269
参考文献274
内容摘要
本书围绕深度强化学习进行讲解,结构合理有序,内容重点突出,理论结合实践,全面讨论了深度强化学习的研究成果及实践工具。本书分为四部分,共17章,涉及的主要内容包括:REINFORCE、SARSA、深度Q网络、改进的深度Q网络、优势演员-评论家算法、近端策略优化算法、并行方法、深度强化学习工程实践、SLMLab、神经网络架构、硬件、状态、动作、奖励、转换函数等。
本书可以作为高等院校人工智能、计算机、大数据等相关专业的本科或研究生教材,也可以作为人工智能相关领域的硏究人员和技术人员的参考书籍。
主编推荐
阐述深度强化机器学习理论和优化算法。围绕深度强化学习的体系特征进行深入浅出地讲解探讨,特点鲜明。本书采用端到端的方式引入深度强化学习,即从感性认识开始,而后解释理论和算法,*后提供代码实现和实用性技巧。
— 没有更多了 —
以下为对购买帮助不大的评价