深度强化学 基于python的理论及实践 大中专理科计算机 (美)劳拉·格雷泽,(美)龚辉伦 新华正版
¥
72
6.1折
¥
119
全新
库存4件
作者(美)劳拉·格雷泽,(美)龚辉伦
出版社机械工业出版社
ISBN9787111689331
出版时间2021-09
版次1
装帧平装
开本16
页数308页
定价119元
货号xhwx_1202496942
上书时间2024-09-15
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
主编:
阐述深度强化机器学理论和优化算法。围绕深度强化学的体系特征进行深入浅出地讲解探讨,特点鲜明。本书采用端到端的方式引入深度强化学,即从感认识开始,而后解释理论和算法,后提供代码实现和实用。
目录:
赞誉
译者序
序言
前言
致谢
章强化学简介1
1.1强化学1
1.2强化学中的mdp4
1.3强化学中的学函数7
1.4深度强化学算法9
1.4.1基于策略的算法9
1.4.2基于值的算法10
1.4.3基于模型的算法10
1.4.4组合方法11
1.4.5本书中的算法12
1.4.6同策略和异策略算法12
1.4.7小结12
1.5强化学中的深度学13
1.6强化学与监督学14
1.6.1缺乏先知14
1.6.2反馈稀疏15
1.6.3数据生成15
1.7结16
部分基于策略的算法和基于值的算法
第2章reinforce18
2.1策略18
2.2目标函数19
2.3策略梯度19
2.3.1策略梯度推导20
2.4蒙特卡罗采样22
2.5reinforce算法23
2.5.1改进的reinforce算法23
2.6实现reinforce24
2.6.1一种小化reinforce的实现24
2.6.2用pytorch构建策略26
2.6.3采样动作28
2.6.4计算策略损失29
2.6.5reinforce训练循环30
2.6.6同策略内存回放31
2.7训练reinforce智能体33
2.8实验结果36
2.8.1实验:评估折扣因子γ的影响36
2.8.2实验:评估基准线的影响37
2.9结39
2.10扩展阅读39
2.11历史回顾39
第3章sarsa40
3.1q函数和v函数40
3.2时序差分学42
3.2.1时间差分学示例44
3.3sarsa中的动作选择48
3.3.1探索和利用49
3.4sarsa算法50
3.4.1同策略算法51
3.5实现sarsa52
3.5.1动作函数:ε-贪婪52
3.5.2计算q损失52
3.5.3sarsa训练循环54
3.5.4同策略批处理内存回放55
3.6训练sarsa智能体56
3.7实验结果58
3.7.1实验:评估学率的影响58
3.8结60
3.9扩展阅读60
3.10历史回顾60
第4章深度q网络62
4.1学dqn中的q函数62
4.2dqn中的动作选择64
4.2.1boltzmann策略65
4.3经验回放67
4.4dqn算法68
4.5实现dqn69
4.5.1计算q损失70
4.5.2dqn训练循环70
4.5.3内存回放71
4.6训练dqn智能体74
4.7实验结果77
4.7.1实验:评估网络架构的影响77
4.8结78
4.9扩展阅读79
4.10历史回顾79
第5章改进的深度q网络80
5.1目标网络80
5.2双重dqn算法82
5.3优先级经验回放85
5.3.1重要抽样86
5.4实现改进的dqn88
5.4.1网络初始化88
5.4.2计算q损失89
5.4.3更新目标网络90
5.4.4包含目标网络的dqn91
5.4.5双重dqn91
5.4.6优先级经验回放91
5.5训练dqn智能体玩atari游戏96
5.6实验结果101
5.6.1实验:评估双重dqn与per的影响101
5.7结104
5.8扩展阅读104
第二部分组合方法
第6章优势演员-家算法106
6.1演员106
6.2家107
6.2.1优势函数107
6.2.2学优势函数110
6.3a2c算法111
6.4实现a2c113
6.4.1优势估计113
6.4.2计算值损失和策略损失115
6.4.3演员-家训练循环116
6.5网络架构117
6.6训练a2c智能体118
6.6.1在pong上使用n步回报的a2c算法118
6.6.2在pong上使用gae的a2c算法121
6.6.3在bipedalwalker上使用n步回报的a2c算法122
6.7实验结果124
6.7.1实验:评估n步回报的影响124
6.7.2实验:评估gae中λ的影响126
6.8结127
6.9扩展阅读128
6.10历史回顾128
第7章近端策略优化算法130
7.1替代目标函数130
7.1.1能突然下降130
7.1.2修改目标函数132
7.2近端策略优化136
7.3ppo算法139
7.4实现ppo141
7.4.1计算ppo的策略损失141
7.4.2ppo训练循环142
7.5训练ppo智能体143
7.5.1在pong上使用ppo算法143
7.5.2在bipedalwalker上使用ppo算法146
7.6实验结果149
7.6.1实验:评估gae中λ的影响149
7.6.2实验:评估裁剪变量ε的影响150
7.7结152
7.8扩展阅读152
第8章并行方法153
8.1同步并行153
8.2异步并行154
8.2.1hogwild!算法155
8.3训练a3c智能体157
8.4结160
8.5扩展阅读160
第9章算法结161
第三部分实践细节
0章深度强化学工程实践164
10.1软件工程实践164
10.1.1单元测试164
10.1.2代码质量169
10.1.3git工作流170
10.2调试171
10.2.1生命迹象172
10.2.2策略梯度诊断172
10.2.3数据诊断173
10.2.4预处理器174
10.2.5内存174
10.2.6算法函数174
10.2.7神经网络175
10.2.8算法简化177
10.2.9问题简化177
10.2.10超参数178
10.2.11实验室工作流178
10.3atari179
10.4深度强化学小结181
10.4.1超参数表181
10.4.2算法能比较184
10.5结186
1章slm lab187
11.1slm lab算法实现187
11.2spec文件188
11.2.1搜索spec语法190
11.3运行slm lab192
11.3.1slm lab指令193
11.4分析实验结果193
11.4.1实验数据概述193
11.5结195
2章神经网络架构196
12.1神经网络的类型196
12.1.1多层感知机196
12.1.2卷积神经网络198
12.1.3循环神经网络199
12.2选择网络族的指导方法199
12.2.1mdp与pomdp200
12.2.2根据环境选择网络202
12.3网络api204
12.3.1输入层和输出层形状推断205
12.3.2自动构建网络207
12.3.3训练步骤209
12.3.4基础方法的使用210
12.4结211
12.5扩展阅读212
3章硬件213
13.1计算机213
13.2数据类型217
13.3在强化学中优化数据类型219
13.4选择硬件222
13.5结223
第四部分环境设计
4章226
14.1示例226
14.2完整231
14.3复杂231
14.4信息损失235
14.4.1图像灰度235
14.4.2离散化235
14.4.3散列236
14.4.4元信息损失236
14.5预处理238
14.5.1标准化239
14.5.2图像预处理240
14.5.3时间预处理241
14.6结244
5章动作245
15.1动作示例245
15.2动作完整247
15.3动作复杂248
15.4结251
15.5扩展阅读:常事务中的动作设计252
6章奖励255
16.1奖励的作用255
16.2奖励设计准则256
16.3结259
7章转换函数260
17.1可行检测260
17.2真实检测262
17.3结263后记264
附录a深度强化学时间线267
附录b示例环境269
参文献274
内容简介:
本书围绕深度强化学进行讲解,结构合理有序,内容重点突出,理论结合实践,全面讨论了深度强化学的研究成果及实践工具。本书分为四部分,共17章,涉及的主要内容包括:reinforce、ara、深度q网络、改进的深度q网络、优势演员家算法、近端策略优化算法、并行方法、深度强化学工程实践、lmlab、神经网络架构、硬件、、动作、奖励、转换函数等。
本书可以作为高等院校人工智能、计算机、大数据等相关专业的本科或教材,也可以作为人工智能相关领域的硏究人员和技术人员的参书籍。
— 没有更多了 —
以下为对购买帮助不大的评价