深度强化学习:基于Python的理论及实践(英文版)
¥
77.3
6.5折
¥
119
全新
仅1件
作者[美]劳拉·格雷泽(Laura Graesser);[美]华龙·肯 (Wah Loo
出版社机械工业出版社
出版时间2020-12
版次1
装帧其他
货号9787111670407
上书时间2024-11-23
商品详情
- 品相描述:全新
图书标准信息
-
作者
[美]劳拉·格雷泽(Laura Graesser);[美]华龙·肯 (Wah Loo
-
出版社
机械工业出版社
-
出版时间
2020-12
-
版次
1
-
ISBN
9787111670407
-
定价
119.00元
-
装帧
其他
-
开本
16开
-
纸张
胶版纸
-
页数
396页
-
字数
285千字
- 【内容简介】
-
这本书是针对计算机科学专业大学生和软件工程师的。本课程旨在介绍深度强化学习,无需事先了解相关主题。但是,我们假设读者对机器学习和深度学习有基本的了解,并且对Python编程有中级的了解。一些使用PyTorch的经验也是有用的,但不是必需的。
- 【作者简介】
-
劳拉·格雷泽(Laura Graesser)是一名研究软件工程师,在谷歌从事机器人技术方面的工作。她拥有纽约大学计算机科学硕士学位,专攻机器学习。
龚辉伦(Wah Loon Keng)是Machine Zone的一名人工智能工程师,他致力于将深度强化学习应用于工业问题。他拥有理论物理和计算机科学的背景。
他们共同开发了两个深度强化学习软件库,并就此进行了多次主题讲座和技术辅导。
- 【目录】
-
第1章 强化学习简介1
1.1 强化学习1
1.2 强化学习中的MDP6
1.3 强化学习中的学习函数9
1.4 深度强化学习算法11
1.4.1 基于策略的算法12
1.4.2 基于值的算法13
1.4.3 基于模型的算法13
1.4.4 组合方法15
1.4.5 本书中的算法15
1.4.6 同策略和异策略算法16
1.4.7 小结16
1.5 强化学习中的深度学习17
1.6 强化学习与监督学习19
1.6.1 缺乏先知19
1.6.2 反馈稀疏性20
1.6.3 数据生成20
1.7 总结21
第一部分 基于策略的算法和基于值的算法
第2章 REINFORCE25
2.1 策略26
2.2 目标函数26
2.3 策略梯度27
2.3.1 策略梯度推导28
2.4 蒙特卡罗采样30
2.5 REINFORCE算法31
2.5.1 改进的REINFORCE算法32
2.6 实现REINFORCE33
2.6.1 一种最小化REINFORCE的实现33
2.6.2 用PyTorch构建策略36
2.6.3 采样动作38
2.6.4 计算策略损失39
2.6.5 REINFORCE训练循环40
2.6.6 同策略内存回放41
2.7 训练REINFORCE智能体44
2.8 实验结果47
2.8.1 实验:评估折扣因子的影响47
2.8.2 实验:评估基准线的影响49
2.9 总结51
2.10 扩展阅读51
2.11 历史回顾51
第3章 SARSA53
3.1 Q函数和V函数54
3.2 时序差分学习56
3.2.1 时序差分学习示例59
3.3 SARSA中的动作选择65
3.3.1 探索和利用66
3.4 SARSA算法67
3.4.1 同策略算法68
3.5 实现SARSA69
3.5.1 动作函数:ε-贪婪69
3.5.2 计算Q损失70
3.5.3 SARSA训练循环71
3.5.4 同策略批处理内存回放72
3.6 训练SARSA智能体74
3.7 实验结果76
3.7.1 实验:评估学习率的影响77
3.8 总结78
3.9 扩展阅读79
3.10 历史回顾79
第4章 深度Q网络81
4.1 学习DQN中的Q函数82
4.2 DQN中的动作选择83
4.2.1 Boltzmann策略86
4.3 经验回放88
4.4 DQN算法89
4.5 实现DQN91
4.5.1 计算Q损失91
4.5.2 DQN训练循环92
4.5.3 内存回放93
4.6 训练DQN智能体96
4.7 实验结果99
4.7.1 实验:评估网络架构的影响99
4.8 总结101
4.9 扩展阅读102
4.10 历史回顾102
第5章 改进的深度Q网络103
5.1 目标网络104
5.2 双重DQN106
5.3 优先级经验回放109
5.3.1 重要性抽样111
5.4 实现改进的DQN112
5.4.1 网络初始化113
5.4.2 计算Q损失113
5.4.3 更新目标网络115
5.4.4 包含目标网络的DQN116
5.4.5 双重DQN116
5.4.6 优先级经验回放117
5.5 训练DQN智能体玩Atari游戏123
5.6 实验结果128
5.6.1 实验:评估双重DQN与PER的影响128
5.7 总结132
5.8 扩展阅读132
第二部分 组合方法
第6章 优势演员–评论家算法135
6.1 演员136
6.2 评论家136
6.2.1 优势函数136
6.2.2 学习优势函数140
6.3 A2C算法141
6.4 实现A2C143
6.4.1 优势估计144
6.4.2 计算价值损失和策略损失147
6.4.3 演员–评论家训练循环147
6.5 网络架构148
6.6 训练A2C智能体150
6.6.1 在Pong上使用n步回报的A2C算法150
6.6.2 在Pong上使用GAE的A2C算法153
6.6.3 在BipedalWalker上使用n步回报的A2C算法155
6.7 实验结果157
6.7.1 实验:评估n步回报的影响158
6.7.2 实验:评估GAE中的影响159
6.8 总结161
6.9 扩展阅读162
6.10 历史回顾162
第7章 近端策略优化算法165
7.1 替代目标函数165
7.1.1 性能突然下降166
7.1.2 修改目标函数168
7.2 近端策略优化174
7.3 PPO算法177
7.4 实现PPO179
7.4.1 计算PPO的策略损失179
7.4.2 PPO训练循环180
7.5 训练PPO智能体182
7.5.1 在Pong上使用PPO算法182
7.5.2 在BipedalWalker上使用PPO算法185
7.6 实验结果188
7.6.1 实验:评估GAE中的影响188
7.6.2 实验:评估裁剪变量的影响190
7.7 总结192
7.8 扩展阅读192
第8章 并行方法195
8.1 同步并行196
8.2 异步并行197
8.2.1 Hogwild!算法198
8.3 训练A3C智能体200
8.4 总结203
8.5 扩展阅读204
第9章 算法总结205
第三部分 实践细节
第10章 深度强化学习工程实践209
10.1 软件工程实践209
10.1.1 单元测试210
10.1.2 代码质量215
10.1.3 Git工作流216
10.2 调试技巧218
10.2.1 生命迹象219
10.2.2 策略梯度诊断219
10.2.3 数据诊断220
10.2.4 预处理器222
10.2.5 内存222
10.2.6 算法函数2
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价