Python强化学习:算法、核心技术与行业应用9787111734895
正版图书,可开发票,请放心购买。
¥
96.75
7.5折
¥
129
全新
库存50件
作者(美)埃内斯·比尔金(Enes Bilgin)著
出版社机械工业出版社
ISBN9787111734895
出版时间2023-09
装帧平装
开本16开
定价129元
货号13882336
上书时间2024-09-13
商品详情
- 品相描述:全新
- 商品描述
-
目录
<br /><br />CONTENTS<br />目 录<br />译者序<br />前言<br />作者简介<br />审校者简介<br />第一部分 强化学习基础<br />第1章 强化学习简介 2<br />1.1 为什么选择强化学习 2<br />1.2 机器学习的三种范式 3<br />1.2.1 监督学习 3<br />1.2.2 无监督学习 4<br />1.2.3 强化学习 4<br />1.3 强化学习应用领域和成功案例 5<br />1.3.1 游戏 6<br />1.3.2 机器人技术和自主系统 7<br />1.3.3 供应链 8<br />1.3.4 制造业 8<br />1.3.5 个性化和推荐系统 9<br />1.3.6 智慧城市 9<br />1.4 强化学习问题的元素 10<br />1.4.1 强化学习概念 10<br />1.4.2 将井字棋游戏建模为强化<br />学习问题 11<br />1.5 设置强化学习环境 12<br />1.5.1 硬件要求 12<br />1.5.2 操作系统 13<br />1.5.3 软件工具箱 13<br />1.6 总结 14<br />1.7 参考文献 15<br />第2章 多臂老虎机 17<br />2.1 探索–利用权衡 17<br />2.2 什么是多臂老虎机问题 18<br />2.2.1 问题定义 18<br />2.2.2 一个简单多臂老虎机问题<br />的实验 19<br />2.3 案例研究:在线广告 22<br />2.4 A/B/n测试 23<br />2.4.1 符号 23<br />2.4.2 应用于在线广告场景 24<br />2.4.3 A/B/n测试的优缺点 27<br />2.5 ε-贪心策略行动 27<br />2.5.1 应用于在线广告场景 27<br />2.5.2 ε-贪心策略行动的优缺点 29<br />2.6 使用置信上界进行行动选择 30<br />2.6.1 应用于在线广告场景 30<br />2.6.2 使用置信上界的优缺点 32<br />2.7 汤普森(后)采样 33<br />2.7.1 应用于在线广告场景 33<br />2.7.2 汤普森采样的优缺点 36<br />2.8 总结 36<br />2.9 参考文献 36<br />第3章 上下文多臂老虎机 37<br />3.1 为什么我们需要函数近似 37<br />3.2 对上下文使用函数近似 38<br />3.2.1 案例研究:使用合成用户<br />数据的上下文在线广告 39<br />3.2.2 使用正则化逻辑斯谛回归<br />的函数近似 42<br />3.2.3 目标函数:悔值最小化 45<br />3.2.4 解决在线广告问题 46<br />3.3 对行动使用函数近似 50<br />3.3.1 案例研究:使用来自美国<br />人口普查的用户数据的上<br />下文在线广告 51<br />3.3.2 使用神经网络进行函数<br />近似 55<br />3.3.3 计算悔值 57<br />3.3.4 解决在线广告问题 57<br />3.4 多臂老虎机和上下文老虎机的<br />其他应用 59<br />3.4.1 推荐系统 59<br />3.4.2 网页/应用程序功能设计 60<br />3.4.3 医疗保健 60<br />3.4.4 动态定价 60<br />3.4.5 金融 60<br />3.4.6 控制系统调整 60<br />3.5 总结 61<br />3.6 参考文献 61<br />第4章 马尔可夫决策过程的制定 63<br />4.1 马尔可夫链 63<br />4.1.1 具有马尔可夫性的随机<br />过程 63<br />4.1.2 马尔可夫链中的状态分类 65<br />4.1.3 转移和稳态行为 66<br />4.1.4 示例:网格世界中的n-<br />步行为 67<br />4.1.5 示例:一个可遍历马尔可<br />夫链中的样本路径 69<br />4.1.6 半马尔可夫过程和连续时<br />间马尔可夫链 70<br />4.2 引入奖励:马尔可夫奖励过程 70<br />4.2.1 将奖励附加到网格世界<br />示例 71<br />4.2.2 不同初始化的平均奖励之<br />间的关系 72<br />4.2.3 回报、折扣和状态值 72<br />4.2.4 解析式地计算状态值 73<br />4.2.5 迭代式地估计状态值 74<br />4.3 引入行动:马尔可夫决策过程 75<br />4.3.1 定义 75<br />4.3.2 网格世界作为马尔可夫决<br />策过程 76<br />4.3.3 状态值函数 77<br />4.3.4 行动值函数 77<br />4.3.5 很优状态值和行动值<br />函数 78<br />4.3.6 贝尔曼很优性 78<br />4.4 部分可观测的马尔可夫决策过程 79<br />4.5 总结 80<br />4.6 练习 80<br />4.7 参考文献 81<br />第5章 求解强化学习问题 82<br />5.1 探索动态规划 82<br />5.1.1 示例用例:食品卡车的库存补充 82<br />5.1.2 策略评估 85<br />5.1.3 策略迭代 90<br />5.1.4 值迭代 94<br />5.1.5 动态规划方法的缺点 95<br />5.2 用蒙特卡罗法训练智能体 96<br />5.2.1 蒙特卡罗预测 97<br />5.2.2 蒙特卡罗控制 104<br />5.3 时间差分学习 111<br />5.3.1 一步时间差分学习 112<br />5.3.2 n-步时间差分学习 117<br />5.4 了解模拟在强化学习中的<br />重要性 117<br />5.5 总结 118<br />5.6 练习 119<br />5.7 参考文献 119<br />第二部分 深度强化学习<br />第6章 规模化的深度Q-学习 122<br />6.1 从表格型Q-学习到深度Q-<br />学习 122<br />6.1.1 神经网络拟合的Q-迭代 123<br />6.1.2 在线Q-学习 127<br />6.2 深度Q网络 128<br />6.2.1 DQN中的关键概念 128<br />6.2.2 DQN算法 129<br />6.3 DQN扩展:Rainbow 130<br />6.3.1 扩展 130<br />6.3.2 集成智能体的性能 134<br />6.3.3 如何选择使用哪些扩展:Rainbow的消融实验 134<br />6.3.4 “死亡三组合”发生了什<br />么变化 135<br />6.4 分布式深度Q-学习 135<br />6.4.1 分布式深度Q-学习架构<br />的组成部分 136<br />6.4.2 通用强化学习架构:<br />Gorila 136<br />6.4.3 分布式优先级经验重放:Ape-X 137<br />6.5 使用Ray实现可扩展的深度Q-<br />学习算法 140<br />6.5.1 Ray入门 140<br />6.5.2 DQN变体的Ray实现 143<br />6.6 使用RLlib实现生产级深度强化<br />学习算法 154<br />6.7 总结 156<br />6.8 参考文献 156<br />第7章 基于策略的方法 158<br />7.1 为什么我们应该使用基于策略的<br />方法 158<br />7.1.1 一种更本质的方法 158<br />7.1.2 适用连续行动空间的<br />能力 158<br />7.1.3 学习到真正随机策略的<br />能力 159<br />7.2 一般性策略梯度方法 160<br />7.2.1 策略梯度方法的优化<br />目标 160<br />7.2.2 计算梯度 161<br />7.2.3 REINFORCE算法 162<br />7.2.4 REINFORCE以及所有策<br />略梯度方法存在的问题 163<br />7.2.5 使用RLlib实现一般性策<br />略梯度方法 164<br />7.3 Actor-Critic算法 167<br />7.3.1 进一步减小策略梯度方法<br />的方差 167<br />7.3.2 优势Actor-Critic算法:<br />A2C 169<br />7.3.3 异步优势Actor-Critic算法:A3C 171<br />7.3.4 一般性优势函数估计 172<br />7.4 信任域方法 173<br />7.4.1 将策略梯度转化为策略<br />迭代 173<br />7.4.2 TRPO 176<br />7.4.3 PPO 177<br />7.5 异策略方法 179<br />7.5.1 DDPG 179<br />7.5.2 TD3 181<br />7.5.3 SAC 182<br />7.5.4 IMPALA 182<br />7.6 Lunar Lander环境中基于策略的<br />方法的比较 183<br />7.7 如何选择正确的算法 184<br />7.8 策略梯度方法的开源实现 185<br />7.9 总结 185<br />7.10 参考文献 186<br />第8章 基于模型的方法 187<br />8.1 技术要求 187<br />8.2 引入基于模型的方法 187<br />8.3 通过模型进行规划 188<br />8.3.1 定义很优控制问题 188<br />8.3.2 随机射击 190<br />8.3.3 交叉熵方法 192<br />8.3.4 协方差矩阵自适应进化<br />策略 195<br />8.3.5
— 没有更多了 —
以下为对购买帮助不大的评价