消息首页搜索举报

Python强化学习:算法、核心技术与行业应用9787111734895

正版图书，可开发票，请放心购买。

96.75 7.5折 129 全新

库存50件

广东广州

认证卖家担保交易快速发货售后保障

作者(美)埃内斯·比尔金(Enes Bilgin)著

出版社机械工业出版社

ISBN9787111734895

出版时间2023-09

装帧平装

开本16开

定价129元

货号13882336

上书时间2024-09-13

亿临书店

四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 9小时
好评率暂无

店主推荐
最新上架

中国古代史学批评史:隋唐时期:第三卷:中国古代史学批评的深入9787556124374 ¥90.35

中国古代史学批评史:清时期:第七卷:中国古代史学批评的集大成9787556124411 ¥90.35

《爱丽丝漫游奇境记》9787559434678 ¥94.01

第二国际第九次(巴塞尔)(非常)代表大会文献9787511733894 ¥94.08

Excel经典教程(公式与函数)9787115573155 ¥94.01

230节孩子应备的艺术创意课:画啦啦少儿美术课堂9787115569318 ¥94.01

丝绸之路研究(第2辑)9787108068460 ¥94.08

历史的瞬间:秦皇岛港往事回眸9787514408812 ¥94.08

软件自动化测试实战(基于开源测试工具)/软件测试丛书9787115563873 ¥94.01

人体科学的世界(全彩)9787121441394 ¥96.00

害羞的香蕉(平装)9787553508665 ¥15.68

西游记幼儿美绘本(第十卷)(2021)9787558911354 ¥12.48

大侦探福尔摩斯(第45册秘密的名单小学生版)9787558619861 ¥11.92

蹑手蹑脚的行动9787553510729 ¥30.73

神奇的绳子：：：9787558911958 ¥28.22

太空总动员9787553513393 ¥105.37

可怕的练胆大会9787553510712 ¥30.73

像爸爸一样9787553510989 ¥24.46

商品详情

品相描述：全新

商品描述: 目录
 CONTENTS 目录 译者序 前言 作者简介 审校者简介 第一部分强化学习基础 第1章强化学习简介 2 1.1 为什么选择强化学习 2 1.2 机器学习的三种范式 3 1.2.1 监督学习 3 1.2.2 无监督学习 4 1.2.3 强化学习 4 1.3 强化学习应用领域和成功案例 5 1.3.1 游戏 6 1.3.2 机器人技术和自主系统 7 1.3.3 供应链 8 1.3.4 制造业 8 1.3.5 个性化和推荐系统 9 1.3.6 智慧城市 9 1.4 强化学习问题的元素 10 1.4.1 强化学习概念 10 1.4.2 将井字棋游戏建模为强化 学习问题 11 1.5 设置强化学习环境 12 1.5.1 硬件要求 12 1.5.2 操作系统 13 1.5.3 软件工具箱 13 1.6 总结 14 1.7 参考文献 15 第2章多臂老虎机 17 2.1 探索–利用权衡 17 2.2 什么是多臂老虎机问题 18 2.2.1 问题定义 18 2.2.2 一个简单多臂老虎机问题 的实验 19 2.3 案例研究：在线广告 22 2.4 A/B/n测试 23 2.4.1 符号 23 2.4.2 应用于在线广告场景 24 2.4.3 A/B/n测试的优缺点 27 2.5 ε-贪心策略行动 27 2.5.1 应用于在线广告场景 27 2.5.2 ε-贪心策略行动的优缺点 29 2.6 使用置信上界进行行动选择 30 2.6.1 应用于在线广告场景 30 2.6.2 使用置信上界的优缺点 32 2.7 汤普森（后）采样 33 2.7.1 应用于在线广告场景 33 2.7.2 汤普森采样的优缺点 36 2.8 总结 36 2.9 参考文献 36 第3章上下文多臂老虎机 37 3.1 为什么我们需要函数近似 37 3.2 对上下文使用函数近似 38 3.2.1 案例研究：使用合成用户 数据的上下文在线广告 39 3.2.2 使用正则化逻辑斯谛回归 的函数近似 42 3.2.3 目标函数：悔值最小化 45 3.2.4 解决在线广告问题 46 3.3 对行动使用函数近似 50 3.3.1 案例研究：使用来自美国 人口普查的用户数据的上 下文在线广告 51 3.3.2 使用神经网络进行函数 近似 55 3.3.3 计算悔值 57 3.3.4 解决在线广告问题 57 3.4 多臂老虎机和上下文老虎机的 其他应用 59 3.4.1 推荐系统 59 3.4.2 网页/应用程序功能设计 60 3.4.3 医疗保健 60 3.4.4 动态定价 60 3.4.5 金融 60 3.4.6 控制系统调整 60 3.5 总结 61 3.6 参考文献 61 第4章马尔可夫决策过程的制定 63 4.1 马尔可夫链 63 4.1.1 具有马尔可夫性的随机 过程 63 4.1.2 马尔可夫链中的状态分类 65 4.1.3 转移和稳态行为 66 4.1.4 示例：网格世界中的n- 步行为 67 4.1.5 示例：一个可遍历马尔可 夫链中的样本路径 69 4.1.6 半马尔可夫过程和连续时 间马尔可夫链 70 4.2 引入奖励：马尔可夫奖励过程 70 4.2.1 将奖励附加到网格世界 示例 71 4.2.2 不同初始化的平均奖励之 间的关系 72 4.2.3 回报、折扣和状态值 72 4.2.4 解析式地计算状态值 73 4.2.5 迭代式地估计状态值 74 4.3 引入行动：马尔可夫决策过程 75 4.3.1 定义 75 4.3.2 网格世界作为马尔可夫决 策过程 76 4.3.3 状态值函数 77 4.3.4 行动值函数 77 4.3.5 很优状态值和行动值 函数 78 4.3.6 贝尔曼很优性 78 4.4 部分可观测的马尔可夫决策过程 79 4.5 总结 80 4.6 练习 80 4.7 参考文献 81 第5章求解强化学习问题 82 5.1 探索动态规划 82 5.1.1 示例用例：食品卡车的库存补充 82 5.1.2 策略评估 85 5.1.3 策略迭代 90 5.1.4 值迭代 94 5.1.5 动态规划方法的缺点 95 5.2 用蒙特卡罗法训练智能体 96 5.2.1 蒙特卡罗预测 97 5.2.2 蒙特卡罗控制 104 5.3 时间差分学习 111 5.3.1 一步时间差分学习 112 5.3.2 n-步时间差分学习 117 5.4 了解模拟在强化学习中的 重要性 117 5.5 总结 118 5.6 练习 119 5.7 参考文献 119 第二部分深度强化学习 第6章规模化的深度Q-学习 122 6.1 从表格型Q-学习到深度Q- 学习 122 6.1.1 神经网络拟合的Q-迭代 123 6.1.2 在线Q-学习 127 6.2 深度Q网络 128 6.2.1 DQN中的关键概念 128 6.2.2 DQN算法 129 6.3 DQN扩展：Rainbow 130 6.3.1 扩展 130 6.3.2 集成智能体的性能 134 6.3.3 如何选择使用哪些扩展：Rainbow的消融实验 134 6.3.4 “死亡三组合”发生了什 么变化 135 6.4 分布式深度Q-学习 135 6.4.1 分布式深度Q-学习架构 的组成部分 136 6.4.2 通用强化学习架构： Gorila 136 6.4.3 分布式优先级经验重放：Ape-X 137 6.5 使用Ray实现可扩展的深度Q- 学习算法 140 6.5.1 Ray入门 140 6.5.2 DQN变体的Ray实现 143 6.6 使用RLlib实现生产级深度强化 学习算法 154 6.7 总结 156 6.8 参考文献 156 第7章基于策略的方法 158 7.1 为什么我们应该使用基于策略的 方法 158 7.1.1 一种更本质的方法 158 7.1.2 适用连续行动空间的 能力 158 7.1.3 学习到真正随机策略的 能力 159 7.2 一般性策略梯度方法 160 7.2.1 策略梯度方法的优化 目标 160 7.2.2 计算梯度 161 7.2.3 REINFORCE算法 162 7.2.4 REINFORCE以及所有策 略梯度方法存在的问题 163 7.2.5 使用RLlib实现一般性策 略梯度方法 164 7.3 Actor-Critic算法 167 7.3.1 进一步减小策略梯度方法 的方差 167 7.3.2 优势Actor-Critic算法： A2C 169 7.3.3 异步优势Actor-Critic算法：A3C 171 7.3.4 一般性优势函数估计 172 7.4 信任域方法 173 7.4.1 将策略梯度转化为策略 迭代 173 7.4.2 TRPO 176 7.4.3 PPO 177 7.5 异策略方法 179 7.5.1 DDPG 179 7.5.2 TD3 181 7.5.3 SAC 182 7.5.4 IMPALA 182 7.6 Lunar Lander环境中基于策略的 方法的比较 183 7.7 如何选择正确的算法 184 7.8 策略梯度方法的开源实现 185 7.9 总结 185 7.10 参考文献 186 第8章基于模型的方法 187 8.1 技术要求 187 8.2 引入基于模型的方法 187 8.3 通过模型进行规划 188 8.3.1 定义很优控制问题 188 8.3.2 随机射击 190 8.3.3 交叉熵方法 192 8.3.4 协方差矩阵自适应进化 策略 195 8.3.5

— 没有更多了 —