• Python强化学习:算法、核心技术与行业应用9787111734895
21年品牌 40万+商家 超1.5亿件商品

Python强化学习:算法、核心技术与行业应用9787111734895

正版图书,可开发票,请放心购买。

96.75 7.5折 129 全新

库存50件

广东广州
认证卖家担保交易快速发货售后保障

作者(美)埃内斯·比尔金(Enes Bilgin)著

出版社机械工业出版社

ISBN9787111734895

出版时间2023-09

装帧平装

开本16开

定价129元

货号13882336

上书时间2024-09-13

亿临书店

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
<br /><br />CONTENTS<br />目    录<br />译者序<br />前言<br />作者简介<br />审校者简介<br />第一部分  强化学习基础<br />第1章  强化学习简介  2<br />1.1  为什么选择强化学习  2<br />1.2  机器学习的三种范式  3<br />1.2.1  监督学习  3<br />1.2.2  无监督学习  4<br />1.2.3  强化学习  4<br />1.3  强化学习应用领域和成功案例  5<br />1.3.1  游戏  6<br />1.3.2  机器人技术和自主系统  7<br />1.3.3  供应链  8<br />1.3.4  制造业  8<br />1.3.5  个性化和推荐系统  9<br />1.3.6  智慧城市  9<br />1.4  强化学习问题的元素  10<br />1.4.1  强化学习概念  10<br />1.4.2  将井字棋游戏建模为强化<br />学习问题  11<br />1.5  设置强化学习环境  12<br />1.5.1  硬件要求  12<br />1.5.2  操作系统  13<br />1.5.3  软件工具箱  13<br />1.6  总结  14<br />1.7  参考文献  15<br />第2章  多臂老虎机  17<br />2.1  探索–利用权衡  17<br />2.2  什么是多臂老虎机问题  18<br />2.2.1  问题定义  18<br />2.2.2  一个简单多臂老虎机问题<br />的实验  19<br />2.3  案例研究:在线广告  22<br />2.4  A/B/n测试  23<br />2.4.1  符号  23<br />2.4.2  应用于在线广告场景  24<br />2.4.3  A/B/n测试的优缺点  27<br />2.5  ε-贪心策略行动  27<br />2.5.1  应用于在线广告场景  27<br />2.5.2  ε-贪心策略行动的优缺点  29<br />2.6  使用置信上界进行行动选择  30<br />2.6.1  应用于在线广告场景  30<br />2.6.2  使用置信上界的优缺点  32<br />2.7  汤普森(后)采样  33<br />2.7.1  应用于在线广告场景  33<br />2.7.2  汤普森采样的优缺点  36<br />2.8  总结  36<br />2.9  参考文献  36<br />第3章  上下文多臂老虎机  37<br />3.1  为什么我们需要函数近似  37<br />3.2  对上下文使用函数近似  38<br />3.2.1  案例研究:使用合成用户<br />数据的上下文在线广告  39<br />3.2.2  使用正则化逻辑斯谛回归<br />的函数近似  42<br />3.2.3  目标函数:悔值最小化  45<br />3.2.4  解决在线广告问题  46<br />3.3  对行动使用函数近似  50<br />3.3.1  案例研究:使用来自美国<br />人口普查的用户数据的上<br />下文在线广告  51<br />3.3.2  使用神经网络进行函数<br />近似  55<br />3.3.3  计算悔值  57<br />3.3.4  解决在线广告问题  57<br />3.4  多臂老虎机和上下文老虎机的<br />其他应用  59<br />3.4.1  推荐系统  59<br />3.4.2  网页/应用程序功能设计  60<br />3.4.3  医疗保健  60<br />3.4.4  动态定价  60<br />3.4.5  金融  60<br />3.4.6  控制系统调整  60<br />3.5  总结  61<br />3.6  参考文献  61<br />第4章  马尔可夫决策过程的制定  63<br />4.1  马尔可夫链  63<br />4.1.1  具有马尔可夫性的随机<br />过程  63<br />4.1.2  马尔可夫链中的状态分类  65<br />4.1.3  转移和稳态行为  66<br />4.1.4  示例:网格世界中的n-<br />步行为  67<br />4.1.5  示例:一个可遍历马尔可<br />夫链中的样本路径  69<br />4.1.6  半马尔可夫过程和连续时<br />间马尔可夫链  70<br />4.2  引入奖励:马尔可夫奖励过程  70<br />4.2.1  将奖励附加到网格世界<br />示例  71<br />4.2.2  不同初始化的平均奖励之<br />间的关系  72<br />4.2.3  回报、折扣和状态值  72<br />4.2.4  解析式地计算状态值  73<br />4.2.5  迭代式地估计状态值  74<br />4.3  引入行动:马尔可夫决策过程  75<br />4.3.1  定义  75<br />4.3.2  网格世界作为马尔可夫决<br />策过程  76<br />4.3.3  状态值函数  77<br />4.3.4  行动值函数  77<br />4.3.5  很优状态值和行动值<br />函数  78<br />4.3.6  贝尔曼很优性  78<br />4.4  部分可观测的马尔可夫决策过程  79<br />4.5  总结  80<br />4.6  练习  80<br />4.7  参考文献  81<br />第5章  求解强化学习问题  82<br />5.1  探索动态规划  82<br />5.1.1  示例用例:食品卡车的库存补充  82<br />5.1.2  策略评估  85<br />5.1.3  策略迭代  90<br />5.1.4  值迭代  94<br />5.1.5  动态规划方法的缺点  95<br />5.2  用蒙特卡罗法训练智能体  96<br />5.2.1  蒙特卡罗预测  97<br />5.2.2  蒙特卡罗控制  104<br />5.3  时间差分学习  111<br />5.3.1  一步时间差分学习  112<br />5.3.2  n-步时间差分学习  117<br />5.4  了解模拟在强化学习中的<br />重要性  117<br />5.5  总结  118<br />5.6  练习  119<br />5.7  参考文献  119<br />第二部分  深度强化学习<br />第6章  规模化的深度Q-学习  122<br />6.1  从表格型Q-学习到深度Q-<br />学习  122<br />6.1.1  神经网络拟合的Q-迭代  123<br />6.1.2  在线Q-学习  127<br />6.2  深度Q网络  128<br />6.2.1  DQN中的关键概念  128<br />6.2.2  DQN算法  129<br />6.3  DQN扩展:Rainbow  130<br />6.3.1  扩展  130<br />6.3.2  集成智能体的性能  134<br />6.3.3  如何选择使用哪些扩展:Rainbow的消融实验  134<br />6.3.4  “死亡三组合”发生了什<br />么变化  135<br />6.4  分布式深度Q-学习  135<br />6.4.1  分布式深度Q-学习架构<br />的组成部分  136<br />6.4.2  通用强化学习架构:<br />Gorila  136<br />6.4.3  分布式优先级经验重放:Ape-X  137<br />6.5  使用Ray实现可扩展的深度Q-<br />学习算法  140<br />6.5.1  Ray入门  140<br />6.5.2  DQN变体的Ray实现  143<br />6.6  使用RLlib实现生产级深度强化<br />学习算法  154<br />6.7  总结  156<br />6.8  参考文献  156<br />第7章  基于策略的方法  158<br />7.1  为什么我们应该使用基于策略的<br />方法  158<br />7.1.1  一种更本质的方法  158<br />7.1.2  适用连续行动空间的<br />能力  158<br />7.1.3  学习到真正随机策略的<br />能力  159<br />7.2  一般性策略梯度方法  160<br />7.2.1  策略梯度方法的优化<br />目标  160<br />7.2.2  计算梯度  161<br />7.2.3  REINFORCE算法  162<br />7.2.4  REINFORCE以及所有策<br />略梯度方法存在的问题  163<br />7.2.5  使用RLlib实现一般性策<br />略梯度方法  164<br />7.3  Actor-Critic算法  167<br />7.3.1  进一步减小策略梯度方法<br />的方差  167<br />7.3.2  优势Actor-Critic算法:<br />A2C  169<br />7.3.3  异步优势Actor-Critic算法:A3C  171<br />7.3.4  一般性优势函数估计  172<br />7.4  信任域方法  173<br />7.4.1  将策略梯度转化为策略<br />迭代  173<br />7.4.2  TRPO  176<br />7.4.3  PPO  177<br />7.5  异策略方法  179<br />7.5.1  DDPG  179<br />7.5.2  TD3  181<br />7.5.3  SAC  182<br />7.5.4  IMPALA  182<br />7.6  Lunar Lander环境中基于策略的<br />方法的比较  183<br />7.7  如何选择正确的算法  184<br />7.8  策略梯度方法的开源实现  185<br />7.9  总结  185<br />7.10  参考文献  186<br />第8章  基于模型的方法  187<br />8.1  技术要求  187<br />8.2  引入基于模型的方法  187<br />8.3  通过模型进行规划  188<br />8.3.1  定义很优控制问题  188<br />8.3.2  随机射击  190<br />8.3.3  交叉熵方法  192<br />8.3.4  协方差矩阵自适应进化<br />策略  195<br />8.3.5

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP