• 正版深度强化学习
21年品牌 40万+商家 超1.5亿件商品

正版深度强化学习

62.3 4.8折 129.8 全新

库存5件

北京丰台
认证卖家担保交易快速发货售后保障

作者王树森,黎彧君,张志华

出版社人民邮电出版社

ISBN9787115600691

出版时间2022-11

版次1

装帧平装

开本16开

纸张胶版纸

页数294页

定价129.8元

货号2170-9787115600691

上书时间2024-12-24

青松阁文化

十五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
基本信息
书名:深度强化学习
定价:129.8元
作者:王树森,黎彧君,张志华
出版社:人民邮电出版社
出版日期:2022-11-01
ISBN:9787115600691
字数:
页码:294
版次:
装帧:平装
开本:16开
商品重量:
编辑推荐

内容提要

目录
序言 i前言 v常用符号 部分 基础知识章 机器学习基础 21.1 线性模型 21.1.1 线性回归 21.1.2 逻辑斯谛回归 41.1.3 softmax分类器 71.2 神经网络 101.2.1 全连接神经网络 101.2.2 卷积神经网络 111.3 梯度下降和反向传播 121.3.1 梯度下降 131.3.2 反向传播 14知识点小结 16习题 16第 2章 蒙特卡洛方法 182.1 随机变量 182.2 蒙特卡洛方法实例 212.2.1 例一:近似π值 212.2.2 例二:估算阴影部分面积 232.2.3 例三:近似定积分 252.2.4 例四:近似期望 262.2.5 例五:随机梯度 27知识点小结 29习题 29第3章 强化学习基本概念 313.1 马尔可夫决策过程 313.1.1 状态、动作、奖励 313.1.2 状态转移 323.2 策略 333.3 随机性 353.4 回报与折扣回报 373.4.1 回报 373.4.2 折扣回报 373.4.3 回报中的随机性 383.4.4 有限期MDP和无限期MDP 393.5 价值函数 393.5.1 动作价值函数 403.5.2 动作价值函数 403.5.3 状态价值函数 413.6 实验环境:OpenAI Gym 42知识点小结 44习题 44第二部分 价值学习第4章 DQN与Q学习 484.1 DQN 484.1.1 概念回顾 484.1.2 DQN表达式 494.1.3 DQN的梯度 504.2 TD算法 504.2.1 驾车时间预测示例 504.2.2 TD算法的原理 514.3 用TD训练DQN 534.3.1 算法推导 534.3.2 训练流程 554.4 Q 学习算法 574.4.1 表格形式的Q学习 574.4.2 算法推导 574.4.3 训练流程 584.5 同策略与异策略 59相关文献 60知识点小结 61习题 61第5章 SARSA算法 635.1 表格形式的SARSA 635.1.1 算法推导 635.1.2 训练流程 645.1.3 Q学习与SARSA的对比 655.2 神经网络形式的SARSA 665.2.1 价值网络 665.2.2 算法推导 665.2.3 训练流程 675.3 多步TD目标 685.3.1 算法推导 685.3.2 多步TD目标的原理 695.3.3 训练流程 705.4 蒙特卡洛方法与自举 705.4.1 蒙特卡洛方法 715.4.2 自举 715.4.3 蒙特卡洛方法和自举的对比 72相关文献 73知识点小结 73习题 74第6章 价值学习高级技巧 756.1 经验回放 756.1.1 经验回放的优点 766.1.2 经验回放的局限性 766.1.3 优先经验回放 776.2 高估问题及解决方法 796.2.1 自举导致偏差传播 796.2.2 化导致高估 806.2.3 高估的危害 816.2.4 使用目标网络 826.2.5 双Q学习算法 846.2.6 总结 856.3 对决网络 866.3.1 优势函数 866.3.2 对决网络的结构 876.3.3 解决不唯一性 886.3.4 对决网络的实际实现 896.4 噪声网络 906.4.1 噪声网络的原理 906.4.2 噪声DQN 916.4.3 训练流程 93相关文献 94知识点小结 94习题 94第三部分 策略学习第7章 策略梯度方法 987.1 策略网络 987.2 策略学习的目标函数 997.3 策略梯度定理 1017.3.1 简化证明 1017.3.2 严格证明 1027.3.3 近似策略梯度 1067.4 REINFORCE 1077.4.1 简化推导 1087.4.2 训练流程 1087.4.3 严格推导 1097.5 actor-critic 1107.5.1 价值网络 1107.5.2 算法推导 1117.5.3 训练流程 1147.5.4 用目标网络改进训练 114相关文献 115知识点小结 115习题 116第8章 带基线的策略梯度方法 1178.1 策略梯度中的基线 1178.1.1 基线的引入 1178.1.2 基线的直观解释 1188.2 带基线的REINFORCE算法 1198.2.1 策略网络和价值网络 1208.2.2 算法推导 1218.2.3 训练流程 1218.3 advantage actor-critic 1228.3.1 算法推导 1238.3.2 训练流程 1258.3.3 用目标网络改进训练 1268.4 证明带基线的策略梯度定理 127知识点小结 128习题 128第9章 策略学习高级技巧 1299.1 置信域策略优化 1299.1.1 置信域方法 1299.1.2 策略学习的目标函数 1329.1.3 算法推导 1339.1.4 训练流程 1359.2 策略学习中的熵正则 135相关文献 138知识点小结 1380章 连续控制 13910.1 连续空间的离散化 13910.2 深度确定性策略梯度 14010.2.1 策略网络和价值网络 14010.2.2 算法推导 14210.3 深入分析DDPG 14510.3.1 从策略学习的角度看待DDPG 14510.3.2 从价值学习的角度看待DDPG 14610.3.3 DDPG的高估问题 14710.4 双延迟深度确定性策略梯度 14810.4.1 高估问题的解决方案——目标网络 14810.4.2 高估问题的解决方案——截断双Q学习 14810.4.3 其他改进点 14910.4.4 训练流程 15010.5 随机高斯策略 15110.5.1 基本思路 15210.5.2 随机高斯策略网络 15310.5.3 策略梯度 15410.5.4 用REINFORCE学习参数 15510.5.5 用actor-critic学习参数 155相关文献 157知识点小结 1571章 对状态的不完全观测 15811.1 不完全观测问题 15811.2 循环神经网络 15911.3 基于RNN的策略网络 161相关文献 162知识点小结 163习题 1632章 模仿学习 16512.1 行为克隆 16512.1.1 连续控制问题 16512.1.2 离散控制问题 16612.1.3 行为克隆与强化学习的对比 16812.2 逆向强化学习 16912.2.1 IRL的基本设定 16912.2.2 IRL的基本思想 17012.2.3 从黑箱策略反推奖励 17012.2.4 用奖励函数训练策略网络 17112.3 生成判别模仿学习 17112.3.1 生成判别网络 17212.3.2 GAIL的生成器和判别器 17512.3.3 GAIL的训练 176相关文献 178知识点小结 179第四部分 多智能体强化学习3章 并行计算 18213.1 并行计算基础 18213.1.1 并行梯度下降 18213.1.2 MapReduce 18313.1.3 用 MapReduce实现并行梯度下降 18413.1.4 并行计算的代价 18713.2 同步与异步 18813.2.1 同步算法 18813.2.2 异步算法 18913.2.3 同步梯度下降与异步梯度下降的对比 19113.3 并行强化学习 19113.3.1 异步并行双Q学习 19113.3.2 A3C:异步并行A2C 193相关文献 195知识点小结 195习题 1964章 多智能体系统 19714.1 常见设定 19714.2 基本概念 19914.2.1 专业术语 19914.2.2 策略网络 20014.2.3 动作价值函数 20014.2.4 状态价值函数 20114.3 实验环境 20214.3.1 multi-agent particle world 20214.3.2 StarCraft multi-agent challenge 20414.3.3 Hanabi Challenge 205相关文献 206知识点小结 2065章 完全合作关系设定下的多智能体强化学习 20715.1 完全合作关系设定下的策略学习 20815.2 完全合作关系设定下的多智能体A2C 20915.2.1 策略网络和价值网络 20915.2.2 训练和决策 21115.2.3 实现中的难点 21215.3 三种架构 21315.3.1 中心化训练+中心化决策 21415.3.2 去中心化训练+去中心化决策 21515.3.3 中心化训练+去中心化决策 217相关文献 219知识点小结 220习题 2206章 非合作关系设定下的多智能体强化学习 22116.1 非合作关系设定下的策略学习 22216.1.1 非合作关系设定下的目标函数 22216.1.2 收敛的判别 22316.1.3 评价策略的优劣 22316.2 非合作关系设定下的多智能体A2C 22416.2.1 策略网络和价值网络 22416.2.2 算法推导 22516.2.3 训练 22616.2.4 决策 22716.3 三种架构 22716.3.1 中心化训练+中心化决策 22716.3.2 去中心化训练+去中心化决策 22816.3.3 中心化训练+去中心化决策 22916.4 连续控制与MADDPG 23116.4.1 策略网络和价值网络 23116.4.2 算法推导 23216.4.3 中心化训练 23416.4.4 去中心化决策 236相关文献 237知识点小结 2377章 注意力机制与多智能体强化学习 23817.1 自注意力机制 23817.1.1 自注意力层 23917.1.2 多头自注意力层 24117.2 自注意力改进多智能体强化学习 24217.2.1 不使用自注意力的状态价值网络 24217.2.2 使用自注意力的状态价值网络 24317.2.3 使用自注意力的动作价值网络 24417.2.4 使用自注意力的中心化策略网络 24417.2.5 总结 245相关文献 245知识点小结 245习题 246第五部分 应用与展望8章 AlphaGo与蒙特卡洛树搜索 24818.1 强化学习眼中的围棋 24818.2 蒙特卡洛树搜索 25018.2.1 MCTS的基本思想 25018.2.2 MCTS的四个步骤 25018.2.3 MCTS的决策 25518.3 训练策略网络和价值网络 25518.3.1 AlphaGo 2016版本的训练 25618.3.2 AlphaGo Zero版本的训练 258相关文献 260知识点小结 260习题 2619章 现实世界中的应用 26219.1 神经网络结构搜索 26219.1.1 超参数和交叉验证 26219.1.2 强化学习方法 26419.2 自动生成SQL语句 26619.3 推荐系统 26819.4 网约车调度 27019.4.1 价值学习 27119.4.2 派单机制 27119.5 强化学习与监督学习的对比 27319.5.1 决策是否改变环境 27319.5.2 当前奖励还是长线回报 27419.6 制约强化学习落地应用的因素 27519.6.1 所需的样本数量过大 27519.6.2 探索阶段代价太大 27619.6.3 超参数的影响非常大 27719.6.4 稳定性极差 278知识点小结 279附录A 贝尔曼方程 281附录B 习题答案 283参考文献 288
作者介绍

序言

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP