消息首页搜索举报

深度强化学习

全新正版极速发货

49.9 5.6折 89 全新

库存2件

浙江嘉兴

认证卖家担保交易快速发货售后保障

作者(印度)莫希特·塞瓦克|译者:尹大伟//吴敏杰

出版社国防工业

ISBN9787118131796

出版时间2024-06

装帧平装

开本其他

定价89元

货号32148109

上书时间2024-11-05

學源图书专营店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

海底两万里/译林名著有声涂色版 ¥11.00

汤姆·索亚历险记 ¥26.70

安德的影子 ¥24.30

在远方 ¥45.80

中外民间故事/注音美绘名师导读馆 ¥11.00

成语有意思˙数字游戏 ¥11.20

经验史增订版世纪文库 ¥49.90

擎天柱万岁(3)/变形金刚 ¥22.80

女法律必修课 ¥22.00

商品详情

品相描述：全新

商品描述: 作者简介
吴敏杰，博士，92728部队助理研究员。2012年获南京航空航天大学学士学位，2014年和2018年分别获国防科技大学硕士、博士学位。以第一作者通信作者共发表论文十余篇，其中SCI检索4篇，EI检索6篇。

目录
全书章节目录1 强化学习导论1.1 什么是人工智能？强化学习与人工智能有什么关系？1.2 理解强化学习的基本设计1.3 强化学习中确定好的奖励函数面临的收益与挑战1.3.1 未来收益1.3.2 概率不确定收益1.3.3 过去采取行动导致的收益1.3.4 确定一个好的奖励函数1.3.5 处理不同类型的奖励1.3.6 收益的领域范畴和解决办法1.4 强化学习的状态1.4.1 让我们在井字棋中打一个三连击1.4.2 让我们在车上完成杆的平衡（平衡杆问题）1.4.3 让我们帮助马里奥赢取公主1.5 强化学习中的智能体1.5.1 价值函数1.5.2 动作价值Q函数1.5.3 试探还是开发窘境1.5.4 策略和同轨离轨策略方法1.6 总结2 强化学习的数学和算法理解2.1 马尔可夫决策过程（MDP）2.1.1 元组形式中的马尔科夫概念2.1.2 MDP——数学对象2.2 贝尔曼方程2.2.1 贝尔曼方程估计价值函数2.2.2 贝尔曼方程估计动作价值Q函数2.3 动态规划和贝尔曼方程2.3.1 关于动态规划2.3.2 应用动态规划求解贝尔曼方程的最优性2.4 值迭代和策略迭代方法2.4.1 最优价值函数和最优策略的贝尔曼方程2.4.2 值迭代以及同步和异步更新模式2.4.3 策略迭代和策略评估2.5 总结3 环境和马尔可夫决策过程编程3.1 以网格世界问题为例3.1.1 理解网格世界3.1.2 网格世界中允许的状态变换3.2 构建环境3.2.1 继承环境类还是构建自定义环境类3.2.2 构建我们自定义环境类的秘诀3.3 平台要求和代码的工程架构3.4 创建网格世界环境问题编程3.5 基于值迭代方法求解网格世界编程3.6 基于策略迭代方法求解网格世界编程3.7 总结4 时序差分学习，SARSA和Q学习4.1 经典DP的挑战4.2 基于模型和免模型的方法4.3 时序差分（TD）学习4.3.1 强化学习的估计与控制问题4.3.2 TD(0)4.3.3 TD(λ)和资格迹4.4 SARSA4.5 Q学习4.6 确定“试探”和“开发”概率算法（强盗算法）4.6.1 ?-贪婪4.6.2 时间自适应“?”算法（如退火?）4.6.3 动作自适应“?”算法（如?柔软）4.6.4 值自适应“?”算法（如基于?-贪婪VDBE）4.6.5 我们应该使用哪种强盗算法4.7 总结5 Q学习编程5.1 工程结构与依赖项5.2 编程5.2.1 导入和日志记录（文件Q_Lerning.py）5.2.2 行为策略类代码5.2.3 Q学习智能体类代码5.2.4 测试智能体实现代码（主函数）5.2.5 自定义异常代码（文件rl_exceptions.py）5.3 训练统计图6 深度学习导论6.1 人工神经——深度学习的基石6.2 前馈深度神经网络（DNN）6.2.1 深度神经网络的前馈机制6.3 深度学习架构考虑6.3.1 深度学习中的激活函数6.3.2 深度学习中的损失函数6.3.3 深度学习中的优化器6.4 卷积神经网络——深度学习用于视觉6.4.1 卷积层6.4.2 池化层6.4.3 打平和全连接层6.5 总结7 运用资源7.1 你并不孤单！7.2 标准化训练环境和平台7.2.1 OpenAI Universe和Retro7.2.2 OpenAI Gym7.2.3 DeepMind实验室7.2.4 DeepMind控制套件7.2.5 微软Malmo项目7.2.6 Garge7.3 智能体开发和运用库7.3.1 DeepMind开源TRFL7.3.2 OpenAI Baselines7.3.3 Keras-RL7.3.4 Coach（Nervana系统）7.3.5 RLlib8 深度Q网络（DQN）、双DQN和决斗DQN8.1 通用人工智能8.2 Google DeepMind和AlphaGo简介8.3 DQN算法8.3.1 经验回放8.3.2 附加目标Q网络8.3.3 削减收益和惩罚8.4 双DQN8.5 决斗DQN8.6 总结9 双DQN编程9.1 工程结构与依赖项9.2 双DQN智能体代码（文件：DoubleDQN.py）9.2.1 行为策略类代码（文件：behavior_policy.py）9.2.2 经验回放存储类代码（文件：experience_replay.py）9.2.3 自定义异常类代码（文件：rl_exceptions.py）9.3 训练统计图10 基于策略的强化学习方法10.1 基于策略方法和策略近似介绍10.2 基于值和基于策略方法的广泛差异10.3 计算策略梯度的问题10.4 REINFORCE算法10.4.1 REINFORCE算法的缺陷10.4.2 REINFORCE算法的伪代码10.5 降低REINFORCE算法方差的方法10.5.1 积累未来收益贡献10.5.2 折现未来累计收益10.5.3 带基线的REINFORCE10.6 REINFORCE算法的基线选择10.7 总结11 演员-评论家模型和A3C11.1演员-评论家方法简介11.2 演员-评论家方法概念设计11.3 演员-评论家运用架构11.3.1 演员-评论家方法和（决斗）DQN11.3.2 演员-评论家模型架构优势11.4 异步优势演员-评论家（A3C）实现11.5 同步优势演员-评论家（A2C）实现11.6 总结12 A3C编程12.1工程结构与依赖项12.2 代码（A3C_Master——文件：a3c_master.py）12.2.1 A3C_Worker（文件：a3c_worker.py）12.2.2 演员-评论家（Tensorflow）模型（文件：actorcritic_model.py）12.2.3 基于存储的简单列表（文件：experience_replay.py）12.2.4 自定义异常（rl_exceptions.py）12.3 训练统计图13 确定性策略梯度和DDPG13.1确定性策略梯度（DPG）13.1.1 确定性策略梯度相比随机策略梯度的优势13.1.2 确定性策略梯度理论13.1.3 确定性基于策略梯度的演员-评论家13.2 深度确定性策略梯度（DDPG）13.2.1 DDPG中深度学习运用的相关改进13.2.2 DDPG算法伪代码13.3 总结14 DDPG编程14.1 强化学习的高级包装库14.2 爬山车连续（Gym）环境14.3 工程结构与依赖项14.4 代码（文件：ddpg_continout_action.py）14.5 智能体运行在“MountainCarContinous-v0”环境参考书目索引

内容摘要
本书主要内容包括：介绍了强化学习的基本概念，如智能体、环境、状态、奖励、动作等；介绍了强化学习的数学和算法原理，如马尔可夫决策过程和贝尔曼方程，并在此基础上讨论了动态规划、值迭代和策略迭代方法；介绍了强化学习的估计与控制问题，并通过实例展示了Q学习的编程；深入探讨了深度学习的概念、架构机制，通过介绍激活函数、损失函数、优化器、卷积层、池化层、全连接层等概念，为后续章节与强化学习算法相结合作铺垫。

— 没有更多了 —

深度强化学习

學源图书专营店

商品详情

相关推荐