• 深度强化学习实践(原书第2版)
  • 深度强化学习实践(原书第2版)
21年品牌 40万+商家 超1.5亿件商品

深度强化学习实践(原书第2版)

正版图书,可开发票,请放心购买。

121.94 8.2折 149 全新

仅1件

广东广州
认证卖家担保交易快速发货售后保障

作者[俄]马克西姆·拉潘(mamlapan)

出版社机械工业出版社

ISBN9787111687382

出版时间2021-08

装帧平装

开本16开

定价149元

货号31233313

上书时间2023-08-31

淘书宝店

九年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
译者序<br/>前言<br/>作者简介<br/>审校者简介<br/>第1章 什么是强化学习1<br/>1.1 机器学习分类2<br/>1.1.1 监督学习2<br/>1.1.2 非监督学习2<br/>1.1.3 强化学习2<br/>1.2 强化学习的复杂性4<br/>1.3 强化学习的形式4<br/>1.3.1 奖励5<br/>1.3.2 智能体6<br/>1.3.3 环境6<br/>1.3.4 动作7<br/>1.3.5 观察7<br/>1.4 强化学习的理论基础9<br/>1.4.1 马尔可夫决策过程9<br/>1.4.2 策略17<br/>1.5 总结18<br/>第2章 OpenAI Gym19<br/>2.1 剖析智能体19<br/>2.2 硬件和软件要求21<br/>2.3 OpenAI Gym API23<br/>2.3.1 动作空间23<br/>2.3.2 观察空间23<br/>2.3.3 环境25<br/>2.3.4 创建环境26<br/>2.3.5 车摆系统28<br/>2.4 随机CartPole智能体30<br/>2.5 Gym的额外功能:包装器和监控器30<br/>2.5.1 包装器31<br/>2.5.2 监控器33<br/>2.6 总结35<br/>第3章 使用PyTorch进行深度学习36<br/>3.1 张量36<br/>3.1.1 创建张量37<br/>3.1.2 零维张量39<br/>3.1.3 张量操作39<br/>3.1.4 GPU张量40<br/>3.2 梯度41<br/>3.3 NN构建块44<br/>3.4 自定义层45<br/>3.5 最终黏合剂:损失函数和优化器47<br/>3.5.1 损失函数48<br/>3.5.2 优化器48<br/>3.6 使用TensorBoard进行监控50<br/>3.6.1 TensorBoard 10150<br/>3.6.2 绘图52<br/>3.7 示例:将GAN应用于Atari图像53<br/>3.8 PyTorch Ignite57<br/>3.9 总结61<br/>第4章 交叉熵方法62<br/>4.1 RL方法的分类62<br/>4.2 交叉熵方法的实践63<br/>4.3 交叉熵方法在CartPole中的应用65<br/>4.4 交叉熵方法在FrozenLake中的应用72<br/>4.5 交叉熵方法的理论背景78<br/>4.6 总结79<br/>第5章 表格学习和Bellman方程80<br/>5.1 价值、状态和最优性80<br/>5.2 最佳Bellman方程82<br/>5.3 动作的价值84<br/>5.4 价值迭代法86<br/>5.5 价值迭代实践87<br/>5.6 Q-learning在FrozenLake中的应用92<br/>5.7 总结94<br/>第6章 深度Q-network95<br/>6.1 现实的价值迭代95<br/>6.2 表格Q-learning96<br/>6.3 深度Q-learning100<br/>6.3.1 与环境交互102<br/>6.3.2 SGD优化102<br/>6.3.3 步骤之间的相关性103<br/>6.3.4 马尔可夫性质103<br/>6.3.5 DQN训练的最终形式103<br/>6.4 DQN应用于Pong游戏104<br/>6.4.1 包装器105<br/>6.4.2 DQN模型109<br/>6.4.3 训练110<br/>6.4.4 运行和性能118<br/>6.4.5 模型实战120<br/>6.5 可以尝试的事情122<br/>6.6 总结123<br/>第7章 高级强化学习库124<br/>7.1 为什么使用强化学习库124<br/>7.2 PTAN库125<br/>7.2.1 动作选择器126<br/>7.2.2 智能体127<br/>7.2.3 经验源131<br/>7.2.4 经验回放缓冲区136<br/>7.2.5 TargetNet类137<br/>7.2.6 Ignite帮助类139<br/>7.3 PTAN版本的CartPole解决方案139<br/>7.4 其他强化学习库141<br/>7.5 总结141<br/>第8章 DQN扩展142<br/>8.1 基础DQN143<br/>8.1.1 通用库143<br/>8.1.2 实现147<br/>8.1.3 结果148<br/>8.2 N步DQN150<br/>8.2.1 实现152<br/>8.2.2 结果152<br/>8.3 Double DQN153<br/>8.3.1 实现154<br/>8.3.2 结果155<br/>8.4 噪声网络156<br/>8.4.1 实现157<br/>8.4.2 结果159<br/>8.5 带优先级的回放缓冲区160<br/>8.5.1 实现161<br/>8.5.2 结果164<br/>8.6 Dueling DQN165<br/>8.6.1 实现166<br/>8.6.2 结果167<br/>8.7 Categorical DQN168<br/>8.7.1 实现171<br/>8.7.2 结果175<br/>8.8 组合所有方法178<br/>8.9 总结180<br/>8.10 参考文献180<br/>第9章 加速强化学习训练的方法182<br/>9.1 为什么速度很重要182<br/>9.2 基线184<br/>9.3 PyTorch中的计算图186<br/>9.4 多个环境188<br/>9.5 在不同进程中分别交互和训练190<br/>9.6 调整包装器194<br/>9.7 基准测试总结198<br/>9.8 硬核CuLE199<br/>9.9 总结199<br/>9.10 参考文献199<br/>第10章 使用强化学习进行股票交易200<br/>10.1 交易200<br/>10.2 数据201<br/>10.3 问题陈述和关键决策202<br/>10.4 交易环境203<br/>10.5 模型210<br/>10.6 训练代码211<br/>10.7 结果211<br/>10.7.1 前馈模型212<br/>10.7.2 卷积模型217<br/>10.8 可以尝试的事情218<br/>10.9 总结219<br/>第11章 策略梯度:一种替代方法220<br/>11.1 价值与策略220<br/>11.1.1 为什么需要策略221<br/>11.1.2 策略表示221<br/>11.1.3 策略梯度222<br/>11.2 REINFORCE方法222<br/>11.2.1 CartPole示例223<br/>11.2.2 结果227<br/>11.2.3 基于策略的方法与基于价值的方法228<br/>11.3 REINFORCE的问题229<br/>11.3.1 需要完整片段229<br/>11.3.2 高梯度方差229<br/>11.3.3 探索230<br/>11.3.4 样本相关性230<br/>11.4 用于CartPole的策略梯度方法230<br/>11.4.1 实现231<br/>11.4.2 结果233<br/>11.5 用于Pong的策略梯度方法237<br/>11.5.1 实现238<br/>11.5.2 结果239<br/>11.6 总结240<br/>第12章 actor-critic方法241<br/>12.1 减小方差241<br/>12.2 CartPole的方差243<br/>12.3 actor-critic246<br/>12.4 在Pong中使用A2C247<br/>12.5 在Pong中使用A2C的结果252<br/>12.6 超参调优255<br/>12.6.1 学习率255<br/>12.6.2 熵的beta值256<br/>12.6.3 环境数256<br/>12.6.4 批大小257<br/>12.7 总结257<br/>第13章 A3C258<br/>13.1 相关性和采样效率258<br/>13.2 向A2C添加另一个A259<br/>13.3 Python中的多重处理功能261<br/>13.4 数据并行化的A3C262<br/>13.4.1 实现262<br/>13.4.2 结果267<br/>13.5 梯度并行化的A3C269<br/>13.5.1 实现269<br/>13.5.2 结果273<br/>13.6 总结274<br/>第14章 使用强化学习训练聊天机器人275<br/>14.1 聊天机器人概述275<br/>14.2 训练聊天机器人276<br/>14.3 深度NLP基础277<br/>14.3.1 RNN277<br/>14.3.2 词嵌入278<br/>14.3.3 编码器–解码器架构279<br/>14.4 seq2seq训练280<br/>14.4.1 对数似然训练280<br/>14.4.2 双语替换评测分数282<br/>14.4.3 seq2seq中的强化学习282<br/>14.4.4 自评序列训练283<br/>14.5 聊天机器人示例284<br/>14.5.1 示例的结构285<br/>14.5.2 模块:cornell.py和data.py285<br/>14.5.3 BLEU分数和utils.py286<br/>14.5.4 模型287<br/>14.6 数据集探索292<br/>14.7 训练:交叉熵294<br/>14.7.1 实现294<br/>14.7.2 结果298<br/>14.8 训练:SCST300<br/>14.8.1 实现300<br/>14.8.2 结果306<br/>14.9 经过数据测试的模型309<br/>14.10 Telegram机器人311<br/>14.11 总结314<br/>第15章 TextWorld环境315<br/>15.1 文字冒险游戏315<br/>15.2 环境318<br/>15.2.1 安装318<br/>15.2.2 游戏生成318<br/>15.2.3 观察和动作空间320<br/>15.2.4 额外的游戏信息322<br/>15.3 基线DQN325<br/>15.3.1 观察预处理326<br/>15.3.2 embedding和编码器331<br/>15.3.3 DQN模型和智能体333<br/>15.3.4 训练代码335<br/>15.3.5 训练结果335<br/>15.4 命令生成模型340<br/>15.4.1 实现341<br/>15.4.2 预训练结果345<br/>15.4.3 DQN训练代码346<br/>15.4.4 DQN训练结果347<br/>15.5 总结349<br/>第16章 Web导航350<br/>16.1 Web导航简介350<br/>16.1.1 浏览器自动化和RL351<br/>16.1.2 MiniWoB基准352<br/>16.2 OpenAI Universe353<br/>16.2.1 安装354<br/>16.2.2 动作与观察354<br/>16.2.3 创建环境355<br/>16.2.4 MiniWoB的稳定性357<br/>16.3 简单的单击方法357<br/>16.3.1 网格动作358<br/>16.3.2 示例概览359<br/>16.3.3 模型359<br/>16.3.4 训练代码360<br/>16.3.5 启动容器364<br/>16.3.6 训练过程366<br/>16.3.7 检查学到的策略368<br/>16.3.8 简单单击的问题369<br/>16.4 人类演示371<br/>16.4.1 录制人类演示371<br/>16.4.2 录制的格式373<br/>16.4.3 使用演示进行训练375<br/>16.4.4 结果376<br/>16.4.5 井字游戏问题380<br/>16.5 添加文字描述383<br/>16.5.1 实现383<br/>16.5.2 结果387<br/>16.6 可以尝试的事情390<br/>16.7 总结391<br/>第17章 连续动作空间392<br/>17.1 为什么会有连续的空间392<br/>17.1.1 动作空间393<br/>17.1.2 环境393<br/>17.2 A2C方法395<br/>17.2.1 实现396<br/>17.2.2 结果399<br/>17.2.3 使用模型并录制视频401<br/>17.3 确定性策略梯度401<br/>17.3.1 探索402<br/>17.3.2 实现403<br/>17.3.3 结果407<br/>17.3.4 视频录制409<br/>17.4 分布的策略梯度409<br/>17.4.1 架构410<br/>17.4.2 实现410<br/>17.4.3 结果414<br/>17.4.4 视频录制415<br/>17.5 可以尝试的事情415<br/>17.6 总结416<br/>第18章 机器人技术中的强化学习417<br/>18.1 机器人与机器人学417<br/>18.1.1 机器人的复杂性419<br/>18.1.2 硬件概述420<br/>18.1.3 平台421<br/>18.1.4 传感器422<br/>18.1.5 执行器423<br/>18.1.6 框架424<br/>18.2 第一个训练目标427<br/>18.3 模拟器和模型428<br/>18.3.1 模型定义文件429<br/>18.3.2 机器人类432<br/>18.4 DDPG训练和结果437<br/>18.5 控制硬件440<br/>18.5.1 MicroPython440<br/>18.5.2 处理传感器443<br/>18.5.3 驱动伺服器454<br/>18.5.4 将模型转移至硬件上458<br/>18.5.5 组合一切464<br/>18.6 策略实验466<br/>18.7 总结467<br/>第19章 置信域:PPO、TRPO、ACKTR及SAC468<br/>19.1 Roboschool469<br/>19.2 A2C基线469<br/>19.2.1 实现469<br/>19.2.2 结果471<br/>19.2.3 视频录制475<br/>19.3 PPO475<br/>19.3.1 实现476<br/>19.3.2 结果479<br/>19.4 TRPO480<br/>19.4.1 实现481<br/>19.4.2 结果482<br/>19.5 ACKTR484<br/>19.5.1 实现484<br/>19.5.2 结果484<br/>19.6 SAC485<br/>19.6.1 实现486<br/>19.6.2 结果488<br/>19.7 总结490<br/>第20章 强化学习中的黑盒优化491<br/>20.1 黑盒方法491<br/>20.2 进化策略492<br/>20.2.1 将ES用在CartPole上493<br/>20.2.2 将ES用在HalfCheetah上498<br/>20.3 遗传算法503<br/>20.3.1 将GA用在CartPole上504<br/>20.3.2 GA优化506<br/>20.3.3 将GA用在HalfCheetah上507<br/>20.4 总结510<br/>20.5 参考文献511<br/>第21章 高级探索512<br/>21.1 为什么探索很重要512<br/>21.2 ε-greedy怎么了513<br/>21.3 其他探索方式516<br/>21.3.1 噪声网络516<br/>21.3.2 基于计数的方法516&a

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP