消息首页搜索举报

Python深度强化学习

37.16 5.4折 69 九五品

仅1件

天津武清

认证卖家担保交易快速发货售后保障

作者[印]尼米什·桑吉（NimishSanghi）

出版社清华大学出版社

ISBN9787302607724

出版时间2022-11

版次1

装帧平装

开本16开

纸张胶版纸

页数244页

字数99999千字

定价69元

上书时间2024-05-06

鲁是特

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 23小时
好评率暂无

最新上架

现代企业法律事务管理 ¥635.00

全球冲突:国际危机的国内根源 ¥620.00

中国人力资本投资与城乡就业相关性研究 ¥627.00

公共经济学原理 ¥638.00

民营化还是社会化:国企产权改革的战略选择 ¥620.00

2007中国区域经济发展报告:中部塌陷与中部崛起 ¥658.00

纳税服务理论研究 ¥640.00

中国区域经济不平衡与协调发展 ¥631.00

货币理论与货币政策 ¥636.00

商品详情

品相描述：九五品

商品描述: 基本信息
书名:Python深度强化学习
定价：69.00元
作者:[印]尼米什·桑吉（NimishSanghi）
出版社：清华大学出版社
出版日期：2022-11-01
ISBN：9787302607724
字数：372000
页码：244
版次：
装帧：平装
开本：16开
商品重量：
编辑推荐

内容提要
本书重点突出深度强化学习理论的基本概念、前沿基础理论和Python应用实现。首先介绍马尔可夫决策、基于模型的算法、无模型方法、动态规划、蒙特卡洛和函数逼近等基础知识；然后详细阐述强化学习、深度强化学习、多智能体强化学习等算法，及其Python应用实现。本书既阐述奖励、价值函数、模型和策略等重要概念和基础知识，又介绍深度强化学习理论的前沿研究和热点方向。本书英文版出版之后，广受好评，已成为深度强化学习领域教材，也可为人工智能和机器学习等领域的科研工作者、技术工程师提供参考。
目录
目录章强化学习导论1.1强化学习概述1.2机器学习分类1.2.1监督学习1.2.2无监督学习1.2.3强化学习1.2.4核心元素1.3基于强化学习的深度学习1.4实例和案例研究1.4.1自动驾驶汽车1.4.2机器人1.4.3推荐系统1.4.4金融和贸易1.4.5医疗保健1.4.6游戏1.5库与环境设置1.6总结第2章马尔可夫决策2.1强化学习的定义2.2智能体和环境2.3奖励2.4马尔可夫过程2.4.1马尔可夫链2.4.2马尔可夫奖励过程2.4.3马尔可夫决策过程2.5策略和价值函数2.6贝尔曼方程2.6.1贝尔曼方程2.6.2解决方法类型的思维导图2.7总结第3章基于模型的算法3.1OpenAI Gym3.2动态规划3.3策略评估/预测3.4策略改进和迭代3.5价值迭代3.6广义策略迭代3.7异步回溯3.8总结第4章无模型方法4.1蒙特卡洛估计/预测4.2蒙特卡洛控制4.3离线策略MC控制4.4TD学习方法4.5TD控制4.6在线策略SARSA4.7Q学习：离线策略TD控制4.8最大偏差和双重学习4.9期望SARSA控制4.10回放池和离线策略学习4.11连续状态空间的Q学习4.12n步回报4.13资格迹和TD(λ)4.14DP、MC和TD之间的关系4.15总结第5章函数逼近5.1概述5.2逼近理论5.2.1粗编码5.2.2瓦片编码5.2.3逼近中的挑战5.3增量预测： MC、TD和TD(λ)5.4增量控制5.4.1n步半梯度SARSA控制5.4.2半梯度SARSA(λ)控制5.5函数逼近的收敛性5.6梯度时序差分学习5.7批处理方法5.8线性最小二乘法5.9深度学习库5.10总结第6章深度Q学习6.1DQN6.2优先回放6.3双Q学习6.4竞争DQN6.5噪声网DQN6.6C516.7分位数回归DQN6.8事后经验回放6.9总结第7章策略梯度算法7.1引言7.1.1基于策略的方法的利弊7.1.2策略表征7.2策略梯度推导7.2.1目标函数7.2.2导数更新规则7.2.3更新规则的运算原理7.3强化算法7.3.1带奖励因子的方差减少7.3.2进一步减少基线差异7.4演员评论家方法7.4.1定义优势7.4.2优势演员评论家7.4.3A2C算法的实现7.4.4异步优势演员评论家7.5信赖域策略优化算法7.6近似策略优化算法7.7总结第8章结合策略梯度和Q学习8.1策略梯度与Q学习的权衡8.2结合策略梯度与Q学习的一般框架8.3深度确定性策略梯度8.3.1Q学习在DDPG中的应用(评论家)8.3.2DDPG中的策略学习(演员)8.3.3伪代码和实现8.3.4代码实现8.4双延迟DDPG8.4.1目标策略平滑8.4.2Q损失(评论家)8.4.3策略损失(演员)8.4.4延迟更新8.4.5伪代码和实现8.4.6代码实现8.5重参数化技巧8.5.1分数/强化方法8.5.2重参数化技巧与路径导数8.5.3实验8.6熵解释8.7软演员评论家8.7.1SAC与TD38.7.2熵正则化下的Q损失8.7.3具有重参数技巧的策略损失8.7.4伪代码及其实现8.7.5代码实现8.8总结第9章综合规划与学习9.1基于模型的强化学习9.1.1使用学习的模型进行规划9.1.2集成学习与规划9.1.3Dyna Q和变化的环境9.1.4Dyna Q+9.1.5期望与示例更新9.2探索vs利用9.2.1多臂强盗9.2.2后悔值：探索质量的衡量标准9.3决策时间规划和蒙特卡洛树搜索9.4AlphaGo模拟实验9.5总结0章进一步的探索与后续工作10.1基于模型的强化学习：其他方法10.1.1世界模型10.1.2想象力增强智能体10.1.3基于模型的强化学习和无模型微调10.1.4基于模型的价值扩展10.2模仿学习和逆强化学习10.3无导数方法10.4迁移学习和多任务学习10.5元学习10.6流行的强化学习库10.7如何继续学习10.8总结术语
作者介绍
Nimish Sanghi（尼米什桑吉）一位充满激情的技术领导者，专注于使用技术解决客户问题，在软件和咨询领域拥有超过25年的工作经验，拥有人工智能和深度学习的多项证书，获得印度理工学院电气工程学士学位、印度管理学院工商管理硕士学位。曾在普华永道、IBM和Oracle等公司担任领导职务，负责盈亏管理。2006年，在SOAIS公司开启软件咨询创业之旅，为《财富》100强的众多公司提供自动化和数字化转型服务，实现从本地应用到云计算的转型。人工智能和自动化驱动的初创公司领域的天使投资人，联合创立面向印度市场的SaaS人力资源和薪资Paybooks平台，联合创立提供人工智能驱动的工作流ZipperAgent自动化平台和视频营销ZipperHQ自动化平台（总部位于波士顿的初创公司），现任这两个平台的首席技术官和首席数据科学家。译者简介罗俊海，博士(后)，电子科技大学副教授、硕士生导师。主要研究方向为智能计算、目标检测和数据融合，主持国家自然科学基金、四川省科技厅基金、总装预研基金和中央高校基本科研业务等15项，参与制订标准6项，发表文章60余篇，其中SCI检索50余篇，总引用1500余次。申请和授权发明专利30余项，获四川省科学技术进步奖二等奖和三等奖各1项。出版《多源数据融合和传感器管理》《使用HTML和CSS开发WEB网站》《物联网系统开发及应用实战》等专著和教材5部，以及译著《实用MATLAB深度学习：基于项目的方法》。
序言

【封面】

— 没有更多了 —