• Python深度强化学习
21年品牌 40万+商家 超1.5亿件商品

Python深度强化学习

41.25 6.0折 69 九五品

仅1件

北京通州
认证卖家担保交易快速发货售后保障

作者[印]尼米什·桑吉(NimishSanghi)

出版社清华大学出版社

ISBN9787302607724

出版时间2022-11

版次1

装帧平装

开本16开

纸张胶版纸

页数244页

字数99999千字

定价69元

上书时间2024-05-21

纵列風

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九五品
商品描述
基本信息
书名:Python深度强化学习
定价:69.00元
作者:[印]尼米什·桑吉(NimishSanghi)
出版社:清华大学出版社
出版日期:2022-11-01
ISBN:9787302607724
字数:372000
页码:244
版次:
装帧:平装
开本:16开
商品重量:
编辑推荐

内容提要
本书重点突出深度强化学习理论的基本概念、前沿基础理论和Python应用实现。首先介绍马尔可夫决策、基于模型的算法、无模型方法、动态规划、蒙特卡洛和函数逼近等基础知识;然后详细阐述强化学习、深度强化学习、多智能体强化学习等算法,及其Python应用实现。本书既阐述奖励、价值函数、模型和策略等重要概念和基础知识,又介绍深度强化学习理论的前沿研究和热点方向。本书英文版出版之后,广受好评,已成为深度强化学习领域教材,也可为人工智能和机器学习等领域的科研工作者、技术工程师提供参考。
目录
目录章强化学习导论1.1强化学习概述1.2机器学习分类1.2.1监督学习1.2.2无监督学习1.2.3强化学习1.2.4核心元素1.3基于强化学习的深度学习1.4实例和案例研究1.4.1自动驾驶汽车1.4.2机器人1.4.3推荐系统1.4.4金融和贸易1.4.5医疗保健1.4.6游戏1.5库与环境设置1.6总结第2章马尔可夫决策2.1强化学习的定义2.2智能体和环境2.3奖励2.4马尔可夫过程2.4.1马尔可夫链2.4.2马尔可夫奖励过程2.4.3马尔可夫决策过程2.5策略和价值函数2.6贝尔曼方程2.6.1贝尔曼方程2.6.2解决方法类型的思维导图2.7总结第3章基于模型的算法3.1OpenAI Gym3.2动态规划3.3策略评估/预测3.4策略改进和迭代3.5价值迭代3.6广义策略迭代3.7异步回溯3.8总结第4章无模型方法4.1蒙特卡洛估计/预测4.2蒙特卡洛控制4.3离线策略MC控制4.4TD学习方法4.5TD控制4.6在线策略SARSA4.7Q学习: 离线策略TD控制4.8最大偏差和双重学习4.9期望SARSA控制4.10回放池和离线策略学习4.11连续状态空间的Q学习4.12n步回报4.13资格迹和TD(λ)4.14DP、MC和TD之间的关系4.15总结第5章函数逼近5.1概述5.2逼近理论5.2.1粗编码5.2.2瓦片编码5.2.3逼近中的挑战5.3增量预测: MC、TD和TD(λ)5.4增量控制5.4.1n步半梯度SARSA控制5.4.2半梯度SARSA(λ)控制5.5函数逼近的收敛性5.6梯度时序差分学习5.7批处理方法5.8线性最小二乘法5.9深度学习库5.10总结第6章深度Q学习6.1DQN6.2优先回放6.3双Q学习6.4竞争DQN6.5噪声网DQN6.6C516.7分位数回归DQN6.8事后经验回放6.9总结第7章策略梯度算法7.1引言7.1.1基于策略的方法的利弊7.1.2策略表征7.2策略梯度推导7.2.1目标函数7.2.2导数更新规则7.2.3更新规则的运算原理7.3强化算法7.3.1带奖励因子的方差减少7.3.2进一步减少基线差异7.4演员评论家方法7.4.1定义优势7.4.2优势演员评论家7.4.3A2C算法的实现7.4.4异步优势演员评论家7.5信赖域策略优化算法7.6近似策略优化算法7.7总结第8章结合策略梯度和Q学习8.1策略梯度与Q学习的权衡8.2结合策略梯度与Q学习的一般框架8.3深度确定性策略梯度8.3.1Q学习在DDPG中的应用(评论家)8.3.2DDPG中的策略学习(演员)8.3.3伪代码和实现8.3.4代码实现8.4双延迟DDPG8.4.1目标策略平滑8.4.2Q损失(评论家)8.4.3策略损失(演员)8.4.4延迟更新8.4.5伪代码和实现8.4.6代码实现8.5重参数化技巧8.5.1分数/强化方法8.5.2重参数化技巧与路径导数8.5.3实验8.6熵解释8.7软演员评论家8.7.1SAC与TD38.7.2熵正则化下的Q损失8.7.3具有重参数技巧的策略损失8.7.4伪代码及其实现8.7.5代码实现8.8总结第9章综合规划与学习9.1基于模型的强化学习9.1.1使用学习的模型进行规划9.1.2集成学习与规划9.1.3Dyna Q和变化的环境9.1.4Dyna Q+9.1.5期望与示例更新9.2探索vs利用9.2.1多臂强盗9.2.2后悔值: 探索质量的衡量标准9.3决策时间规划和蒙特卡洛树搜索9.4AlphaGo模拟实验9.5总结0章进一步的探索与后续工作10.1基于模型的强化学习: 其他方法10.1.1世界模型10.1.2想象力增强智能体10.1.3基于模型的强化学习和无模型微调10.1.4基于模型的价值扩展10.2模仿学习和逆强化学习10.3无导数方法10.4迁移学习和多任务学习10.5元学习10.6流行的强化学习库10.7如何继续学习10.8总结术语
作者介绍
Nimish Sanghi(尼米什 桑吉)一位充满激情的技术领导者,专注于使用技术解决客户问题,在软件和咨询领域拥有超过25年的工作经验,拥有人工智能和深度学习的多项证书,获得印度理工学院电气工程学士学位、印度管理学院工商管理硕士学位。曾在普华永道、IBM和Oracle等公司担任领导职务,负责盈亏管理。2006年,在SOAIS公司开启软件咨询创业之旅,为《财富》100强的众多公司提供自动化和数字化转型服务,实现从本地应用到云计算的转型。人工智能和自动化驱动的初创公司领域的天使投资人,联合创立面向印度市场的SaaS人力资源和薪资Paybooks平台,联合创立提供人工智能驱动的工作流ZipperAgent自动化平台和视频营销ZipperHQ自动化平台(总部位于波士顿的初创公司),现任这两个平台的首席技术官和首席数据科学家。译者简介罗俊海,博士(后),电子科技大学副教授、硕士生导师。主要研究方向为智能计算、目标检测和数据融合,主持国家自然科学基金、四川省科技厅基金、总装预研基金和中央高校基本科研业务等15项,参与制订标准6项,发表文章60余篇,其中SCI检索50余篇,总引用1500余次。申请和授权发明专利30余项,获四川省科学技术进步奖二等奖和三等奖各1项。出版《多源数据融合和传感器管理》《使用HTML和CSS开发WEB网站》《物联网系统开发及应用实战》等专著和教材5部,以及译著《实用MATLAB深度学习:基于项目的方法》。
序言

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP