深度强化学习：学术前沿与实战应用

正版现货，品相完整，套书只发一本,多版面书籍只对书名

20.77 2.1折 99 九品

仅1件

北京东城

认证卖家担保交易快速发货售后保障

作者刘驰、王占健、戴子彭著

出版社机械工业出版社

出版时间2020-04

版次1

装帧平装

上书时间2024-09-11

图书-天下的书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 20小时
好评率暂无

最新上架

喋血的权杖 ¥17.20

2006-2008年台海局势研究报告 ¥13.35

幸福是什么：全球155位大师谈幸福 ¥14.73

闲品三国 ¥15.11

岁月深处有一支歌:感动中学生的100个兄弟姐妹 ¥10.73

没有大人的夜晚3 ¥12.19

品牌的成长 ¥12.96

温暖我一生的冰灯:感动中学生的100个父亲 ¥12.14

没有大人的夜晚2点亮心中那盏灯：感动小学生的100个故事 ¥11.78

商品详情

品相描述：九品

图书标准信息

作者刘驰、王占健、戴子彭著
出版社机械工业出版社
出版时间 2020-04
版次 1
ISBN 9787111646648
定价 99.00元
装帧平装
开本 16开
纸张胶版纸
页数 388页

【内容简介】

本书共分为四篇，即深度强化学习、多智能体深度强化学习、多任务深度强化学习和深度强化学习的应用。由浅入深、通俗易懂，涵盖经典算法和近几年的前沿技术进展。特别是书中详细介绍了每一种代表性算法的代码原型实现，旨在理论与实践相结合，让读者学有所得、学有所用。
第一篇（包含第1～3章）主要讲解深度强化学习基础，侧重于单智能体强化学习算法，相对简单，有助于初级读者理解，同时涵盖了近几年的经典算法和一些前沿的研究成果。
第二篇（包含第4～5章）主要侧重于对多智能体深度强化学习的讲解，从多智能体强化学习基本概念到相关算法的讲解和分析，以多个极具代表性的算法为例带领读者逐步学习多智能体训练及控制的理论与方法。同时，还介绍了多智能体强化学习领域一些前沿学术成果。
第三篇（包含第6～7章）扩展到多任务场景，称为多任务深度强化学习。首先介绍了多任务强化学习的基本概念和相关基础知识，随后讲解了部分经典的多任务深度强化学习算法。
第四篇（包含第8～11章）主要讲解深度强化学习的实际应用，涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域。通过领域应用中思想和方法的讲解，培养读者跨领域解决实际问题的能力，以帮助读者熟练掌握和使用深度强化学习这一强大的方法来解决和优化实际工程领域中的问题。

【作者简介】

刘驰
北京理工大学计算机学院副院长、教授、博士生导师，英国工程技术学会会士（IET Fellow），IEEE高级会员（IEEE Senior Member）。分别于清华大学和英国帝国理工学院获得学士和博士学位，曾任美国IBM T.J. Watson研究中心和IBM中国研究院研究主管，并在德国电信研究总院（柏林）任博士后研究员。研究方向为大数据与物联网技术。主持了国家自然科学基金、国家重点研发计划课题、工信部、教育部、装发预研等20余省部级研究项目。共发表SCI/EI论文百余篇，其中ESI高被引论文2篇、CCF- A类论文20余篇，授权国内外发明专利14项，编写书籍9本，Google Scholar索引3500余次，H index为28。现任国家自然科学基金会评专家、科技部重点研发计划会评专家、教育部科技奖评审专家、全国信标委技术委员会委员、中国电子学会理事、中国计算机学会青工委委员、中国计算机学会物联网/大数据/普适计算专委会委员、中国电子学会物联网专委会委员/副秘书长、中国自动化学会大数据专委会委员、中国通信学会物联网专委会委员等；以及IEEE Transactions on Network Science and Engineering编委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入选了国家人社部“高层次留学人才回国资助计划”、中国科协“青年人才托举工程”、陕西省第八批“百人计划（短期项目）”、中国产学研合作促进奖、中国电子学会优秀科技工作者、国家“十二五”轻工业科技创新先进个人、2017年中国物联网年度人物等。并获得省部级一等奖1项、二等奖1项、三等奖1项。

【目录】

前言

致谢

数学符号

篇深度强化学

章深度强化学基础2

1.1强化学2

1.1.1强化学的发展历史2

1.1.2强化学简介4

1.1.3深度强化学简介6

1.2马尔可夫属和决策过程9

1.2.1马尔可夫属9

1.2.2马尔可夫决策过程11

1.3强化学核心概念12

1.3.1值函数12

1.3.2动态规划14

1.3.3时间（序）差分15

1.3.4策略梯度16

1.3.5actor-critic方17

1.4q-learning18

1.4.1q-learning简介18

1.4.2算19

1.4.3相关变量及影响20

1.4.4实现方21

第2章深度强化学算22

2.1基于值的深度强化学算22

2.1.1深度q网络22

2.1.2深度双q网络27

2.1.3竞争网络架构31

2.1.4均值dqn33

2.1.5多dqn变种结合体：rainbow37

2.1.6基于动作排除的dqn42

2.2基于策略的深度强化学算46

2.2.1循环确定策略梯度46

2.2.2深度确定策略梯度55

2.2.3信赖域策略优化62

2.2.4近端策略优化68

2.3基于模型的深度强化学算73

2.3.1基于模型加速的连续深度q-learning73

2.3.2范例模型探索80

2.3.3基于模型集成的信赖域策略优化88

2.3.4时间差分模型95

2.4基于分层的深度强化学算102

2.4.1分层深度强化学102

2.4.2基于封建网络的分层强化学109

2.4.3基于神经网络的分层强化学116

第3章分布式深度强化学123

3.1分布式系统123

3.1.1分布式系统简介123

3.1.2分布式系统的发展历史124

3.1.3架构演进125

3.1.4主流分布式系统框架128

3.2分布式深度强化学算129

3.2.1分布式近端策略优化129

3.2.2分布式深度确定策略梯度138

3.3分布式深度强化学框架145

3.3.1重要加权actor-learner架构145

3.3.2分布式优先经验复用池153

第二篇多智能体深度强化学

第4章多智能体深度强化学基础162

4.1多智能体强化学162

4.1.1多智能体强化学发展历史162

4.1.2多智能体强化学简介164

4.1.3优势和挑战166

4.2部分可见马尔可夫决策过程166

4.2.1pomdp模型166

4.2.2pomdp相关研究169

4.2.3pomdp应用领域170

第5章多智能体深度强化学算171

5.1基于值函数的多智能体深度强化学171

5.1.1基于dqn的多智能体网络171

5.1.2增强智能体间学174

5.1.3协同多智能体学的价值分解网络178

5.1.4多智能体深度强化学的稳定经验复用池182

5.1.5单调值函数分解187

5.1.6深度强化学中的对立智能体建模190

5.1.7均场多智能体强化学193

5.2基于策略的多智能体深度强化学197

5.2.1基于自身策略的其他智能体行为预测197

5.2.2双重均方案201

5.2.3多智能体深度强化学的统一博弈论方208

5.3基于ac框架的多智能体深度强化学212

5.3.1多智能体深度确定策略梯度212

5.3.2多智能体集中规划的价值函数策略梯度220

5.3.3多智能体系统的策略表示学227

5.3.4部分可观察环境下的多智能体策略优化231

5.3.5基于联网智能体的去中心化marl236

第三篇多任务深度强化学

第6章多任务深度强化学基础244

6.1简介244

6.1.1理论概述244

6.1.2面临的挑战247

6.2策略蒸馏248

第7章多任务深度强化学算253

7.1无监督强化与辅助学253

7.1.1算介绍253

7.1.2算分析255

7.1.3使用场景与优势分析261

7.2使用渐进式神经网络解决任务的复杂序列262

7.2.1算介绍262

7.2.2算分析262

7.2.3使用场景与优势分析266

7.3基于单智能体的多任务共享模型267

7.3.1算介绍267

7.3.2算分析268

7.3.3使用场景与优势分析272

7.4使用popart归一化多任务更新幅度273

7.4.1算介绍273

7.4.2算分析274

7.4.3使用场景与优势分析276

第四篇深度强化学的应用

第8章游戏278

8.1gymretro游戏台278

8.1.1台简介278

8.1.2安装gymretro台281

8.1.3安装retroui282

8.1.4gymretro主要函数说明283

8.2相关应用285

8.2.1pong游戏285

8.2.2cartpole291

8.2.3flappybird298

8.2.4gradius302

第9章机器人控制312

9.1机器人导航312

9.1.1无地图导航312

9.1.2社会感知机器人导航316

9.2路径规划321

9.3机器人视觉324

0章计算机视觉327

10.1图像327

10.1.1图像字幕327

10.1.2图像恢复332

10.2337

10.2.1字幕337

10.2.2快进345

10.2.3视觉跟踪348

1章自然语言处理354

11.1与知识库交互的多轮对话智能体354

11.1.1概率kb查找355

11.1.2端到端kb-infobot356

11.1.3结359

11.2鲁棒远程监督关系提取359

11.2.1问题表述360

11.2.2使用基于策略的智能体重新分配训练数据集363

11.2.3结363

11.3非成对情感–情感翻译363

11.3.1问题表述363

11.3.2训练算366

11.3.3结367

缩写参照表368

常用词中英文对照371

参文献374

点击展开点击收起

— 没有更多了 —