消息首页搜索举报

深度强化学习基础、研究与应用

全新正版极速发货

73.4 5.7折 129 全新

库存17件

广东广州

认证卖家担保交易快速发货售后保障

作者董豪等

出版社电子工业出版社

ISBN9787121411885

出版时间2021-07

装帧平装

开本16开

定价129元

货号1202384620

上书时间2024-07-19

曲奇书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 18小时
好评率暂无

最新上架

农村九年一贯制学校管理实践探究 ¥29.28

可扩展的SDN控制平面的设计和度量 ¥36.25

古希腊经济和政治 ¥45.74

“双循环”新发展格局下中国双向投资的发展 ¥52.65

医学专家聊健康热点（复旦大健康科普）丛书——肾脏泌尿专家聊健康热点 ¥42.57

传统中国研究集刊第三十一辑 ¥52.65

那也讨厌这也喜欢 ¥31.80

中国法治建设中的国家维度研究 ¥59.40

医学专家聊健康热点（复旦大健康科普）－儿科专家聊健康热点 ¥36.25

商品详情

品相描述：全新

商品描述: 目录
基础部分1

第1章深度学习入门2

1.1简介2

1.2感知器3

1.3多层感知器7

1.4激活函数9

1.5损失函数11

1.6优化13

1.6.1梯度下降和误差的反向传播13

1.6.2随机梯度下降和自适应学习率15

1.6.3超参数筛选17

1.7正则化18

1.7.1过拟合18

1.7.2权重衰减18

1.7.3Dropout20

1.7.4批标准化20

1.7.5其他缓和过拟合的方法21

1.8卷积神经网络22

1.9循环神经网络25

1.10深度学习的实现样例28

1.10.1张量和梯度28

1.10.2定义模型29

1.10.3自定义层31

1.10.4多层感知器:MNIST数据集上的图像分类33

1.10.5卷积神经网络:CIFAR-10数据集上的图像分类35

1.10.6序列到序列模型:聊天机器人36

第2章强化学习入门43

2.1简介43

2.2在线预测和在线学习46

2.2.1简介46

2.2.2随机多臂赌博机48

2.2.3对抗多臂赌博机50

2.2.4上下文赌博机51

2.3马尔可夫过程52

2.3.1简介52

2.3.2马尔可夫奖励过程54

2.3.3马尔可夫决策过程57

2.3.4贝尔曼方程和很优性61

2.3.5其他重要概念64

2.4动态规划64

2.4.1策略迭代65

2.4.2价值迭代67

2.4.3其他DPs:异步DP、近似DP和实时DP68

2.5蒙特卡罗70

2.5.1蒙特卡罗预测70

2.5.2蒙特卡罗控制71

2.5.3增量蒙特卡罗72

2.6时间差分学习73

2.6.1时间差分预测73

2.6.2Sarsa:在线策略TD控制77

2.6.3Q-Learning:离线策略TD控制80

2.7策略优化80

2.7.1简介80

2.7.2基于价值的优化84

2.7.3基于策略的优化89

2.7.4结合基于策略和基于价值的方法105

第3章强化学习算法分类110

3.1基于模型的方法和无模型的方法111

3.2基于价值的方法和基于策略的方法113

3.3蒙特卡罗方法和时间差分方法114

3.4在线策略方法和离线策略方法115

第4章深度Q网络119

4.1Sarsa和Q-Learning121

4.2为什么使用深度学习:价值函数逼近121

4.3DQN123

4.4Double DQN124

4.5Dueling DQN125

4.6优先经验回放127

4.7其他改进内容:多步学习、噪声网络和值分布强化学习128

4.8DQN代码实例131

第5章策略梯度146

5.1简介146

5.2REINFORCE:初版策略梯度147

5.3Actor-Critic149

5.4生成对抗网络和Actor-Critic150

5.5同步优势Actor-Critic152

5.6异步优势Actor-Critic153

5.7信赖域策略优化154

5.8近端策略优化157

5.9使用Kronecker因子化信赖域的Actor-Critic159

5.10策略梯度代码例子162

5.10.1相关的Gym环境162

5.10.2REINFORCE:AtariPong和CartPole-V0165

5.10.3AC:CartPole-V0173

5.10.4A3C:BipedalWalker-v2176

5.10.5TRPO:Pendulum-V0181

5.10.6PPO:Pendulum-V0192

第6章深度Q网络和Actor-Critic的结合200

6.1简介200

6.2深度确定性策略梯度算法201

6.3孪生延迟DDPG算法203

6.4柔性Actor-Critic算法206

6.4.1柔性策略迭代206

6.4.2SAC207

6.5代码例子209

6.5.1相关的Gym环境209

6.5.2DDPG:Pendulum-V0209

6.5.3TD3:Pendulum-V0215

6.5.4SAC:Pendulum-v0225

研究部分236

第7章深度强化学习的挑战237

7.1样本效率237

7.2学习稳定性240

7.3灾难性遗忘242

7.4探索243

7.5元学习和表征学习245

7.6多智能体强化学习246

7.7模拟到现实247

7.8大规模强化学习251

7.9其他挑战252

第8章模仿学习258

8.1简介258

8.2行为克隆方法260

8.2.1行为克隆方法的挑战260

8.2.2数据集聚合261

8.2.3Variational Dropout262

8.2.4行为克隆的其他方法262

8.3逆向强化学习方法263

8.3.1简介263

8.3.2逆向强化学习方法的挑战264

8.3.3生成对抗模仿学习265

8.3.4生成对抗网络指导性代价学习266

8.3.5对抗性逆向强化学习268

8.4从观察量进行模仿学习269

8.4.1基于模型方法269

8.4.2无模型方法272

8.4.3从观察量模仿学习的挑战277

8.5概率性方法277

8.6模仿学习作为强化学习的初始化279

8.7强化学习中利用示范数据的其他方法280

8.7.1将示范数据导入经验回放缓存280

8.7.2标准化Actor-Critic281

8.7.3用示范数据进行奖励塑形282

8.8总结282

第9章集成学习与规划289

9.1简介289

9.2基于模型的方法290

9.3集成模式架构292

9.4基于模拟的搜索293

9.4.1朴素蒙特卡罗搜索294

9.4.2蒙特卡罗树搜索294

9.4.3时间差分搜索295

第10章分层强化学习298

10.1简介298

10.2选项框架299

10.2.1战略专注作家300

10.2.2选项-批判者结构303

10.3封建制强化学习305

10.3.1封建制网络305

10.3.2离线策略修正307

10.4其他工作309

第11章多智能体强化学习315

11.1简介315

11.2优化和均衡316

11.2.1纳什均衡317

11.2.2关联性均衡318

11.2.3斯塔克尔伯格博弈320

11.3竞争与合作321

11.3.1合作321

11.3.2零和博弈321

11.3.3同时决策下的竞争322

11.3.4顺序决策下的竞争323

11.4博弈分析架构324

第12章并行计算326

12.1简介326

12.2同步和异步327

12.3并行计算网络329

12.4分布式强化学习算法330

12.4.1异步优势Actor-Critic330

12.4.2GPU/CPU混合式异步优势Actor-Critic332

12.4.3分布式近端策略优化333

12.4.4重要性加权的行动者-学习者结构和可扩展高效深度强化学习336

12.4.5Ape-X、回溯-行动者和分布式深度循环回放Q网络338

12.4.6Gorila340

12.5分布式计算架构340

应用部分343

第13章Learning to Run344

13.1NeurIPS 2017挑战:Learning to Run344

13.1.1环境介绍344

13.1.2安装346

13.2训练智能体347

13.2.1并行训练348

13.2.2小技巧351

13.2.3学习结果352

第14章鲁棒的图像增强354

14.1图像增强354

14.2用于鲁棒处理的强化学习356

第15章AlphaZero366

15.1简介366

15.2组合博弈367

15.3蒙特卡罗树搜索370

15.4AlphaZero:棋类游戏的通用算法376

第16章模拟环境中机器人学习388

16.1机器人模拟389

16.2强化学习用于机器人任务405

16.2.1并行训练407

16.2.2学习效果407

16.2.3域随机化408

16.2.4机器人学习基准409

16.2.5其他模拟器409

第17章Arena:多智能体强化学习平台412

17.1安装413

17.2用Arena开发游戏413

17.2.1简单的单玩家游戏414

17.2.2简单的使用奖励机制的双玩家游戏416

17.2.3高级设置420

17.2.4导出二进制游戏424

17.3MARL训练427

17.3.1设置X-Server427

17.3.2进行训练429

17.3.3可视化431

17.3.4致谢431

第18章深度强化学习应用实践技巧433

18.1概览:如何应用深度强化学习433

18.2实现阶段434

18.3训练和调试阶段440

总结部分445

附录A算法总结表446

附录B算法速查表451

B.1深度学习451

B.1.1随机梯度下降451

B.1.2Adam优化器452

B.2强化学习452

B.2.1赌博机452

B.2.2动态规划453

B.2.3蒙特卡罗454

B.3深度强化学习458

B.4高等深度强化学习467

B.4.1模仿学习467

B.4.2基于模型的强化学习468

B.4.3分层强化学习470

B.4.4多智能体强化学习471

B.4.5并行计算472

附录C中英文对照表476

内容摘要
深度强化学习结合深度学习与强化学习算法各自的优势解决复杂的决策任务。得益于DeepMind AlphaGo和OpenAI Five成功的案例，深度强化学习受到大量的关注，相关技术广泛应用于不同的领域。本书分为三大部分，覆盖深度强化学习的全部内容。第一部分介绍深度学习和强化学习的入门知识、一些非常基础的深度强化学习算法及其实现细节，包括第1~6章。第二部分是一些精选的深度强化学习研究题目，这些内容对准备开展深度强化学习研究的读者非常有用，包括第7~12章。第三部分提供了丰富的应用案例，包括AlphaZero、让机器人学习跑步等，包括第13~17章。本书是为计算机科学专业背景、希望从零开始学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适合没有很强的机器学习背景、但是希望快速学习深度强化学习并将其应用到具体产品中的软件工程师阅读。

主编推荐
"本书重在为企业开发者和决策者提供Flutter的完整解决方案。
面向企业级应用场景下的绝大多数问题和挑战，都能在本书中获得答案。
注重单点问题的深耕与解决，如针对行业内挑战较大的、复杂场景下的性能问题。
本书通过案例与实际代码传达实践过程中的主要思路和关键实现。
本书采用全彩印刷，提供良好阅读体验。 "

媒体评论
"作为谷歌Flutter团队早期的合作伙伴之一，闲鱼技术团队对Flutter技术进行了多年的研究和实践，为Flutter在大型企业环境下的落地做出了很好的贡献。闲鱼技术团队的这部著作是市面上非常有深度的 Flutter技术图书之一，是专业开发者钻研和应用Flutter技术难得的参考资料。
董韬
博士，谷歌 Flutter 团队

本书从原理到实战，结合阿里巴巴真实的业务场景与案例，详细、完整地介绍了Flutter企业级技术应用与相关实践，是一本值得阅读的技术图书。
郭虹宇
资深技术专家，阿里巴巴集团移动技术小组组长

之前在InfoQ策划QCon、GMTC等技术大会的时候，我们一直选择采用技术生命周期模型整体策划内容，以期促进软件开发领域的知识与创新传播。自Flutter诞生以来，闲鱼技术团队作为该技术的早期采用者，积极分享实践经验，推动了Flutter在国内的广泛应用。在本书中，闲鱼技术团队结合诸多案例，毫无保留、非常系统地分享了他们的技术沉淀。如果想深入了解Flutter的应用现状和实践经验，本书是不可错过的佳作。
臧秀涛
极客邦科技/InfoQ会议前内容总编

这是一本讲述如何构建企业级Flutter研发体系的图书，内容从底层原理到应用架构，从性能优化到视觉动效，覆盖了Flutter实际开发中各类单点问题。本书以闲鱼技术团队在技术演进中大量一线研发实践为切入点，介绍了如何将业务问题的理解转化为技术方案，以及背后的思考、分析、行动、调优和扩展。相信认真读完此书的读者们，不仅能获取Flutter企业应用场景下的解决方案，也一定能对闲鱼技术团队在研发效能提升实践中的系统性思考感同身受。
陈航
美团高级技术专家，《Flutter核心技术与实战》专栏作者"

— 没有更多了 —

深度强化学习 基础、研究与应用

曲奇书店

商品详情

深度强化学习基础、研究与应用