{正版现货新书} 强化学习 9787121295164 （加）Richard S. Sutton（理查德·桑顿），（美）Andrew G. Barto（安德鲁·巴图）

全新正版现货，以书名为准，放心购买，购书咨询18515909251朱老师

99.51 5.9折 168 全新

库存4件

北京丰台

作者（加）Richard S. Sutton（理查德·桑顿），（美）Andrew G. Barto（安德鲁·巴图）

出版社电子工业出版社

ISBN9787121295164

出版时间2017-09

装帧平装

开本24开

定价168元

货号9606756

上书时间2026-01-09

商品详情

品相描述：全新

商品描述: 作者简介
Richard Sutton（理查德？萨顿）埃德蒙顿 DeepMind 公司的杰出科学家，阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学，2017年加入DeepMind。之前，曾在美国电话电报公司（AT＆T）和通用电话电子公司（GTE）实验室工作，在马萨诸塞大学做学术研究。 1978年获得斯坦福大学心理学学士学位，1984年获得马萨诸塞大学计算机科学博士学位，加拿大皇家学会院士和人工智能促进会的会士。主要研究兴趣是在决策者与环境相互作用时所面临的学习问题，他认为这是智能的核心问题。其他研究兴趣有：动物学习心理学、联结主义网络，以及能够不断学习和改进环境表征和环境模型的系统。他的科学出版物被引用超过7万次。他也是一名自由主义者，靠前象棋选手和癌症幸存者。 Andrew Barto （安德鲁？巴图）马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位，并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前，他带领了马萨诸塞大学的自主学习实验室，该实验室培养了许多有名的机器学习研究者。目前担任Neural Computation （《神经计算》）期刊的副主编，Journal of Machine Learning Research （《机器学习研究》）期刊的顾问委员会成员，以及Adaptive Behavior （《自适应行为》）期刊的编委员会成员。他是美国科学促进会的会员，IEEE（靠前电子电气工程师协会）的终身会士（Life Fellow），也是神经科学学会的成员。 2004年，因强化学习领域的贡献荣获IEEE神经网络学会先锋奖，并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17很好研究奖；2019年获得马萨诸塞大学神经科学终身成就奖。他在各类期刊、会议和研讨会上发表了100多篇论文，参与撰写多部图书的相关章

目录

目录
第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 扩展实例：井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一个k 臂问题· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 关联搜索(上下文相关的) · · · · · · · · · · · · · · · · · · 40
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
强化学习(第2 版)
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · 60
3.7 性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa：同轨策略下的时序差分控制· · · · · · · · · · · · · · · · · 127
6.5 Q 学习：离轨策略下的时序差分控制· · · · · · · · · · · · · · · · 129
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131
6.7 化偏差与双学习· · · · · · · · · · · · · · · · · · · · · · · · · 133
6.8 游戏、后位状态和其他特殊例子· · · · · · · · · · · · · · · · · · · 135
6.9 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136
第7 章n 步自举法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139
7.1 n 步时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · 140
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144
7.3 n 步离轨策略学习· · · · · · · · · · · · · · · · · · · · · · · · · · 146
7.4 ? 带控制变量的每次决策型方法· · · · · · · · · · · · · · · · · · · 148
7.5 不需要使用重要度采样的离轨策略学习方法：n 步树回溯算法· · · 150
7.6 ? 一个统一的算法：n 步Q()· · · · · · · · · · · · · · · · · · · · 153
7.7 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155
第8 章基于表格型方法的规划和学习· · · · · · · · · · · · · · · · · · · 157
8.1 模型和规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157
8.2 Dyna：集成在一起的规划、动作和学习· · · · · · · · · · · · · · · 159
8.3 当模型错误的时候· · · · · · · · · · · · · · · · · · · · · · · · · · 164
8.4 优先遍历· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166
8.5 期望更新与采样更新的对比· · · · · · · · · · · · · · · · · · · · · 170
8.6 轨迹采样· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173
强化学习(第2 版)8.7 实时动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176
8.8 决策时规划· · · · · · · · · · · 8

内容摘要
《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

主编推荐

《强化学习（第2版）》被业界为任何对人工智能领域感兴趣的人员的书。
《强化学习（第2版）》是被称为“强化学习教父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来，一直是强化学习领域的经典导论性教材，培育了好几代强化学习领域的研究人员。
在第2版中，随着强化学习近来的蓬勃发展，作者补充了很多新的内容：人工神经网络、蒙特卡洛树搜索、平均收益*化……涵盖了当今*关键的核心算法和理论。不仅如此，作者还以真实世界的应用为例阐述了这些内容。

精彩内容

《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

媒体评论
　　We are most pleased that Professor Kai Yu has produced this Chinese translation of our textbook, which we hope will enable more Chinese students to self-study reinforcement learning and lead to the development of new ideas within China that contribute to the diversity and vigour of worldwide reinforcement learning research.
　　——Richard Sutton and Andrew Barto
　　
　　
　　我们高兴俞凯教授将我们的教材翻译成中文，希望这本教材能够帮助更多的中国学生自学强化学习，并且促进更多的新思想在中国产生，为世界范围的强化学习研究的多样性和生机活力做出贡献。
　　——理查德萨顿　安德鲁巴图
　　
　　
　　一代又一代的强化学习研究人员都是在萨顿和巴图的第1版书的启发下成长起来的。新老读者都将从第2版中受益：这一新版本大大扩展了覆盖的主题范围（新主题包括人工神经网络、蒙特卡洛树搜索、平均收益大化以及关于强化学习的经典应用和新应用的章节），不仅增加了内容的广度，同时作者也在尝试用更加简洁的符号理清这些繁杂主题的各个方面，从而增加讲解的深度。此外，新版本保留了解释的简洁性和直观性，使各种背景的读者都能使用本书。总之，这是一本很棒的书，我衷心给那些对使用、开发或理解强化学习感兴趣的人。
　　——乔鲍塞派什瓦里（Csaba Szepesvari）
　　 DeepMind研究科学家，阿尔伯塔大学计算机科学教授
　　
　　
　　本书仍然是关于强化学习的开创性教材——强化学习作为日益重要的技术，是当今许多的人工智能系统背后的技术基础。本书是任何对人工智能科学抱有真正兴趣的人的书。
　　——杰米斯哈萨比斯（Demis Hassabis）
　　DeepMind联合创始人兼席执行官
　　
　　
　　强化学习是发展前景的重要机器学习范式。近年来通过与深度学习的结合，强化学习在棋类游戏、机器人控制和人机对话等领域的重大进展使得人们对它在人工智能未来发展中的作用极为关注和期待。本书是深入理解强化学习基本概念和算法的经典之作，也是迄今为止系统完整地描述强化学习领域的教材。俞凯教授是将深度强化学习成功用于人机对话系统的研究者，具有丰富的强化学习和深度学习的实践经验。现在他将《强化学习》(第 2 版的这本英文原著的思想和内容以符合中国人理解习惯的方式进行了翻译，忠于原著而又行文流畅，对促进强化学习在中国的研究和应用具有很大的价值。
　　——邓力
　　美国城堡基金席人工智能官 (Chief AI Offiffifficer
　　美国微软公司原席人工智能科学家
　　
　　
　　强化学习是 AlphaGo 采用的主要技术，也是人工智能的主流领域之一。本书是所有想要深入了解强化学习的有志之士的经典。作者用严谨又深入浅出的方式建构起强化学习的核心理论，并附以大量的实例帮助读者理解。我衷心这本好书给大家。
　　——黃士傑(Aja Huang
　　AlphaGo席工程师(Lead Programmer of AlphaGo
　　
　　
　　这本书是强化学习的圣经。该领域正蓬勃发展，新版的出版正当其时。任何对学习决策问题感兴趣的人——学生、研究者、实践者或者其他感兴趣的非专业人士都应该拥有它。
　　——佩德罗多明戈斯（Pedro Domingos）
　　华盛顿大学计算机科学教授，《终ji算法》作者
　　
　　
　　强化学习是人工智能领域的一颗明珠。本书是强化学习领军人物 Richad Sutton 所写的经典教材，不仅系统介绍了强化学习算法，讨论了强化学习和心理学及神经科学的关系，而且包括了强化学习和深度学习结合的新进展与应用。感谢俞凯等人的翻译，感谢电子工业出版社的工作，把这本好书介绍给国内的读者们。强烈！
　　—— 漆远
　　蚂蚁金服副总裁，席 AI 科学家
　　
　　
　　我向所有想了解这个日益重要的机器学习分支的人萨顿和巴图的新版《强化学习》这一经典著作。该第2版扩展了广为流行的第一版的内容，涵盖了当今的关键算法和理论，并以真实世界的应用为例讲解了这些概念——从学习如何控制机器人，到如何编写一个击败人类围棋世界的程序。此外，第2版还讨论了这些计算机算法与心理学和神经科学中关于人类学习规律的研究成果之间的本质性联系。
　　——汤姆米切尔（Tom Mitchell）
　　卡内基梅隆大学计算机科学教授
　　
　　
　　记得在2018年的IJCAI大会上，我作为国际人工智能联合会的理事会给 Andrew Barto 教授颁发2018年杰出研究贡献奖（Research Excellence Award 。这个奖每年颁发给一位长期在人工智能界探索并做出杰出贡献的科学家。我当时问Barto教授，看到现在AlphaGo和AlphaZero凭强化学习横扫围棋界，有什么感受？他说，一直到现在退休，强化学习都是小众研究领域。现在虽然已退休，但赶上AlphaGo/AlphaZero的成功，还是很感慨的！
　　在人工智能界，Richard Sutton（Barto的学生）和 Andrew Barto 是的强化学习的鼻祖，是他们师徒把强化学习作为一个机器学习的重要分支，搬上大雅之堂。这部《强化学习》（第2版）也凝聚了他们的心血。如文中所述，强化学习模拟人类学习的策略，利用积累的经验来改进决策系统的性能，就像国际象棋大师的走子一样，其是通过反复考虑对手可能的反应而进行多步的判断来给出的。这些观察通过用数学，是概率论对智能体、对手和环境进行简练的表达，可以解释如何通过不断的训练，逐步提高智能体的能力。
　　全书对读者的机器学习背景没有做太多的假设，从头娓娓道来，不仅把强化学习重要的理念讲得极为清晰，而且细致回顾了一些强化学习背后的科学家的小故事，生动活泼。同时，书中也不时地指出脑科学的新发现对强化学