强化学(第2版) 人工智能 【加】richards.sutton(理查德?桑顿)【美】andrewg.barto(安德鲁?巴图)
人工智能 新华书店全新正版书籍
¥
103.44
6.2折
¥
168
全新
库存16件
作者【加】richards.sutton(理查德?桑顿)【美】andrewg.barto(安德鲁?巴图)
出版社电子工业出版社
ISBN9787121295164
出版时间2018-03
版次1
装帧平装
开本16开
页数519页
字数100千字
定价168元
货号xhwx_1201937575
上书时间2021-12-07
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
主编:
强化学(第2版)被业界认可为任何对人工智能领域感兴趣的人员的阅读书。强化学(第2版)是被称为“强化学教父”的richardsutton在强化学领域的开创、奠基著作。自1998年版出版以来,一直是强化学领域的经典导论教材,培育了好几代强化学领域的研究人员。在第2版中,随着强化学近来的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、均收益优选化涵盖了当今很关键的核心算和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。
目录:
目录
章 导论?? ? ? ? 1
1.1 强化学?? ? ? ? 1
1.2 示例?? ? ? ? 4
1.3 强化学要素?? ? ? ? 5
1.4 局限与适用范围?? ? ? ? 7
1.5 扩展实例:井字棋 ? ??? ? ? ?? 8
1.6 本章小结?? ? ? ? 12
1.7 强化学的早期历史?? ? ? ? 13
第i部分 表格型求解方?? ? ? ? 23
第2章 多臂?? ? ? ? 25
2.1 一个 k 臂问题?? ? ? ? 25
2.2 动作-价值方?? ? ? ? ? 27
2.3 10 臂测试台?? ? ? ? 28
2.4 增量式实现?? ? ? ? 30
2.5 跟踪一个非稳问题??? ? ? ? 32
2.6 乐观初始值?? ? ? ? 34
2.7 基于置信度上界的动作选择 ??? ? ? ? 35
2.8 梯度算?? ? ? ? 37
2.9 关联搜索 (上下文相关的) ?? ? ? ? ? 40
2.10 本章小结?? ? ? ? 41
第3章 有限马尔可夫决策过程?? 45
3.1 “智能体-环境”交互接 ?? ? ? ? 45
3.2 目标和收益 ?? ? ? ? ? ? ? ? ? ? 51
3.3 回报和分幕? ? ? ? ? ? 52
3.4 分幕式和持续任务的统一表示 ?? ?? 54
3.5 策略和价值函数 ?? ? ? ? ? 55
3.6 优策略和优价值函数 ? ?? ? 60
3.7 优和近似算 ? ? ? ? ?? ? ? ? ? ? ? ? 65
3.8 本章小结? ? ?? ? 66
第4章 动态规划 ? ?? ? 71
4.1 策略评估 (预测) ? ?? ? ? 72
4.2 策略改进? ?? ? 75
4.3 策略迭代? ?? ? 78
4.4 价值迭代? ?? ? 80
4.5 异步动态规划 ?? ? 83
4.6 广义策略迭代 ?? 84
4.7 动态规划的效率? ? ? ? 85
4.8 本章小结?? ? ? 86
第5章 蒙特卡洛方 ?? ? 89
5.1 蒙特卡洛预测 ? ? ? 90
5.2 动作价值的蒙特卡洛估计 ?? ? ? ? ? ? ? 94
5.3 蒙特卡洛控制 ? ?? ? ? ? 95
5.4 没有试探出发设的蒙特卡洛控制 ? ?? ? ? ? ? ? 98
5.5 基于重要度采样的离轨策略 ? ?? ? ? ? ? ? 101
5.6 增量式实现 ? ?? 107
5.7 离轨策略蒙特卡洛控制 ? ?? ? ? ??? ? ? ? ? 108
5.8 ? 折扣敏感的重要度采样?? ? ? ? ? ?110
5.9 ? 每次决策型重要度采样?? ? ? ? ? 112
5.10 本章小结?? ? ? ? ? 113
第 6 章 时序差分学 ? ?? ? ? 117
6.1 时序差分预测 ?? 117
6.2 时序差分预测方的优势 ? ?? ? ? 122
6.3 td(0) 的优 ?? ? ? ? ? ? ? ? ? ? ? 124
6.4 sarsa:同轨策略下的时序差分控制 ? ? ? ?? ? 127
6.5 q 学:离轨策略下的时序差分控制 ? ?? ? ? 129
6.6 期望 sarsa ? ?? ? 131
6.7 优选化偏差与双学? ? ? ?? ? ? ? 133
6.8 游戏、后位状态和其他特殊例子? ?? ? 135
6.9 本章小结? ?? ? 136
第7章 n 步自举 ?? ? ? 139
7.1 n 步时序差分预测 ?? ? ? ? ? ? ? ? 140
7.2 n 步 sarsa ? ?? ? ? 144
7.3 n 步离轨策略学 ? ? ? ? ? ? ? ?146
7.4 ? 带控制变量的每次决策型方? ?? ? ?148
7.5 不需要使用重要度采样的离轨策略学方:n 步树回溯算? ?? ? ?150
7.6 ? 一个统一的算:n 步 q(σ) ? ?? ? ?153
7.7 本章小结?? ?? ? ?155
第8章 基于表格型方的规划和学 ?? ? ?? ? 157
8.1 模型和规划 ? ?? ? 157
8.2 dyna:集成在一起的规划、动作和学?? ? ? ? ? 159
8.3 当模型错误的时候 ?? ?? ? ? ? 164
8.4 优先遍历? ? ?? ? ? 166
8.5 期望更新与采样更新的对比 ?? ? ?? 170
8.6 轨迹采样?? ? ? 173
8.7 实时动态规划 ?? ? 176
8.8 决策时规划 ?? ? 179
8.9 启发式搜索 ? ?? ? ? 180
8.10 预演算? ? ? ? 182
8.11 蒙特卡洛树搜索? ? ? ? ? ? ? ? 184
8.12 本章小结 ? ?? ? ? 187
8.13 第i部分结 ?? ? ? ? ? ? ? 188
第ii部分 表格型近似求解方? ?? ? ? ? ? ? ? ? 193
第9章 基于函数逼近的同轨策略预测 ?? ? ? ? ? ? ? ? 195
9.1 价值函数逼近 ? ? ?? ? 195
9.2 预测目标 (ve ) ?? ? ? ? ? ? ? 196
9.3 梯度和半梯度方 ? ?? ? ? 198
9.4 线方? ? ? ? ? ?? ? ? ? 202
9.5 线方的特征构造? ?? ? ? ? ? ? ? ? 207
9.5.1 多项式基 ? ?? ? ? ? 208
9.5.2 傅立叶基 ? ? ?? ? ? ? 209
9.5.3 粗编码? ? ? ? ? ? ?? ? ? 212
9.5.4 瓦片编码? ? ?? ?214
9.5.5 径向基函数 ?? ? ? ? ? ? ? ? 218
9.6 手动选择步长参数 ? ? ? ?? ? ? ? ? 219
9.7 非线函数逼近:人工神经网络? ? ? ?? ? ? 220
9.8 小二乘时序差分 ? ? ? ?? ? ? ? 225
9.9 基于记忆的函数逼近? ? ? ? ?? ? 227
9.10 基于核函数的函数逼近 ? ? ? ?? ? 229
9.11 深入了解同轨策略学:“兴趣”与“强调” ? ? ?? ? ? 230
9.12 本章小结 ? ? ?? ? ? ? 232
0章 基于函数逼近的同轨策略控制? ?? ? ? ? ? ? 239
10.1 分幕式半梯度控制 ? ? ?? 239
10.2 半梯度 n 步 sarsa? ?? ? ? ? ? ? ? ? 242
10.3 均收益:持续任务中的新的问题设定? ? ?? ? 245
10.4 弃用折扣 ? ? ? ?? ? ? ? ? 249
10.5 差分半梯度 n 步 sarsa ? ? ? ?? 251
10.6 本章小结 ? ?? ? ? ? ? ? 252
1 章 ? 基于函数逼近的离轨策略方? ? ? ?? 253
11.1 半梯度方? ? ? ?? 254
11.2 离轨策略发散的例子? ? ? ?? 256
11.3 致命三要素? ? ? ?? 260
11.4 线价值函数的几何质 ? ? ? ? ? ? ? ?? ? 262
11.5 对贝尔曼误差做梯度下降 ? ? ? ? ? ? ?? ? 266
11.6 贝尔曼误差是不可学的 ? ? ? ? ? ? ? ? ? 270
11.7 梯度 td 方 ? ? ? ?? ? ? ? ? ? 274
11.8 强调 td 方 ? ??? 278
11.9 减小方差 ? ? ?? ? ? ? ? ? ? 279
11.10 本章小结 ? ? ? ? ?? ? ? ? ? ? 280
2章 资格迹 ? ? ? ? ?? ? ? ? 283
12.1 λ-回报? ? ? ? ?? ? ? ? ? 284
12.2 td(λ)? ? ? ?? ? 287
12.3 n-步截断 λ- 回报方 ? ? ?291
12.4 重做更新:在线 λ-回报算? ? ? ? ?? ? 292
12.5 真实的在线 td(λ) ? ? ? ? ?? ? 294
12.6 ? 蒙特卡洛学中的荷兰迹? ? ? ? ?? ? 296
12.7 sarsa(λ)?? ? ? ? ?? ?? 298
12.8 变量 λ 和 γ ? ? ? ? ?? ? 303
12.9 带有控制变量的离轨策略资格迹 ? ?? ? ? ? ? ? 304
12.10 从 watkins 的 q(λ) 到树回溯 tb(λ)? ? ? ? ?? ? ? 308
12.11 采用资格迹保障离轨策略方的稳定 ? ? ?? ? 310
12.12 实现中的问题 ? ? ? ?? ? ? ? ? ? ? ? ? ? ? 312
12.13 本章小结 ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? 312
3章 策略梯度方? ? ?? ? 317
13.1 策略近似及其优势 ? ? ? ? ??? ? 318
13.2 策略梯度定理 ?? ?? 320
13.3 reinforce:蒙特卡洛策略梯度 ? ? ? ?? ? ? 322
13.4 带有基线的 reinforce ? ? ?? ? ? ? 325
13.5 “行动器-评判器”方 ? ? ? ? ?? ? ? 327
13.6 持续问题的策略梯度 ? ? ? ??? ? ? 329
13.7 针对连续动作的策略参数化方 ? ? ??? ? 332
13.8 本章小结 ? ? ? ? ?? ?? ? ? 333
第iii部分 表格型深入研究 ? ? ? ?? ?? ? 337
4章 心理学 ? ?? ? ? ? ? ? ? ? 339
14.1 预测与控制 ? ?? ? ? ? ? ? ? ? ? ? ? 340
14.2 经典条件反射 ? ? ? ?? ? ? ? ? ? 341
14.2.1 阻塞与不错条件反射? ? ? ? ?? ? ? 342
14.2.2 rescorla-wagner 模型? ? ? ? ?? ? 344
14.2.3 td 模型 ? ? ?? ? 347
14.2.4 td 模型模拟 ? ? ? ?? ? ? ? ? ? 348
14.3 工具条件反射? ?? ? ? ? ? 355
14.4 延迟强化 ?? ? ? 359
14.5 认知图 ? ? ? ?? ? 361
14.6 惯行为与目标导向行为 ? ? ?? ? ? ? ?362
14.7 本章小结 ? ? ?? ? ? ? 366
5章 神经科学 ? ? ?? ? ? 373
15.1 神经科学基础 ? ? ? ?? ? ? ? 374
15.2 收益信号、强化信号、价值和预测误差 ? ?? ? ? 375
15.3 收益预测误差说 ? ? ? ? ? ?? ? ? 377
15.4 多巴胺 ? ? ?? ? ? ? 379
15.5 收益预测误差说的实验支持? ? ? ?? ? ? 382
15.6 td 误差/多巴胺对应 ? ?? ? ? ? ? ? 385
15.7 神经“行动器-评判器” ? ?? ? ? ? ? ? 390
15.8 行动器与评判器学规则 ? ? ? ?? ? ? 393
15.9 享乐主义神经元? ? ? ? ? ? ?? ? ? 397
15.10 集体强化学 ? ? ?? ? ? ? ? 399
15.11 大脑中的基于模型的算 ? ?? ? ? 402
15.12 成瘾? ?? ? ? ? ? ? ? 403
15.13 本章小结 ?? ? ? ? ? 404
6 章 应用及案例分析 ? ?? ? ? ? 413
16.1 td-gammon ? ? ? ?? ? 413
16.2 samuel 的跳棋程序 ? ? ? ? ? ? ?? 418
16.3 watson 的每双倍投注 ? ? ? ? ? ?? ? ? ? ? 421
16.4 优化内存控制 ? ? ? ?? ? ? ? ? 424
16.5 人类级别的视频游戏 ? ? ? ? ? ? ?? ? ? ? 428
16.6 主宰围棋游戏 ? ? ? ? ?? ? ? ? ? 433
16.6.1 alphago ? ? ? ?? ? ? ? ? 436
16.6.2 alphago zero ? ? ? ?? ? ? ? ?439
16.7 个化网络服务? ? ?? ? 442
16.8 热气流滑翔 ? ?? ? ? ? ? 446
7章 前沿技术 ? ? ? ? ?? ? ? ? ? ? ? ? ? ? 451
17.1 广义价值函数和辅助任务 ? ? ?? ? 451
17.2 基于选项理论的时序摘要 ? ? ? ? ? ? ? ? ? ?? ? ? 453
17.3 观测量和状态 ? ? ? ? ?? ? ? ? 456
17.4 设计收益信号 ? ?? ? ? ? ? ? ? ? ? 460
17.5 遗留问题 ? ?? ? ? 464
17.6 人工智能的未来? ? ? ? ? ? ?? 467
参文献 ? ?? ? ? ?? 473
内容简介:
强化学(第2版)作为强化学思想的深度解剖之作,被业内认可为是一本强化学基础理论的经典著作。它从强化学的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方、时序差分方、同轨离轨策略等强化学的基本概念和方,并以大量的实例帮助读者理解强化学的问题建模过程以及核心的算细节。强化学(第2版)适合所有对强化学感兴趣的读者阅读、收藏。
作者简介:
richardsutton(理查德?萨顿)埃德蒙顿deepmind公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入deepmind。之前,曾在美国电话电报公司(at&t)和通用电话电子公司(gte)实验室工作,在马萨诸塞大学做学术研究。1978年获得斯坦福大学心理学学士,1984年获得马萨诸塞大学计算机科学博士,加拿大皇家学会院士和人工智能促进会的会士。主要研究兴趣是在决策者与环境相互作用时所面临的学问题,他认为这是智能的核心问题。其他研究兴趣有:动物学心理学、联结主义网络,以及能够不断学和改进环境表征和环境模型的系统。他的科学出版物被引用超过7万次。他也是一名自由主义者,靠前象棋选手和癌症幸存者。andrewbarto(安德鲁?巴图)马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士,并于1975年获该校计算机科学专业的博士。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前,他带领了马萨诸塞大学的自主学实验室,该实验室培养了许多有名的机器学研究者。目前担任neuralputation(神经计算)期刊的副主编,journalofmachinelearningresearch(机器学研究)期刊的顾问委员会成员,以及adaptivebehavior(自适应行为)期刊的编委员会成员。他是美国科学促进会的会员,ieee(靠前电子电气工程师协会)的终身会士(lifefellow),也是神经科学学会的成员。2004年,因强化学领域的贡献荣获ieee神经网络学会先锋奖,并因在强化学理论和应用方面的开创、富有影响力的研究获得ijcai17很好研究奖;2019年获得马萨诸塞大学神经科学终身成奖。他在各类期刊、会议和研讨会上发表了100多篇,参与撰写多部图书的相关章
精彩书评:
wearemostpleasedthatprofessorkaiyuhasproducedthischinesetranslationofourtextbookwhichwehopewillenablemorechinesestudentstoselfstudyreinforcementlearningandleadtothedevelopmentofnewideaswithinchinathatcontributetothediversityandvigourofworldwidereinforcementlearningresearch.——richardsuttonandandrewbarto我们很好高兴俞凯教授将我们的教材翻译成中文,希望这本教材能够帮助更多的中国学生自学强化学,并且促进更多的新思想在中国产生,为世界范围的强化学研究的多样和生机活力做出贡献。——理查德?萨顿安德鲁?巴图一代又一代的强化学研究人员都是在萨顿和巴图的版书的启发下成长起来的。新老读者都将从第2版中受益:这一新版本大大扩展了覆盖的主题范围(新主题包括人工神经网络、蒙特卡洛树搜索、均收益优选化以及关于强化学的经典应用和近期新应用的章节),不仅增加了内容的广度,同时作者也在尝试用更加简洁的符号理清这些繁杂主题的各个方面,从而增加讲解的深度。此外,新版本保留了解释的简洁和直观,使各种背景的读者都能使用本书。之,这是一本很棒的书,我衷心给那些对使用、开发或理解强化学感兴趣的人。——乔鲍?塞派什瓦里(csabaszepesvari)deepmind研究科学家,阿尔伯塔大学计算机科学教授本书仍然是关于强化学的开创教材——强化学作为益重要的技术,是当今许多优选进的人工智能系统背后的技术基础。本书是任何对人工智能科学抱有真正兴趣的人的阅读书。——杰米斯?哈萨比斯(demishassabis)deepmind联合创始人兼首席执行官强化学是极具发展前景的重要机器学范式。来通过与深度学的结合,强化学在棋类游戏、机器人控制和人机对话等领域的重大进展使得人们对它在人工智能未来发展中的作用极为关注和期待。本书是深入理解强化学基本概念和算的经典之作,也是迄今为止很系统很完整地描述强化学领域的教材。俞凯教授是将深度强化学成功用于人机对话系统的很好研究者,具有丰富的强化学和深度学的实践经验。现在他将强化学(第2版)的这本英文原著的思想和内容以符合理解惯的方式进行了翻译,忠于原著而又行文流畅,对促进强化学在中国的研究和应用具有很大的价值。——邓力美国城堡基金首席人工智能官(chiefaioffiffifficer)美国微软公司原首席人工智能科学家强化学是alphago采用的主要技术,也是人工智能的主流领域之一。本书是所有想要深入了解强化学的有志之士阅读的经典。作者用严谨又深入浅出的方式建构起强化学的核心理论,并附以大量的实例帮助读者理解。我衷心这本好书给大家。——黃士傑(ajahuang)alphago首席工程师(leadprogrammerofalphago)这本书是强化学的。该领域正蓬勃发展,新版的出版正当其时。任何对学决策问题感兴趣的人——学生、研究者、实践者或者其他感兴趣的非专业人士都应该拥有它。——佩德罗?多明戈斯(pedrodomingos)华盛顿大学计算机科学教授,优选算作者强化学是人工智能领域的一颗明珠。本书是强化学领军人物richadsutton所写的经典教材,不仅系统介绍了强化学算,讨论了强化学和心理学及神经科学的关系,而且包括了强化学和深度学结合的近期新进展与应用。感谢俞凯等人的翻译,感谢电子出版社的工作,把这本好书介绍给的读者们。强烈!——漆远蚂蚁金服副裁,首席ai科学家我向所有想了解这个益重要的机器学分支的人萨顿和巴图的新版强化学这一经典著作。该第2版扩展了广为流行的版的内容,涵盖了当今的关键算和理论,并以真实世界的应用为例讲解了这些概念——从学如何控制机器人,到如何编写一个击败人类围棋世界优选的程序。此外,第2版还讨论了这些计算机算与心理学和神经科学中关于人类学规律的研究成果之间的本质联系。——汤姆?米切尔(tommitchell)卡内基梅隆大学计算机科学教授记得在2018年的ijcai大会上,我作为靠前人工智能联合会的理事会给andrewbarto教授颁发2018年杰出研究贡献奖(researchexcellenceaward)。这个奖每年颁发给一位长期在人工智能界探索并做出杰出贡献的科学家。我当时问barto教授,看到现在alphago和alphazero凭强化学横扫围棋界,有什么感受?他说,一直到现在退休,强化学都是小众研究领域。现在虽然已退休,但赶上alphago/alphazero的成功,还是很感慨的!在人工智能界,richardsutton(barto的学生)和andrewbarto是认可的强化学的鼻祖,是他们师徒把强化学作为一个机器学的重要分支,搬上大雅之堂。这部强化学(第2版)也凝聚了他们的心血。如文中所述,强化学模拟人类学的策略,利用积累的经验来改进决策系统的能,像靠前象棋大师的走子一样,其是通过反复虑对手可能的反应而进行多步的判断来给出的。这些观察通过用数学,特别是概率论对智能体、对手和环境进行简练的表达,可以解释如何通过不断的训练,逐步提高智能体的能力。全书对读者的机器学背景没有做太多的设,从头娓娓道来,不仅把强化学重要的理念讲得极为清晰,而且细致回顾了一些强化学背后的科学家的小故事,生动活泼。同时,书中也不时地指出脑科学的近期新发现对强化学研究的启迪,让读者从多学科的角度得到全面的知识。书中还有无数的小例子,用以帮助读者理解复杂的概念,比如井字棋游戏。此外,书中引用近期新的人工智能进展,对强化学的经典算(如蒙特卡洛搜索树算)加以系统的解释,让读者理解这些算如何应用在有名的ibm的watson系统和alphago/alphazero系统中。中文版特别值得一提的是上海交通大学俞凯教授及其团队所做的高质量的中文翻译。本书的翻译涉及众多强化学概念的先发售中文翻译,这需要译者同时具有深厚的机器学和翻译功底。毫不夸张地说,中文版的面世为机器学领域的中国学者和学生架起了一座通往强化学经典知识宝库的桥梁。——杨强前海微众银行首席人工智能官,科技大学讲座教授靠前人工智能联合会理事会(2017―2019)萨顿和巴图合著的第2版强化学的出版正当其时。这个领域在过去20年里发生了巨大的变化,机器学研究人员对强化学的兴趣从来没有像现在这样强烈。如果你想完整理解智能体学的基本,你可以从这本教科书开始。第2版包括了许多深度强化学的新进展,同时也将该领域的学术历史延伸到了当前。我肯定会把它给我所有的学生,以及其他想了解当前强化学热潮的来龙去脉的和科研人员。——约舒亚?本吉奥(yoshuabengio)蒙特利尔大学计算机科学与运筹学教授强化学(第2版)
— 没有更多了 —
以下为对购买帮助不大的评价