强化学习(第2版) [加]理查德·桑顿|[美]安德鲁·巴 电子工业出版社
正版二手书,发货前杀菌消毒,保证符合品相,不缺页,圆通发货(圆通不到走邮政),下单后24小时内发货。
¥
29.04
1.7折
¥
168
九品
仅1件
作者[加]理查德·桑顿|[美]安德鲁·巴
出版社电子工业出版社
ISBN9787121295164
出版时间2019-09
装帧平装
开本16开
定价168元
货号1176557920323223560
上书时间2024-12-20
商品详情
- 品相描述:九品
- 商品描述
-
作者简介
Richard Sutton(理查德·萨顿) 埃德蒙顿 DeepMind 公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入DeepMind。之前,曾在美国电话电报公司(AT&T)和通用电话电子公司(GTE)实验室工作,在马萨诸塞大学做学术研究。
1978年获得斯坦福大学心理学学士学位,1984年获得马萨诸塞大学计算机科学博士学位,加拿大皇家学会院士和人工智能促进会的会士。
主要研究兴趣是在决策者与环境相互作用时所面临的学习问题,他认为这是智能的核心问题。其他研究兴趣有:动物学习心理学、联结主义网络,以及能够不断学习和改进环境表征和环境模型的系统。
他的科学出版物被引用超过7万次。
他也是一名自由主义者,国际象棋选手和癌症幸存者。
Andrew Barto (安德鲁·巴图)马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位,并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前,他带领了马萨诸塞大学的自主学习实验室,该实验室培养了许多著名的机器学习研究者。
目前担任Neural Computation (《神经计算》)期刊的副主编,Journal of Machine Learning Research (《机器学习研究》)期刊的顾问委员会成员,以及Adaptive Behavior (《自适应行为》)期刊的编委员会成员。
他是美国科学促进会的会员,IEEE(国际电子电气工程师协会)的终身会士(Life Fellow),也是神经科学学会的成员。
2004年,因强化学习领域的贡献荣获IEEE神经网络学会先锋奖,并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17卓越研究奖;2019年获得马萨诸塞大学神经科学终身成就奖。
他在各类期刊、会议和研讨会上发表了100多篇论文,参与撰写多部图书的相关章
目录
目录
第1章 导论·· · · · 1
1.1 强化学习·· · · · 1
1.2 示例·· · · · 4
1.3 强化学习要素·· · · · 5
1.4 局限性与适用范围·· · · · 7
1.5 扩展实例:井字棋 · ··· · · ·· 8
1.6 本章小结·· · · · 12
1.7 强化学习的早期历史·· · · · 13
第I部分 表格型求解方法·· · · · 23
第2章 多臂赌博机·· · · · 25
2.1 一个 k 臂赌博机问题·· · · · 25
2.2 动作-价值方法·· · · · · 27
2.3 10 臂测试平台·· · · · 28
2.4 增量式实现·· · · · 30
2.5 跟踪一个非平稳问题··· · · · 32
2.6 乐观初始值·· · · · 34
2.7 基于置信度上界的动作选择 ··· · · · 35
2.8 梯度赌博机算法·· · · · 37
2.9 关联搜索 (上下文相关的赌博机) ·· · · · · 40
2.10 本章小结·· · · · 41
第3章 有限马尔可夫决策过程·· 45
3.1 “智能体-环境”交互接口 ·· · · · 45
3.2 目标和收益 ·· · · · · · · · · · 51
3.3 回报和分幕· · · · · · 52
3.4 分幕式和持续性任务的统一表示法 ·· ·· 54
3.5 策略和价值函数 ·· · · · · 55
3.6 最优策略和最优价值函数 · ·· · 60
3.7 最优性和近似算法 · · · · ·· · · · · · · · 65
3.8 本章小结· · ·· · 66
第4章 动态规划 · ·· · 71
4.1 策略评估 (预测) · ·· · · 72
4.2 策略改进· ·· · 75
4.3 策略迭代· ·· · 78
4.4 价值迭代· ·· · 80
4.5 异步动态规划 ·· · 83
4.6 广义策略迭代 ·· 84
4.7 动态规划的效率· · · · 85
4.8 本章小结·· · · 86
第5章 蒙特卡洛方法 ·· · 89
5.1 蒙特卡洛预测 · · · 90
5.2 动作价值的蒙特卡洛估计 ·· · · · · · · 94
5.3 蒙特卡洛控制 · ·· · · · 95
5.4 没有试探性出发假设的蒙特卡洛控制 · ·· · · · · · 98
5.5 基于重要度采样的离轨策略 · ·· · · · · · 101
5.6 增量式实现 · ·· 107
5.7 离轨策略蒙特卡洛控制 · ·· · · ··· · · · · 108
5.8 ? 折扣敏感的重要度采样·· · · · · ·110
5.9 ? 每次决策型重要度采样·· · · · · 112
5.10 本章小结·· · · · · 113
第 6 章 时序差分学习 · ·· · · 117
6.1 时序差分预测 ·· 117
6.2 时序差分预测方法的优势 · ·· · · 122
6.3 TD(0) 的最优性 ·· · · · · · · · · · · 124
6.4 Sarsa:同轨策略下的时序差分控制 · · · ·· · 127
6.5 Q 学习:离轨策略下的时序差分控制 · ·· · · 129
6.6 期望 Sarsa · ·· · 131
6.7 最大化偏差与双学习· · · ·· · · · 133
6.8 游戏、后位状态和其他特殊例子· ·· · 135
6.9 本章小结· ·· · 136
第7章 n 步自举法 ·· · · 139
7.1 n 步时序差分预测 ·· · · · · · · · 140
7.2 n 步 Sarsa · ·· · · 144
7.3 n 步离轨策略学习 · · · · · · · ·146
7.4 ? 带控制变量的每次决策型方法· ·· · ·148
7.5 不需要使用重要度采样的离轨策略学习方法:n 步树回溯算法· ·· · ·150
7.6 ? 一个统一的算法:n 步 Q(σ) · ·· · ·153
7.7 本章小结·· ·· · ·155
第8章 基于表格型方法的规划和学习 ·· · ·· · 157
8.1 模型和规划 · ·· · 157
8.2 Dyna:集成在一起的规划、动作和学习·· · · · · 159
8.3 当模型错误的时候 ·· ·· · · · 164
8.4 优先遍历· · ·· · · 166
8.5 期望更新与采样更新的对比 ·· · ·· 170
8.6 轨迹采样·· · · 173
8.7 实时动态规划 ·· · 176
8.8 决策时规划 ·· · 179
8.9 启发式搜索 · ·· · · 180
8.10 预演算法· · · · 182
8.11 蒙特卡洛树搜索· · · · · · · · 184
8.12 本章小结 · ·· · · 187
8.13 第I部分总结 ·· · · · · · · 188
第II部分 表格型近似求解方法· ·· · · · · · · · 193
第9章 基于函数逼近的同轨策略预测 ·· · · · · · · · 195
9.1 价值函数逼近 · · ·· · 195
9.2 预测目标 (VE ) ·· · · · · · · 196
9.3 随机梯度和半梯度方法 · ·· · · 198
9.4 线性方法· · · · · ·· · · · 202
9.5 线性方法的特征构造· ·· · · · · · · · 207
9.5.1 多项式基 · ·· · · · 208
9.5.2 傅立叶基 · · ·· · · · 209
9.5.3 粗编码· · · · · · ·· · · 212
9.5.4 瓦片编码· · ·· ·214
9.5.5 径向基函数 ·· · · · · · · · 218
9.6 手动选择步长参数 · · · ·· · · · · 219
9.7 非线性函数逼近:人工神经网络· · · ·· · · 220
9.8 最小二乘时序差分 · · · ·· · · · 225
9.9 基于记忆的函数逼近· · · · ·· · 227
9.10 基于核函数的函数逼近 · · · ·· · 229
9.11 深入了解同轨策略学习:“兴趣”与“强调” · · ·· · · 230
9.12 本章小结 · · ·· · · · 232
第10章 基于函数逼近的同轨策略控制· ·· · · · · · 239
10.1 分幕式半梯度控制 · · ·· 239
10.2 半梯度 n 步 Sarsa· ·· · · · · · · · 242
10.3 平均收益:持续性任务中的新的问题设定· · ·· · 245
10.4 弃用折扣 · · · ·· · · · · 249
10.5 差分半梯度 n 步 Sarsa · · · ·· 251
10.6 本章小结 · ·· · · · · · 252
第11 章 ? 基于函数逼近的离轨策略方法· · · ·· 253
11.1 半梯度方法· · · ·· 254
11.2 离轨策略发散的例子· · · ·· 256
11.3 致命三要素· · · ·· 260
11.4 线性价值函数的几何性质 · · · · · · · ·· · 262
11.5 对贝尔曼误差做梯度下降 · · · · · · ·· · 266
11.6 贝尔曼误差是不可学习的 · · · · · · · · · 270
11.7 梯度 TD 方法 · · · ·· · · · · · 274
11.8 强调 TD 方法 · ··· 278
11.9 减小方差 · · ·· · · · · · · 279
11.10 本章小结 · · · · ·· · · · · · 280
第12章 资格迹 · · · · ·· · · · 283
12.1 λ-回报· · · · ·· · · · · 284
12.2 TD(λ)· · · ·· · 287
12.3 n-步截断 λ- 回报方法 · · ·291
12.4 重做更新:在线 λ-回报算法· · · · ·· · 292
12.5 真实的在线 TD(λ) · · · · ·· · 294
12.6 ? 蒙特卡洛学习中的荷兰迹· · · · ·· · 296
12.7 Sarsa(λ)·· · · · ·· ·· 298
12.8 变量 λ 和 γ · · · · ·· · 303
12.9 带有控制变量的离轨策略资格迹 · ·· · · · · · 304
12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ)· · · · ·· · · 308
12.11 采用资格迹保障离轨策略方法的稳定性 · · ·· · 310
12.12 实现中的问题 · · · ·· · · · · · · · · · · 312
12.13 本章小结 · ·· · · · · · · · · · · · · · 312
第13章 策略梯度方法· · ·· · 317
13.1 策略近似及其优势 · · · · ··· · 318
13.2 策略梯度定理 ·· ·· 320
13.3 REINFORCE:蒙特卡洛策略梯度 · · · ·· · · 322
13.4 带有基线的 REINFORCE · · ·· · · · 325
13.5 “行动器-评判器”方法 · · · · ·· · · 327
13.6 持续性问题的策略梯度 · · · ··· · · 329
13.7 针对连续动作的策略参数化方法 · · ··· · 332
13.8 本章小结 · · · · ·· ·· · · 333
第III部分 表格型深入研究 · · · ·· ·· · 337
第14章 心理学 · ·· · · · · · · · 339
14.1 预测与控制 · ·· · · · · · · · · · · 340
14.2 经典条件反射 · · · ·· · · · · · 341
14.2.1 阻塞与高级条件反射· · · · ·· · · 342
14.2.2 Rescorla-Wagner 模型· · · · ·· · 344
14.2.3 TD 模型 · · ·· · 347
14.2.4 TD 模型模拟 · · · ·· · · · · · 348
14.3 工具性条件反射· ·· · · · · 355
14.4 延迟强化 ·· · · 359
14.5 认知图 · · · ·· · 361
14.6 习惯行为与目标导向行为 · · ·· · · · ·362
14.7 本章小结 · · ·· · · · 366
第15章 神经科学 · · ·· · · 373
15.1 神经科学基础 · · · ·· · · · 374
15.2 收益信号、强化信号、价值和预测误差 · ·· · · 375
15.3 收益预测误差假说 · · · · · ·· · · 377
15.4 多巴胺 · · ·· · · · 379
15.5 收益预测误差假说的实验支持· · · ·· · · 382
15.6 TD 误差/多巴胺对应 · ·· · · · · · 385
15.7 神经“行动器-评判器” · ·· · · · · · 390
15.8 行动器与评判器学习规则 · · · ·· · · 393
15.9 享乐主义神经元· · · · · · ·· · · 397
15.10 集体强化学习 · · ·· · · · · 399
15.11 大脑中的基于模型的算法 · ·· · · 402
15.12 成瘾· ·· · · · · · · 403
15.13 本章小结 ·· · · · · 404
第 16 章 应用及案例分析 · ·· · · · 413
16.1 TD-Gammon · · · ·· · 413
16.2 Samuel 的跳棋程序 · · · · · · ·· 418
16.3 Watson 的每日双倍投注 · · · · · ·· · · · · 421
16.4 优化内存控制 · · · ·· · · · · 424
16.5 人类级别的视频游戏 · · · · · · ·· · · · 428
16.6 主宰围棋游戏 · · · · ·· · · · · 433
16.6.1 AlphaGo · · · ·· · · · · 436
16.6.2 AlphaGo Zero · · · ·· · · · ·439
16.7 个性化网络服务· · ·· · 442
16.8 热气流滑翔 · ·· · · · · 446
第17章 前沿技术 · · · · ·· · · · · · · · · · 451
17.1 广义价值函数和辅助任务 · · ·· · 451
17.2 基于选项理论的时序摘要 · · · · · · · · · ·· · · 453
17.3 观测量和状态 · · · · ·· · · · 456
17.4 设计收益信号 · ·· · · · · · · · · 460
17.5 遗留问题 · ·· · · 464
17.6 人工智能的未来· · · · · · ·· 467
参考文献 · ·· · · ·· 473
内容摘要
《强化学习(第2版)》作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
《强化学习(第2版)》适合所有对强化学习感兴趣的读者阅读、收藏。
主编推荐
《强化学习(第2版)》被业界公认为任何对人工智能领域感兴趣的人员的推荐阅读书。
《强化学习(第2版)》是被称为“强化学习教父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来,一直是强化学习领域的经典导论性教材,培育了好几代强化学习领域的研究人员。
在第2版中,随着强化学习近来的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益优选化……涵盖了当今最关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。
精彩内容
本书第1版出版的20年以来,在机器学习(包括强化学习) 前沿技术发展的推动下,人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力,也受益于许多理论和算法上的创新。面对这些进展,我们早有对1998年第1版书进行更新再版的打算,但直到2012年才开始真正着手编纂。第2版的目标与第1版一致:为强化学习的核心概念与算法提供清晰简明的解释,以供所有相关学科的读者学习。这一版仍然是一本概要介绍性的读物,仍然关注最核心的在线学习算法,同时增加了一些近年来日趋重要的话题,并拓展了部分内容,给出了更新的理解。强化学习领域可以延伸出很多不同的方向,但我们并不想包罗万象,在此为可能出现的些许遗漏表示歉意。
第2版记号变化
和第1版一样,我们没有以最严谨的形式化的方式来定义强化学习,也没有采用特别抽象的术语表达,但是为了大家能更深入地理解,有些话题仍然需要用数学来解释。无数学需求的读者可以选择跳过灰色框中的数学原理部分。在教学过程中,我们发现一些新的记号可以消除一些共同的疑惑点,因此本书的部分记号和上一版相比略有差异。首先我们对随机变量进行了区分,以大写字母表示变量本身,小写字母表示对应的实例。比如时刻t的状态、动作和收益被表示为St、At和Rt,而它们可能的取值被表示为s、a和r。与之相伴随,我们用小写字母的形式(例如vπ)来表示价值函数,用大写字母表示其表格型的估计值,比如Qt(s,a)。近似价值函数是具有随机参数的确定性函数,因此用小写字母表示,比如v?(s,wt)≈vπ(s)。向量用粗体的小写字母表示(包括随机变量),比如权值向量wt(先前用θt表示)、特征向量xt(先前用?t表示)。大写粗体用以表示矩阵。在第1版中我们使用了特殊记号Paass′来表示转移概率和期望收益。但这种记号并不能完整地表示出收益的动态性,只表示了期望值,因此只适用于动态规划而不适用于强化学习。另一个缺点是上下标的过度使用。因此,在这一版中我们明确采用p(s′,r|s,a)的记 号来表示给定当前状态s和动作a后,下一时刻的状态s′和收r的联合概率分布。所有的记号变化都收录在稍后的“符号列表”中。
第2版内容结构
第2版在原先的基础上进行了许多拓展,整体结构也有所变化。第1章是导论性的介绍,其后分为三个部分。第I部分(第2~8 章)会尽可能多地用表格型的案例讲解强化学习,主要包括针对表格型案例的学习和规划算法,以及它们在n步法和Dyna中的统一表达。这部分介绍的许多算法是第2版的新增内容,包括UCB、期望Sarsa、双重学习、树回溯、Q(σ)、RTDP和MCTS。从介绍表格型案例开始,可以在最简单的情况下理解算法的核心思想。本书的第II部分(第9~13章)致力于将这些思想从表格型的情况扩展到函数逼近,包含人工神经网络、傅立叶变换基础、LSTD、核方法、梯度TD和强调TD方法、平均收益方法、真实的在线TD(λ)和策略梯度方法等新内容。第2版大幅拓展了对离轨策略的介绍,首先是第5~7章讲解表格型的案例,之后在第11章和第12章讲解函数逼近法。另一个变化是,这一版将n步自举法(在第7章中详细阐述)中的前向视图思想与资格迹(在第12章中单独阐述)中的后向视图思想分开详细讲解。本书的第III部分加入了大量阐述强化学习与心理学(第14章)、神经科学(第15章)联系的新章节,更新了针对多种案例,包括Atari游戏、Watson的投注策略和围棋人工智能AlphaGo、AlphaGo Zero (第16章)的研究章节。尽管如此,本书涵盖的内容仍然只是该领域的一小部分,只反映了我们长期以来对低成本无模型方法的兴趣,这些方法可以很好地适应大规模的应用。最后一章包括了对强化学习未来的社会影响的讨论。无论好坏,第2版的篇幅达到了第1版的两倍。
本书旨在作为一到两学期强化学习课程的初级教材。一个学期的课程可以着重对前10章进行讨论,掌握核心思想,根据需要再将其他章节,或者其他书籍的某些章节,比如Bertsekas和Tsitsiklis(1996)、Wiering和van Otterlo(2012),以及Szepesv
— 没有更多了 —
以下为对购买帮助不大的评价