• 强化学(第2版) 人工智能 作者
  • 强化学(第2版) 人工智能 作者
  • 强化学(第2版) 人工智能 作者
  • 强化学(第2版) 人工智能 作者
  • 强化学(第2版) 人工智能 作者
  • 强化学(第2版) 人工智能 作者
  • 强化学(第2版) 人工智能 作者
  • 强化学(第2版) 人工智能 作者
21年品牌 40万+商家 超1.5亿件商品

强化学(第2版) 人工智能 作者

none

99.75 5.9折 168 全新

库存13件

北京丰台
认证卖家担保交易快速发货售后保障

作者作者

出版社电子工业出版社

ISBN9787121295164

出版时间2019-09

版次1

装帧平装

开本16

定价168元

货号xhwx_1201937575

上书时间2024-11-02

智胜图书专营店

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

强化学(第2版)被业界公认为任何对人工智能领域感兴趣的人员的书。 强化学(第2版)是被称为“强化学教父”的richard utton在强化学领域的开创、奠基著作。自1998年版出版以来,一直是强化学领域的经典导论教材,培育了好几代强化学领域的研究人员。 在第2版中,随着强化学的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、均收益大化涵盖了当今关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。

目录:

目录 章 导论?? ? ? ? 1 1.1 强化学?? ? ? ? 1 1.2 示例?? ? ? ? 4 1.3 强化学要素?? ? ? ? 5 1.4 局限与适用范围?? ? ? ? 7 1.5 扩展实例:井字棋 ? ??? ? ? ?? 8 1.6 本章小结?? ? ? ? 12 1.7 强化学的早期历史?? ? ? ? 13 第i部分 表格型求解方法?? ? ? ? 23 第2章 多臂?? ? ? ? 25 2.1 一个 k 臂问题?? ? ? ? 25 2.2 动作-价值方法?? ? ? ? ? 27 2.3 10 臂测试台?? ? ? ? 28 2.4 增量式实现?? ? ? ? 30 2.5 跟踪一个非稳问题??? ? ? ? 32 2.6 乐观初始值?? ? ? ? 34 2.7 基于置信度上界的动作选择 ??? ? ? ? 35 2.8 梯度算法?? ? ? ? 37 2.9 关联搜索 (上下文相关的) ?? ? ? ? ? 40 2.10 本章小结?? ? ? ? 41 第3章 有限马尔可夫决策过程?? 45 3.1 “智能体-环境”交互接 ?? ? ? ? 45 3.2 目标和收益 ?? ? ? ? ? ? ? ? ? ? 51 3.3 回报和分幕? ? ? ? ? ? 52 3.4 分幕式和持续任务的统一表示法 ?? ?? 54 3.5 策略和价值函数 ?? ? ? ? ? 55 3.6 优策略和优价值函数 ? ?? ? 60 3.7 优和近似算法 ? ? ? ? ?? ? ? ? ? ? ? ? 65 3.8 本章小结? ? ?? ? 66 第4章 动态规划 ? ?? ? 71 4.1 策略评估 (预测) ? ?? ? ? 72 4.2 策略改进? ?? ? 75 4.3 策略迭代? ?? ? 78 4.4 价值迭代? ?? ? 80 4.5 异步动态规划 ?? ? 83 4.6 广义策略迭代 ?? 84 4.7 动态规划的效率? ? ? ? 85 4.8 本章小结?? ? ? 86 第5章 蒙特卡洛方法 ?? ? 89 5.1 蒙特卡洛预测 ? ? ? 90 5.2 动作价值的蒙特卡洛估计 ?? ? ? ? ? ? ? 94 5.3 蒙特卡洛控制 ? ?? ? ? ? 95 5.4 没有试探出发设的蒙特卡洛控制 ? ?? ? ? ? ? ? 98 5.5 基于重要度采样的离轨策略 ? ?? ? ? ? ? ? 101 5.6 增量式实现 ? ?? 107 5.7 离轨策略蒙特卡洛控制 ? ?? ? ? ??? ? ? ? ? 108 5.8 ? 折扣敏感的重要度采样?? ? ? ? ? ?110 5.9 ? 每次决策型重要度采样?? ? ? ? ? 112 5.10 本章小结?? ? ? ? ? 113 第 6 章 时序差分学 ? ?? ? ? 117 6.1 时序差分预测 ?? 117 6.2 时序差分预测方法的优势 ? ?? ? ? 122 6.3 td(0) 的优 ?? ? ? ? ? ? ? ? ? ? ? 124 6.4 sarsa:同轨策略下的时序差分控制 ? ? ? ?? ? 127 6.5 q 学:离轨策略下的时序差分控制 ? ?? ? ? 129 6.6 期望 sarsa ? ?? ? 131 6.7 大化偏差与双学? ? ? ?? ? ? ? 133 6.8 游戏、后位和其他特殊例子? ?? ? 135 6.9 本章小结? ?? ? 136 第7章 n 步自举法 ?? ? ? 139 7.1 n 步时序差分预测 ?? ? ? ? ? ? ? ? 140 7.2 n 步 sarsa ? ?? ? ? 144 7.3 n 步离轨策略学 ? ? ? ? ? ? ? ?146 7.4 ? 带控制变量的每次决策型方法? ?? ? ?148 7.5 不需要使用重要度采样的离轨策略学方法:n 步树回溯算法? ?? ? ?150 7.6 ? 一个统一的算法:n 步 q(σ) ? ?? ? ?153 7.7 本章小结?? ?? ? ?155 第8章 基于表格型方法的规划和学 ?? ? ?? ? 157 8.1 模型和规划 ? ?? ? 157 8.2 dyna:集成在一起的规划、动作和学?? ? ? ? ? 159 8.3 当模型错误的时候 ?? ?? ? ? ? 164 8.4 优先遍历? ? ?? ? ? 166 8.5 期望更新与采样更新的对比 ?? ? ?? 170 8.6 轨迹采样?? ? ? 173 8.7 实时动态规划 ?? ? 176 8.8 决策时规划 ?? ? 179 8.9 启发式搜索 ? ?? ? ? 180 8.10 预演算法? ? ? ? 182 8.11 蒙特卡洛树搜索? ? ? ? ? ? ? ? 184 8.12 本章小结 ? ?? ? ? 187 8.13 第i部分结 ?? ? ? ? ? ? ? 188 第ii部分 表格型近似求解方法? ?? ? ? ? ? ? ? ? 193 第9章 基于函数逼近的同轨策略预测 ?? ? ? ? ? ? ? ? 195 9.1 价值函数逼近 ? ? ?? ? 195 9.2 预测目标 (ve ) ?? ? ? ? ? ? ? 196 9.3 梯度和半梯度方法 ? ?? ? ? 198 9.4 线方法? ? ? ? ? ?? ? ? ? 202 9.5 线方法的特征构造? ?? ? ? ? ? ? ? ? 207 9.5.1 多项式基 ? ?? ? ? ? 208 9.5.2 傅立叶基 ? ? ?? ? ? ? 209 9.5.3 粗编码? ? ? ? ? ? ?? ? ? 212 9.5.4 瓦片编码? ? ?? ?214 9.5.5 径向基函数 ?? ? ? ? ? ? ? ? 218 9.6 手动选择步长参数 ? ? ? ?? ? ? ? ? 219 9.7 非线函数逼近:人工神经网络? ? ? ?? ? ? 220 9.8 小二乘时序差分 ? ? ? ?? ? ? ? 225 9.9 基于记忆的函数逼近? ? ? ? ?? ? 227 9.10 基于核函数的函数逼近 ? ? ? ?? ? 229 9.11 深入了解同轨策略学:“兴趣”与“强调” ? ? ?? ? ? 230 9.12 本章小结 ? ? ?? ? ? ? 232 0章 基于函数逼近的同轨策略控制? ?? ? ? ? ? ? 239 10.1 分幕式半梯度控制 ? ? ?? 239 10.2 半梯度 n 步 sarsa? ?? ? ? ? ? ? ? ? 242 10.3 均收益:持续任务中的新的问题设定? ? ?? ? 245 10.4 弃用折扣 ? ? ? ?? ? ? ? ? 249 10.5 差分半梯度 n 步 sarsa ? ? ? ?? 251 10.6 本章小结 ? ?? ? ? ? ? ? 252 1 章 ? 基于函数逼近的离轨策略方法? ? ? ?? 253 11.1 半梯度方法? ? ? ?? 254 11.2 离轨策略发散的例子? ? ? ?? 256 11.3 致命三要素? ? ? ?? 260 11.4 线价值函数的几何质 ? ? ? ? ? ? ? ?? ? 262 11.5 对贝尔曼误差做梯度下降 ? ? ? ? ? ? ?? ? 266 11.6 贝尔曼误差是不可学的 ? ? ? ? ? ? ? ? ? 270 11.7 梯度 td 方法 ? ? ? ?? ? ? ? ? ? 274 11.8 强调 td 方法 ? ??? 278 11.9 减小方差 ? ? ?? ? ? ? ? ? ? 279 11.10 本章小结 ? ? ? ? ?? ? ? ? ? ? 280 2章 资格迹 ? ? ? ? ?? ? ? ? 283 12.1 λ-回报? ? ? ? ?? ? ? ? ? 284 12.2 td(λ)? ? ? ?? ? 287 12.3 n-步截断 λ- 回报方法 ? ? ?291 12.4 重做更新:在线 λ-回报算法? ? ? ? ?? ? 292 12.5 真实的在线 td(λ) ? ? ? ? ?? ? 294 12.6 ? 蒙特卡洛学中的荷兰迹? ? ? ? ?? ? 296 12.7 sarsa(λ)?? ? ? ? ?? ?? 298 12.8 变量 λ 和 γ ? ? ? ? ?? ? 303 12.9 带有控制变量的离轨策略资格迹 ? ?? ? ? ? ? ? 304 12.10 从 watkins 的 q(λ) 到树回溯 tb(λ)? ? ? ? ?? ? ? 308 12.11 采用资格迹保障离轨策略方法的稳定 ? ? ?? ? 310 12.12 实现中的问题 ? ? ? ?? ? ? ? ? ? ? ? ? ? ? 312 12.13 本章小结 ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? 312 3章 策略梯度方法? ? ?? ? 317 13.1 策略近似及其优势 ? ? ? ? ??? ? 318 13.2 策略梯度定理 ?? ?? 320 13.3 reinforce:蒙特卡洛策略梯度 ? ? ? ?? ? ? 322 13.4 带有基线的 reinforce ? ? ?? ? ? ? 325 13.5 “行动器-评判器”方法 ? ? ? ? ?? ? ? 327 13.6 持续问题的策略梯度 ? ? ? ??? ? ? 329 13.7 针对连续动作的策略参数化方法 ? ? ??? ? 332 13.8 本章小结 ? ? ? ? ?? ?? ? ? 333 第iii部分 表格型深入研究 ? ? ? ?? ?? ? 337 4章 心理学 ? ?? ? ? ? ? ? ? ? 339 14.1 预测与控制 ? ?? ? ? ? ? ? ? ? ? ? ? 340 14.2 经典条件反 ? ? ? ?? ? ? ? ? ? 341 14.2.1 阻塞与条件反? ? ? ? ?? ? ? 342 14.2.2 rescorla-wagner 模型? ? ? ? ?? ? 344 14.2.3 td 模型 ? ? ?? ? 347 14.2.4 td 模型模拟 ? ? ? ?? ? ? ? ? ? 348 14.3 工具条件反? ?? ? ? ? ? 355 14.4 延迟强化 ?? ? ? 359 14.5 认知图 ? ? ? ?? ? 361 14.6 惯行为与目标导向行为 ? ? ?? ? ? ? ?362 14.7 本章小结 ? ? ?? ? ? ? 366 5章 神经科学 ? ? ?? ? ? 373 15.1 神经科学基础 ? ? ? ?? ? ? ? 374 15.2 收益信号、强化信号、价值和预测误差 ? ?? ? ? 375 15.3 收益预测误差说 ? ? ? ? ? ?? ? ? 377 15.4 多巴胺 ? ? ?? ? ? ? 379 15.5 收益预测误差说的实验支持? ? ? ?? ? ? 382 15.6 td 误差/多巴胺对应 ? ?? ? ? ? ? ? 385 15.7 神经“行动器-评判器” ? ?? ? ? ? ? ? 390 15.8 行动器与评判器学规则 ? ? ? ?? ? ? 393 15.9 享乐主义神经元? ? ? ? ? ? ?? ? ? 397 15.10 集体强化学 ? ? ?? ? ? ? ? 399 15.11 大脑中的基于模型的算法 ? ?? ? ? 402 15.12 成瘾? ?? ? ? ? ? ? ? 403 15.13 本章小结 ?? ? ? ? ? 404 6 章 应用及案例分析 ? ?? ? ? ? 413 16.1 td-gammon ? ? ? ?? ? 413 16.2 samuel 的跳棋程序 ? ? ? ? ? ? ?? 418 16.3 watson 的每双倍投注 ? ? ? ? ? ?? ? ? ? ? 421 16.4 优化内存控制 ? ? ? ?? ? ? ? ? 424 16.5 人类级别的游戏 ? ? ? ? ? ? ?? ? ? ? 428 16.6 主宰围棋游戏 ? ? ? ? ?? ? ? ? ? 433 16.6.1 alphago ? ? ? ?? ? ? ? ? 436 16.6.2 alphago zero ? ? ? ?? ? ? ? ?439 16.7 个化网络服务? ? ?? ? 442 16.8 热气流滑翔 ? ?? ? ? ? ? 446 7章 前沿技术 ? ? ? ? ?? ? ? ? ? ? ? ? ? ? 451 17.1 广义价值函数和辅助任务 ? ? ?? ? 451 17.2 基于选项理论的时序摘要 ? ? ? ? ? ? ? ? ? ?? ? ? 453 17.3 观测量和 ? ? ? ? ?? ? ? ? 456 17.4 设计收益信号 ? ?? ? ? ? ? ? ? ? ? 460 17.5 遗留问题 ? ?? ? ? 464 17.6 人工智能的未来? ? ? ? ? ? ?? 467 参文献 ? ?? ? ? ?? 473



内容简介:

强化学(第2版)作为强化学思想的深度解剖之作,被业内公认为是一本强化学基础理论的经典著作。它从强化学的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学的基本概念和方法,并以大量的实例帮助读者理解强化学的问题建模过程以及核心的算法细节。
强化学(第2版)适合所有对强化学感兴趣的读者阅读、收藏。

作者简介:

richard utton(理查德?萨顿) 埃德蒙顿 deepmind 公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入deepmind。之前,曾在美国电话电报公司(at&t)和通用电话电子公司(gte)实验室工作,在马萨诸塞大学做学术研究。 1978年获得斯坦福大学心理学学士,1984年获得马萨诸塞大学计算机科学博士,加拿大皇家学会院士和人工智能促进会的会士。 主要研究兴趣是在决策者与环境相互作用时所面临的学问题,他认为这是智能的核心问题。其他研究兴趣有:动物学心理学、联结主义网络,以及能够不断学和改进环境表征和环境模型的系统。 他的科学出版物被引用超过7万次。 他也是一名自由主义者,国际象棋选手和癌症幸存者。 andrew barto (安德鲁?巴图) 马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士,并于1975年获该校计算机科学专业的博士。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前,他带领了马萨诸塞大学的自主学实验室,该实验室培养了许多的机器学研究者。 目前担任neural putation (神经计算)期刊的副主编,journal of machine learning reearch (机器学研究)期刊的顾问委员会成员,以及adaptive behavior (自适应行为)期刊的编委员会成员。 他是美国科学促进会的会员,ieee(国际电子电气工程师协会)的终身会士(life fellow),也是神经科学学会的成员。 2004年,因强化学领域的贡献荣获ieee神经网络学会先锋奖,并因在强化学理论和应用方面的开创、富有影响力的研究获得 ijcai17研究奖;2019年获得马萨诸塞大学神经科学终身成奖。 他在各类期刊、会议和研讨会上发表了100多篇,参与撰写多部图书的相关章

精彩内容:

本书版出版的20年以来,在机器学(包括强化学) 前沿技术发展的推动下,人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力,也受益于许多理论和算法上的创新。面对这些进展,我们早有对1998年版书进行更新再版的打算,但直到2012年才开始真正着手编纂。第2版的目标与版一致:为强化学的核心概念与算法提供清晰简明的解释,以供所有相关学科的读者学。这一版仍然是一本概要介绍的读物,仍然关注核心的在线学算法,同时增加了一些来趋重要的话题,并拓展了部分内容,给出了更新的理解。强化学领域可以延伸出很多不同的方向,但我们并不想包罗万象,在此为可能出现的些许遗漏表示歉意。 第2版记号变化 和版一样,我们没有以严谨的形式化的方式来定义强化学,也没有采用特别抽象的术语表达,但是为了大家能更深入地理解,有些话题仍然需要用数学来解释。无数学需求的读者可以选择跳过灰框中的数学部分。在过程中,我们发现一些新的记号可以消除一些共同的疑惑点,因此本书的部分记号和上一版相比略有差异。首先我们对变量进行了区分,以大写字母表示变量本身,小写字母表示对应的实例。比如时刻t的、动作和收益被表示为t、at和rt,而它们可能的取值被表示为、a和r。与之相伴随,我们用小写字母的形式(例如vπ)来表示价值函数,用大写字母表示其表格型的估计值,比如qt(a)。近似价值函数是具有参数的确定函数,因此用小写字母表示,比如v?(wt)≈vπ()。向量用粗体的小写字母表示(包括变量),比如权值向量wt(先前用θt表示)、特征向量xt(先前用?t表示)。大写粗体用以表示矩阵。在版中我们使用了特殊记号paa′来表示转移概率和期望收益。但这种记号并不能完整地表示出收益的动态,只表示了期望值,因此只适用于动态规划而不适用于强化学。另一个缺点是上下标的过度使用。因此,在这一版中我们明确采用p(′r|a)的记 号来表示给定当前和动作a后,下一时刻的′和收r的联合概率分布。所有的记号变化都收录在稍后的“符号列表”中。 第2版内容结构 第2版在原先的基础上进行了许多拓展,整体结构也有所变化。章是导论的介绍,其后分为三个部分。第i部分(第2~8 章)会尽可能多地用表格型的案例讲解强化学,主要包括针对表格型案例的学和规划算法,以及它们在n步法和dyna中的统一表达。这部分介绍的许多算法是第2版的新增内容,包括ucb、期望ara、双重学、树回溯、q(σ)、rtdp和mct。从介绍表格型案例开始,可以在简单的情况下理解算法的核心思想。本书的第ii部分(第9~13章)致力于将这些思想从表格型的情况扩展到函数逼近,包含人工神经网络、傅立叶变换基础、ltd、核方法、梯度td和强调td方法、均收益方法、真实的在线td(λ)和策略梯度方法等新内容。第2版大幅拓展了对离轨策略的介绍,首先是第5~7章讲解表格型的案例,之后在1章和2章讲解函数逼近法。另一个变化是,这一版将n步自举法(在第7章中详细阐述)中的前向视图思想与资格迹(在2章中单独阐述)中的后向视图思想分开详细讲解。本书的第iii部分加入了大量阐述强化学与心理学(4章)、神经科学(5章)联系的新章节,更新了针对多种案例,包括atari游戏、waton的投注策略和围棋人工智能alphago、alphago zero (6章)的研究章节。尽管如此,本书涵盖的内容仍然只是该领域的一小部分,只反映了我们长期以来对低成本无模型方法的兴趣,这些方法可以很好地适应大规模的应用。后一章包括了对强化学未来的社会影响的讨论。无论好坏,第2版的篇幅达到了版的两倍。 本书旨在作为一到两学期强化学课程的初级教材。一个学期的课程可以着重对前10章进行讨论,掌握核心思想,根据需要再将其他章节,或者其他书籍的某些章节,比如berteka和titikli(1996)、wiering和van otterlo(2012),以及zepevári(2010)或其他文献作为辅助材料。根据的背景,在线有监督学的一些额外材料可能会对学这门课有所帮助。比如“选项”的概念和模型(utton、precup和ingh,1999)是一个很好的补充。两学期的课程可以使用所有章节内容及补充材料。本书还可以作为机器 学、人工智能或神经网络等课程的一部分。这种情况只需要讲述部分内容,我们对章进行简要概述,然后学第2章到2.4节和第3章,随后根据时间和兴趣选择其余章节。第6章的内容对于本书和相关课程来说是重要的。关于机器学或神经网络的课程应该使用第9章和0章的内容,而关于人工智能或规划算法的课程应该使用第8章的内容。在整本书中,相对比较难且对于其他课程不那么重要的章节和部分已用?注明。这些部分在次阅读时可以跳过,这不会影响后续阅读。练中一些的、对理解基础概念不那么重要的问题也已经用?标识。 大多数章节后会出现题为“参文献和历史备注”的部分,在这部分中,我们针对本章中一些值得深入探究的概念和观点提供了进一步阅读和研究的材料,并描述了相关的历史背景。尽管我们试图使这些部分内容具有和完整,但也不会忽略一些重要的前期工作。为此,我们再次表示歉意,也欢迎读者提出更正和扩展。

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP