正版新书 新华官方库房直发 可开电子发票
¥ 107.52 6.4折 ¥ 168 全新
库存15件
作者【加】RichardS.Sutton(理查德?桑顿)【美】AndrewG.Barto(安德鲁?巴图)
出版社电子工业出版社
ISBN9787121295164
出版时间2018-03
版次1
装帧平装
开本16开
纸张胶版纸
页数519页
定价168元
货号SC:9787121295164
上书时间2024-12-02
Richard Sutton(理查德?萨顿) 埃德蒙顿 DeepMind 公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入DeepMind。之前,曾在美国电话电报公司(AT&T)和通用电话电子公司(GTE)实验室工作,在马萨诸塞大学做学术研究。 1978年获得斯坦福大学心理学学士学位,1984年获得马萨诸塞大学计算机科学博士学位,加拿大皇家学会院士和人工智能促进会的会士。 主要研究兴趣是在决策者与环境相互作用时所面临的学习问题,他认为这是智能的核心问题。其他研究兴趣有:动物学习心理学、联结主义网络,以及能够不断学习和改进环境表征和环境模型的系统。 他的科学出版物被引用超过7万次。 他也是一名自由主义者,国际象棋选手和癌症幸存者。 Andrew Barto (安德鲁?巴图) 马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位,并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前,他带领了马萨诸塞大学的自主学习实验室,该实验室培养了许多的机器学习研究者。 目前担任Neural Computation (《神经计算》)期刊的副主编,Journal of Machine Learning Research (《机器学习研究》)期刊的顾问委员会成员,以及Adaptive Behavior (《自适应行为》)期刊的编委员会成员。 他是美国科学促进会的会员,IEEE(国际电子电气工程师协会)的终身会士(Life Fellow),也是神经科学学会的成员。 2004年,因强化学习领域的贡献荣获IEEE神经网络学会先锋奖,并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17研究奖;2019年获得马萨诸塞大学神经科学终身成就奖。 他在各类期刊、会议和研讨会上发表了100多篇论文,参与撰写多部图书的相关章
《强化学习(第2版)》被业界公认为任何对人工智能领域感兴趣的人员的书。 《强化学习(第2版)》是被称为“强化学习教父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来,一直是强化学习领域的经典导论性教材,培育了好几代强化学习领域的研究人员。 在第2版中,随着强化学习的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益大化……涵盖了当今关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。
We are most pleased that Professor Kai Yu has produced this Chinese translation of our textbook, which we hope will enable more Chinese students to self-study reinforcement learning and lead to the development of new ideas within China that contribute to the diversity and vigour of worldwide reinforcement learning research. ——Richard Sutton and Andrew Barto 我们非常高兴俞凯教授将我们的教材翻译成中文,希望这本教材能够帮助更多的中国学生自学强化学习,并且促进更多的新思想在中国产生,为世界范围的强化学习研究的多样性和生机活力做出贡献。 ——理查德?萨顿 安德鲁?巴图 一代又一代的强化学习研究人员都是在萨顿和巴图的第1版书的启发下成长起来的。新老读者都将从第2版中受益:这一新版本大大扩展了覆盖的主题范围(新主题包括人工神经网络、蒙特卡洛树搜索、平均收益大化以及关于强化学习的经典应用和新应用的章节),不仅增加了内容的广度,同时作者也在尝试用更加简洁的符号理清这些繁杂主题的各个方面,从而增加讲解的深度。此外,新版本保留了解释的简洁性和直观性,使各种背景的读者都能使用本书。总之,这是一本很棒的书,我衷心推荐给那些对使用、开发或理解强化学习感兴趣的人。 ——乔鲍?塞派什瓦里(Csaba Szepesvari) DeepMind研究科学家,阿尔伯塔大学计算机科学教授 本书仍然是关于强化学习的开创性教材——强化
...
精彩内容:
本书第1版出版的20年以来,在机器学习(包括强化学习) 前沿技术发展的推动下,人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力,也受益于许多理论和算法上的创新。面对这些进展,我们早有对1998年第1版书进行更新再版的打算,但直到2012年才开始真正着手编纂。第2版的目标与第1版一致:为强化学习的核心概念与算法提供清晰简明的解释,以供所有相关学科的读者学习。这一版仍然是一本概要介绍性的读物,仍然关注核心的在线学习算法,同时增加了一些近年来日趋重要的话题,并拓展了部分内容,给出了更新的理解。强化学习领域可以延伸出很多不同的方向,但我们并不想包罗万象,在此为可能出现的些许遗漏表示歉意。 第2版记号变化 和第1版一样,我们没有以严谨的形式化的方式来定义强化学习,也没有采用特别抽象的术语表达,但是为了大家能更深入地理解,有些话题仍然需要用数学来解释。无数学需求的读者可以选择跳过灰色框中的数学原理部分。在教学过程中,我们发现一些新的记号可以消除一些共同的疑惑点,因此本书的部分记号和上一版相比略有差异。首先我们对随机变量进行了区分,以大写字母表示变量本身,小写字母表示对应的实例。比如时刻t的状态、动作和收益被表示为St、At和Rt,而它们可能的取值被表示为s、a和r。与之相伴随,我们用小写字母的形式(例如vπ)来表示价值函数,用大写字母表示其表格型的估计值,比如Qt(s,a)。近似价值函数是具有随机参数的确定性函数,因此用小写字母表示,比如v?(s,wt)≈vπ(s)。向量用粗体的小写字母表示(包括随机变量),比如权值向量wt(先前用θt表示)、特征向量xt(先前用?t表示)。大写粗体用以表示矩阵。在第1版中我们使用了特殊记号Paass′来表示转移概率和期望收益。但这种记号并不能完整地表示出收益的动态性,只表示了期望值,因此只适用于动态规划而不适用
...
内容简介:
《强化学习(第2版)》作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。
《强化学习(第2版)》适合所有对强化学习感兴趣的读者阅读、收藏。
目录:
目录 第1章 导论?? ? ? ? 1 1.1 强化学习?? ? ? ? 1 1.2 示例?? ? ? ? 4 1.3 强化学习要素?? ? ? ? 5 1.4 局限性与适用范围?? ? ? ? 7 1.5 扩展实例:井字棋 ? ??? ? ? ?? 8 1.6 本章小结?? ? ? ? 12 1.7 强化学习的早期历史?? ? ? ? 13 第I部分 表格型求解方法?? ? ? ? 23 第2章 多臂赌博机?? ? ? ? 25 2.1 一个 k 臂赌博机问题?? ? ? ? 25 2.2 动作-价值方法?? ? ? ? ? 27 2.3 10 臂测试平台?? ? ? ? 28 2.4 增量式实现?? ? ? ? 30 2.5 跟踪一个非平稳问题??? ? ? ? 32 2.6 乐观初始值?? ? ? ? 34 2.7 基于置信度上界的动作选择 ??? ? ? ? 35 2.8 梯度赌博机算法?? ? ? ? 37 2.9 关联搜索 (上下文相关的赌博机) ?? ? ? ? ? 40 2.10 本章小结?? ? ? ? 41 第3章 有限马尔可夫决策过程?? 45 3.1 “智能体-环境”交互接口 ?? ? ? ? 45 3.2 目标和收益 ?? ? ? ? ? ? ? ? ? ? 51 3.3 回报和分幕? ? ? ? ? ? 52 3.4 分幕式和持续性任务的统一表示法 ?? ?? 54 3.5 策略和价值函数 ?? ? ? ? ? 55 3.6 优策略和优价值函数 ? ?? ? 60 3.7 优性和近似算法 ? ? ? ? ?? ? ? ? ? ? ? ? 65 3.8 本章小结? ? ?? ? 66 第4章 动态规划 ? ?? ? 71 4.1 策略评估 (预测) ? ?? ? ? 72 4.2 策略改进? ?? ? 75 4.3 策略迭代? ?? ? 78
...
— 没有更多了 —
以下为对购买帮助不大的评价