消息首页搜索举报

强化学习（第2版）

全新正版现货

117.6 7.0折 168 全新

库存2件

四川成都

认证卖家担保交易快速发货售后保障

作者（加）Richard S. Sutton（理查德·桑顿），（美）Andrew G. Barto（安德鲁·巴图）

出版社电子工业出版社

ISBN9787121295164

出版时间2019-09

装帧平装

开本16开

纸张胶版纸

定价168元

货号27926613

上书时间2024-07-25

龙香书城

八年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

遇见中国服饰艺术 ¥47.60

《中国民艺馆?背心围涎》本丛书由著名民艺学专家潘鲁生教授主持编写。丛书旨在“传承和弘扬中华优秀传统文化，创造性转化，创新性发展，构建中华优秀传统文化传承体系 ¥393.40

中华大典·艺术典·服饰艺术分典(全二册） ¥392.00

然艺的重工绕线shou饰基础教程 ¥89.60

鉴画积微录续编 ¥17.10

中国玉器设计与工艺图解:跟着海派玉雕大师学技艺 ¥110.60

蓝雅白韵:中国蓝印花布纹样研究 ¥299.60

髹行成器：沈福文现代漆艺思想研究 ¥68.60

白瓷工艺文化 ¥110.60

商品详情

品相描述：全新: 正版全新

商品描述

【编辑推荐】:

《强化学习（第2版）》被业界公认为任何对人工智能领域感兴趣的人员的书。
《强化学习（第2版）》是被称为“强化学习教父”的Richard Sutton在强化学习领域的开创性、奠基性著作。自1998年第1版出版以来，一直是强化学习领域的经典导论性教材，培育了好几代强化学习领域的研究人员。
在第2版中，随着强化学习近来的蓬勃发展，作者补充了很多新的内容：人工神经网络、蒙特卡洛树搜索、平均收益*化……涵盖了当今*关键的核心算法和理论。不仅如此，作者还以真实世界的应用为例阐述了这些内容。

【内容简介】:

《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

【作者简介】:

Sutton目前是阿尔伯塔大学计算机科学教授和人工智能研究员，Deepmind的杰出科学家，领导Deepmind在加拿大的人工智能实验室。专注于强化学习领域理论与实务研究，被称为“强化学习之父”。＜BR＞俞凯，思必驰联合创始人、shou席科学家、上海交通大学计算机系研究员，译有《解析深度学习：语音识别实践》一书。

【目录】:

目录
第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 扩展实例：井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂赌博机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一个k 臂赌博机问题· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度赌博机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 关联搜索(上下文相关的赌博机) · · · · · · · · · · · · · · · · · · 40
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
强化学习(第2 版)
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 *策略和*价值函数· · · · · · · · · · · · · · · · · · · · · · 60
3.7 *性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · ·

— 没有更多了 —