消息首页搜索举报

【全新正版】强化学习(第2版)/智源人工智能丛书

全新正版图书，支持七天退换，可开具电子发票。

93.51 5.6折 168 全新

库存4件

上海黄浦

认证卖家担保交易快速发货售后保障

作者(加)理查德·萨顿//(美)安德鲁·巴图|译者:俞凯

出版社电子工业

ISBN9787121295164

出版时间2019-09

装帧其他

开本其他

定价168元

货号30720077

上书时间2024-07-08

轩天书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

【全新正版】孙子兵法三十六计/中华经典藏书 ¥15.89

【全新正版】楚辞/中华经典藏书 ¥9.65

【全新正版】 100层的房子系列共4册 ¥81.73

【全新正版】新东方高考英语大纲词汇3500 ¥12.11

【全新正版】怎样评价学生才有效--促进学习的多元化评价策略 ¥32.49

【全新正版】名侦探柯南抓帧漫画(1-36)共36册 ¥212.17

【全新正版】梅花易数/故宫珍本丛刊精选整理本丛书 ¥16.04

【全新正版】刘慈欣少年科幻科学小说系列共7册 ¥92.35

【全新正版】百年风华：厦门市第三医院建院一百周年纪实 ¥71.32

商品详情

品相描述：全新

商品描述: 目录
目录
第1 章导论? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 1
1.1 强化学习? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 1
1.2 示例? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 4
1.3 强化学习要素? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 5
1.4 局限性与适用范围? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 7
1.5 扩展实例：井字棋? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 8
1.6 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 12
1.7 强化学习的早期历史? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 13
第I 部分表格型求解方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 23
第2 章多臂赌博机? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 25
2.1 一个k 臂赌博机问题? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 25
2.2 动作-价值方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 27
2.3 10 臂测试平台? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 28
2.4 增量式实现? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 30
2.5 跟踪一个非平稳问题? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 32
2.6 乐观初始值? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 34
2.7 基于置信度上界的动作选择? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 35
2.8 梯度赌博机算法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 37
2.9 关联搜索(上下文相关的赌博机) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 40
2.10 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 41
强化学习(第2 版)
第3 章有限马尔可夫决策过程? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 45
3.1 “智能体-环境”交互接口? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 45
3.2 目标和收益? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 51
3.3 回报和分幕? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 52
3.4 分幕式和持续性任务的统一表示法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 54
3.5 策略和价值函数? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 55
3.6 最优策略和最优价值函数? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 60
3.7 最优性和近似算法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 65
3.8 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 66
第4 章动态规划? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 71
4.1 策略评估(预测) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 72
4.2 策略改进? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 75
4.3 策略迭代? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 78
4.4 价值迭代? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 80
4.5 异步动态规划? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 83
4.6 广义策略迭代? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 84
4.7 动态规划的效率? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 85
4.8 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 86
第5 章蒙特卡洛方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 89
5.1 蒙特卡洛预测? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 90
5.2 动作价值的蒙特卡洛估计? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 94
5.3 蒙特卡洛控制? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 95
5.4 没有试探性出发假设的蒙特卡洛控制? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 98
5.5 基于重要度采样的离轨策略? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 101
5.6 增量式实现? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 107
5.7 离轨策略蒙特卡洛控制? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 108
5.8 ? 折扣敏感的重要度采样? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 110
5.9 ? 每次决策型重要度采样? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 112
5.10 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 113
第6 章时序差分学习? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 117
6.1 时序差分预测? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 117
6.2 时序差分预测方法的优势? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 122
6.3 TD(0) 的最优性? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 124
6.4 Sarsa：同轨策略下的时序差分控制? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 127
6.5 Q 学习：离轨策略下的时序差分控制? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 129
6.6 期望Sarsa ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 131
6.7 最大化偏差与双学习? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 133
6.8 游戏、后位状态和其他特殊例子? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 135
6.9 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 136
第7 章n 步自举法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 139
7.1 n 步时序差分预测? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 140
7.2 n 步Sarsa ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 144
7.3 n 步离轨策略学习? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 146
7.4 ? 带控制变量的每次决策型方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 148
7.5 不需要使用重要度采样的离轨策略学习方法：n 步树回溯算法? ? ? 150
7.6 ? 一个统一的算法：n 步Q()? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 153
7.7 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 155
第8 章基于表格型方法的规划和学习? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 157
8.1 模型和规划? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 157
8.2 Dyna：集成在一起的规划、动作和学习? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 159
8.3 当模型错误的时候? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 164
8.4 优先遍历? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 166
8.5 期望更新与采样更新的对比? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 170
8.6 轨迹采样? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 173
强化学习(第2 版)8.7 实时动态规划? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 176
8.8 决策时规划? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 179
8.9 启发式搜索? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 180
8.10 预演算法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 182
8.11 蒙特卡洛树搜索? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 184
8.12 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 187
8.13 第I 部分总结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 188
第II 部分表格型近似求解方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 193
第9 章基于函数逼近的同轨策略预测? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 195
9.1 价值函数逼近? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 195
9.2 预测目标(VE ) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 196
9.3 随机梯度和半梯度方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 198
9.4 线性方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 202
9.5 线性方法的特征构造? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 207
9.5.1 多项式基? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 208
9.5.2 傅立叶基? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 209
9.5.3 粗编码? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 212
9.5.4 瓦片编码? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 214
9.5.5 径向基函数? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 218
9.6 手动选择步长参数? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 219
9.7 非线性函数逼近：人工神经网络? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 220
9.8 最小二乘时序差分? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 225
9.9 基于记忆的函数逼近? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 227
9.10 基于核函数的函数逼近? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 229
9.11 深入了解同轨策略学习：“兴趣”与“强调” ? ? ? ? ? ? ? ? ? ? ? ? 230
9.12 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 232
iv
目录
第10 章基于函数逼近的同轨策略控制? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 239
10.1 分幕式半梯度控制? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 239
10.2 半梯度n 步Sarsa? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 242
10.3 平均收益：持续性任务中的新的问题设定? ? ? ? ? ? ? ? ? ? ? ? ? 245
10.4 弃用折 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 249
10.5 差分半梯度n 步Sarsa ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 251
10.6 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 252
第11 章基于函数逼近的离轨策略方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 253
11.1 半梯度方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 254
11.2 离轨策略发散的例子? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 256
11.3 致命三要素? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 260
11.4 线性价值函数的几何性质? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 262
11.5 对贝尔曼误差做梯度下降? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 266
11.6 贝尔曼误差是不可学习的? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 270
11.7 梯度TD 方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 274
11.8 强调TD 方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 278
11.9 减小方差? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 279
11.10 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 280
第12 章资格迹? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 283
12.1 -回报? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 284
12.2 TD()? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 287
12.3 n-步截断- 回报方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 291
12.4 重做更新：在线-回报算法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 292
12.5 真实的在线TD() ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 294
12.6 ? 蒙特卡洛学习中的荷兰迹? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 296
12.7 Sarsa()? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 298
12.8 变量和
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 303
v
强化学习(第2 版)
12.9 带有控制变量的离轨策略资格迹? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 304
12.10 从Watkins 的Q() 到树回溯TB() ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 308
12.11 采用资格迹保障离轨策略方法的稳定性? ? ? ? ? ? ? ? ? ? ? ? ? ? 310
12.12 实现中的问题? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 312
12.13 本章小结? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 312
第13 章策略梯度方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 317
13.1 策略近似及其优势? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 318
13.2 策略梯度定理? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 320
13.3 REINFORCE：蒙特卡洛策略梯度? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 322
13.4 带有基线的REINFORCE ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 325