• 强化学习
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

强化学习

41.15 5.9折 69.8 全新

库存5件

山东泰安
认证卖家担保交易快速发货售后保障

作者余欣航

出版社电子工业出版社

出版时间2024-04

版次1

装帧其他

货号604 10-18

上书时间2024-10-19

邹鲁文化书店

十一年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
图书标准信息
  • 作者 余欣航
  • 出版社 电子工业出版社
  • 出版时间 2024-04
  • 版次 1
  • ISBN 9787121476617
  • 定价 69.80元
  • 装帧 其他
  • 开本 16开
  • 页数 280页
  • 字数 448千字
【内容简介】


本书详细介绍了强化学的理论推导、算法细节。全书共12章,包括强化学概述、马尔可夫决策过程、退化的强化学问题、环境已知的强化学问题、基于价值的强化学算法、基于策略的强化学算法、ac型算法、基于模型的强化学算法等相关知识。本书系统强、概念清晰,内容简明通俗。除了侧重于理论推导,本书还提供了许多便于读者理解的例子,以及大量被实践证明有效的算法,旨在帮助读者进一步了解强化学领域的相关知识,提升其现实中的工程能力。本书可作为高等院校数学、计算机、人工智能等相关专业的强化学教材,但需要有机器学、深度学等前置课程作为基础。
【目录】


章  绪论1
1.1  强化学是什么1
1.2  强化学的基本思想3
1.2.1  从环境中产生数据3
1.2.2  求解很优策略5
1.3  强化学为什么重要6
1.4  本书内容介绍9
参文献10
第2章  马尔可夫决策过程11
2.1  马尔可夫过程11
2.2  马尔可夫决策过程的定义12
2.3  马尔可夫过程与马尔可夫决策过程的对比15
2.4  马尔可夫决策过程的分类15
2.4.1  马尔可夫决策过程是否发生退化16
2.4.2  环境是否已知17
2.4.3  环境的确定与18
2.4.4  马尔可夫决策过程的时齐20
2.4.5  与动作的连续22
*2.4.6  时间的连续23
2.4.7  小结24
2.5  马尔可夫决策过程的奖励函数25
思题26
参文献27
第3章  退化的强化学问题28
3.1  盲盒售货机问题28
3.2  探索-利用困境31
3.3  各种不同的探索策略33
3.3.1  -贪心策略33
3.3.2  玻尔兹曼探索策略35
3.3.3  上置信界策略36
3.4  结36
思题37
参文献37
第4章  很优控制38
4.1  基于价值的思想38
4.1.1  三连棋游戏策略38
4.1.2  价值的定义42
4.1.3  基于价值和基于策略45
4.1.4  小结46
思题47
4.2  动态规划47
4.2.1  策略迭代法47
4.2.2  雅可比迭代法48
4.2.3  值迭代法50
4.2.4  软提升51
4.2.5  小结53
思题54
4.3  lqr控制55
4.3.1  基本lqr控制问题55
4.3.2  lqr控制器56
*4.3.3  环境的lqr控制问题59
4.3.4  ilqr控制器61
4.3.5  实时规划63
4.3.6  小结64
思题65
4.4  结65
参文献66
第5章  基于价值的强化学68
5.1  q-learning68
5.1.1  q表格69
5.1.2  产生数据集的方式:探索与利用69
5.1.3  探索策略71
5.1.4  使用训练数据的方法:经验回放73
思题74
5.2  sarsa74
5.2.1  基本sarsa算法74
5.2.2  同策略与异策略76
5.2.3  n步sarsa77
5.2.4  -return算法78
*5.2.5  n步q-learning79
思题80
5.3  dqn及其变体81
5.3.1  固定q目标结构81
5.3.2  双重dqn84
5.3.3  优先回放机制86
5.3.4  优势函数88
5.3.5  dueling dqn90
*5.3.6  rainbow92
思题94
*5.4  naf94
*5.4.1  标准化优势函数94
*5.4.2  naf的训练96
5.5  结:基于价值的强化学算法97
参文献98
第6章  策略函数与策略梯度100
6.1  策略函数与期望回报100
6.2  无梯度方法101
6.2.1  增强搜索102
6.2.2  交熵算法104
6.2.3  进化算法104
6.3  策略梯度106
6.3.1  策略网络的构造106
6.3.2  策略梯度的计算108
6.3.3  基本策略梯度算法111
*6.3.4  动作连续的策略梯度113
6.4  策略梯度的训练114
6.4.1  基准法114
6.4.2  经验回放116
6.4.3  探索策略118
6.5  结119
思题120
参文献121
第7章  ac算法122
7.1  基本ac算法122
7.1.1  ac算法的出发点122
7.1.2  化简策略梯度公式123
7.1.3  ac算法的基本思想126
7.1.4  单步更新与回合更新128
思题129
7.2  ac算法的训练129
7.2.1  广义优势函数估计129
7.2.2  控制训练两个网络的步调131
7.2.3  acer133
思题134
7.3  a3c与a2c135
7.3.1  并行训练135
7.3.2  a3c137
7.3.3  a2c140
思题141
参文献141
第8章  ac型算法143
8.1  自然梯度法143
8.1.1  牛顿法144
8.1.2  信赖域方法146
8.1.3  近似点法146
*8.1.4  自然策略梯度147
8.2  trpo与ppo算法149
8.2.1  策略提升149
8.2.2  trpo算法151
8.2.3  ppo算法152
8.2.4  trpo与ppo算法的训练155
8.2.5  小结156
思题157
8.3  ddpg157
8.3.1  动作连续问题的网络结构158
8.3.2  从基于价值的角度理解ddpg算法158
8.3.3  ddpg算法及训练159
8.3.4  确定策略下的策略梯度162
8.3.5  从基于策略的角度理解ddpg算法163
思题165
*8.4  soft ac165
8.5  结:基于策略的算法168
8.5.1  基于价值和基于策略169
8.5.2  偏差-方差取舍170
8.5.3  策略的空间172
8.5.4  训练数据的产生与使用172
8.5.5  小结173
参文献174
第9章  基于模型的基本思想175
9.1  mbrl概述175
9.2  模型是什么177
9.2.1  各种模型及其基本用法178
9.2.2  更多的模型变体179
9.2.3  模型的一些特点180
*9.2.4  对模型的理解185
思题188
9.3  如何使用黑盒模型189
9.3.1  用黑盒模型增广数据189
9.3.2  权衡数据成本与准确191
9.3.3  黑盒模型的其他用途193
9.3.4  小结194
思题194
9.4  如何使用白盒模型195
9.4.1  用白盒模型辅助进行策略优化195
9.4.2  用白盒模型解很优控制197
9.4.3  小结199
思题199
参文献200
0章  基于模型的强化学202
10.1  如何学模型202
10.1.1  让学更符合终目标202
10.1.2  让学本身成为目标203
10.1.3  以学作为专享目标206
10.1.4  小结209
思题209
10.2  世界模型210
10.2.1  观察210
10.2.2  pomdp212
10.2.3  为世界建模214
10.2.4  dreamer218
思题220
10.3  实时规划221
10.3.1  实时规划的基本思想221
10.3.2  蒙特卡洛树搜索224
10.3.3  模型预测控制230
思题233
10.4  mbrl算法思想结233
参文献235
*1章  连续时间的很优控制238
11.1  时间连续的很优控制问题238
11.2  h-j-b方程239
11.2.1  连续时间的贝尔曼方程239
*11.2.2  用h-j-b方程求解lqr控制问题242
11.2.3  结:关于价值的方程245
思题247
*11.3  变分247
11.3.1  从有穷维空间到无穷维空间247
11.3.2  变分问题250
*11.3.3  欧拉-拉格朗方程252
*11.3.4  用变分法求解很优控制问题255
11.3.5  结:策略的很优化257
思题258
参文献258
*2章  其他强化学相关内容259
12.1  奖励函数的改造与混合259
12.2  逆向强化学261
12.3  层次强化学262
12.4  离线强化学264
参文献266

点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP