消息首页搜索举报

基于函数逼近的强化学习与动态规划

30 2.3折 129 全新

仅1件

江苏南京

认证卖家担保交易快速发货售后保障

作者[罗]卢西恩·布索尼（Lucian Busoniu）

出版社人民邮电出版社

出版时间2019-04

版次1

装帧平装

货号78AAF一3

上书时间2024-10-12

希文书店

八年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 13小时
好评率暂无

店主推荐
最新上架

信号与系统MATLAB实践 ¥4.10

中国近现代史纲要、2023年版 ¥5.10

思想道德与法治2023年版 ¥1.50

毛泽东思想和中国特色社会主义理论体系统概论(2023年版) ¥5.10

马克思主义基本原理（2023年版） ¥8.80

机械制造工艺学课程设计指导书（第3版） ¥5.11

数据结构（C语言版） ¥5.00

计算机组成原理（第2版） ¥6.10

通信电子线路（第3版） ¥5.10

Python数据分析活用Pandas库 ¥20.00

数字逻辑与计算机组成 ¥18.00

深度强化学习：基于Python的理论及实践（英文版） ¥30.00

国际象棋入门教程（全彩图解版） ¥6.00

MATLAB控制系统设计仿真应用 ¥6.00

强化学习与最优控制 ¥45.00

数字逻辑基础（第3版）/普通高等教育“十一五”国家级规划教材·电子学基础系列 ¥18.00

随机过程（第3版） ¥5.00

信号与线性系统分析全程导学及习题全解（第4版） ¥4.00

商品详情

品相描述：全新

图书标准信息

作者 [罗]卢西恩·布索尼（Lucian Busoniu）
出版社人民邮电出版社
出版时间 2019-04
版次 1
ISBN 9787115508300
定价 129.00元
装帧平装
开本其他
页数 249页
字数 308千字

【内容简介】: 本书讨论大规模连续空间的强化学习理论及方法，重点介绍使用函数逼近的强化学习和动态规划方法。该研究已成为近年来计算机科学与技术领域中很活跃的研究分支之一。
全书共分6章。章为概述；第2章为动态规划与强化学习介绍；第3章为大规模连续空间中的动态规划与强化学习；第4章为基于模糊表示的近似值迭代；第5章为用于在线学习和连续动作控制的近似策略迭代；第6章为基于交叉熵基函数优化的近似策略搜索。
本书可以作为理工科高等院校计算机专业和自动控制专业研究生的教材，也可以作为相关领域科技工作者和工程技术人员的参考书。
【作者简介】
【目录】: 章概述1
1.1动态规划与强化学习问题2
1.2动态规划与强化学习中的逼近5
1.3关于本书7
第2章动态规划与强化学习介绍9
2.1引言9
2.2马尔可夫决策过程12
2.2.1确定性情况12
2.2.2随机性情况16
2.3值迭代20
2.3.1基于模型的值迭代20
2.3.2模型无关的值迭代与探索的必要性25
2.4策略迭代27
2.4.1基于模型的策略迭代28
2.4.2模型无关的策略迭代33
2.5策略搜索35
2.6总结与讨论38
第3章大规模连续空间中的动态规划与强化学习40
3.1介绍40
3.2大规模连续空间中近似的必要性43
3.3近似框架45
3.3.1带参近似45
3.3.2无参近似48
3.3.3带参与无参逼近器的比较49
3.3.4附注50
3.4近似值迭代51
3.4.1基于模型的带参近似值迭代算法51
3.4.2模型无关的带参近似值迭代算法54
3.4.3无参近似值迭代算法58
3.4.4非扩张近似的作用及收敛性59
3.4.5实例：用于直流电机的近似Q值迭代62
3.5近似策略迭代67
3.5.1用于近似策略评估的类值迭代算法68
3.5.2基于线性带参近似的模型无关策略评估70
3.5.3基于无参近似的策略评估80
3.5.4带回滚的基于模型的近似策略评估80
3.5.5策略改进与近似策略迭代81
3.5.6理论保障84
3.5.7实例：用于直流电机的最小二乘策略迭代86
3.6自动获取值函数逼近器90
3.6.1基函数最优化方法91
3.6.2基函数构造93
3.6.3附注95
3.7近似策略搜索95
3.7.1策略梯度与行动者-评论家算法96
3.7.2梯度无关的策略搜索101
3.7.3实例：用于直流电机问题的梯度无关策略搜索103
3.8近似值迭代、近似策略迭代及近似策略搜索算法的比较106
3.9总结与讨论108
第4章基于模糊表示的近似值迭代110
4.1引言110
4.2模糊Q值迭代112
4.2.1模糊Q值迭代的近似和投影映射112
4.2.2同步和异步模糊Q值迭代116
4.3模糊Q值迭代的分析119
4.3.1收敛性119
4.3.2一致性126
4.3.3计算复杂度131
4.4优化隶属度函数132
4.4.1隶属度函数优化的一般方法132
4.4.2交叉熵优化133
4.4.3基于交叉熵隶属度函数优化的模糊Q值迭代135
4.5实验研究137
4.5.1直流电机：收敛性和一致性研究137
4.5.2双连杆机械臂：动作插值的效果以及与拟合Q值迭代的比较142
4.5.3倒立摆：实时控制146
4.5.4过山车：隶属度函数优化的效果149
4.6总结与讨论152
第5章用于在线学习和连续动作控制的近似策略迭代154
5.1引言154
5.2最小二乘策略迭代的概述155
5.3在线最小二乘策略迭代157
5.4使用先验知识的在线LSPI161
5.4.1使用策略近似的在线LSPI161
5.4.2具有单调策略的在线LSPI162
5.5采用连续动作、多项式近似的LSPI165
5.6实验研究167
5.6.1用于倒立摆的在线LSPI167
5.6.2用于双连杆机械臂的在线LSPI178
5.6.3使用直流电机先验知识的在线LSPI181
5.6.4在倒立摆中使用带有连续动作逼近器的LSPI183
5.7总结与讨论187
第6章基于交叉熵基函数优化的近似策略搜索189
6.1介绍189
6.2交叉熵优化方法190
6.3交叉熵策略搜索192
6.3.1一般方法192
6.3.2基于径向基函数的交叉熵策略搜索197
6.4实验研究199
6.4.1离散时间二重积分199
6.4.2自行车平衡206
6.4.3HIV传染病控制的计划性间断治疗212
6.5总结与讨论215
附录A极端随机树217
附录B交叉熵方法221
缩略语227
参考文献232

点击展开点击收起

— 没有更多了 —