• 基于函数逼近的强化学习与动态规划
  • 基于函数逼近的强化学习与动态规划
21年品牌 40万+商家 超1.5亿件商品

基于函数逼近的强化学习与动态规划

30 2.3折 129 全新

仅1件

江苏南京
认证卖家担保交易快速发货售后保障

作者[罗]卢西恩·布索尼(Lucian Busoniu)

出版社人民邮电出版社

出版时间2019-04

版次1

装帧平装

货号78AAF一3

上书时间2024-10-12

希文书店

八年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
图书标准信息
  • 作者 [罗]卢西恩·布索尼(Lucian Busoniu)
  • 出版社 人民邮电出版社
  • 出版时间 2019-04
  • 版次 1
  • ISBN 9787115508300
  • 定价 129.00元
  • 装帧 平装
  • 开本 其他
  • 页数 249页
  • 字数 308千字
【内容简介】
本书讨论大规模连续空间的强化学习理论及方法,重点介绍使用函数逼近的强化学习和动态规划方法。该研究已成为近年来计算机科学与技术领域中很活跃的研究分支之一。
全书共分6章。章为概述;第2章为动态规划与强化学习介绍;第3章为大规模连续空间中的动态规划与强化学习;第4章为基于模糊表示的近似值迭代;第5章为用于在线学习和连续动作控制的近似策略迭代;第6章为基于交叉熵基函数优化的近似策略搜索。
本书可以作为理工科高等院校计算机专业和自动控制专业研究生的教材,也可以作为相关领域科技工作者和工程技术人员的参考书。
【作者简介】
 
【目录】
章概述1
1.1动态规划与强化学习问题2
1.2动态规划与强化学习中的逼近5
1.3关于本书7
第2章动态规划与强化学习介绍9
2.1引言9
2.2马尔可夫决策过程12
2.2.1确定性情况12
2.2.2随机性情况16
2.3值迭代20
2.3.1基于模型的值迭代20
2.3.2模型无关的值迭代与探索的必要性25
2.4策略迭代27
2.4.1基于模型的策略迭代28
2.4.2模型无关的策略迭代33
2.5策略搜索35
2.6总结与讨论38
第3章大规模连续空间中的动态规划与强化学习40
3.1介绍40
3.2大规模连续空间中近似的必要性43
3.3近似框架45
3.3.1带参近似45
3.3.2无参近似48
3.3.3带参与无参逼近器的比较49
3.3.4附注50
3.4近似值迭代51
3.4.1基于模型的带参近似值迭代算法51
3.4.2模型无关的带参近似值迭代算法54
3.4.3无参近似值迭代算法58
3.4.4非扩张近似的作用及收敛性59
3.4.5实例:用于直流电机的近似Q值迭代62
3.5近似策略迭代67
3.5.1用于近似策略评估的类值迭代算法68
3.5.2基于线性带参近似的模型无关策略评估70
3.5.3基于无参近似的策略评估80
3.5.4带回滚的基于模型的近似策略评估80
3.5.5策略改进与近似策略迭代81
3.5.6理论保障84
3.5.7实例:用于直流电机的最小二乘策略迭代86
3.6自动获取值函数逼近器90
3.6.1基函数最优化方法91
3.6.2基函数构造93
3.6.3附注95
3.7近似策略搜索95
3.7.1策略梯度与行动者-评论家算法96
3.7.2梯度无关的策略搜索101
3.7.3实例:用于直流电机问题的梯度无关策略搜索103
3.8近似值迭代、近似策略迭代及近似策略搜索算法的比较106
3.9总结与讨论108
第4章基于模糊表示的近似值迭代110
4.1引言110
4.2模糊Q值迭代112
4.2.1模糊Q值迭代的近似和投影映射112
4.2.2同步和异步模糊Q值迭代116
4.3模糊Q值迭代的分析119
4.3.1收敛性119
4.3.2一致性126
4.3.3计算复杂度131
4.4优化隶属度函数132
4.4.1隶属度函数优化的一般方法132
4.4.2交叉熵优化133
4.4.3基于交叉熵隶属度函数优化的模糊Q值迭代135
4.5实验研究137
4.5.1直流电机:收敛性和一致性研究137
4.5.2双连杆机械臂:动作插值的效果以及与拟合Q值迭代的比较142
4.5.3倒立摆:实时控制146
4.5.4过山车:隶属度函数优化的效果149
4.6总结与讨论152
第5章用于在线学习和连续动作控制的近似策略迭代154
5.1引言154
5.2最小二乘策略迭代的概述155
5.3在线最小二乘策略迭代157
5.4使用先验知识的在线LSPI161
5.4.1使用策略近似的在线LSPI161
5.4.2具有单调策略的在线LSPI162
5.5采用连续动作、多项式近似的LSPI165
5.6实验研究167
5.6.1用于倒立摆的在线LSPI167
5.6.2用于双连杆机械臂的在线LSPI178
5.6.3使用直流电机先验知识的在线LSPI181
5.6.4在倒立摆中使用带有连续动作逼近器的LSPI183
5.7总结与讨论187
第6章基于交叉熵基函数优化的近似策略搜索189
6.1介绍189
6.2交叉熵优化方法190
6.3交叉熵策略搜索192
6.3.1一般方法192
6.3.2基于径向基函数的交叉熵策略搜索197
6.4实验研究199
6.4.1离散时间二重积分199
6.4.2自行车平衡206
6.4.3HIV传染病控制的计划性间断治疗212
6.5总结与讨论215
附录A极端随机树217
附录B交叉熵方法221
缩略语227
参考文献232
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP