消息首页搜索举报

增强学习与近似动态规划，正版，私藏书

21 4.7折 45 九品

仅1件

湖南长沙

认证卖家担保交易快速发货售后保障

作者徐昕著

出版社科学出版社

出版时间2010-05

版次1

装帧平装

货号87-9

上书时间2022-10-06

八雅书店

七年老店

已实名进店收藏店铺

在售商品暂无
平均发货时间 2小时
好评率暂无

店主推荐
最新上架

毛泽东选集，1函3本，1951年1952年1953年第1版，1959年印刷，小16开，酱红布面精装本，有函盒、书衣，人民出版社，函盒正面印有【奖，全国工业交通运输基本建设财贸方面社会主义建设先进集体和先进生产者代表大会，1959】，实物拍照，多图，【非代购，现货秒发】，正版，库存 ¥25899.88

湖湘文库：吴敏树集，未拆封，现货，封膜未拆封，塑封未拆，实物拍照，多图，【非代购，现货秒发】，正版，库存，新 ¥88.00

自适应光学图像复原理论与方法 ¥98.00

高油酸“双低”油菜栽培新技术（湖南农业院士丛书），未拆封，封膜未拆封 ¥7.00

赵氏家谱，四川省广安市赵氏抃祖（清献）——文信公支，文姓公支赵氏家谱，应该为付印前校正本，内页有错字改正、下划线、圈点等痕迹 ¥148.00

从开国斗到亡国：明朝残酷权力斗争全史（从没有哪个朝代，斗得像明朝那么狠、那么花样百出！）读客中国史入门文库，未拆封，现货，封膜未拆封，塑封未拆，实物拍照，【非代购，现货秒发】，正版，库存，新 ¥24.50

首柱养生功实物拍照，【非代购，现货秒发】，正版，库存，新 ¥7.20

物理力学前沿（卷Ⅰ、卷II）两本合售未开封，未拆封，封膜未拆封，塑封未拆，正版，库存，新 ¥160.00

何绍基法书集（二），正版，库存，新，无霉斑 ¥44.80

小儿推拿，实物拍照，多图，现货秒发，正版，库存，新 ¥577.00

商品详情

品相描述：九品: 正版，库存，新。封面有软划痕，轻微折痕污迹等。书名页有藏书人姓名。封底有软划痕。整本书内页无笔迹，无印章，无划线。如果还有在书名栏和品相描述栏中未说明的缺陷或其它问题，请买家自鉴。

图书标准信息

作者徐昕著
出版社科学出版社
出版时间 2010-05
版次 1
ISBN 9787030275653
定价 45.00元
装帧平装
开本 16开
纸张胶版纸
页数 212页
字数 267千字
正文语种简体中文
丛书智能科学技术著作丛书

【内容简介】: 　　《增强学习与近似动态规划》对增强学习与近似动态规划的理论、算法及应用进行了深入研究和论述。主要内容包括：求解Markov链学习预测问题的时域差值学习算法和理论，求解连续空间Markov决策问题的梯度增强学习算法以及进化一梯度混合增强学习算法，基于核的近似动态规划算法，增强学习在移动机器人导航与控制中的应用等。《增强学习与近似动态规划》是作者在多个国家自然科学基金项目资助下取得的研究成果的总结，意在推动增强学习与近似动态规划理论与应用的发展，对于智能科学的前沿研究和智能学习系统的应用具有重要的科学意义。
　　《增强学习与近似动态规划》可作为高等院校与科研院所中从事人工智能与智能信息处理、机器人与智能控制、智能决策支持系统等专业领域的研究和教学用书，也可作为自动化、计算机与管理学领域其他相关专业师生及科研人员的参考书。
【目录】: 《智能科学技术著作丛书》序
前言
第1章绪论
1.1引言
1.2增强学习与近似动态规划的研究概况
1.2.1增强学习研究的相关学科背景
1.2.2增强学习算法的研究进展
1.2.3增强学习的泛化方法与近似动态规划
1.2.4增强学习相关理论研究与多Agent增强学习
1.2.5增强学习应用的研究进展
1.3移动机器人导航控制方法的研究现状和发展趋势
1.3.1移动机器人体系结构的研究进展
1.3.2移动机器人反应式导航方法的研究概况
1.3.3移动机器人路径跟踪控制的研究概况
1.4全书的组织结构
参考文献
第2章线性时域差值学习理论与算法
2.1Markov链与多步学习预测问题
2.1.1Markov链的基础理论
2.1.2基于Markov链的多步学习预测问题
2.2TD(λ)学习算法
2.2.1表格型TD(λ)学习算法
2.2.2基于值函数逼近的TD(λ)学习算法
2.3多步递推最小二乘TD学习算法及其收敛性理论
2.3.1多步递推最小二乘TD(RLS-TD(λ)学习算法
2.3.2RLS-TD(λ)学习算法的一致收敛性分析
2.4多步学习预测的仿真研究
2.4.1HlopWorld问题学习预测仿真
2.4.2连续状态随机行走问题的学习预测仿真
2.5小结
参考文献
第3章基于核的时域差值学习算法
3.1核方法与基于核的学习机器
3.1.1核函数的概念与性质
3.1.2再生核Hilbert空间与核函数方法
3.2核最小二乘时域差值学习算法
3.2.1线性TD(λ)学习算法
3.2.2KLS-TD(λ)学习算法
3.2.3学习预测实验与比较
3.3小结
参考文献
第4章求解Markov决策问题的梯度增强学习算法
4.1Markov决策过程与表格型增强学习算法
4.1.1Markov决策过程及其最优值函数
4.1.2表格型增强学习算法及其收敛性理论
4.2基于改进CMAC的直接梯度增强学习算法
4.2.1CMAC的结构
4.2.2基于C2MAC的直接梯度增强学习算法
4.2.3两种改进的C2MAC编码结构及其应用实例
4.3基于值函数逼近的残差梯度增强学习算法
4.3.1多层前馈神经网络函数逼近器与已有的梯度增强学习算法
4.3.2非平稳策略残差梯度(RGNP)增强学习算法
4.3.3RGNP学习算法的收敛性和近似最优策略性能的理论分析
4.3.4Mountain-Car问题的仿真研究
4.3.5Acrobot学习控制的仿真研究
4.4求解连续行为空间Markov决策问题的快速AHC学习算法
4.4.1AHC学习算法与Actor-Critic学习控制结构
4.4.2Fast-AHC学习算法
4.4.3连续控制量条件下的倒立摆学习控制仿真研究
4.4.4连续控制量条件下Acrobot系统的学习控制
4.5小结
参考文献
第5章求解Markov决策问题的进化-梯度混合增强学习算法
5.1进化计算的基本原理和方法
5.1.1进化计算的基本原理和算法框架
5.1.2进化算法的基本要素
5.1.3进化算法的控制参数和性能评估
5.2求解离散行为空间MDP的进化-梯度混合算法
5.2.1HERG算法的设计要点
5.2.2HERG算法的流程
5.2.3HtERG算法的应用实例：Mountain-Car学习控制问题
5.2.4Acrobot系统的进化增强学习仿真
5.3求解连续行为空间MDP的进化-梯度混合增强学习算法
5.3.1进化AHC算法
5.3.2连续控制量条件下Acrobot系统的进化增强学习仿真
5.4小结
参考文献
第6章基于核的近似动态规划算法与理论
6.1增强学习与近似动态规划的若干核心问题
6.2基于核的近似策略迭代算法与收敛性理论
6.2.1策略迭代与TD学习算法
6.2.2核策略迭代算法KLSPI的基本框架
6.2.3采用核稀疏化技术的KLSTD-Q时域差值算法
6.2.4KLSPI算法的收敛性分析
6.3核策略迭代算法的性能测试实验研究
6.3.1具有20个状态的随机Markov链问题
6.3.2具有50个状态的随机Markov决策问题
6.3.3随机倒立摆学习控制问题
6.4小结
参考文献
第7章基于增强学习的移动机器人反应式导航方法
7.1基于分层学习的移动机器人混合式体系结构
7.2基于增强学习的移动机器人反应式导航体系结构与算法
7.2.1未知环境中移动机器人导航混合式体系结构的具体设计
7.2.2基于神经网络增强学习的反应式导航算法
7.3移动机器人增强学习导航的仿真和实验研究
7.3.1CIT-AVT-VI移动机器人平台的传感器系统与仿真实验环境
7.3.2增强学习导航的仿真研究
7.3.3CIT-AVT-VI移动机器人的实时学习导航控制实验
7.4小结
参考文献
第8章RL与ADP在移动机器人运动控制中的应用
8.1基于增强学习的自适应PID控制器
8.2自动驾驶汽车的侧向增强学习控制
8.2.1自动驾驶汽车的动力学模型
8.2.2用于自动驾驶汽车侧向控制的增强学习PID控制器设计
8.2.3自动驾驶汽车直线路径跟踪仿真
8.3基于在线增强学习的室内移动机器人路径跟踪控制
8.3.1一类室内移动机器人系统的运动学和动力学模型
8.3.2增强学习路径跟踪控制器设计
8.3.3参考路径为直线时的仿真研究
8.3.4参考路径为圆弧时的仿真研究
8.3.5CIT-AVT-VI移动机器人实时在线学习路径跟踪实验
8.4采用近似策略迭代的移动机器人学习控制方法研究
8.4.1基于近似策略迭代的学习控制方法与仿真研究
8.4.2基于P3-AT平台的学习控制器设计
8.4.3直线跟随实验
8.4.4曲线跟随实验
8.5小结
参考文献
第9章总结与展望

点击展开点击收起

— 没有更多了 —