消息首页搜索举报

统计策略搜索强化学习方法及应用

全新正版极速发货

55.94 7.1折 79 全新

库存2件

广东广州

认证卖家担保交易快速发货售后保障

作者赵婷婷

出版社电子工业出版社

ISBN9787121419591

出版时间2021-09

装帧平装

开本16开

定价79元

货号31255304

上书时间2024-06-10

书香美美

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 16小时
好评率暂无

最新上架

食品安全概论(普通高等教育教材)/食品科学与工程系列 ¥43.14

万千教育学前.师幼互动的有效策略与方法 ¥34.19

消化内镜护理培训教程（第2版） ¥115.19

你好，点点 ¥4.18

原乡人系列·远去的河畔 ¥16.19

珠穆朗玛:攀登者心中的梦想之峰 ¥24.20

就算小九九儿童计算基础训练(乘除法综合速算) ¥0.75

物理学的慰藉(写给宇宙奇迹的情书) ¥22.07

新大纲浙江省大学英语三级考试必读(词汇速记宝典)/周计划 ¥22.07

商品详情

品相描述：全新

商品描述: 作者简介
赵婷婷，天津科技大学人工智能学院副教授，主要研究方向为人工智能、机器学习。中国计算机协会（CCF）会员、YOCSEF会员、中国人工智能学会会员、人工智能学会模式识别专委会委员，2017年获得天津市\\\\\\\\\\\\\\\"131”创新型人才培养工程第二层次人选称号。

目录
第1章强化学习概述???????????????????????????????????????????????????????????????????????????????????????????1
1.1 机器学习中的强化学习??????????????????????????????????????????????????????????????????????????1
1.2 智能控制中的强化学习??????????????????????????????????????????????????????????????????????????4
1.3 强化学习分支??????????????????????????????????????????????????????????????????????????????????????????8
1.4 本书贡献???????????????????????????????????????????????????????????????????????????????????????????????11
1.5 本书结构???????????????????????????????????????????????????????????????????????????????????????????????12
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????14
第2章相关研究及背景知识?????????????????????????????????????????????????????????????????????????????19
2.1 马尔可夫决策过程????????????????????????????????????????????????????????????????????????????????19
2.2 基于值函数的策略学习算法?????????????????????????????????????????????????????????????????21
2.2.1 值函数???????????????????????????????????????????????????????????????????????????????????????21
2.2.2 策略迭代和值迭代????????????????????????????????????????????????????????????????????23
2.2.3 Q-learning ??????????????????????????????????????????????????????????????????????????????????25
2.2.4 基于最小二乘法的策略迭代算法?????????????????????????????????????????????27
2.2.5 基于值函数的深度强化学习方法?????????????????????????????????????????????29
2.3 策略搜索算法????????????????????????????????????????????????????????????????????????????????????????30
2.3.1 策略搜索算法建模????????????????????????????????????????????????????????????????????31
2.3.2 传统策略梯度算法（REINFORCE算法）??????????????????????????????32
2.3.3 自然策略梯度方法（Natural Policy Gradient）????????????????????????33
2.3.4 期望最大化的策略搜索方法?????????????????????????????????????????????????????35
2.3.5 基于策略的深度强化学习方法?????????????????????????????????????????????????37
2.4 本章小结???????????????????????????????????????????????????????????????????????????????????????????????38
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????39
第3章策略梯度估计的分析与改进?????????????????????????????????????????????????????????????????42
3.1 研究背景???????????????????????????????????????????????????????????????????????????????????????????????42
3.2 基于参数探索的策略梯度算法（PGPE算法）???????????????????????????????????44
3.3 梯度估计方差分析????????????????????????????????????????????????????????????????????????????????46
3.4 基于最优基线的算法改进及分析?????????????????????????????????????????????????????????48
3.4.1 最优基线的基本思想????????????????????????????????????????????????????????????????48
3.4.2 PGPE算法的最优基线??????????????????????????????????????????????????????????????49
3.5 实验???????????????????????????????????????????????????????????????????????????????????????????????????????51
3.5.1 示例???????????????????????????????????????????????????????????????????????????????????????????51
3.5.2 倒立摆平衡问题????????????????????????????????????????????????????????????????????????57
3.6 总结与讨论????????????????????????????????????????????????????????????????????????????????????????????58
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????60
第4章基于重要性采样的参数探索策略梯度算法??????????????????????????????????????????63
4.1 研究背景???????????????????????????????????????????????????????????????????????????????????????????????63
4.2 异策略场景下的PGPE算法?????????????????????????????????????????????????????????????????64
4.2.1 重要性加权PGPE算法?????????????????????????????????????????????????????????????65
4.2.2 IW-PGPE算法通过基线减法减少方差????????????????????????????????????66
4.3 实验结果???????????????????????????????????????????????????????????????????????????????????????????????68
4.3.1 示例???????????????????????????????????????????????????????????????????????????????????????????69
4.3.2 山地车任务????????????????????????????????????????????????????????????????????????????????78
4.3.3 机器人仿真控制任务????????????????????????????????????????????????????????????????81
4.4 总结和讨论????????????????????????????????????????????????????????????????????????????????????????????88
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????89
第5章方差正则化策略梯度算法?????????????????????????????????????????????????????????????????????91
5.1 研究背景???????????????????????????????????????????????????????????????????????????????????????????????91
5.2 正则化策略梯度算法????????????????????????????????????????????????????????????????????????????92
5.2.1 目标函数????????????????????????????????????????????????????????????????????????????????????92
5.2.2 梯度计算方法????????????????????????????????????????????????????????????????????????????94
5.3 实验结果???????????????????????????????????????????????????????????????????????????????????????????????95
5.3.1 数值示例????????????????????????????????????????????????????????????????????????????????????95
5.3.2 山地车任务??????????????????????????????????????????????????????????????????????????????101
5.4 总结和讨论??????????????????????????????????????????????????????????????????????????????????????????102
参考文献??????????????????????????????????????????????????????????????????????????????????????????????????????103
第6章基于参数探索的策略梯度算法的采样技术????????????????????????????????????????105
6.1 研究背景?????????????????????????????????????????????????????????????????????????????????????????????105
6.2 基于参数探索的策略梯度算法中的采样技术????????????????????????????????????107
6.2.1 基线采样??????????????????????????????????????????????????????????????????????????????????108
6.2.2 最优基线采样??????????????????????????????????????????????????????????????????????????109
6.2.3 对称采样??????????????????????????????????????????????????????????????????????????????????109
6.2.4 超对称采样??????????????????????????????????????????????????????????????????????????????111
6.2.5 多模态超对称采样??????????????????????????????????????????????????????????????????116
6.2.6 SupSymPGPE 的奖励归一化??????????????????????????????????????????????????117
6.3 数值示例实验??????????????????????????????????????????????????????????????????????????????????????119
6.3.1 平方函数??????????????????????????????????????????????????????????????????????????????????120
6.3.2 Rastrigin函数??????????????????????????????????????????????????????????????????????????120
6.4 本章总结?????????????????????????????????????????????????????????????????????????????????????????????124
参考文献??????????????????????????????????????????????????????????????????????????????????????????????????????125
第7章基于样本有效重用的人形机器人的运动技习?????????????????????????????127
7.1 研究背景：真实环境下的运动技能学习???????????????????????????????????????????127
7.2 运动技能学习框架??????????????????????????????????????????????????????????????????????????????128
7.2.1 机器人的运动路径和回报???????????????????????????????????????????????????????128
7.2.2 策略模型??????????????????????????????????????????????????????????????????????????????????129
7.2.3 基于PGPE算法的策略学习方法???????????????????????????????????????????129
7.3 有效重用历史经验??????????????????????????????????????????????????????????????????????????????130
7.3.1 基于重要性加权的参数探索策略梯度算法
（IW-PGPE算法）???????????????????????????????????????????????????????????????????130
7.3.2 基于IW-PGPE算法的运动技能学习过程?????????????????????????????131
7.3.3 递归型IW-PGPE算法????????????????????????????????????????????????????????????132
7.4 虚拟环境中的车杆摆动任务???????????????????????????????????????????????????????????????133
7.5 篮球射击任务??????????????????????????????????????????????????????????????????????????????????????137
7.6 讨论与结论??????????????????????????????????????????????????????????????????????????????????????????140
参考文献??????????????????????????????????????????????????????????????????????????????????????????????????????142
第8章基于逆强化学习的艺术风格学习及水墨画渲染?????????????????????????????????145
8.1 研究背景?????????????????????????????????????????????????????????????????????????????????????????????145
8.1.1 计算机图形学背景??????????????????????????????????????????????????????????????????146
8.1.2 人工智能背景??????????????????????????????????????????????????????????????????????????147
8.1.3 面向艺术风格化的渲染系统???????????????????????????????????????????????????148
8.2 基于强化学习的笔刷智能体建模???????????????????????????????????????????????????????148
8.2.1 动作的设计??????????????????????????????????????????????????????????????????????????????149
8.2.2 状态的设计??????????????????????????????????????????????????????????????????????????????150
8.3 离线艺术风格学习阶段??????????????????????????????????????????????????????????????????????151
8.3.1 数据采集??????????????????????????????????????????????????????????????????????????????????152
8.3.2 基于逆强化学习的奖励函数学习???????????????????????????????????????????153
8.3.3 基于R-PGPE算法的渲染策略学习???????????????????????????????????????154
8.4 A4系统用户界面????????????????????????????????????????????????????????????????????????????????155
8.5 实验与结果??????????????????????????????????????????????????????????????????????????????????????????157
8.5.1 渲染策略学习结果??????????????????????????????????????????????????????????????????157
8.5.2 基于IRL进行笔画绘制的渲染结果???????????????????????????????????????160
8.6 本章小结?????????????????????????????????????????????????????????????????????????????????????????????162
参考文献??????????????????????????????????????????????????????????????????????????????????????????????????????163

内容摘要
智能体AlphaGo战胜人类围棋专家刷新了人类对人工智能的认识，也使得其核心技术强化学习受到学术界的广泛关注。本书正是在如此背景下，围绕作者多年从事强化学习理论及应用的研究内容及国内外关于强化学习的最近动态等方面展开介绍，是为数不多的强化学习领域的专业著作。该著作侧重于基于直接策略搜索的强化学习方法，结合了统计学习的诸多方法对相关技术及方法进行分析、改进及应用。本书以一个全新的现代角度描述策略搜索强化学习算法。从不同的强化学习场景

— 没有更多了 —

统计策略搜索强化学习方法及应用

书香美美

商品详情

相关推荐