• 强化学习:原理与PYTHON实战
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

强化学习:原理与PYTHON实战

正版保障 假一赔十 可开发票

72.04 5.6折 129 全新

库存11件

广东广州
认证卖家担保交易快速发货售后保障

作者肖智清 著

出版社机械工业出版社

出版时间2023-08

版次1

装帧其他

货号29610503

上书时间2024-11-04

兴文书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
图书标准信息
  • 作者 肖智清 著
  • 出版社 机械工业出版社
  • 出版时间 2023-08
  • 版次 1
  • ISBN 9787111728917
  • 定价 129.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 胶版纸
  • 页数 504页
  • 字数 666千字
【内容简介】
全书分为三个部分:
  ?第1章:从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。
  ?第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,对于深度强化学习算法还给出了基于TensorFlow 2和PyTorch 1的对照实现。
  ?第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型,半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。
【作者简介】
:
    肖智清,深度学习一线研发人员,现就职于世界排名第一的投资银行,清华大学博士。擅长概率统计、随机过程、时间序列和机器学习。近5年发表SCI/EI论文十余篇,是多个顶级期刊和会议审稿人。在国内外多项程序设计和数据科学竞赛获得冠军。
【目录】
目录

数学符号表

前言

第1章初识强化学习111强化学习及其关键元素1

1.2强化学习的应用3

1.3智能体/环境接口4

1.4强化学习的分类6

1.4.1按任务分类6

1.4.2按算法分类8

1.5强化学习算法的性能指标9

1.6案例:基于Gym库的智能体/环境接口10

1.6.1安装Gym库11

1.6.2使用Gym库11

1.6.3小车上山13

1.7本章小结18

1.8练习与模拟面试19

第2章Markov决策过程2121Markov决策过程模型21

2.1.1离散时间Markov决策过程21

2.1.2环境与动力24

2.1.3策略26

2.1.4带折扣的回报26

2.2价值27

2.2.1价值的定义28

2.2.2价值的性质28

2.2.3策略的偏序和改进34

2.3带折扣的分布35

2.3.1带折扣的分布的定义35

2.3.2带折扣的分布的性质37

2.3.3带折扣的分布和策略的等价性39

2.3.4带折扣的分布下的期望40

2.4最优策略与最优价值41

2.4.1从最优策略到最优价值41

2.4.2最优策略的存在性42

2.4.3最优价值的性质与Bellman

最优方程43

2.4.4用线性规划法求解最优价值48

2.4.5用最优价值求解最优策略51

2.5案例:悬崖寻路52

2.5.1使用环境52

2.5.2求解策略价值53

2.5.3求解最优价值54

2.5.4求解最优策略55

2.6本章小结55

2.7练习与模拟面试57

第3章有模型数值迭代5931Bellman算子及其性质59

3.2有模型策略迭代64

3.2.1策略评估65

3.2.2策略改进66

3.2.3策略迭代67

3.3价值迭代68

3.4自益与动态规划69

3.5案例:冰面滑行70

3.5.1使用环境71

3.5.2有模型策略迭代求解73

3.5.3有模型价值迭代求解76

3.6本章小结76

3.7练习与模拟面试77

第4章回合更新价值迭代78

4.1同策回合更新79

4.1.1同策回合更新策略评估79

4.1.2带起始探索的同策回合更新84

4.1.3基于柔性策略的同策回合更新86

4.2异策回合更新89

4.2.1重要性采样89

4.2.2异策回合更新策略评估92

4.2.3异策回合更新最优策略求解93

4.3实验:21点游戏94

4.3.1使用环境94

4.3.2同策策略评估96

4.3.3同策最优策略求解98

4.3.4异策策略评估101

4.3.5异策最优策略求解102

4.4本章小结103

4、5练习与模拟面试104

第5章时序差分价值迭代10651时序差分目标106

5.2同策时序差分更新109

5.2.1时序差分更新策略评估109

5.2.2SARSA算法113

5.2.3期望SARSA算法115

5.3异策时序差分更新117

5.3.1基于重要性采样的异策算法117

5.3.2Q学习119

5.3.3双重Q学习120

5.4资格迹121

5.4.1λ回报122

5.4.2TD(λ)算法123

5.5案例:的士调度125

5.5.1使用环境126

5.5.2同策时序差分学习127

5.5.3异策时序差分学习130

5.5.4资格迹学习132

56本章小结134

57练习与模拟面试135

第6章函数近似方法137

6.1函数近似原理138

6.2基于梯度的参数更新139

6.2.1随机梯度下降139

6.2.2半梯度下降141

6.2.3带资格迹的半梯度下降142

6.3函数近似的收敛性144

6.3.1收敛的条件144

6.3.2Baird反例145

6.4深度Q网络147

6.4.1经验回放148

6.4.2目标网络151

6.4.3双重深度Q网络152

6.4.4决斗深度Q网络153

6.5案例:小车上山154

6.5.1使用环境155

6.5.2用线性近似求解最优策略156

6.5.3用深度Q网络求解最优策略161

6.6本章小结172

6.7练习与模拟面试172

第7章回合更新策略梯度方法17471策略梯度算法的原理174

7.1.1函数近似策略174

7.1.2策略梯度定理175

7.1.3策略梯度和极大似然估计的关系179

7.2同策回合更新策略梯度算法179

7.2.1简单的策略梯度算法180

7.2.2带基线的简单策略梯度算法180

7.3异策回合更新策略梯度算法182

7.4案例:车杆平衡183

7.4.1用同策策略梯度算法求解最优策略184

7.4.2用异策策略梯度算法求解最优策略189

7.5本章小结195

7.6练习与模拟面试196

第8章执行者/评论者197

8.1执行者/评论者方法197

8.2同策执行者/评论者算法198

8.2.1动作价值执行者/评论者算法198

8.2.2优势执行者/评论者算法199

8.2.3带资格迹的执行者/评论者算法200

8.3基于代理优势的同策算法201

8.3.1性能差别引理201

8.3.2代理优势202

8.3.3邻近策略优化203

8.4自然梯度和信赖域算法205

8.4.1KL散度与Fisher信息矩阵206

8.4.2代理优势的信赖域208

8.4.3自然策略梯度算法209

8.4.4信赖域策略优化212

8.5重要性采样异策执行者/评论者算法213

8.6案例:双节倒立摆214

8.6.1用同策执行者/评论者算法求解最优策略216

8.6.2用基于代理优势的同策算法求解最优策略226

8.6.3用自然策略梯度和信赖域算法求解最优策略230

8.6.4用重要性采样异策执行者/评论者算法求解最优策略242

8.7本章小结246

8.8练习与模拟面试247

第9章连续动作空间的确定性策略248

9.1确定性策略梯度定理248

9.2同策确定性算法250

9.3异策确定性算法251

9.3.1基本的异策确定性执行者/评论者算法251

9.3.2深度确定性策略梯度算法253

9.3.3双重延迟深度确定性策略梯度算法254

9.4探索过程255

9.5案例:倒立摆的控制256

9.5.1用深
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP