消息首页搜索举报

深度强化学习--算法原理与金融实践入门

18 2.6折 69 八五品

仅1件

江苏南京

认证卖家担保交易快速发货售后保障

作者谢文杰；周炜星

出版社清华大学出版社

出版时间2023-09

版次1

装帧平装

货号78ACC一7

上书时间2024-09-08

希文书店

八年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 14小时
好评率暂无

店主推荐
最新上架

信号与系统MATLAB实践 ¥4.10

中国近现代史纲要、2023年版 ¥5.10

思想道德与法治2023年版 ¥4.10

毛泽东思想和中国特色社会主义理论体系统概论(2023年版) ¥5.10

马克思主义基本原理（2023年版） ¥8.80

机械制造工艺学课程设计指导书（第3版） ¥5.11

数据结构（C语言版） ¥5.00

计算机组成原理（第2版） ¥6.10

通信电子线路（第3版） ¥5.10

精准教学与评价 ¥7.00

非线性时间序列分析 ¥10.00

微积分学习指导：上册 ¥7.00

药学导论 ¥14.00

审计学：一种整合方法（第14版） ¥10.00

成本与管理会计 ¥8.00

财务报表分析 ¥7.00

项目融资（第3版）/21世纪高等学校金融学系列教材 ¥10.00

量子力学教程（第2版）学习指导/高等学校理工类课程学习辅导丛书 ¥6.00

商品详情

品相描述：八五品

图书标准信息

作者谢文杰；周炜星
出版社清华大学出版社
出版时间 2023-09
版次 1
ISBN 9787302641063
定价 69.00元
装帧平装
开本 16开
纸张胶版纸
页数 260页
字数 377千字

【内容简介】: 深度强化学习是人工智能和机器学习的重要分支领域，有着广泛应用，如AlphaGo和ChatGPT。本书作为该领域的入门教材，在内容上尽可能覆盖深度强化学习的基础知识和经典算法。全书共10章，大致分为4部分：第1部分（第1～2章）介绍深度强化学习背景（智能决策、人工智能和机器学习）；第2部分（第3～4章）介绍深度强化学习基础知识（深度学习和强化学习）；第3部分（第5～9章）介绍深度强化学习经典算法（DQN、AC、DDPG等）；第4部分（第10章）为总结和展望。每章都附有习题并介绍了相关阅读材料，以便有兴趣的读者进一步深入探索。
本书可作为高等院校计算机、智能金融及相关专业的本科生或研究生教材，也可供对深度强化学习感兴趣的研究人员和工程技术人员阅读参考。
【作者简介】: 谢文杰，男，湖南浏阳人，应用数学博士，上海市晨光学者。现任职华东理工大学商学院金融学系副教授、硕士导师、金融物理研究中心成员，主要研究复杂金融网络、机器学、深度强化学、金融风险管理等。获2016年度上海市自然科学奖（4/5），主持完成4项或省部级科研项目。

周炜星，男，浙江诸暨人。青年长江学者、上海领才、人才、上海市曙光学者、上海市青年科技启明星。现任职于华东理工大学商学院、数学学院，二级教授，博士生导师，金融物理研究中心主任。现兼任中国优选法统筹法与经济数学研究会理事、风险管理分会副理事长，中国系统工程学会理事、金融系统工程专业委员会副主任，管理科学与工程学会理事、金融计量与风险管理分会副理事长，中国统计研究会金融科技与大数据技术分会副理事长，中国数量经济学会经济复杂专业委员会副理事长，中国复杂科学学会副理事长。主要从事金融物理学、经济物理学和社会经济系统复杂研究，以及相关领域大数据分析。

张孜铭：北京大学管理学硕士，新加坡国立大学金融工程硕士，华中师范大学信息管理与信息系统、华中科技大学计算机科学与技术双学士。未可知科技联合创始人，科技孵化器 quadratic acceleration quantum（qaq）合伙人，元宇宙教育实验室智库专家，元宇宙前沿大讲堂特聘主理人。著有书
aigc：智能创作时代web3.0：赋能数字经济新时代。
【目录】: 章智能决策与复杂系统.1

1.1智能决策.1

1.1.1智能决策简介.1

1.1.2复杂金融系统中的智能决策.2

1.2复杂系统.4

1.2.1复杂科学.4

1.2.2复杂系统定义.6

1.2.3复杂系统类型.6

1.2.4复杂系统研究.8

1.3复杂环境特征.13

1.3.1接近可观察的和部分可观察的环境.13

1.3.2单智能体和多智能体.14

1.3.3确定的和的环境.14

1.3.4片段式和延续式环境.15

1.3.5静态和动态环境.15

1.3.6离散和连续环境.16

1.3.7已知和未知环境.16

1.4复杂环境建模.17

1.5智能体建模.21

1.5.1典型决策系统模型框架.21

1.5.2智能体建模框架.21

1.6智能决策系统建模.24

1.6.1问题提炼.24

1.6.2数据采集.25

1.6.3模型构建.26

1.6.4算法实现.26

1.6.5模型训练.26

1.6.6模型验证.26

1.6.7模型改进.27

1.6.8模型运用.27

1.7应用实践.27

章题.29

第2章人工智能与机器学.30

2.1人工智能简介.30

2.1.1人工智能+农业.31

2.1.2人工智能+教育.31

2.1.3人工智能+.31

2.1.4人工智能+金融.32

2.2人工智能前沿.32

2.3人工智能简史.33

2.4人工智能流派.34

2.4.1符号主义学派.35

2.4.2联结主义学派.36

2.4.3行为主义学派.37

2.5人工智能基础.37

2.5.1运筹学.38

2.5.2很优化控制.38

2.5.3交学科.39

2.5.4人工智能和机器学相关会议.39

2.6机器学分类.39

2.6.1监督学.41

2.6.2无监督学.41

2.6.3强化学.43

2.7机器学基础.44

2.7.1激活函数.44

2.7.2损失函数.46

2.7.3优化算法.50

2.8应用实践.57

第2章题.58

第3章深度学入门.59

3.1深度学简介.59

3.1.1深度学与人工智能.59

3.1.2深度学与机器学.59

3.1.3深度学与表示学.61

3.2深度神经网络.62

3.2.1深度神经网络构建.62

3.2.2深度神经网络实例.64

3.3深度卷积神经网络.68

3.4深度循环神经网络.69

3.5深度图神经网络.71

3.5.1图神经网络简介.72

3.5.2图神经网络聚合函数.72

3.5.3图神经网络更新函数.72

3.5.4图神经网络池化函数.73

3.6深度神经网络训练.73

3.6.1模型训练挑战.73

3.6.2数据预处理.74

3.6.3参数初始化.75

3.6.4学率调整.76

3.6.5梯度优化算法.77

3.6.6超参数优化.78

3.6.7正则化技术.80

3.7应用实践.80

3.7.1tensorflow安装.81

3.7.2tensorflow基本框架.81

3.7.3tensorboard.82

3.7.4scikit-learn.82

3.7.5keras.83

第3章题.83

第4章强化学入门.84

4.1强化学简介.84

4.2马尔可夫决策过程.86

4.3动态规划方法.87

4.3.1策略函数.88

4.3.2奖励函数.88

4.3.3累积回报.89

4.3.4值函数.89

4.3.5-动作值函数.90

4.3.6-动作值函数与值函数的关系.90

4.3.7bellman方程.91

4.3.8策略迭代算法.92

4.3.9值函数迭代算法.95

4.4蒙特卡洛方法.97

4.4.1蒙特卡洛估计.97

4.4.2蒙特卡洛强化学算法伪代码.100

4.5时序差分学.100

4.5.1时序差分学算法.100

4.5.2时序差分学算法、动态规划和蒙特卡洛算法比较.101

4.5.3q-learning.102

4.5.4sarsa.104

4.6策略梯度方法.105

4.7应用实践.110

4.7.1强化学的智能交易系统框架.110

4.7.2智能交易系统环境模型编程.110

第4章题.116

第5章深度强化学q网络.117

5.1深度q网络.117

5.1.1智能策略.117

5.1.2策略函数与q表格.118

5.1.3策略函数与q网络.120

5.2dqn算法介绍.121

5.2.1经验回放.121

5.2.2目标网络.122

5.3dqn算法.123

5.4doubledqn.125

5.4.1doubledqn背景.125

5.4.2双q网络结构.126

5.4.3double dqn算法伪代码.127

5.5dueling dqn.128

5.5.1dueling dqn算法框架简介.128

5.5.2dueling dqn算法核心思想.128

5.6distributional dqn.129

5.7dqn的其他改进.130

5.7.1优先级经验回放.131

5.7.2噪声网络dqn.132

5.7.3多步（multi-step）dqn.134

5.7.4分布式训练.135

5.7.5dqn算法改进.136

5.7.6dqn算法结.136

5.8应用实践.137

5.8.1智能投资决策系统.137

5.8.2核心代码解析.139

5.8.3模型训练.140

5.8.4模型测试.142

第5章题.143

第6章深度策略优化方法.144

6.1策略梯度方法简介.144

6.1.1dqn的局限.144

6.1.2策略梯度方法分类.145

6.2策略梯度算法.147

6.2.1轨迹数据.147

6.2.2目标函数.147

6.2.3梯度计算.148

6.2.4更新策略.150

6.3策略梯度定理.150

6.3.1策略梯度定理介绍.150

6.3.2策略梯度定理分析.151

6.4策略梯度优化几种实现方法.152

6.4.1策略梯度优化理论.152

6.4.2完整轨迹的累积奖励回报.152

6.4.3部分轨迹的累积奖励回报.153

6.4.4常数基线函数.153

6.4.5基于的基线函数.153

6.4.6基于值函数的基线函数.154

6.4.7基于自举方法的梯度估计.154

6.4.8基于优势函数的策略梯度优化.154

6.5深度策略梯度优化算法.155

6.6置信阈策略优化算法.157

6.6.1置信阈策略优化算法介绍.157

6.6.2重要采样.158

6.6.3置信阈策略优化算法核心.160

6.6.4置信阈策略优化算法伪代码.160

6.7近端策略优化算法.162

6.7.1近端策略优化算法介绍.162

6.7.2近端策略优化算法核心.162

6.7.3近端策略优化算法（ppo2）伪代码.164

6.8应用实践.165

6.8.1模型参数.166

6.8.2模型训练.167

6.8.3模型测试.167

第6章题.168

第7章深度确定策略梯度方法.169

7.1确定策略梯度方法应用场景.169

7.2策略梯度方法比较.170

7.3确定策略函数的深度神经网络表示.172

7.4确定策略梯度定理.173

7.5深度确定策略梯度算法.175

7.5.1算法核心介绍.175

7.5.2经验回放.176

7.5.3目标网络.176

7.5.4参数软更新.177

7.5.5深度确定策略梯度算法伪代码.178

7.6孪生延迟确定策略梯度算法.179

7.6.1td3算法介绍.179

7.6.2td3算法的改进.179

7.6.3td3算法伪代码.181

7.7应用实践.183

7.7.1核心代码解析.183

7.7.2模型训练.184

7.7.3模型测试.184

第7章题.185

第8章actor-critic算法.186

8.1actor-critic简介.186

8.2ac算法.187

8.2.1ac算法介绍.187

8.2.2ac算法参数更新.188

8.2.3ac算法伪代码.189

8.3a2c算法.190

8.3.1a2c算法介绍.190

8.3.2优势函数和基线函数.192

8.3.3a2c算法伪代码.193

8.4a3c算法.193

8.4.1a3c算法介绍.194

8.4.2a3c算法的改进和优化.194

8.4.3a3c算法伪代码.196

8.5sac算法.197

8.5.1sac算法介绍.197

8.5.2智能体动作多样.198

8.5.3sac算法理论核心.199

8.5.4sac算法伪代码.201

8.6应用实践.203

8.6.1核心代码解析.203

8.6.2模型训练.204

8.6.3模型测试.204

第8章题.205

第9章深度强化学与规划.206

9.1学与规划.206

9.2基于模型的深度强化学.207

9.2.1深度强化学模型分类.207

9.2.2深度强化学中的学模块.208

9.2.3深度强化学中的规划模块.209

9.3dyna框架.210

9.3.1dyna框架介绍.210

9.3.2dyna框架的模型学.211

9.4dyna-q算法.212

9.4.1dyna-q算法介绍.212

9.4.2dyna-q算法伪代码.213

9.5dyna-q改进.215

9.6dyna-2框架.217

9.7应用实践.218

9.7.1编程实践模块介绍.218

9.7.2gym.218

9.7.3强化学代码库.219

第9章题.221

0章深度强化学展望.223

10.1深度强化学背景.223

10.1.1源于学科交.223

10.1.2用于序贯决策.223

10.1.3强于深度学.224

10.2深度强化学简史.224

10.2.1游戏控制崭露头角.224

10.2.2alphago风靡全球.225

10.2.3通用智能备受期待.225

10.3深度强化学分类.226

10.3.1基于值函数和基于策略函数的深度强化学.226

10.3.2基于模型和无模型的深度强化学.226

10.3.3异策略和同策略学.228

10.4深度强化学面临的挑战.228

10.4.1样本效率.228

10.4.2灾难遗忘.229

10.4.3虚实映鸿沟.230

10.4.4有效表征学.231

10.4.5可拓展与规模化.232

10.4.6延迟奖励.233

10.4.7稀疏奖励.233

10.4.8探索和利用.234

10.4.9复杂动态环境.235

10.5深度强化学前沿.236

10.5.1多智能体深度强化学.236

10.5.2深度逆向强化学.237

10.5.3模仿学.238

10.5.4行为克隆.239

10.5.5图强化学.241

10.6深度强化学实践.241

10.6.1深度强化学建模框架.241

10.6.2深度强化学模型的核心模块.242

0章题.245

点击展开点击收起

— 没有更多了 —