• 深度强化学实战 人工智能 (美)亚历山大·扎伊,(美)布兰登·布朗 新华正版
  • 深度强化学实战 人工智能 (美)亚历山大·扎伊,(美)布兰登·布朗 新华正版
21年品牌 40万+商家 超1.5亿件商品

深度强化学实战 人工智能 (美)亚历山大·扎伊,(美)布兰登·布朗 新华正版

57.9 4.8折 119.8 全新

库存28件

江苏无锡
认证卖家担保交易快速发货售后保障

作者(美)亚历山大·扎伊,(美)布兰登·布朗

出版社人民邮电出版社

ISBN9787115576361

出版时间2023-04

版次1

装帧平装

开本16

页数312页

字数428千字

定价119.8元

货号xhwx_1202833504

上书时间2024-04-09

翰林文轩旗舰店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

1.详细讲解深度强化学基础知识,内容丰富
2.提供多个实战案例,学更有效,实践更有用
3.包含核心算法pytorch、openai gym等流行工具,新颖实用
4.作者在深度强化学领域经验丰富,知识点梳理清晰,易懂易学

目录:

部分基础篇

章什么是强化学3

1.1深度强化学中的“深度”4

1.2强化学5

1.3动态规划与蒙特卡洛7

1.4强化学框架9

1.5强化学可以做什么12

1.6为什么是深度强化学14

1.7工具:线图15

1.8后续内容概述17

小结18

第2章强化学问题建模:马尔可夫决策过程19

2.1线图与本书的方法19

2.2解决多臂问题22

2.2.1探索与利用23

2.2.2贪婪策略24

2.2.3softmax选择策略29

2.3应用算法优化广告投放31

2.3.1上下文31

2.3.2、动作和奖励32

2.4利用pytorch构建网络33

2.4.1自动微分33

2.4.2构建模型34

2.5解决上下文问题35

2.6马尔可夫质39

2.7预测未来奖励:价值和策略函数41

2.7.1策略函数42

2.7.2很优策略43

2.7.3价值函数43

小结44

第3章预测很好和动作:深度q网络46

3.1q函数46

3.2q-learning导航47

3.2.1q-learning是什么48

3.2.2应用于gridworld游戏49

3.2.3超参数50

3.2.4贴现因子50

3.2.5构建网络52

3.2.6介绍gridworld游戏引擎53

3.2.7构建q函数的神经网络55

3.3止灾难遗忘:经验回放64

3.3.1灾难遗忘64

3.3.2经验回放65

3.4利用目标网络提高稳定69

学的不稳定70

3.5回顾74

小结76

第4章学选择很好策略:策略梯度法77

4.1使用神经网络的策略函数77

4.1.1神经网络作为策略函数78

4.1.2策略梯度78

4.1.3探索80

4.2强化良好动作:策略梯度算法81

4.2.1定义目标81

4.2.2强化动作82

4.2.3对数概率84

4.2.4信用分配84

4.3与openaigym配合85

4.3.1cartpole87

4.3.2openaigymapi87

4.4reinforce算法88

4.4.1创建策略网络88

4.4.2使智能体与环境交互89

4.4.3训练模型89

4.4.4完整训练循环91

4.4.5所得到的结论93

小结93

第5章利用演员-家算法解决更复杂的问题94

5.1重构价值-策略函数95

5.2分布式训练99

5.3演员-家优势算法104

5.4n-step演员-家算法112

小结116

第二部分篇

第6章可替代的优化方法:进化算法119

6.1另一种强化学方法119

6.2具有进化策略的强化学121

6.2.1进化理论121

6.2.2进化实践123

6.3cartpole的遗传算法128

6.4进化算法的优缺点134

6.4.1进化算法探索更多134

6.4.2进化算法令人难以置信的样本密集134

6.4.3模拟器135

6.5进化算法作为一种可扩展的替代方案135

6.5.1扩展的进化算法135

6.5.2并行与串行处理137

6.5.3扩展效率138

6.5.4节点间通信138

6.5.5线扩展140

6.5.6扩展基于梯度的算法140

小结141

第7章dist-dqn:获取完整故事142

7.1q-learning存在的问题143

7.2再论概率统计147

7.2.1先验和后验148

7.2.2期望和方差149

7.3贝尔曼方程153

分布式贝尔曼方程153

7.4分布式q-learning154

7.4.1使用python表示概率分布154

7.4.2实现dist-dqn162

7.5比较概率分布164

7.6模拟数据上的dist-dqn167

7.7使用分布式q-learning玩freeway172

小结177

第8章好奇心驱动的探索178

8.1利用预测编码处理稀疏奖励179

8.2反向动态预测182

8.3搭建《超级马里奥兄弟》环境184

8.4预处理和q网络186

8.5创建q网络和策略函数188

8.6内在好奇心模块191

8.7可替代的内在奖励机制203

小结205

第9章多智能体强化学206

9.1从单个到多个智能体206

9.2邻域q-learning210

9.3一维伊辛模型213

9.4均场q-learning和二维伊辛模型221

9.5混合合作竞技游戏230

小结239

0章强化学可解释:注意力和关系模型241

10.1带注意力和关系偏差的机器学可解释242

不变和等变243

10.2利用注意力进行关系推理244

10.2.1注意力模型245

10.2.2关系推理246

10.2.3自注意力模型251

10.3对mnist实现自注意力253

10.3.1转换的mnist254

10.3.2关系模块255

10.3.3张量缩并和爱因斯坦标记法258

10.3.4训练关系模块261

10.4多头注意力和关系dqn264

10.5双q-learning270

10.6训练和注意力可视化271

10.6.1优选熵学275

10.6.2课程学275

10.6.3可视化注意力权重276

小结278

1章结:回顾和路线图280

11.1我们学到了什么280

11.2深度强化学中的未知课题282

11.2.1优先经验回放282

11.2.2近端策略优化282

11.2.3分层强化学和options框架283

11.2.4基于模型的规划283

11.2.5蒙特卡洛树搜索284

全书结语284

附录a数学、深度学和

pytorch285

a.1线代数285

a.2微积分287

a.3深度学290

a.4pytorch291

参资料295

内容简介:

本书先介绍深度强化学的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直接反馈对智能体加以调整和改进,提升运用深度强化学技术解决实际问题的能力。本书涵盖深度q网络、策略梯度法、演员家算法、进化算法、ditdqn、多智能体强化学、可解释强化学等内容。本书给出的实战项目紧跟深度强化学技术的发展趋势,且所有项目示例以jupter notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学体验。
本书适合有深度学和机器学基础并对强化学感兴趣的读者阅读。

作者简介:

alexander zai曾担任codemith(一个沉浸式的编码训练营)首席技术官和技术顾问、uber 软件工程师、bonjo和ai机器学工程师,他也是开源深度学框架apache mx的贡献者。此外,他还是两家公司的联合创立人,其中一家曾是ybinator的参与者。

brandon brown从很小的时候开始编程,大学期间做过兼职软件工程师,但终选择投身医疗行业(在此期间,他在医疗保健科技领域担任软件工程师)。受深度强化学的启发,他近期专注于计算精神病学的研究。

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP