消息首页搜索举报

深度强化学实战人工智能 (美)亚历山大·扎伊,(美)布兰登·布朗新华正版

57.9 4.8折 119.8 全新

库存28件

江苏无锡

认证卖家担保交易快速发货售后保障

作者(美)亚历山大·扎伊,(美)布兰登·布朗

出版社人民邮电出版社

ISBN9787115576361

出版时间2023-04

版次1

装帧平装

开本16

页数312页

字数428千字

定价119.8元

货号xhwx_1202833504

上书时间2024-04-09

翰林文轩旗舰店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

细读周易中国哲学鲁洪生新华正版 ¥38.24

中国保险行业大事记.2016 保险中国保险行业协会编新华正版 ¥57.14

工程方前沿科技综合编者:院新华正版 ¥40.90

沟通的艺术:看入人里,看出人外:插图修订5版公共关系 (美)罗纳德·b·阿德勒(ronald b.adler),(美)拉塞尔·f·普罗科特(russell f.proctor 新华正版 ¥42.24

商标财产化研究法学理论张惠彬新华正版 ¥30.04

理与责任外国哲学 (德)朱利安·尼达-诺姆林(julian nida-rumelin) 新华正版 ¥28.04

古渡义犬儿童文学牧铃新华正版 ¥8.69

泰国民俗与大中专文科社科综合戚盛中新华正版 ¥32.44

奏乐的陶俑/邹凡凡奇域系列儿童文学邹凡凡新华正版 ¥15.02

商品详情

品相描述：全新: 正版特价新书

商品描述: 主编：

1.详细讲解深度强化学基础知识，内容丰富
2.提供多个实战案例，学更有效，实践更有用
3.包含核心算法pytorch、openai gym等流行工具，新颖实用
4.作者在深度强化学领域经验丰富，知识点梳理清晰，易懂易学

目录：

部分基础篇

章什么是强化学3

1．1深度强化学中的“深度”4

1．2强化学5

1．3动态规划与蒙特卡洛7

1．4强化学框架9

1．5强化学可以做什么12

1．6为什么是深度强化学14

1．7工具：线图15

1．8后续内容概述17

小结18

第2章强化学问题建模：马尔可夫决策过程19

2．1线图与本书的方法19

2．2解决多臂问题22

2．2．1探索与利用23

2．2．2贪婪策略24

2．2．3softmax选择策略29

2．3应用算法优化广告投放31

2．3．1上下文31

2．3．2、动作和奖励32

2．4利用pytorch构建网络33

2．4．1自动微分33

2．4．2构建模型34

2．5解决上下文问题35

2．6马尔可夫质39

2．7预测未来奖励：价值和策略函数41

2．7．1策略函数42

2．7．2很优策略43

2．7．3价值函数43

小结44

第3章预测很好和动作：深度q网络46

3．1q函数46

3．2q-learning导航47

3．2．1q-learning是什么48

3．2．2应用于gridworld游戏49

3．2．3超参数50

3．2．4贴现因子50

3．2．5构建网络52

3．2．6介绍gridworld游戏引擎53

3．2．7构建q函数的神经网络55

3．3止灾难遗忘：经验回放64

3．3．1灾难遗忘64

3．3．2经验回放65

3．4利用目标网络提高稳定69

学的不稳定70

3．5回顾74

小结76

第4章学选择很好策略：策略梯度法77

4．1使用神经网络的策略函数77

4．1．1神经网络作为策略函数78

4．1．2策略梯度78

4．1．3探索80

4．2强化良好动作：策略梯度算法81

4．2．1定义目标81

4．2．2强化动作82

4．2．3对数概率84

4．2．4信用分配84

4．3与openaigym配合85

4．3．1cartpole87

4．3．2openaigymapi87

4．4reinforce算法88

4．4．1创建策略网络88

4．4．2使智能体与环境交互89

4．4．3训练模型89

4．4．4完整训练循环91

4．4．5所得到的结论93

小结93

第5章利用演员-家算法解决更复杂的问题94

5．1重构价值-策略函数95

5．2分布式训练99

5．3演员-家优势算法104

5．4n-step演员-家算法112

小结116

第二部分篇

第6章可替代的优化方法：进化算法119

6．1另一种强化学方法119

6．2具有进化策略的强化学121

6．2．1进化理论121

6．2．2进化实践123

6．3cartpole的遗传算法128

6．4进化算法的优缺点134

6．4．1进化算法探索更多134

6．4．2进化算法令人难以置信的样本密集134

6．4．3模拟器135

6．5进化算法作为一种可扩展的替代方案135

6．5．1扩展的进化算法135

6．5．2并行与串行处理137

6．5．3扩展效率138

6．5．4节点间通信138

6．5．5线扩展140

6．5．6扩展基于梯度的算法140

小结141

第7章dist-dqn：获取完整故事142

7．1q-learning存在的问题143

7．2再论概率统计147

7．2．1先验和后验148

7．2．2期望和方差149

7．3贝尔曼方程153

分布式贝尔曼方程153

7．4分布式q-learning154

7．4．1使用python表示概率分布154

7．4．2实现dist-dqn162

7．5比较概率分布164

7．6模拟数据上的dist-dqn167

7．7使用分布式q-learning玩freeway172

小结177

第8章好奇心驱动的探索178

8．1利用预测编码处理稀疏奖励179

8．2反向动态预测182

8．3搭建《超级马里奥兄弟》环境184

8．4预处理和q网络186

8．5创建q网络和策略函数188

8．6内在好奇心模块191

8．7可替代的内在奖励机制203

小结205

第9章多智能体强化学206

9．1从单个到多个智能体206

9．2邻域q-learning210

9．3一维伊辛模型213

9．4均场q-learning和二维伊辛模型221

9．5混合合作竞技游戏230

小结239

0章强化学可解释：注意力和关系模型241

10．1带注意力和关系偏差的机器学可解释242

不变和等变243

10．2利用注意力进行关系推理244

10．2．1注意力模型245

10．2．2关系推理246

10．2．3自注意力模型251

10．3对mnist实现自注意力253

10．3．1转换的mnist254

10．3．2关系模块255

10．3．3张量缩并和爱因斯坦标记法258

10．3．4训练关系模块261

10．4多头注意力和关系dqn264

10．5双q-learning270

10．6训练和注意力可视化271

10．6．1优选熵学275

10．6．2课程学275

10．6．3可视化注意力权重276

小结278

1章结：回顾和路线图280

11．1我们学到了什么280

11．2深度强化学中的未知课题282

11．2．1优先经验回放282

11．2．2近端策略优化282

11．2．3分层强化学和options框架283

11．2．4基于模型的规划283

11．2．5蒙特卡洛树搜索284

全书结语284

附录a数学、深度学和

pytorch285

a．1线代数285

a．2微积分287

a．3深度学290

a．4pytorch291

参资料295

内容简介：

本书先介绍深度强化学的基础知识及相关算法，然后给出多个实战项目，以期让读者可以根据环境的直接反馈对智能体加以调整和改进，提升运用深度强化学技术解决实际问题的能力。本书涵盖深度q网络、策略梯度法、演员家算法、进化算法、ditdqn、多智能体强化学、可解释强化学等内容。本书给出的实战项目紧跟深度强化学技术的发展趋势，且所有项目示例以jupter notebook样式给出，便于读者修改代码、观察结果并及时获取经验，能够带给读者交互式的学体验。
本书适合有深度学和机器学基础并对强化学感兴趣的读者阅读。

作者简介：

alexander zai曾担任codemith（一个沉浸式的编码训练营）首席技术官和技术顾问、uber 软件工程师、bonjo和ai机器学工程师，他也是开源深度学框架apache mx的贡献者。此外，他还是两家公司的联合创立人，其中一家曾是ybinator的参与者。

brandon brown从很小的时候开始编程，大学期间做过兼职软件工程师，但终选择投身医疗行业（在此期间，他在医疗保健科技领域担任软件工程师）。受深度强化学的启发，他近期专注于计算精神病学的研究。

— 没有更多了 —

深度强化学实战 人工智能 (美)亚历山大·扎伊,(美)布兰登·布朗 新华正版

翰林文轩旗舰店

商品详情

深度强化学实战人工智能 (美)亚历山大·扎伊,(美)布兰登·布朗新华正版