深度强化学实战 人工智能 (美)亚历山大·扎伊,(美)布兰登·布朗 新华正版
¥
57.9
4.8折
¥
119.8
全新
库存28件
作者(美)亚历山大·扎伊,(美)布兰登·布朗
出版社人民邮电出版社
ISBN9787115576361
出版时间2023-04
版次1
装帧平装
开本16
页数312页
字数428千字
定价119.8元
货号xhwx_1202833504
上书时间2024-04-09
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
主编:
1.详细讲解深度强化学基础知识,内容丰富
2.提供多个实战案例,学更有效,实践更有用
3.包含核心算法pytorch、openai gym等流行工具,新颖实用
4.作者在深度强化学领域经验丰富,知识点梳理清晰,易懂易学
目录:
部分基础篇
章什么是强化学3
1.1深度强化学中的“深度”4
1.2强化学5
1.3动态规划与蒙特卡洛7
1.4强化学框架9
1.5强化学可以做什么12
1.6为什么是深度强化学14
1.7工具:线图15
1.8后续内容概述17
小结18
第2章强化学问题建模:马尔可夫决策过程19
2.1线图与本书的方法19
2.2解决多臂问题22
2.2.1探索与利用23
2.2.2贪婪策略24
2.2.3softmax选择策略29
2.3应用算法优化广告投放31
2.3.1上下文31
2.3.2、动作和奖励32
2.4利用pytorch构建网络33
2.4.1自动微分33
2.4.2构建模型34
2.5解决上下文问题35
2.6马尔可夫质39
2.7预测未来奖励:价值和策略函数41
2.7.1策略函数42
2.7.2很优策略43
2.7.3价值函数43
小结44
第3章预测很好和动作:深度q网络46
3.1q函数46
3.2q-learning导航47
3.2.1q-learning是什么48
3.2.2应用于gridworld游戏49
3.2.3超参数50
3.2.4贴现因子50
3.2.5构建网络52
3.2.6介绍gridworld游戏引擎53
3.2.7构建q函数的神经网络55
3.3止灾难遗忘:经验回放64
3.3.1灾难遗忘64
3.3.2经验回放65
3.4利用目标网络提高稳定69
学的不稳定70
3.5回顾74
小结76
第4章学选择很好策略:策略梯度法77
4.1使用神经网络的策略函数77
4.1.1神经网络作为策略函数78
4.1.2策略梯度78
4.1.3探索80
4.2强化良好动作:策略梯度算法81
4.2.1定义目标81
4.2.2强化动作82
4.2.3对数概率84
4.2.4信用分配84
4.3与openaigym配合85
4.3.1cartpole87
4.3.2openaigymapi87
4.4reinforce算法88
4.4.1创建策略网络88
4.4.2使智能体与环境交互89
4.4.3训练模型89
4.4.4完整训练循环91
4.4.5所得到的结论93
小结93
第5章利用演员-家算法解决更复杂的问题94
5.1重构价值-策略函数95
5.2分布式训练99
5.3演员-家优势算法104
5.4n-step演员-家算法112
小结116
第二部分篇
第6章可替代的优化方法:进化算法119
6.1另一种强化学方法119
6.2具有进化策略的强化学121
6.2.1进化理论121
6.2.2进化实践123
6.3cartpole的遗传算法128
6.4进化算法的优缺点134
6.4.1进化算法探索更多134
6.4.2进化算法令人难以置信的样本密集134
6.4.3模拟器135
6.5进化算法作为一种可扩展的替代方案135
6.5.1扩展的进化算法135
6.5.2并行与串行处理137
6.5.3扩展效率138
6.5.4节点间通信138
6.5.5线扩展140
6.5.6扩展基于梯度的算法140
小结141
第7章dist-dqn:获取完整故事142
7.1q-learning存在的问题143
7.2再论概率统计147
7.2.1先验和后验148
7.2.2期望和方差149
7.3贝尔曼方程153
分布式贝尔曼方程153
7.4分布式q-learning154
7.4.1使用python表示概率分布154
7.4.2实现dist-dqn162
7.5比较概率分布164
7.6模拟数据上的dist-dqn167
7.7使用分布式q-learning玩freeway172
小结177
第8章好奇心驱动的探索178
8.1利用预测编码处理稀疏奖励179
8.2反向动态预测182
8.3搭建《超级马里奥兄弟》环境184
8.4预处理和q网络186
8.5创建q网络和策略函数188
8.6内在好奇心模块191
8.7可替代的内在奖励机制203
小结205
第9章多智能体强化学206
9.1从单个到多个智能体206
9.2邻域q-learning210
9.3一维伊辛模型213
9.4均场q-learning和二维伊辛模型221
9.5混合合作竞技游戏230
小结239
0章强化学可解释:注意力和关系模型241
10.1带注意力和关系偏差的机器学可解释242
不变和等变243
10.2利用注意力进行关系推理244
10.2.1注意力模型245
10.2.2关系推理246
10.2.3自注意力模型251
10.3对mnist实现自注意力253
10.3.1转换的mnist254
10.3.2关系模块255
10.3.3张量缩并和爱因斯坦标记法258
10.3.4训练关系模块261
10.4多头注意力和关系dqn264
10.5双q-learning270
10.6训练和注意力可视化271
10.6.1优选熵学275
10.6.2课程学275
10.6.3可视化注意力权重276
小结278
1章结:回顾和路线图280
11.1我们学到了什么280
11.2深度强化学中的未知课题282
11.2.1优先经验回放282
11.2.2近端策略优化282
11.2.3分层强化学和options框架283
11.2.4基于模型的规划283
11.2.5蒙特卡洛树搜索284
全书结语284
附录a数学、深度学和
pytorch285
a.1线代数285
a.2微积分287
a.3深度学290
a.4pytorch291
参资料295
内容简介:
本书先介绍深度强化学的基础知识及相关算法,然后给出多个实战项目,以期让读者可以根据环境的直接反馈对智能体加以调整和改进,提升运用深度强化学技术解决实际问题的能力。本书涵盖深度q网络、策略梯度法、演员家算法、进化算法、ditdqn、多智能体强化学、可解释强化学等内容。本书给出的实战项目紧跟深度强化学技术的发展趋势,且所有项目示例以jupter notebook样式给出,便于读者修改代码、观察结果并及时获取经验,能够带给读者交互式的学体验。
本书适合有深度学和机器学基础并对强化学感兴趣的读者阅读。
作者简介:
alexander zai曾担任codemith(一个沉浸式的编码训练营)首席技术官和技术顾问、uber 软件工程师、bonjo和ai机器学工程师,他也是开源深度学框架apache mx的贡献者。此外,他还是两家公司的联合创立人,其中一家曾是ybinator的参与者。
brandon brown从很小的时候开始编程,大学期间做过兼职软件工程师,但终选择投身医疗行业(在此期间,他在医疗保健科技领域担任软件工程师)。受深度强化学的启发,他近期专注于计算精神病学的研究。
— 没有更多了 —
以下为对购买帮助不大的评价