• 深度强化学 人工智能 王树森,黎彧君,张志华 新华正版
21年品牌 40万+商家 超1.5亿件商品

深度强化学 人工智能 王树森,黎彧君,张志华 新华正版

入门深度强化学用猫书!北大教授王树森等业内大咖新作,涵盖近十年热门深度学方,围绕实用、精简两大原则,140多幅全彩插图,配备ppt与视频课程,零基础也能轻松掌握,让你的深度学之旅倍感愉悦!

63.55 4.9折 129.8 全新

库存113件

河北保定
认证卖家担保交易快速发货售后保障

作者王树森,黎彧君,张志华

出版社人民邮电出版社

ISBN9787115600691

出版时间2022-11

版次1

装帧平装

开本16开

页数312页

字数446千字

定价129.8元

货号xhwx_1202771568

上书时间2022-12-18

浩子书屋

八年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

1.内容新颖,涵盖近10年的热门深度强化学方,紧跟学术前沿2.知识精悍,围绕实用、精简两大原则,专注核心知识,成书篇幅仅312页3.图多易懂,书中原创140多幅精美全彩插图,让方和变得形象生动4.导读,书中列出了136篇参文献,相当于一份宝贵的阅读清单5.配套课件,部分章节配有ppt和公开视频课,读者可以直接获取所有资源6.作者资历丰富,基础模型团队负责人王树森、华为诺亚方舟实验室研究员黎彧君联合北大数学科学院教授张志华作品

目录:

部分基础知识

章机器学基础2

1.1线模型2

1.1.1线回归2

1.1.2逻辑斯谛回归4

1.1.3softmax分类器7

1.2神经网络10

1.2.1全连接神经网络10

1.2.2卷积神经网络11

1.3梯度下降和反向传播12

1.3.1梯度下降13

1.3.2反向传播14

知识点小结16

题16

第2章蒙特卡洛方18

2.1变量18

2.2蒙特卡洛方实例21

2.2.1例一:近似π值21

2.2.2例二:估算阴影部分面积23

2.2.3例三:近似定积分25

2.2.4例四:近似期望26

2.2.5例五:梯度27

知识点小结29

题29

第3章强化学基本概念31

3.1马尔可夫决策过程31

3.1.1状态、动作、奖励31

3.1.2状态转移32

3.2策略33

3.335

3.4回报与折扣回报37

3.4.1回报37

3.4.2折扣回报37

3.4.3回报中的38

3.4.4有限期mdp和无限期mdp39

3.5价值函数39

3.5.1动作价值函数40

3.5.2很优动作价值函数40

3.5.3状态价值函数41

3.6实验环境:openaigym42

知识点小结44

题44

第二部分价值学

第4章dqn与q学48

4.1dqn48

4.1.1概念回顾48

4.1.2dqn表达式49

4.1.3dqn的梯度50

4.2td算50

4.2.1驾车时间预测示例50

4.2.2td算的51

4.3用td训练dqn53

4.3.1算推导53

4.3.2训练流程55

4.4q学算57

4.4.1表格形式的q学57

4.4.2算推导57

4.4.3训练流程58

4.5同策略与异策略59

相关文献60

知识点小结61

题61

第5章sarsa算63

5.1表格形式的sarsa63

5.1.1算推导63

5.1.2训练流程64

5.1.3q学与sarsa的对比65

5.2神经网络形式的sarsa66

5.2.1价值网络66

5.2.2算推导66

5.2.3训练流程67

5.3多步td目标68

5.3.1算推导68

5.3.2多步td目标的69

5.3.3训练流程70

5.4蒙特卡洛方与自举70

5.4.1蒙特卡洛方71

5.4.2自举71

5.4.3蒙特卡洛方和自举的对比72

相关文献73

知识点小结73

题74

第6章价值学技巧75

6.1经验回放75

6.1.1经验回放的优点76

6.1.2经验回放的局限76

6.1.3优先经验回放77

6.2高估问题及解决方79

6.2.1自举导致偏差传播79

6.2.2优选化导致高估80

6.2.3高估的危害81

6.2.4使用目标网络82

6.2.5双q学算84

6.2.6结85

6.3对决网络86

6.3.1很优优势函数86

6.3.2对决网络的结构87

6.3.3解决不专享88

6.3.4对决网络的实际实现89

6.4噪声网络90

6.4.1噪声网络的90

6.4.2噪声dqn91

6.4.3训练流程93

相关文献94

知识点小结94

题94

第三部分策略学

第7章策略梯度方98

7.1策略网络98

7.2策略学的目标函数99

7.3策略梯度定理101

7.3.1简化证明101

7.3.2严格证明102

7.3.3近似策略梯度106

7.4reinforce107

7.4.1简化推导108

7.4.2训练流程108

7.4.3严格推导109

7.5actor-critic110

7.5.1价值网络110

7.5.2算推导111

7.5.3训练流程114

7.5.4用目标网络改进训练114

相关文献115

知识点小结115

题116

第8章带基线的策略梯度方117

8.1策略梯度中的基线117

8.1.1基线的引入117

8.1.2基线的直观解释118

8.2带基线的reinforce算119

8.2.1策略网络和价值网络120

8.2.2算推导121

8.2.3训练流程121

8.3advantageactor-critic122

8.3.1算推导123

8.3.2训练流程125

8.3.3用目标网络改进训练126

8.4证明带基线的策略梯度定理127

知识点小结128

题128

第9章策略学技巧129

9.1置信域策略优化129

9.1.1置信域方129

9.1.2策略学的目标函数132

9.1.3算推导133

9.1.4训练流程135

9.2策略学中的熵正则135

相关文献138

知识点小结138

0章连续控制139

10.1连续空间的离散化139

10.2深度确定策略梯度140

10.2.1策略网络和价值网络140

10.2.2算推导142

10.3深入分析ddpg145

10.3.1从策略学的角度看待ddpg145

……

内容简介:

本书基于备受读者推崇的王树森“深度强化学”系列公开视频课,专门解决“入门深度强化学难”的问题。本书的独特之处在于:,知识精简,剔除不必要的概念和公式,学起来轻松;第二,内容新颖,聚焦近10年深度强化学领域的突破,让你一上手紧跟近期新技术。本书系统讲解深度强化学的与实现,但不回避数学公式和各种模型,原创100多幅精美插图,并以全彩印刷展示。简洁清晰的语言生动形象的图示,助你扫除任何可能的学障碍!本书内容分为五部分:基础知识、价值学、策略学、多智能体强化学、应用与展望,涉及dqn、a3c、trpo、ddpg、alphago等。本书面向深度强化学入门读者,助你构建完整的知识体系。学完本书,你能够轻松看懂深度强化学的实现代码、读懂该领域的、听懂学术报告,具备进一步自学和深挖的能力。

作者简介:

王树森现任基础模型团队负责人,从事搜索和算研发工作。从浙江大学获得计算机学士和博士,读期间获得“微软学者”和“百度奖学金”等多项荣誉。在加入之前,曾任美国加州大学伯克利分校博士后、美国史蒂文斯理工学院助理教授、博导。在机器学、强化学、数值计算、分布式计算等方向有多年科研经验,在计算机国际很好期刊和会议上发表30多篇。在youtube、b站开设“深度强化学”“深度学”“系统”公开课(id:shusenwang),所有渠道视频播放量100万次。黎彧君华为诺亚方舟实验室研究员,主要从事automl相关的研发工作。上海交通大学博士,研究方向为数值优化、强化学;攻读博士期间曾前往普林斯顿大学访问一年。共同翻译出版“花书”深度学。张志华北京大学数学科学学院教授。此前先后执教于浙江大学和上海交通大学,任计算机科学教授。主要从事统计学、机器学与计算机科学领域的研究和教学。曾主讲“统计机器学”“机器学导论”“深度学”“强化学”,其课程视频广受欢迎。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP