消息首页搜索举报

深度强化学习

正版新书新华官方库房直发可开电子发票

67.5 5.2折 129.8 全新

库存153件

江苏南京

认证卖家担保交易快速发货售后保障

作者王树森,黎彧君,张志华

出版社人民邮电出版社

ISBN9787115600691

出版时间2022-11

版次1

装帧平装

开本16开

纸张胶版纸

页数312页

字数446千字

定价129.8元

货号SC:9787115600691

上书时间2024-09-16

文源文化

六年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 9小时
好评率暂无

最新上架

领导力密码 ¥47.54

烈火浇愁大结局 ¥29.71

《周易》美学 ¥87.04

何以滋养灵魂 ¥33.32

芥子园画传 ¥30.80

古诗今选 ¥69.12

当代毕昇王选 ¥13.72

中国反恐怖主义法教程(第2版) ¥40.88

藏在博物馆里的中国历史春秋战国那些事儿 ¥11.53

商品详情

品相描述：全新: 全新正版提供发票

商品描述

作者简介:

王树森现任小红书基础模型团队负责人，从事搜索和推荐算法研发工作。从浙江大学获得计算机学士和博士学位，就读期间获得“微软学者”和“百度奖学金”等多项荣誉。在加入小红书之前，曾任美国加州大学伯克利分校博士后、美国史蒂文斯理工学院助理教授、博导。在机器学习、强化学习、数值计算、分布式计算等方向有多年科研经验，在计算机国际期刊和会议上发表30多篇论文。在YouTube、B站开设“深度强化学习”“深度学习”“推荐系统”公开课（ID：Shusen Wang），视频播放量100万次。黎彧君华为诺亚方舟实验室高级研究员，主要从事AutoML相关的研发工作。上海交通大学博士，研究方向为数值优化、强化学习；攻读博士学位期间曾前往普林斯顿大学访问一年。共同翻译出版“花书”《深度学习》。张志华北京大学数学科学学院教授。此前先后执教于浙江大学和上海交通大学，任计算机科学教授。主要从事统计学、机器学习与计算机科学领域的研究和教学。曾主讲“统计机器学习”“机器学习导论”“深度学习”“强化学习”，其课程视频广受欢迎。

主编推荐:

1.内容新颖，涵盖近 10 年的热门深度强化学习方法，紧跟学术前沿 2.知识精悍，围绕实用、精简两大原则，专注核心知识，成书篇幅仅 312 页 3.图多易懂，书中原创 140 多幅精美全彩插图，让方法和原理变得形象生动 4.论文导读，书中列出了 136 篇参考文献，相当于一份宝贵的论文阅读清单 5.配套课件，部分章节配有 PPT 和公开视频课，读者可以直接获取所有资源（1.教学PPT、配套代码：图灵社区本书主页下载；2.教学视频：B站或YouTube搜索“深度强化学习”） 6.作者资历丰富，小红书基础模型团队负责人王树森、华为诺亚方舟实验室高级研究员黎彧君联合北大数学科学院教授张志华作品

内容简介:

本书基于备受读者推崇的王树森“深度强化学习”系列公开视频课，专门解决“入门深度强化学习难”的问题。本书的独特之处在于：第一，知识精简，剔除一切不必要的概念和公式，学起来轻松；第二，内容新颖，聚焦近10年深度强化学习领域的突破，让你一上手就紧跟zui新技术。本书系统讲解深度强化学习的原理与实现，但不回避数学公式和各种模型，原创100多幅精美插图，并以全彩印刷展示。简洁清晰的语言+生动形象的图示，助你扫除任何可能的学习障碍！本书内容分为五部分：基础知识、价值学习、策略学习、多智能体强化学习、应用与展望，涉及DQN、A3C、TRPO、DDPG、AlphaGo等。本书面向深度强化学习入门读者，助你构建完整的知识体系。学完本书，你能够轻松看懂深度强化学习的实现代码、读懂该领域的论文、听懂学术报告，具备进一步自学和深挖的能力。

第一部分基础知识
第1章机器学习基础2
1.1线性模型2
1.1.1线性回归2
1.1.2逻辑斯谛回归4
1.1.3softmax分类器7
1.2神经网络10
1.2.1全连接神经网络10
1.2.2卷积神经网络11
1.3梯度下降和反向传播12
1.3.1梯度下降13
1.3.2反向传播14
知识点小结16
习题16
第2章蒙特卡洛方法18
2.1随机变量18
2.2蒙特卡洛方法实例21
2.2.1例一：近似π值21
2.2.2例二：估算阴影部分面积23
2.2.3例三：近似定积分25
2.2.4例四：近似期望26
2.2.5例五：随机梯度27
知识点小结29
习题29
第3章强化学习基本概念31
3.1马尔可夫决策过程31
3.1.1状态、动作、奖励31
3.1.2状态转移32
3.2策略33
3.3随机性35
3.4回报与折扣回报37
3.4.1回报37
3.4.2折扣回报37
3.4.3回报中的随机性38
3.4.4有限期MDP和无限期MDP39
3.5价值函数39
3.5.1动作价值函数40
3.5.2zui优动作价值函数40
3.5.3状态价值函数41
3.6实验环境：OpenAIGym42
知识点小结44
习题44
第二部分价值学习
第4章DQN与Q学习48
4.1DQN48
4.1.1概念回顾48
4.1.2DQN表达式49
4.1.3DQN的梯度50
4.2TD算法50
4.2.1驾车时间预测示例50
4.2.2TD算法的原理51
4.3用TD训练D
...

— 没有更多了 —