强化学习（微课版）

38.6 5.6折 69 全新

库存32件

河北保定

认证卖家担保交易快速发货售后保障

作者袁莎；白朔天；唐杰

出版社清华大学出版社

出版时间2021-10

版次1

装帧其他

货号9787302587941

上书时间2024-11-16

尚贤文化郑州分店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 27小时
好评率暂无

最新上架

地理信息系统技术应用 ¥10.20

数字摄影测量学 ¥14.90

GPS测量实施与数据处理 ¥9.00

宝宝的第一本安全护照（小班） ¥2.90

武当道医临证灵方妙法系列丛书：武当方药精华 ¥12.90

武当道医临证灵方妙法系列丛书：武当道医伤科临证灵方妙法 ¥14.40

武当道医临证灵方妙法系列丛书：武当道医外科临证灵方妙法 ¥12.90

武当道医临证灵方妙法系列丛书：武当道医儿科临证灵方妙法 ¥14.00

少儿3D立体童话影院：梦彩卷（全四卷） ¥5.60

商品详情

品相描述：全新

图书标准信息

作者袁莎；白朔天；唐杰
出版社清华大学出版社
出版时间 2021-10
版次 1
ISBN 9787302587941
定价 69.00元
装帧其他
开本 16开
纸张胶版纸
页数 276页
字数 451.000千字

【内容简介】: 本书构建了一个完整的强化学习入门路径，深入浅出地介绍了强化学习算法的基本原理和实现方法。本书
   首先回顾了相关预备知识，包括数学基础和机器学习基础，然后先介绍强化学习的基本概念，给出强化学习的
   数学框架（马尔可夫决策过程），随后介绍强化学习的求解算法，包括表格求解法（动态规划法、蒙特卡洛法
   和时序差分法），以及近似求解法（值函数近似法、策略梯度法和深度强化学习）。本书后一部分为实践与前
   沿，实践部分基于一个相同的例子实现了强化学习领域的主流基础算法，前沿部分介绍了强化学习领域的**
   研究进展。本书配有相当数量的习题供练习，配套代码基于 Python 实现，源代码均已开源，可开放获取。
   本书可作为理工科本科生、研究生的“强化学习”课程的教材，也可作为相关从业者掌握强化学习的入门
   参考书。
【作者简介】: 袁莎，清华大学计算机系博士后，合作导师为唐杰教授，主持一项自然科学青年项目和一项博士后科学面上项目。唐杰 ieee fellow，清华大学计算机系教授、系副主任，获杰出青年科学、王选杰青奖。研究人工智能、认知图谱、数据挖掘、社交网络和机器学。发表300余篇，获acm igkdd tetoftime award（十年佳）。主持研发了超大规模预训练模型“悟道”，参数规模超过1.75万亿。之前还研发了研究者社会网络挖掘系统aminer，吸引全球220个/地区2000多万用户。担任国际期刊ieee t. on big data、ai open主编以及’23大会。获科技进步、北京市科技进步、北京市专利奖、人工智能学会科技进步、kdd杰出贡献奖。
【目录】: i 概述

章导论

1．1 强化学简介

1．1．1 两个主要特征

1．1．2 与机器学的关系

1．2 强化学发展史

1．2．1 试错学

1．2．2 优控制

1．2．3 时序差分学

1．2．4 深度强化学

1．3 本书的主要内容

1．4 本章小结

ii 预备知识

第2章概率统计与过程

2．1 概率论

2．1．1 集合

2．1．2 概率

2．1．3 试验与事件

2．1．4 条件概率与独立事件

2．1．5 变量

2．1．6 期望与方差

2．1．7 概率分布

2．2 统计学基础

2．2．1 大数定律

2．2．2 中心极限定理

2．3 过程

2．3．1 基本概念

2．3．2 分布函数

2．3．3 基本类型

2．3．4 马尔可夫过程

2．3．5 马尔可夫链的分类

2．3．6 稳分布

2．4 本章小结

第3章机器学

3．1 基本概念

3．2 线回归

3．3 逻辑回归

3．3．1 逻辑回归模型

3．3．2 逻辑回归指标

3．3．3 逻辑回归算法

3．4 梯度下降

3．4．1 梯度下降法

3．4．2 基于sgd实现逻辑回归

3．5 本章小结

第4章神经网络

4．1 神经元

4．2 感知机

4．2．1 感知机模型

4．2．2 感知机指标

4．2．3 感知机算法

4．3 神经网络

4．3．1 神经网络模型

4．3．2 神经网络指标

4．3．3 神经网络算法

4．3．4 梯度消失现象

4．4 本章小结

第5章深度学

……

iii 强化学基础

iv 表格求解法

v 近似求解法

vi 实践与前沿

vii 附录

点击展开点击收起

— 没有更多了 —