• 深入浅出强化学习:原理入门
21年品牌 40万+商家 超1.5亿件商品

深入浅出强化学习:原理入门

本店所有商品均为正版二手书,品相九成新以上,经过翻新消毒处理后重新上架销售。下单24小时内发货,正常地区快递一般2-3天。

27.65 3.5折 79 九品

仅1件

四川成都
认证卖家担保交易快速发货售后保障

作者郭宪

出版社电子工业出版社

ISBN9787121329180

出版时间2018-01

版次1

装帧平装

开本16开

纸张胶版纸

页数239页

字数99999千字

定价79元

货号9787121329180

上书时间2023-11-07

人类起源书屋

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
商品描述
基本信息
书名:深入浅出强化学习:原理入门
定价:79.00元
作者:郭宪
出版社:电子工业出版社
出版日期:2018-01-01
ISBN:9787121329180
字数:284000
页码:239
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐
从零起步掌握强化学习技术精髓,称霸人工智能领域!《深入浅出强化学习:原理入门》针对初学者的需求,直接分析原理,并辅以编程实践。从解决问题的思路,层层剖析,普及了传统的强化学习基本方法和当前炙手可热的深度强化学习方法,直接将读者带入强化学习的殿堂。读完本书,读者能在熟练掌握原理的基础上,直接上手编程实践。本书的叙述方式简洁、直接、清晰,值得精读!
内容提要

目录
1 绪论 11.1 这是一本什么书 11.2 强化学习可以解决什么问题 21.3 强化学习如何解决问题 41.4 强化学习算法分类及发展趋势 51.5 强化学习仿真环境构建 71.5.1 gym安装及简单的demo示例 81.5.2 深入剖析gym环境构建 101.6 本书主要内容及安排 12第一篇 强化学习基础 172 马尔科夫决策过程 182.1 马尔科夫决策过程理论讲解 182.2 MDP中的概率学基础讲解 262.3 基于gym的MDP实例讲解 292.4 习题 343 基于模型的动态规划方法 363.1 基于模型的动态规划方法理论 363.2 动态规划中的数学基础讲解 473.2.1 线性方程组的迭代解法 473.2.2 压缩映射证明策略评估的收敛性 493.3 基于gym的编程实例 523.4 控制与强化学习比较 543.5 习题 56第二篇 基于值函数的强化学习方法 574 基于蒙特卡罗的强化学习方法 584.1 基于蒙特卡罗方法的理论 584.2 统计学基础知识 674.3 基于Python的编程实例 714.4 习题 745 基于时间差分的强化学习方法 755.1 基于时间差分强化学习算法理论讲解 755.2 基于Python和gym的编程实例 835.3 习题 876 基于值函数逼近的强化学习方法 886.1 基于值函数逼近的理论讲解 886.2 DQN及其变种 946.2.1 DQN方法 946.2.2 Double DQN 1006.2.3 优先回放(Prioritized Replay) 1026.2.4 Dueling DQN 1046.3 函数逼近方法 1056.3.1 基于非参数的函数逼近 1056.3.2 基于参数的函数逼近 1116.3.3 卷积神经网络 1176.4 习题 123第三篇 基于直接策略搜索的强化学习方法 1257 基于策略梯度的强化学习方法 1267.1 基于策略梯度的强化学习方法理论讲解 1267.2 基于gym和TensorFlow的策略梯度算法实现 1347.2.1 安装Tensorflow 1357.2.2 策略梯度算法理论基础 1357.2.3 Softmax策略及其损失函数 1367.2.4 基于TensorFlow的策略梯度算法实现 1387.2.5 基于策略梯度算法的小车倒立摆问题 1417.3 习题 1418 基于置信域策略优化的强化学习方法 1428.1 理论基础 1438.2 TRPO中的数学知识 1538.2.1 信息论 1538.2.2 优化方法 1558.3 习题 1649 基于确定性策略搜索的强化学习方法 1659.1 理论基础 1659.2 习题 17010 基于引导策略搜索的强化学习方法 17110.1 理论基础 17110.2 GPS中涉及的数学基础 17810.2.1 监督相LBFGS优化方法 17810.2.2 ADMM算法 17910.2.3 KL散度与变分推理 18310.3 习题 184第四篇 强化学习研究及前沿 18511 逆向强化学习 18611.1 概述 18611.2 基于边际的逆向强化学习 18711.3 基于熵的逆向强化学习 19411.4 习题 20112 组合策略梯度和值函数方法 20213 值迭代网络 20713.1 为什么要提出值迭代网络 20713.2 值迭代网络 21014 基于模型的强化学习方法:PILCO及其扩展 21414.1 概述 21414.2 PILCO 21614.3 滤波PILCO和探索PILCO 22614.3.1 滤波PILCO算法 22714.3.2 有向探索PILCO算法 23014.4 深度PILCO 232后记 235参考文献 237
作者介绍

序言

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP