深入浅出强化学习:编程实战9787121367465
正版二手图书,可开发票,请放心购买。
¥
18.7
2.1折
¥
89
九品
仅1件
作者郭宪
出版社电子工业出版社
ISBN9787121367465
出版时间2020-03
装帧平装
开本16开
定价89元
货号1240926416146129667
上书时间2024-12-22
商品详情
- 品相描述:九品
- 商品描述
-
作者简介
郭宪,南开大学人工智能学院讲师。2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,2016年1月获得工学博士学位,并到南开大学从事博士后研究工作,2018年7月任教于南开大学至今。目前主要研究方向和兴趣是仿生机器人智能运动控制、强化学习和机器人博弈。__eol____eol__宋俊潇,香港科技大学博士,目前就职于启元世界,担任研究科学家,专注于决策智能相关算法的研究与开发。博士期间在靠前知名期刊和会议发表论文9篇。2015年,获得阿里巴巴天池大数据黄金联赛个人年度名(参赛队伍总计15154支)。曾就职于网易游戏,担任资深数据挖掘研究员,负责个性化推荐算法及基于深度强化学习的游戏AI技术的探索研究,三次获得公司层面的技术进步奖。__eol____eol__方勇纯,南开大学人工智能学院院长、教授、博士生导师,国家杰出青年基金获得者(2013年),教育部长江学者特聘教授(2017年)。1992~1994年在浙江大学混合班(尖子班)学习,获混合班荣誉证书。1996年和1999年分获浙江大学学士和硕士学位,2002年获美国克莱姆森大学(Clemson University)电机工程博士学位。2002至2003年在康乃尔大学(Cornell University)从事博士后研究。2003年底至今,任教于南开大学。目前主要研究方向为机器人视觉控制、无人机、欠驱动吊车系统和微纳米操作。
目录
第0 篇 先导篇 11 一个极其简单的强化学习实例 21.1 多臂赌博机 21.1.1 ? ? greedy策略 31.1.2 玻尔兹曼策略 . 61.1.3 UCB 策略 71.2 多臂赌博机代码实现 72 马尔可夫决策过程 132.1 从多臂赌博机到马尔可夫决策过程 132.2 马尔可夫决策过程代码实现 23 篇 基于值函数的方法 313 基于动态规划的方法 323.1 策略迭代与值迭代 .323.1.1 策略迭代算法原理 333.1.2 值迭代算法原理 353.2 策略迭代和值迭代的代码实现 363.2.1 鸳鸯环境的修改 363.2.2 策略迭代算法代码实现 373.2.3 值迭代算法代码实现 .414 基于蒙特卡洛的方法 454.1 蒙特卡洛算法原理 464.2 蒙特卡洛算法的代码实现 494.2.1 环境类的修改和蒙特卡洛算法类的声明 494.2.2 探索初始化蒙特卡洛算法实现 524.2.3 同策略蒙特卡洛算法实现 . 565 基于时间差分的方法 625.1 从动态规划到时间差分强化学习 625.2 时间差分算法代码实现 665.2.1 时间差分算法类的声明 665.2.2 SARSA 算法 . 675.2.3 Q-Learning 算法 706 基于函数逼近的方法 746.1 从表格型强化学习到线性函数逼近强化学习 746.1.1 表格特征表示 746.1.2 固定稀疏表示 756.1.3 参数的训练 766.2 基于线性函数逼近的Q-Learning 算法实现 766.3 非线性函数逼近DQN 算法代码实现 85第2 篇 直接策略搜索的方法 957 策略梯度方法 967.1 算法基本原理及代码架构 967.1.1 策略的表示问题 977.1.2 随机策略梯度的推导 987.1.3 折扣累积回报 997.1.4 代码架构 1017.2 离散动作:CartPole 实例解析及编程实战 1037.2.1 CartPole 简介 1037.2.2 问题分析及MDP 模型 .1047.2.3 采样类的Python 源码实现 1057.2.4 策略网络模型分析 1067.2.5 策略网络类的Python 源码实现 1087.2.6 策略网络的训练与测试 1107.2.7 用策略梯度法求解Cartpole 的主函数 1127.2.8 CartPole 仿真环境开发 1137.3 连续动作Pendulum 实例解析及编程实战 1177.3.1 Pendulum 简介 1187.3.2 采样类的Python 源代码实现 1187.3.3 策略网络模型分析 .1207.3.4 策略网络类的Python 源码实现 1217.3.5 策略网络的训练与测试 1257.3.6 用策略梯度法求解Pendulum 的主函数 1267.3.7 Pendulum 仿真环境开发 1278 Actor-Critic 方法 1318.1 Actor-Critic 原理及代码架构 1318.1.1 Actor-Critic 基本原理 1318.1.2 Actor-Critic 算法架构 .1338.2 TD-AC 算法 1338.2.1 采样类的Python 源码 1348.2.2 策略网络的Python 源码 1358.2.3 策略训练和测试 1388.2.4 主函数及训练效果 1408.3 Minibatch-MC-AC 算法 1418.3.1 Minibatch-MC-AC 算法框架 1418.3.2 采样类的Python 源码 1428.3.3 策略网络的Python 源码 1448.3.4 策略的训练和测试 1478.3.5 主函数及训练效果 1499 PPO 方法 1519.1 PPO 算法基本原理及代码结构 1519.2 Python 源码解析 1549.2.1 采样类 1549.2.2 策略网络 1569.2.3 策略的训练和测试 1599.2.4 主函数及训练效果 16010 DDPG 方法 16310.1 DDPG 基本16310.2 Python 源码解析 16710.2.1 经验缓存器类 16710.2.2 策略网络 16910.2.3 训练和测试 17310.2.4 主函数及训练效果 175第3 篇 基于模型的强化学习方法 17711 基于模型预测控制的强化学习算法 17811.1 基于模型的强化学习算法的基本原理 17811.1.1 神经网络拟合动力学模型 17911.1.2 模型预测控制 17911.1.3 基于模型的强化学习算法伪代码 18011.2 Python 源码实现及解析 18111.2.1 数据收集类 18111.2.2 数据采样类 18111.2.3 动力学网络类 18211.2.4 模型预测控制器类 18511.2.5 模型训练和预测函数 18611.2.6 主函数 18812 AlphaZero 原理浅析 19012.1 从AlphaGo 到AlphaZero 19112.2 蒙特卡洛树搜索算法 19612.2.1 博弈树和极小极大搜索 19612.2.2 再论多臂老虎机问题 19812.2.3 UCT 算法 20012.3 基于自我对弈的强化学习 20612.3.1 基于MCTS 的自我对弈 20612.3.2 策略价值网络的训练 21013 AlphaZero 实战:从零学下五子棋 21413.1 构建简易的五子棋环境 21513.2 建立整体算法流程 22313.3 实现蒙特卡洛树搜索 22913.4 实现策略价值网络 23513.5 训练实验与效果评估 240附录A PyTorch 入门 246A.1 PyTorch 基础知识 246A.1.1 Tensor 246A.1.2 基础操作 247A.1.3 Tensor 和NumPy array 间的转化 249A.1.4 Autograd:自动梯度 249A.2 PyTorch 中的神经网络 250A.2.1 如何定义神经网络 251A.2.2 如何训练神经网络 254A.2.3 在CIFAR-10 数据集上进行训练和测试 256A.2.4 模型的保存和加载 259参考文献 261后记 263
内容摘要
涵盖强化学习基本算法实践+深度强化学习算法的原理实现及案例。代码丰富,可直接上手操作;配套丰富的直播课程资源!
主编推荐
"本书是《深入浅出强化学习:原理入门》的姐妹篇。1 实战性强:以编程实战为主线,旨在帮助读者通过实战更清晰地理解算法并快速应用。2 系统全面:在马尔可夫理论框架下,介绍了很基本的算法,涵盖了基于值函数的算法,直接策略搜索方法,基于模型的强化学习方法等。3 前沿技术分析:剖析了AlphaZero强大技术背后的深度强化学习原理,并介绍了它在五子棋上的具体实现。4 操作性强:读者可根据书中的代码直接上手,并通过修改程序中的超参数,亲自体会算法原理。"
— 没有更多了 —
以下为对购买帮助不大的评价