• 正版 深度强化学习基于Python的理论及实践 Laura Graesser 机器学习 深度学习 优化算法 阐述理论和算法 再代码实现和实用性技巧

正版 深度强化学习基于Python的理论及实践 Laura Graesser 机器学习 深度学习 优化算法 阐述理论和算法 再代码实现和实用性技巧

9787111689331

93.92 全新

库存10件

江苏扬州

作者劳拉·格雷泽(Laura Graesser),龚辉伦(Wah Loon Keng)

出版社机械工业出版社

ISBN9787111689331

出版时间2021-08

装帧平装

开本16开

页数308页

货号656903887508

上书时间2024-03-22

   商品详情   

品相描述:全新
商品描述
商品基本信息     商品名称:     深度强化学习:基于Python的理论及实践     作     者:     [美] 劳拉·格雷泽 (Laura Graesser), [美] 华龙·肯 (Wah Loon Keng)     市 场 价:     119.00元     ISBN  号:     9787111689331     页     数:     308     出 版 社:     机械工业出版社      
      目录       赞誉 译者序 序言 前言 致谢 第1章 强化学习简介1 1.1 强化学习1 1.2 强化学习中的MDP4 1.3 强化学习中的学习函数7 1.4 深度强化学习算法9 1.4.1 基于策略的算法9 1.4.2 基于值的算法10 1.4.3 基于模型的算法10 1.4.4 组合方法11 1.4.5 本书中的算法12 1.4.6 同策略和异策略算法12 1.4.7 小结12 1.5 强化学习中的深度学习13 1.6 强化学习与监督学习14 1.6.1 缺乏先知14 1.6.2 反馈稀疏性15 1.6.3 数据生成15 1.7 总结16 第一部分 基于策略的算法和基于值的算法 第2章 REINFORCE18 2.1 策略18 2.2 目标函数19 2.3 策略梯度19 2.3.1 策略梯度推导20 2.4 蒙特卡罗采样22 2.5 REINFORCE算法23 2.5.1 改进的REINFORCE算法23 2.6 实现REINFORCE24 2.6.1 一种最小化REINFORCE的实现24 2.6.2 用PyTorch构建策略26 2.6.3 采样动作28 2.6.4 计算策略损失29 2.6.5 REINFORCE训练循环30 2.6.6 同策略内存回放31 2.7 训练REINFORCE智能体33 2.8 实验结果36 2.8.1 实验:评估折扣因子γ的影响36 2.8.2 实验:评估基准线的影响37 2.9 总结39 2.10 扩展阅读39 2.11 历史回顾39 第3章 SARSA40 3.1 Q函数和V函数40 3.2 时序差分学习42 3.2.1 时间差分学习示例44 3.3 SARSA中的动作选择48 3.3.1 探索和利用49 3.4 SARSA算法50 3.4.1 同策略算法51 3.5 实现SARSA52 3.5.1 动作函数:ε-贪婪52 3.5.2 计算Q损失52 3.5.3 SARSA训练循环54 3.5.4 同策略批处理内存回放55 3.6 训练SARSA智能体56 3.7 实验结果58 3.7.1 实验:评估学习率的影响58 3.8 总结60 3.9 扩展阅读60 3.10 历史回顾60 第4章 深度Q网络62 4.1 学习DQN中的Q函数62 4.2 DQN中的动作选择64 4.2.1 Boltzmann策略65 4.3 经验回放67 4.4 DQN算法68 4.5 实现DQN69 4.5.1 计算Q损失70 4.5.2 DQN训练循环70 4.5.3 内存回放71 4.6 训练DQN智能体74 4.7 实验结果77 4.7.1 实验:评估网络架构的影响77 4.8 总结78 4.9 扩展阅读79 4.10 历史回顾79 第5章 改进的深度Q网络80 5.1 目标网络80 5.2 双重DQN算法82 5.3 优先级经验回放85 5.3.1 重要性抽样86 5.4 实现改进的DQN88 5.4.1 网络初始化88 5.4.2 计算Q损失89 5.4.3 更新目标网络90 5.4.4 包含目标网络的DQN91 5.4.5 双重DQN91 5.4.6 优先级经验回放91 5.5 训练DQN智能体玩Atari游戏96 5.6 实验结果101 5.6.1 实验:评估双重DQN与PER的影响101 5.7 总结104 5.8 扩展阅读104 第二部分 组合方法 第6章 优势演员-评论家算法106 6.1 演员106 6.2 评论家107 6.2.1 优势函数107 6.2.2 学习优势函数110 6.3 A2C算法111 6.4 实

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP