消息首页搜索举报

深度强化学习图解

全新正版极速发货

86.47 6.2折 139 全新

库存7件

广东广州

认证卖家担保交易快速发货售后保障

作者[美]米格尔·莫拉莱斯(Miguel Morales)著郭涛译

出版社清华大学出版社

ISBN9787302605461

出版时间2022-07

装帧平装

开本16开

定价139元

货号31526422

上书时间2024-07-01

谢岳书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

绍兴：行稽山鉴水谱胆剑新篇 ¥31.25

巴布和弗洛系列：丢失的小桶(平)(双语绘本)(点读版) ¥3.31

大地之歌(为女高音男中音与乐队而作作品47号2005)/叶小纲作品选集 ¥136.73

扬州雕版精品丛书-吴地记(新雕) ¥1277.77

油气井水泥生产与应用 ¥21.42

养老机构感染性疾病防控管理 ¥32.35

科学(小学适用)/小升初基础知识大全 ¥7.07

Python程序设计基础 ¥39.21

国际大奖小说-55赫兹之歌 ¥6.10

商品详情

品相描述：全新

商品描述

前言

本书是深度强化学习理论与实践的桥梁。本书内容适用于熟悉机器学习技术，想要学习强化学习的读者。本书开篇将介绍深度强化学习的基础知识。随后深入探索深度强化学习的算法和技术，最后会提供一份具有潜在影响力的先进技术调查。
本书适用对象
熟悉深度强化学习领域、Python代码、一些数学知识，能够运用大量直观解释和有趣而具体的例子来推动学习的人，会喜欢本书。此外，任何熟悉Python的人都能学习到很多知识。即使DL知识不扎实，本书也能帮助读者对神经网络和反向传播及相关技术进行简单复习。最重要的是，本书不依赖于其他书，任何想简单了解AI智能体和深度强化学习的读者都能通过阅读本书达到目的。
本书结构
本书共13章，大致可分为两部分，前一部分包括１～5章，后一部分包括6～
13章。
第1章是深度强化学习导论，介绍深度强化学习的概念，讲述本书的最佳使用方式。第2章涵盖强化学习的概念、数学基础和多智能体强化学习框架等内容。第3章通过最佳行为策略算法来解决惯序决策问题，学习妥善平衡短期目标与长期目标的方法。第4章以多臂老虎机为例，探索策略，来解决未知转换函数与奖励信号的问题，合理权衡信息收集与信息运用。第5章评估智能体的行为。第6章介绍在转换函数和奖励函数未知的情况下，构造强化学习环境中的优化策略，训练优化的智能体行为。第7章讲述如何基于动态规划思想来优化强化学习，从而获得更高效的实现目标。第8章介绍基于价值的深度强化学习。第9章探索函数逼近和基于价值的深度强化学习。第10章探索高效抽样的价值深度强化学习方法。第11章探索策略梯度和actor-critic方法。第12章探索高级actor-critic方法。第13章讨论通用人工智能的未来发展方向。
关于代码
本书在“Python讲解”栏目中列举了许多源代码示例。源代码使用等宽字体进行格式化，这样就可与普通文本区分开，并添加有序的高亮突出显示，这样能使它更易于阅读。
大多数情况下，原始源代码已被重新格式化，本书添加了换行符、重命名变量并重新调整了缩进，以适应书中可用的页面空间。即使如此，在极少数情况下页面空间也还不够，Python中包括行连续操作符代码，即反斜杠 (\)，指示语句在下一行继续。
此外，源代码中的注释经常会被删除，文本仅描述代码。代码注释指出重要的概念。
可扫描封底二维码下载本书的示例代码。

商品简介

我们在与环境交互的过程中进行学习，经历的奖励或惩罚将指导我们未来的行为。深度强化学习将该过程引入人工智能领域，通过分析结果来寻找最有效的前进方式。DRL智能体可提升营销效果、预测股票涨跌，甚至击败**围棋高手和国际象棋大师。《深度强化学习图解》呈现生动示例，指导你构建深度学习体系。Python代码包含详明、直观的注释，助你深刻理解DRL技术。你将学习算法的运行方式，并学会用评估性反馈来开发自己的DRL智能体。本书主要内容包括: ●强化学习入门 ●行为与人类似的DRL智能体 ●在复杂情况下应用DRL

作者简介

　Miguel Morales在洛克希德·马丁(Lockheed Martin)公司从事强化学习工作，在佐治亚理工学院担任强化学习与决策课程的讲师。

目录
第1章  深度强化学习导论
  1.1  深度强化学习概念
    1.1.1  深度强化学习：人工智能的机器学习法
    1.1.2  深度强化学习着重创建计算机程序
    1.1.3  智能体解决智能问题
    1.1.4  智能体通过试错提高性能
    1.1.5  智能体从惯序性反馈中学习
    1.1.6  智能体从评估性反馈中学习
    1.1.7  智能体从抽样性反馈中学习
    1.1.8  智能体使用强大的非线性函数逼近
  1.2  深度强化学习的过去、现在与未来
    1.2.1  人工智能和深度强化学习的发展简史
    1.2.2  人工智能的寒冬
    1.2.3  人工智能现状
    1.2.4  深度强化学习进展
    1.2.5  未来的机遇
  1.3  深度强化学习的适用性
    1.3.1  利弊分析
    1.3.2  深度强化学习之利
    1.3.3  深度强化学习之弊
  1.4  设定明确的双向预期
    1.4.1  本书的预期
    1.4.2  本书的最佳使用方式
    1.4.3  深度强化学习的开发环境
  1.5  小结
第2章  强化学习数学基础
  2.1  强化学习组成
    2.1.1  问题、智能体和环境的示例
    2.1.2  智能体：决策者
    2.1.3  环境：其余一切
    2.1.4  智能体与环境交互循环
  2.2  MDP：环境的引擎
    2.2.1  状态：环境的特定配置
    2.2.2  动作：影响环境的机制
    2.2.3  转换函数：智能体行为的后果
    2.2.4  奖励信号：胡萝卜和棍棒
    2.2.5  视界：时间改变最佳选择
    2.2.6  折扣：未来是不确定的，别太看重它
    2.2.7  MDP扩展
    2.2.8  总体回顾
  2.3  小结
第3章  平衡短期目标与长期目标
  3.1  决策智能体的目标
    3.1.1  策略：各状态动作指示
    3.1.2  状态-值函数：有何期望
    3.1.3  动作-值函数：如果这样做，有何期望
    3.1.4  动作-优势函数：如果这样做，有何进步
    3.1.5  最优性
  3.2  规划最优动作顺序
    3.2.1  策略评估：评级策略

内容摘要
我们在与环境交互的过程中进行学习，经历的奖励或惩罚将指导我们未来的行为。深度强化学习将该过程引入人工智能领域，通过分析结果来寻找最有效的前进方式。DRL智能体可提升营销效果、预测股票涨跌，甚至击败顶尖围棋高手和国际象棋大师。
《深度强化学习图解》呈现生动示例，指导你构建深度学习体系。Python代码
包含详明、直观的注释，助你深刻理解DRL技术。你将学习算法的运行方式，并学会用评估性反馈来开发自己的DRL智能体。
本书主要内容包括：强化学习入门；行为与人类似的DRL智能体；在复杂情况下应用DRL。
本书适用于具有基础深度学习经验的开发者。

主编推荐

深度强化学习(Deep Reinforcement Leaming，DRL) 是深度学习和强化学习的巧
妙结合，是一种新兴的通用人工智能技术，是人工智能迈向智能决策的重要一步，是机器学习的热点，潜力无限，典型的成功案例是DeepMind AlphaGo和OpenAI Five。深度强化学习可看作在深度学习非线性函数超强拟合能力下，构成的一种新增强算法。目前就深度强化学习而言，需要从三个方面进行积累:第一，深度强化学习的理论基础:第二，深度强化学习的仿真平台:第三，产业落地的项目和产品。
从深度强化学习库以及框架看，学术界PyTorch和工业界Tensor Flow深度学习框架都将前沿成果集成进来。目前已有一些经典的深度强化学习文献和著作，但将深度强化学习理论、工具和实战相结合的著作还是很少，本书的出版恰好填补了这方面的空白。
本书图文并茂地对晦涩难懂的深度强化学习理论进行描述，并结合大量的案例
和应用程序，引导读者边思考边实践，从而逐步加深对深度强化学习的理解，并将这些新方法、新理论和新思想用于自己的研究。本书可作为从事智能机器人控制、计算机视觉、自然语言处理和自动驾驶系统/无人车等领域研究工作的工程师、计算机科学家和统计学家的参考书。

【内容简介】

— 没有更多了 —