消息首页搜索举报

【包邮】强化学习/智能科学与技术丛书【正版九新】

九品消毒塑封

22.6 1.9折 119 九五品

库存2件

天津宝坻

认证卖家担保交易快速发货售后保障

作者马可·威宁

出版社机械工业出版社

ISBN9787111600220

出版时间2018-06

装帧其他

开本16开

定价119元

货号9787111600220

上书时间2024-11-30

文渊文化传媒

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

【包邮】哈克贝利*费恩历险记【正版九新】 ¥12.70

【包邮】八卦象数点穴疗法【正版九新】 ¥14.50

【包邮】鼠王【正版九新】 ¥14.10

【包邮】家常菜·烘焙·主食·饮品大全【正版九新】 ¥14.60

【包邮】苏轼与朱熹（精装版）：触摸中国士人的精神内核！【正版九新】 ¥13.80

【包邮】杜邦十大安全理念透视【正版九新】 ¥14.10

【包邮】爱的川流不息(插图版) 【正版九新】 ¥13.50

【包邮】古诗带你去探秘(第二册)(美绘版) 【正版九新】 ¥14.10

【包邮】《教你炒股票》系列之二:见龙在田——做熟一种盈利模式【正版九新】 ¥15.00

商品详情

品相描述：九五品

商品描述: 作者简介
马可·威宁，在荷兰格罗宁根大学人工智能系工作，他发表过各种强化学习主题的文章，研究领域包括强化学习、机器学习、深度学习、目标识别、文本学习，进化计算、机器人等。
马丁·范·奥特罗，是荷兰奈梅亨大学认知人工智能小组的一员。主要研究领域是强化学习在环境中的知识表示。

目录
译者序
序言
前言
作者清单
第一部分  绪论
  第1章  强化学习和马尔可夫决策过程
    1.1  简介
    1.2  时序决策
      1.2.1  接近时序决策
      1.2.2  在线学习与离线学习
      1.2.3  贡献分配
      1.2.4  探索–运用的平衡
      1.2.5  反馈、目标和性能
      1.2.6  表达
    1.3  正式的框架
      1.3.1  马尔可夫决策过程
      1.3.2  策略
      1.3.3  最优准则和减量
    1.4  价值函数和贝尔曼方程
    1.5  求解马尔可夫决策过程
    1.6  动态规划：基于模型的解决方案
      1.6.1  基本的动态规划算法
      1.6.2  高效的动态规划算法
    1.7  强化学习：无模型的解决方案
      1.7.1  时序差分学习
      1.7.2  蒙特卡罗方法
      1.7.3  高效的探索和价值更新
    1.8  总结
    参考文献
第二部分  高效的解决方案框架
  第2章  批处理强化学习
    2.1  简介
    2.2  批处理强化学习问题
      2.2.1  批处理学习问题
      2.2.2  增长批处理学习问题
    2.3  批处理强化学习算法的基础
    2.4  批处理强化学习算法
      2.4.1  基于核的近似动态规划
      2.4.2  拟合Q迭代
      2.4.3  基于最小二乘的策略迭代
      2.4.4  识别批处理算法
    2.5  批处理强化学习理论
    2.6  批处理强化学习的实现
      2.6.1  神经拟合Q迭代
      2.6.2  控制应用中的神经拟合Q迭代算法
      2.6.3  面向多学习器的批处理强化学习
      2.6.4  深度拟合Q迭代
      2.6.5  应用／发展趋势
    2.7  总结
    参考文献

内容摘要
马可·威宁、马丁·范·奥特罗编著的《强化学习/智能科学与技术丛书》分为六大部分，详细介绍了强化学习中各领域的基本理论和新进展，内容包括：MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容，并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用，后提出未来发展趋势及研究热点问题，有助于年轻的研究者了解整个强化学习领域，发现新的研究方向。
本书适合作为高等院校机器学习相关课程的参考书，也可作为人工智能领域从业技术人员的参考用书。

— 没有更多了 —

【包邮】 强化学习/智能科学与技术丛书 【正版九新】

文渊文化传媒

商品详情

【包邮】强化学习/智能科学与技术丛书【正版九新】