• 强化学习
  • 强化学习
  • 强化学习
  • 强化学习
21年品牌 40万+商家 超1.5亿件商品

强化学习

正版新书 新华官方库房直发 可开电子发票

43.06 7.2折 59.8 全新

库存8件

江苏南京
认证卖家担保交易快速发货售后保障

作者魏庆来,王飞跃

出版社清华大学出版社

ISBN9787302589723

出版时间2022-07

版次1

装帧平装

开本16开

纸张胶版纸

页数248页

字数377千字

定价59.8元

货号SC:9787302589723

上书时间2024-06-25

问典书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
全新正版 提供发票
商品描述
主编推荐:
本书针对的是人工智能、机器学习和自动控制中的前沿技术——强化学习,论述了强化学习的基本知识,还阐述了强化学习中的近期新学习方法。并结合当下热点—深度学习,对深度学习与强化学习结合的产物—深度强化学习,进行了介绍与展望。同时,本书每章节均配有示例与名人传记,方便读者掌握方法的具体发展过程。
内容简介:
强化学习是目前机器学习乃至人工智能领域发展最快的分支之一。强化学习的基本思想是通过与环境的交互、智能体或智能算法获取相关智能,其具体过程就是根据环境反馈得到的奖励不断调整自身的策略进而获得优选奖励决策的学习历程。本书主要讲述了强化学习的基本原理和基本方法,基于强化学习的控制、决策和优化方法设计与理论分析,深度强化学习原理以及平行强化学习等未来强化学习的发展新方向,展示从先行后知到先知后行,再到知行合一的混合平行智能思路。

本书可作为高等学校人工智能、机器学习、智能控制、智能决策、智慧管理、系统工程以及应用数学等专业的本科生或研究生教材,亦可供相关专业科研人员和工程技术人员参考。

目录:
第1章 强化学习概论

1.1 引言

1.2 强化学习的发展历程

1.3 强化学习的研究现状

1.4 本书内容架构

参考文献

第2章 马尔可夫决策过程

2.1 马尔可夫决策过程

2.2 策略与代价函数

2.3 很优策略与很优代价函数

参考文献

第3章 动态规划

3.1 动态规划的兴起

3.2 动态规划基本思想:多级决策过程

3.3 很优性原理与递推方程

3.4 离散时间动态规划

3.5 连续时间动态规划

3.6 动态规划的挑战

参考文献

第4章 蒙特卡洛学习方法

4.1 蒙特卡洛方法背景

4.1.1 蒙特卡洛方法的由来

4.1.2 基于模型的算法与无模型算法比较

4.1.3 蒙特卡洛模拟的思路

4.2 蒙特卡洛预测

4.2.1 初次
...

—  没有更多了  —

以下为对购买帮助不大的评价

全新正版 提供发票
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP