消息首页搜索举报

深度强化学习

全新正版假一赔十可开发票

46.48 5.2折 89 全新

库存12件

北京东城

认证卖家担保交易快速发货售后保障

作者(印)莫希特·塞瓦克著尹大伟,吴敏杰译

出版社国防工业出版社

ISBN9787118131796

出版时间2024-06

装帧平装

开本16开

定价89元

货号1203344284

上书时间2024-11-04

轻阅书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 8小时
好评率暂无

最新上架

豫西南鄂西北地区龙山晚期至二里头时代考古学文化研究

豫西南鄂西北地区龙山晚期至二里头时代考古学文化研究 ¥130.94

油气产业机器人概论 ¥29.19

Java语言程序设计上机指导与题解

Java语言程序设计上机指导与题解 ¥38.74

工程CAD实训教程 ¥27.61

庄子本原 ¥141.58

区间闭塞设备维护 ¥38.65

中国民间文学概论（第四版·数字教材版）（新编21世纪中国语言文学系列教材；“十二五”普通高等教育本科国家级规划教材）

中国民间文学概论（第四版·数字教材版）（新编21世纪中国语言文学系列教材；“十二五”普通高等教育本科国家级规划教材） ¥47.26

计算机基础题解与上机指导(第七版)

计算机基础题解与上机指导(第七版) ¥53.66

Creo Parametric 6.0计算机辅助设计

Creo Parametric 6.0计算机辅助设计 ¥45.88

商品详情

品相描述：全新

商品描述: 目录
第1章强化学习简介：AI智能体背后的智能

1.1什么是人工智能，强化学习与它有什么关系？

1.2理解强化学习的基本设计

1.3强化学习中的奖励和确定一个合适的奖励函数所涉及的问题

1.4强化学习的状态

1.5强化学习中的智能体

1.6小结

第2章强化学习的数学和算法理解：马尔可夫决策过程与解决方法

2.1马尔可夫决策过程

2.2贝尔曼方程

2.3动态规划和贝尔曼方程

2.4价值迭代和策略迭代方法

2.5小结

第3章编码环境和马尔可夫决策过程的求解：编码环境、价值迭代和策略迭代算法

3.1以网格世界问题为例

3.2构建环境

3.3平台要求和代码的工程架构

……

内容摘要
本书主要内容包括：介绍了强化学习的基本概念，如智能体、环境、状态、奖励、动作等；介绍了强化学习的数学和算法原理，如马尔可夫决策过程和贝尔曼方程，并在此基础上讨论了动态规划、值迭代和策略迭代方法；介绍了强化学习的估计与控制问题，并通过实例展示了Q学习的编程；深入探讨了深度学习的概念、架构机制，通过介绍激活函数、损失函数、优化器、卷积层、池化层、全连接层等概念，为后续章节与强化学习算法相结合作铺垫。

— 没有更多了 —

店铺评价

消息首页搜索

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用

暂时不用

打开孔网APP