• 【正版新书】强化学习算法入门
21年品牌 40万+商家 超1.5亿件商品

【正版新书】强化学习算法入门

【正版书籍 可开发票】

44 6.3折 69.8 全新

库存16件

河北保定
认证卖家担保交易快速发货售后保障

作者曾我部东马

出版社水利水电出版社

ISBN9787522617619

出版时间2024-01

装帧平装

开本32开

定价69.8元

货号L9787522617619

上书时间2024-05-25

百科正版图书

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
商品简介
作为第一个战胜围棋世界冠军的人工智能机器人AlphaGo,我们知道其主要工作原理是深度学习。随着AlphaGo Zero和Alpha Zero的相继发布,作为机器学习经典算法之一的强化学习,在人工智能领域受到了更多的关注。
《强化学习算法入门》使用通俗易懂的语言,按照“原理-公式-程序”的方式,对强化学习的基础知识进行了详细讲解。书中先让大家从熟悉的“平均值计算”作为切入点,学习强化学习的基本概念,然后结合实例学习了函数近似方法、深度强化学习的原理和方法等,比较了各算法的特点和应用,并用Python和MATLAB两种语言进行了编程实现。
《强化学习算法入门》内容丰富,实践性强,特别适合高校人工智能相关专业学生,机器学习、深度学习工程师等学习强化学习算法。
作者简介:
[日] 曾我部东马
理学博士(物理学专业)。曾任马克斯·普朗克研究所(德国)博士研究员、剑桥大学(英国)研究员。2009年回到日本,参与创立了Grid公司,担任董事兼首席技术官。2011年起先后担任东京大学尖端科学技术研究中心特聘助理教授、特聘副教授。2016年3月起任电气通信大学副教授,同时兼任Grid公司首席技术顾问、东京大学尖端科学技术研究中心客座研究员至今。
他以开发具有“深度学习—深度强化学习—回归预测—优化”功能的跨功能机器学习框架∞ReNom而闻名,目前在开发以量子机器学习为代表的最先进量子算法∞ReNomQ的同时,还致力于使用深度强化学习的“在线优化问题”的研究。

目录
第一章 强化学习的基本概念    1.1 平均值与期望值    1.2 平均值与值    1.3 平均值与马尔可夫    1.4 贝尔曼方程的平均推导    1.5 蒙特卡洛学习方法的平均推导    1.6 TD 方法的平均推导第2章 特征与每个算法的应用    2.1 测量π(A | S)    2.2 动态规划    2.3 蒙特卡罗方法    2.4 TD(0) 方法第 3 章 函数逼近方法    3.0 介绍    3.1 函数逼近的基本概念 3.2 使用函数逼近模型的 V(St) 表达    3.3 机器学习的值函数 3.4 应用蒙特卡罗方法的价值函数回归    3.5 应用Td(0)-SARSA方法回归行为状态价值函数    3.6 应用Td(0)-Q方法回归行为状态价值函数第4章 深度强化学习的原理和方法    4.1 在TD-Q学习中行为价值函数回归由NN    4.2 行为状态值函数通过 DQN 逼近    4.3 概率策略梯度法    4.4 行列式策略梯度方法    4.5 TRPO  PPO 方法    4.6 Alpha Go 零学习方法    4.7 总结与扩展

内容摘要
作为第一个战胜围棋世界冠军的人工智能机器人AlphaGo,我们知道其主要工作原理是深度学习。随着AlphaGo Zero和Alpha Zero的相继发布,作为机器学习经典算法之一的强化学习在人工智能领域受到了更多的关注。《强化学习算法入门》就用通俗易懂的语言,按照“原理-公式-程序”的方式对强化学习的基础知识进行了详细讲解。书中先让大家从熟悉的“平均值计算”作为切入点学习强化学习的基本概念,然后结合实例学习了函数近似方法、深度强化学习的原理和方法等,比较了各算法的特点和应用,并用Python和MATLAB两种语言进行了编程实现。《强化学习算法入门》内容丰富,实践性强,特别适合高校人工智能相关专业学生,机器学习、深度学习工程师学习强化学习算法。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP