消息首页搜索举报

强化学:前沿算法与应用:frontier algorithms and applications 人工智能白辰甲[等]编

新华书店全新正版书籍支持7天无理由

62.5 5.7折 109 全新

仅1件

北京丰台

认证卖家担保交易快速发货售后保障

作者白辰甲[等]编

出版社机械工业出版社

ISBN9787111724780

出版时间2023-05

版次1

装帧平装

开本16

页数304页

定价109元

货号303_9787111724780

上书时间2024-09-15

智胜图书专营店

六年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 27小时
好评率暂无

最新上架

萌宝的乐园建筑设计 (英)阿什琳·吉布森(ashlyn gibson) ¥31.40

宝匣作家作品集航鹰 ¥25.10

新潮演剧与中国戏剧的现代追求戏剧、舞蹈黄爱华,李伟主编 ¥27.70

顾公硕残稿拾影历史古籍高福民,陶莉,高晴编 ¥103.40

寂静的春天 (美)蕾切尔·卡森 ¥16.50

电子信息科学技术导论大中专理科电工电子吴莉莉编 ¥33.00

触摸屏实用技术(西门子) 电子、电工编者:王建//徐洪亮 ¥20.00

炫彩童年:中国百年童书精品图鉴综合读物编者:黄洁//王泉根 ¥193.50

费斯廷格人际关系思想解析/心理学大师人际关系思想经典研究书系公共关系钟毅 ¥23.20

商品详情

品相描述：全新: 正版特价新书

商品描述: 主编：

浙江大学吴飞教授作序，悉尼科技大学教授、澳大利亚人工智能理事会理事长张成奇，哈尔滨大学教授、级领才刘挺，北京大学教授，acm/ieee fellow邓小铁鼎力；人工智能领域专家白辰甲、赵英男、郝建业、刘鹏、倾力编写，强化学的创新力作。

目录：

序言

前言

章强化学简介

1.1从监督学到强化学

1.2强化学的发展历史

1.3强化学的研究范畴

1.4强化学的应用领域

第2章强化学基础知识

2.1强化学的核心概念

2.2马尔可夫和决策过程

2.3值函数和策略学

第3章基于值函数的强化学算法

3.1深度q学的基本理论

3.1.1深度q网络

3.1.2经验池

3.1.3目标网络

3.2深度q学的过估计

3.2.1过估计的产生原因

3.2.2doubleq-学

3.3深度q学的网络改进和高效采样

3.3.1dueling网络

3.3.2高效采样

3.4周期后序迭代q学

3.5q学用于连续动作空间

3.5.1基于并行结构的q学

3.5.2基于顺序结构的q学

3.6实例：使用值函数学的atari游戏

3.6.1环境预处理

3.6.2q网络的实现

3.6.3q学的核心步骤

第4章策略梯度迭代的强化学算法

4.1reinforce策略梯度

4.1.1策略梯度的基本形式

4.1.2降低策略梯度的方差

……

3.3.2高效采样/ 3.4周期后序迭代q学/ 3.5q学用于连续动作空间/ 3.5.1基于并行结构的 q学/ 3.5.2基于顺序结构的q学/ 3.6实例：使用值函数学的atari游戏/ 3.6.1环境预处理/ 3.6.2q网络的实现/ 3.6.3q学的核心步骤/第4章策略梯度迭代的强化学算法/ 4.1reinforce 策略梯度/ 4.1.1策略梯度的基本形式/ 4.1.2降低策略梯度的方差/ 4.2异步策略梯度法/ 4.2.1引入优势函数/ 4.2.2异步策略梯度/ 4.3近端策略优化法/ 4.3.1裁剪的优化目标/ 4.3.2自适应的优化目标/ 4.4深度确定策略梯度/ 4.4.1critic学/ 4.4.2actor学/ 4.4.3拓展1：探索噪声/ 4.4.4拓展2：孪生ddpg/ 4.5大熵策略梯度/ 4.5.1熵约束的基本/ 4.5.2sac算法/4.6实例：使用策略梯度的mujoco任务/ 4.6.1actor-critic网络实现/ 4.6.2核心算法实现/第5章基于模型的强化学方法/ 5.1如何使用模型来进行强化学/ 5.2基于模型预测的规划/ 5.2.1打靶法/ 5.2.2集成概率轨迹采样法/ 5.2.3基于模型和无模型的混合算法/ 5.2.4基于想象力的隐式规划方法/ 5.3黑盒模型的理论框架/ 5.3.1下界优化算法/ 5.3.2基于模型的策略优化算法/ 5.4白盒模型的使用/ 5.4.1值梯度算法/ 5.4.2模型增强的actor-critic算法/ 5.5实例：alphago围棋智能体/ 5.5.1网络结构介绍/ 5.5.2蒙特卡罗树搜索/ 5.5.3体训练流程/第6章值分布式强化学算法/ 6.1离散分布投影的值分布式算法/ 6.2分位数回归的值分布式算法/ 6.2.1分位数回归/ 6.2.2wasserstein距离/ 6.2.3qr-dqn算法/ 6.2.4单调的分位数学算法/ 6.3隐式的值分布网络/ 6.4基于值分布的代价敏感学/ 6.4.1iqn中的代价敏感学/ 6.4.2基于iqn的actor-critic模型的代价敏感学/ 6.5实例：基于值分布的q网络实现/ 6.5.1iqn模型构建/ 6.5.2iqn损失函数/第7章强化学中的探索算法/ 7.1探索算法的分类/ 7.2基于不确定估计的探索/ 7.2.1参数化后验的算法思路/ 7.2.2重采样dqn/ 7.3进行虚拟的探索/ 7.3.1基于图像生成模型的虚拟/ 7.3.2基于哈希的虚拟/ 7.4根据环境模型的探索/ 7.4.1特征表示的学/ 7.4.2网络蒸馏/ 7.4.3never-give-up算法/ 7.5实例：蒙特祖玛复仇任务的探索/ 7.5.1rnd网络结构/ 7.5.2rnd的训练/ 7.5.3rnd用于探索/第8章多目标强化学算法/ 8.1以目标为条件的价值函数/ 8.1.1大熵her/ 8.1.2动态目标her/ 8.2监督式的多目标学/ 8.2.1hindsight模仿学/ 8.2.2加权监督式多目标学/ 8.3推广的多目标学/ 8.4实例：机械臂的多目标抓取/ 8.4.1多目标实验环境/ 8.4.2her的实现方法/ 8.4.3mep的算法实现/第9章层次化强化学算法/ 9.1层次化学的重要/ 9.2基于子目标的层次化学/ 9.2.1封建网络的层次化学/ 9.2.2离策略修正的层次化学/ 9.2.3虚拟子目标的强化学方法/ 9.3基于技能的层次化学/ 9.3.1使用网络的层次化学/ 9.3.2共享分层的元学方法/ 9.4基于选项的层次化学/ 9.4.1option与半马尔可夫决策过程/ 9.4.2option-critic结构/ 9.5实例：层次化学走迷宫任务/0章基于技能的强化学算法/ 10.1技能学的定义/ 10.2互信息大化的技能学算法/ 10.2.1多样大化技能学算法/ 10.2.2其他基于互信息的技能学方法/ 10.3融合环境模型的技能学算法/ 10.4大化覆盖的技能学算法/ 10.5实例：人形机器人的技能学/1章离线强化学算法/ 11.1离线强化学中面临的困难/ 11.2策略约束的离线学/ 11.2.1bcq算法/ 11.2.2brac算法/ 11.2.3td3-bc算法/ 11.3使用保守估计的离线学/ 11.4基于不确定的离线学/ 11.4.1uwac算法/ 11.4.2mopo算法/ 11.4.3pbrl算法/ 11.5监督式的离线学/ 11.5.1dt算法/ 11.5.2rvs算法/ 11.6实例：使用离线学的d4rl任务集/ 11.6.1d4rl数据集的使用/ 11.6.2cql算法实现/ 11.6.3td3-bc算法实现/2章元强化学算法/ 12.1元强化学的定义/ 12.2基于网络模型的元强化学方法/ 12.2.1使用循环神经网络的元强化学方法/ 12.2.2基于时序卷积和软注意力机制的方法/ 12.3元梯度学/ 12.4元强化学中的探索方法/ 12.4.1结构化噪声探索方法/ 12.4.2利用后验采样进行探索/ 12.5实例：元学训练多任务猎豹智能体/3章高效的强化学表示算法/ 13.1为什么要进行表示学/ 13.2对比学的特征表示/ 13.2.1基本和simclr算法/ 13.2.2moco 算法/ 13.2.3基于对比学的 curl算法/ 13.2.4基于对比学的 atc算法/ 13.2.5基于对比学的 dim算法/ 13.2.6对比学和互信息理论/ 13.2.7基于图像增广的方法/ 13.3鲁棒的特征表示学/ 13.3.1互模拟特征/ 13.3.2信息瓶颈特征/ 13.4使用模型预测的表示学/ 13.5实例：鲁棒的自动驾驶/4章强化学在智能控制中的应用/ 14.1机器人控制/ 14.1.1机械臂作任务的控制/ 14.1.2足式机器人的运动控制/ 14.1.3多任务机器人控制/ 14.1.4面临的挑战/ 14.2电力优化控制/ 14.2.1电力管理任务/ 14.2.2需求响应/ 14.3交通指挥优化控制/ 14.3.1多信号灯合作控制/ 14.3.2大规模信号灯控制方法/ 14.3.3元强化学信号灯控制/5章强化学在机器视觉中的应用/ 15.1神经网络结构搜索/ 15.1.1利用强化学解决nas/ 15.1.2其他前沿方法/ 15.2目标检测和跟踪中的优化/ 15.2.1强化学与目标检测/ 15.2.2强化学与实时目标跟踪/ 15.3分析/6章强化学在语言处理中的应用/ 16.1知识图谱系统/ 16.2智能问答系统/ 16.2.1事后目标回放法/ 16.2.2多任务对话系统/ 16.3机器翻译系统/ 16.3.1nmt中奖励的计算/ 16.3.2策略梯度方差处理/7章强化学在其他领域中的应用/ 17.1医疗健康系统/ 17.1.1动态方案/ 17.1.2重症监护/ 17.1.3自动医疗诊断/ 17.2个化系统/ 17.2.1策略优化方法/ 17.2.2基于图的对话/ 17.3股票交易系统/ 17.3.1finrl强化学框架/ 17.3.2finrl训练示例/

内容简介：

强化学是机器学的重要分支，是实现通用人工智能的重要途径。本书介绍了强化学在算法层面的快展，包括值函数、策略梯度、值分布建模等基础算法，以及为了提升样本效率产生的基于模型学、探索与利用、多目标学、层次化学、技能学等算法，以及一些新兴领域，包括离线学、表示学、元学等，旨在提升数据高效和策略的泛化能力的算法，还介绍了应用领域中强化学在智能控制、机器视觉、语言处理、医疗、、金融等方面的相关知识。
本书深入浅出、结构清晰、重点突出，系统地阐述了强化学的前沿算法和应用，适合从事人工智能、机器学、优化控制、机器人、游戏开发等工作的专业技术人员阅读，还可作为计算机、人工智能、智能科学相关专业的和高年级本科生的教材。

— 没有更多了 —

强化学:前沿算法与应用:frontier algorithms and applications 人工智能 白辰甲[等]编

智胜图书专营店

商品详情

强化学:前沿算法与应用:frontier algorithms and applications 人工智能白辰甲[等]编