消息首页搜索举报

图书条目标准图

强化学习：前沿算法与应用

新华官方库房直发，支持开票

63.22 5.8折 109 全新

库存16件

江苏无锡

认证卖家担保交易快速发货售后保障

作者白辰甲赵英男郝建业刘鹏王震

出版社机械工业出版社

出版时间2023-05

版次1

装帧其他

货号文轩9.15

上书时间2024-09-16

千正旗舰版一正版促销

九年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 14小时
好评率暂无

店主推荐
最新上架

窗边的小豆豆合集（1-6）（爱心树童书） ¥190.00

正版现货如果历史是一群喵12:元末民初篇 ¥29.90

可复制的领导力 ¥32.00

如果历史是一群喵6-魏晋南北篇(限量历史喵折立卡片） ¥39.00

如果历史是一群喵9·五代十国篇 ¥29.00

如果历史是一群喵2·春秋战国篇 ¥29.00

如果历史是一群喵4·东汉末年篇 ¥29.00

如果历史是一群喵5·乱世三国篇 ¥29.00

众阅典藏馆--中医四大名著（套装共4册） ¥68.00

数据科学与大数据分析：数据的发现分析可视化与表示 ¥59.27

中文版Indesign CC基础培训教程 ¥32.34

大学生实用口才训练教程 ¥27.87

足球技战术实战从入门到精通（第4版修订版） ¥55.44

黏土画从入门到精通 ¥31.38

保险理财从入门到精通 ¥34.65

扭来扭去的毛根图解扭扭棒萌物制作 ¥31.38

小羊上山儿童汉语分级读物第1级（10册套装） ¥62.11

精通MATLAB数字图像处理与识别第二版 ¥65.87

商品详情

品相描述：全新

图书标准信息

作者白辰甲赵英男郝建业刘鹏王震
出版社机械工业出版社
出版时间 2023-05
版次 1
ISBN 9787111724780
定价 109.00元
装帧其他
开本 16开
纸张胶版纸
页数 304页
字数 419千字

【内容简介】: 强化学习是机器学习的重要分支，是实现通用人工智能的重要途径。本书介绍了强化学习在算法层面的快速发展，包括值函数、策略梯度、值分布建模等基础算法，以及为了提升样本效率产生的基于模型学习、探索与利用、多目标学习、层次化学习、技能学习等算法，以及一些新兴领域，包括离线学习、表示学习、元学习等，旨在提升数据高效性和策略的泛化能力的算法，还介绍了应用领域中强化学习在智能控制、机器视觉、语言处理、医疗、推荐、金融等方面的相关知识。
本书深入浅出、结构清晰、重点突出，系统地阐述了强化学习的前沿算法和应用，适合从事人工智能、机器学习、优化控制、机器人、游戏开发等工作的专业技术人员阅读，还可作为计算机、人工智能、智能科学相关专业的研究生和高年级本科生的教材。
【作者简介】: 白辰甲

上海人工智能实验室青年研究员，博士毕业于哈尔滨工业大学计算学部，曾在加拿大多伦多大学联合培养，2022年获哈工大优秀博士论文奖。在高水平国际会议和期刊上发表论文20余篇，获评机器学习顶会ICML 2021、ICLR 2022、NeurIPS 2022亮点论文。研究方向包括强化学习、博弈智能和具身智能。

赵英男

博士毕业于哈尔滨工业大学计算学部，曾在加拿大阿尔伯塔大学进行联合培养，主要研究方向为深度强化学习、表征学习等，在国际会议和期刊上发表多篇学术论文。

郝建业

天津大学智能与计算学部副教授，获哈尔滨工业大学学士学位，香港中文大学博士学位，曾任MIT计算机科学与人工智能实验室博士后研究员。研究方向为深度强化学习和多智能体系统，近年在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智能领域知名会议和IEEE汇刊发表论文80余篇，出版专著2部。

刘鹏

哈尔滨工业大学教授，博士生导师，模式识别与智能系统研究中心主任。主要研究方向为图像处理、模式识别、机器学习。发表学术论文50余篇，获发明专利10余项，获黑龙江省科技进步一等奖1项。

王震

西北工业大学教授，网络空间安全学院党委书记，国家保密学院常务副院长，Elected Member of Academia Europaea (EA), European Academy of Sciences and Arts (EASA)，AAIA Fellow, 全球高被引科学家，国家杰青，国防创新团队负责人。围绕博弈智能，人工智能基础理论，网络空间智能对抗，在Nature Communications、PNAS、Science Advance、AAAI、NeurIPS、ICML、ICLR等发表系列成果，WoS引用2万余次，编制完成行标5项。获科学探索奖，中国青年五四奖章，、陕西省、学会科学技术奖一等奖等多个奖项。
【目录】: 序言

前言

第1章强化学习简介/

1.1从监督学习到强化学习/

1.2强化学习的发展历史/

1.3强化学习的研究范畴/

1.4强化学习的应用领域/

第2章强化学习基础知识/

2.1强化学习的核心概念/

2.2马尔可夫性和决策过程/

2.3值函数和策略学习/

第3章基于值函数的强化学习算法/

3.1深度Q学习的基本理论/

3.1.1深度Q网络/

3.1.2经验池/

3.1.3目标网络/

3.2深度Q学习的过估计/

3.2.1过估计的产生原因/

3.2.2Double Q-学习/

3.3深度Q学习的网络改进和高效采样/

3.3.1Dueling网络/

3.3.2高效采样/

3.4周期后序迭代Q学习/

3.5Q学习用于连续动作空间/

3.5.1基于并行结构的 Q学习/

3.5.2基于顺序结构的Q学习/

3.6实例：使用值函数学习的Atari游戏/

3.6.1环境预处理/

3.6.2Q网络的实现/

3.6.3Q学习的核心步骤/

第4章策略梯度迭代的强化学习算法/

4.1REINFORCE 策略梯度/

4.1.1策略梯度的基本形式/

4.1.2降低策略梯度的方差/

4.2异步策略梯度法/

4.2.1引入优势函数/

4.2.2异步策略梯度/

4.3近端策略优化法/

4.3.1裁剪的优化目标/

4.3.2自适应的优化目标/

4.4深度确定性策略梯度/

4.4.1critic学习/

4.4.2actor学习/

4.4.3拓展1：探索噪声/

4.4.4拓展2：孪生DDPG/

4.5熵策略梯度/

4.5.1熵约束的基本原理/

4.5.2SAC算法/

4.6实例：使用策略梯度的Mujoco任务/

4.6.1actor-critic网络实现/

4.6.2核心算法实现/

第5章基于模型的强化学习方法/

5.1如何使用模型来进行强化学习/

5.2基于模型预测的规划/

5.2.1随机打靶法/

5.2.2集成概率轨迹采样法/

5.2.3基于模型和无模型的混合算法/

5.2.4基于想象力的隐式规划方法/

5.3黑盒模型的理论框架/

5.3.1随机下界优化算法/

5.3.2基于模型的策略优化算法/

5.4白盒模型的使用/

5.4.1随机值梯度算法/

5.4.2模型增强的actor-critic算法/

5.5实例：AlphaGo围棋智能体/

5.5.1网络结构介绍/

5.5.2蒙特卡罗树搜索/

5.5.3总体训练流程/

第6章值分布式强化学习算法/

6.1离散分布投影的值分布式算法/

6.2分位数回归的值分布式算法/

6.2.1分位数回归/

6.2.2Wasserstein距离/

6.2.3QR-DQN算法/

6.2.4单调的分位数学习算法/

6.3隐式的值分布网络/

6.4基于值分布的代价敏感学习/

6.4.1IQN中的代价敏感学习/

6.4.2基于IQN的actor-critic模型的代价敏感学习/

6.5实例：基于值分布的Q网络实现/

6.5.1IQN模型构建/

6.5.2IQN损失函数/

第7章强化学习中的探索算法/

7.1探索算法的分类/

7.2基于不确定性估计的探索/

7.2.1参数化后验的算法思路/

7.2.2重采样DQN/

7.3进行虚拟计数的探索/

7.3.1基于图像生成模型的虚拟计数/

7.3.2基于哈希的虚拟计数/

7.4根据环境模型的探索/

7.4.1特征表示的学习/

7.4.2随机网络蒸馏/

7.4.3Never-Give-Up算法/

7.5实例：蒙特祖玛复仇任务的探索/

7.5.1RND网络结构/

7.5.2RND的训练/

7.5.3RND用于探索/

第8章多目标强化学习算法/

8.1以目标为条件的价值函数/

8.1.1熵HER/

8.1.2动态目标HER/

8.2监督式的多目标学习/

8.2.1Hindsight模仿学习/

8.2.2加权监督式多目标学习/

8.3推广的多目标学习/

8.4实例：仿真机械臂的多目标抓取/

8.4.1多目标实验环境/

8.4.2HER的实现方法/

8.4.3MEP的算法实现/

第9章层次化强化学习算法/

9.1层次化学习的重要性/

9.2基于子目标的层次化学习/

9.2.1封建网络的层次化学习/

9.2.2离策略修正的层次化学习/

9.2.3虚拟子目标的强化学习方法/

9.3基于技能的层次化学习/

9.3.1使用随机网络的层次化学习/

9.3.2共享分层的元学习方法/

9.4基于选项的层次化学习/

9.4.1option与半马尔可夫决策过程/

9.4.2option-critic结构/

9.5实例：层次化学习蚂蚁走迷宫任务/

第10章基于技能的强化学习算法/

10.1技能学习的定义/

10.2互信息化的技能学习算法/

10.2.1多样性化技能学习算法/

10.2.2其他基于互信息的技能学习方法/

10.3融合环境模型的技能学习算法/

10.4化状态覆盖的技能学习算法/

10.5实例：人形机器人的技能学习/

第11章离线强化学习算法/

11.1离线强化学习中面临的困难/

11.2策略约束的离线学习/

11.2.1BCQ算法/

11.2.2BRAC算法/

11.2.3TD3-BC算法/

11.3使用保守估计的离线学习/

11.4基于不确定性的离线学习/

11.4.1UWAC算法/

11.4.2MOPO算法/

11.4.3PBRL算法/

11.5监督式的离线学习/

11.5.1DT算法/

11.5.2RVS算法/

11.6实例：使用离线学习的D4RL任务集/

11.6.1D4RL数据集的使用/

11.6.2CQL算法实现/

11.6.3TD3-BC算法实现/

第12章元强化学习算法/

12.1元强化学习的定义/

12.2基于网络模型的元强化学习方法/

12.2.1使用循环神经网络的元强化学习方法/

12.2.2基于时序卷积和软注意力机制的方法/

12.3元梯度学习/

12.4元强化学习中的探索方法/

12.4.1结构化噪声探索方法/

12.4.2利用后验采样进行探索/

12.5实例：元学习训练多任务猎豹智能体/

第13章高效的强化学习表示算法/

13.1为什么要进行表示学习/

13.2对比学习的特征表示/

13.2.1基本原理和SimCLR算法/

13.2.2MoCo 算法/

13.2.3基于对比学习的 CURL算法/

13.2.4基于对比学习的 ATC算法/

13.2.5基于对比学习的 DIM算法/

13.2.6对比学习和互信息理论/

13.2.7完全基于图像增广的方法/

13.3鲁棒的特征表示学习/

13.3.1互模拟特征/

13.3.2信息瓶颈特征/

13.4使用模型预测的表示学习/

13.5实例：鲁棒的仿真自动驾驶/

第14章强化学习在智能控制中的应用/

14.1机器人控制/

14.1.1机械臂操作任务的控制/

14.1.2足式机器人的运动控制/

14.1.3多任务机器人控制/

14.1.4面临的挑战/

14.2电力优化控制/

14.2.1电力管理任务/

14.2.2需求响应/

14.3交通指挥优化控制/

14.3.1多信号灯合作控制/

14.3.2大规模信号灯控制方法/

14.3.3元强化学习信号灯控制/

第15章强化学习在机器视觉中的应用/

15.1神经网络结构搜索/

15.1.1利用强化学习解决NAS/

15.1.2其他前沿方法/

15.2目标检测和跟踪中的优化/

15.2.1强化学习与目标检测/

15.2.2强化学习与实时目标跟踪/

15.3视频分析/

第16章强化学习在语言处理中的应用/

16.1知识图谱系统/

16.2智能问答系统/

16.2.1事后目标回放法/

16.2.2多任务对话系统/

16.3机器翻译系统/

16.3.1NMT中奖励的计算/

16.3.2策略梯度方差处理/

第17章强化学习在其他领域中的应用/

17.1医疗健康系统/

17.1.1动态治疗方案/

17.1.2重症监护/

17.1.3自动医疗诊断/

17.2个性化推荐系统/

17.2.1策略优化方法/

17.2.2基于图的对话推荐/

17.3股票交易系统/

17.3.1FinRL强化学习框架/

17.3.2FinRL训练示例/

点击展开点击收起

— 没有更多了 —