阿尔法零对优模型预测自适应控制的启示软硬件技术 (美)德梅萃·p.博塞克斯新华正版

全新正版未拆封

35.9 5.2折 69 全新

库存2件

湖南长沙

认证卖家担保交易快速发货售后保障

作者[美]德梅萃·p.博塞克斯（dimitrip.bertsekas）

出版社清华大学出版社

出版时间2024-06

版次1

装帧其他

上书时间2024-08-12

A小二郎书舍A

四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 28小时
好评率暂无

最新上架

林崇德口述历史（修订版） ¥47.84

夏先生的故事(聚斯金德作品集） ¥13.18

读懂孩子的行为(做懂孩子的父母养有生命力的孩子) ¥17.07

耐火材料制品实用术语汉英词典 ¥46.32

亚纳米孔道中分子碘与水的结构研究 ¥16.36

坦途：职业生涯如何少走弯路 ¥30.83

情感自控力：焦虑时代的情绪调节手册 ¥14.71

近代宁波城市建设现代化进程 ¥14.86

蒲州故城（一） ¥148.98

商品详情

品相描述：全新

图书标准信息

作者 [美]德梅萃·p.博塞克斯（dimitrip.bertsekas）
出版社清华大学出版社
出版时间 2024-06
版次 1
ISBN 9787302660361
定价 69.00元
装帧其他
开本 16开
页数 176页
字数 262千字

【内容简介】: 德梅萃p.博塞克斯（dimitri p.berteka）教授是国际运筹优化与控制领域的学者，其系列经典教材被清华大学、麻省理工学院等外高校广泛使用。本书构建了近似动态规划和强化学的新的理论框架，简洁但雄心勃勃。这一框架以离线训练和在线学这两类算法为中心，彼此独立又通过牛顿法有机融合。当今新一代人工智能技术发展绚丽多彩，在看似纷繁复杂的数据与算法表象之下，其实蕴藏着简洁而美妙的规律。通过本书的学，读者将能体会经典优化控制理论在分析和理解当代强化学算法能中的强大威力，更能领悟到以阿尔法零为代表的新一代算法浪潮为经典理论提供的新的发展机遇。本书适合作为普通高等学校信息科学技术领域、本科生高年级教材，也可供本领域科研人员自学参。
【目录】: 章阿尔法零、离线训练和在线学 1

1.1 离线训练和策略迭代 3

1.2 在线学与值空间近似——截断滚动 4

1.3 阿尔法零的经验 6

1.4 强化学的一种新概念框架 8

1.5 注释与参文献 9

第2章确定和的动态规划 13

2.1 无段上的优控制 14

2.2 值空间近似 18

2.3 注释与参文献 21

第3章强化学的抽象视角 22

3.1 贝尔曼算子 23

3.2 值空间近似和牛顿法 28

3.3 稳定域 32

3.4 策略迭代、滚动和牛顿法 36

3.5 在线对弈对于离线训练过程有多敏感？ 41

3.6 何不直接训练策略网络并在使用时摒弃在线对弈呢？ 43

3.7 多智能体问题和多智能体滚动 44

3.8 在线简化策略迭代 47

3.9 例外情形 52

3.10 注释与参文献 57

第4章线二次型情形——例证 59

4.1 优解 60

4.2 稳定线策略的费用函数 61

4.3 值迭代 63

4.4 单步和多步前瞻——牛顿步的解释 64

4.5 灵敏度问题 67

4.6 滚动和策略迭代 69

4.7 截断滚动——前瞻长度问题 71

4.8 线二次型问题中的例外行为 73

4.9 注释与参文献 74

第5章自适应和模型预测控制 75

5.1 具有未知参数的系统——鲁棒和 pid 控制 76

5.2 值空间近似、滚动和自适应控制 78

5.3 值空间近似、滚动和模型预测控制 81

5.4 末端费用近似——稳定问题 83

5.5 注释与参文献 87

第6章有段确定问题——离散优化 88

6.1 确定离散空间有段问题 89

6.2 一般离散优化问题 92

6.3 值空间近似 95

6.4 离散优化的滚动算法 98

6.5 采用多步前瞻的滚动——截断滚动 111

6.6 约束形式的滚动算法 114

6.7 使用部分可观马尔可夫决策问题模型滚动的自适应控制 124

6.8 极小化极大控制的滚动 130

6.9 小阶段费用与长时段——连续时间滚动 136

6.10 结语 142

附录a 不动点问题的牛顿法 145

a.1 可微不动点问题的牛顿法 145

a.2 无须贝尔曼算子可微的牛顿法 148

参文献 152

点击展开点击收起

— 没有更多了 —

阿尔法零对优模型预测自适应控制的启示 软硬件技术 (美)德梅萃·p.博塞克斯 新华正版

A小二郎书舍A

商品详情

图书标准信息

阿尔法零对优模型预测自适应控制的启示软硬件技术 (美)德梅萃·p.博塞克斯新华正版