消息首页搜索举报

信息物理系统强化学习：网络安全示例

有笔记

25 3.2折 79 八五品

仅1件

四川成都

认证卖家担保交易快速发货售后保障

作者[美]李崇(Chong Li) 邱美康（Meikang Qiu）

出版社机械工业出版社

出版时间2021-03

版次1

装帧其他

上书时间2024-08-03

兰贵的书店

已实名进店收藏店铺

在售商品暂无
平均发货时间 9小时
好评率暂无

最新上架

燃烧的男孩 ¥4.00

这书能让你戒烟 ¥4.00

我的第一本美国国家地理海洋百科（注音版） ¥65.00

权力意志：重估一切价值的尝试 ¥16.00

西方美学史 ¥30.00

童年的消逝 ¥13.00

好女人都是狐狸精 ¥5.00

阁楼上的光 ¥6.00

天堂蒜薹之歌 ¥8.00

商品详情

品相描述：八五品

图书标准信息

作者 [美]李崇(Chong Li) 邱美康（Meikang Qiu）
出版社机械工业出版社
出版时间 2021-03
版次 1
ISBN 9787111676478
定价 79.00元
装帧其他
开本 16开
纸张胶版纸
页数 184页
字数 150千字

【内容简介】: 本书研究的灵感来自于近期的强化学习(RL)和信息物理系统(CPS)领域的发展。RL植根于行为心理学，是机器学习的主要分支之一。不同于其他机器学习算法（如监督学习和非监督学习），RL的关键特征是其独特的学习范式，即试错。与深度神经网络相结合，深度RL变得如此强大，以至于许多复杂的系统可以被人工智能智能体在超人的水平上自动管理。另一方面，CPS被设想在不久的将来给我们的社会带来革命性的变化。这些例子包括新兴的智能建筑、智能交通和电网。
【作者简介】: 部分  介绍

章  强化学概述

1.1  强化学综述

1.1.1  引言

1.1.2  与其他机器学方法的比较

1.1.3  强化学示例

1.1.4  强化学应用

1.2  强化学的发展历史

1.2.1  传统的强化学

1.2.2  深度强化学

1.3  强化学的工具

1.4  本章小结

第2章  信息物理系统和网络安全概述

2.1  引言

2.2  信息物理系统研究示例

2.2.1  资源分配

2.2.2  数据传输与管理

2.2.3  能源控制

2.2.4  基于模型的软件设计

2.3  网络安全威胁

2.3.1  网络安全的对手

2.3.2  网络安全的目标

2.4  本章小结

2.5  练

第二部分  强化学在信息物理系统中的应用

第3章  强化学问题

3.1  多臂问题

3.1.1  ε-greedy算法

3.1.2  softmax算法

3.1.3  ucb算法

3.2  上下文问题

3.3  完整的强化学问题

3.3.1  强化学的要素

3.3.2  马尔可夫决策过程介绍

3.3.3  值函数

3.4  本章小结

3.5  练

第4章  基于模型的强化学

4.1  引言

4.2  动态规划

4.2.1  策略迭代法

4.2.2  价值迭代法

4.2.3  异步动态规划

4.3  部分可观察马尔可夫决策过程

4.4  连续马尔可夫决策过程

4.4.1  惰近似

4.4.2  函数近似

4.5  本章小结

4.6  练

第5章  无模型强化学

5.1  引言

5.2  强化学预测

5.2.1  蒙特卡罗学

5.2.2  时序差分学

5.3  强化学控制

5.3.1  蒙特卡罗控制

5.3.2  基于时序差分的控制

5.3.3  策略梯度

5.3.4  actor-critic

5.4  不错算法

5.4.1  期望sarsa

5.4.2  双q-learning

5.5  本章小结

5.6  练

第6章  深度强化学

6.1  引言

6.2  深度神经网络

6.2.1  卷积神经网络

6.2.2  循环神经网络

6.3  深度学在值函数上的应用

6.4  深度学在策略函数上的应用

6.4.1  ddpg

6.4.2  a3c

6.5  深度学在强化学模型上的应用

6.6  深度强化学计算效率

6.7  本章小结

6.8  练

第三部分  案例研究

第7章  强化学与网络安全

7.1  传统的网络安全方法

7.1.1  传统的网络安全技术

7.1.2  新兴网络安全威胁

7.2  强化学在网络安全中的应用

7.2.1  移动群智感知中的虚感知攻击

7.2.2  认知无线电网络中的安全强化

7.2.3  移动边缘计算中的安全问题

7.2.4  网络安全分析师的动态调度

7.3  本章小结

7.4  练

第8章  案例研究：智能电网中的在线网络攻击检测

8.1  引言

8.2  系统模型和估计

8.2.1  系统模型

8.2.2  估计

8.3  问题描述

8.4  解决方案

8.5  结果

8.5.1  设计与参数设置

8.5.2  能评估

8.6  本章小结

第9章  案例研究：击败中间人攻击

9.1  引言

9.2  强化学方法

9.2.1  空间

9.2.2  行动空间

9.2.3  奖励

9.3  实验和结果

9.3.1  模型训练

9.3.2  在线实验

9.4  讨论

9.4.1  基于探测器的检测系统

9.4.2  运用sdn/openflow使模型实用

9.5  本章小结

参文献

索引
【目录】: 出版者的话

译者序

前言

作者简介

第一部分　介绍

第1章　强化学习概述 2

1.1　强化学习综述 2

1.1.1　引言 2

1.1.2　与其他机器学习方法的比较 4

1.1.3　强化学习示例 6

1.1.4　强化学习应用 7

1.2　强化学习的发展历史 9

1.2.1　传统的强化学习 9

1.2.2　深度强化学习 11

1.3　强化学习的仿真工具 12

1.4　本章小结 13

第2章　信息物理系统和网络安全概述 14

2.1　引言 14

2.2　信息物理系统研究示例 16

2.2.1　资源分配 16

2.2.2　数据传输与管理 18

2.2.3　能源控制 18

2.2.4　基于模型的软件设计 19

2.3　网络安全威胁 20

2.3.1　网络安全的对手 20

2.3.2　网络安全的目标 21

2.4　本章小结 26

2.5　练习 26

第二部分　强化学习在信息物理系统中的应用

第3章　强化学习问题 30

3.1　多臂赌博机问题 30

3.1.1　ε-greedy算法 33

3.1.2　softmax算法 35

3.1.3　UCB算法 36

3.2　上下文赌博机问题 37

3.3　完整的强化学习问题 39

3.3.1　强化学习的要素 40

3.3.2　马尔可夫决策过程介绍 41

3.3.3　值函数 42

3.4　本章小结 45

3.5　练习 45

第4章　基于模型的强化学习 49

4.1　引言 49

4.2　动态规划 51

4.2.1　策略迭代法 52

4.2.2　价值迭代法 55

4.2.3　异步动态规划 56

4.3　部分可观察马尔可夫决策过程 58

4.4　连续马尔可夫决策过程 61

4.4.1　惰性近似 61

4.4.2　函数近似 62

4.5　本章小结 63

4.6　练习 64

第5章　无模型强化学习 66

5.1　引言 66

5.2　强化学习预测 66

5.2.1　蒙特卡罗学习 66

5.2.2　时序差分学习 69

5.3　强化学习控制 71

5.3.1　蒙特卡罗控制 71

5.3.2　基于时序差分的控制 72

5.3.3　策略梯度 77

5.3.4　actor-critic 81

5.4　高级算法 84

5.4.1　期望Sarsa 84

5.4.2　双Q-learning 85

5.5　本章小结 85

5.6　练习 86

第6章　深度强化学习 90

6.1　引言 90

6.2　深度神经网络 90

6.2.1　卷积神经网络 92

6.2.2　循环神经网络 94

6.3　深度学习在值函数上的应用 95

6.4　深度学习在策略函数上的应用 100

6.4.1　DDPG 102

6.4.2　A3C 104

6.5　深度学习在强化学习模型上的应用 107

6.6　深度强化学习计算效率 108

6.7　本章小结 109

6.8　练习 109

第三部分　案例研究

第7章　强化学习与网络安全 112

7.1　传统的网络安全方法 112

7.1.1　传统的网络安全技术 112

7.1.2　新兴网络安全威胁 113

7.2　强化学习在网络安全中的应用 114

7.2.1　移动群智感知中的虚假感知攻击 114

7.2.2　认知无线电网络中的安全强化 115

7.2.3　移动边缘计算中的安全问题 117

7.2.4　网络安全分析师的动态调度 118

7.3　本章小结 119

7.4　练习 119

第8章　案例研究：智能电网中的在线网络攻击检测 120

8.1　引言 120

8.2　系统模型和状态估计 122

8.2.1　系统模型 122

8.2.2　状态估计 123

8.3　问题描述 124

8.4　解决方案 127

8.5　仿真结果 130

8.5.1　仿真设计与参数设置 130

8.5.2　性能评估 130

8.6　本章小结 134

第9章　案例研究：击败中间人攻击 135

9.1　引言 135

9.2　强化学习方法 137

9.2.1　状态空间 137

9.2.2　行动空间 139

9.2.3　奖励 139

9.3　实验和结果 139

9.3.1　模型训练 140

9.3.2　在线实验 141

9.4　讨论 143

9.4.1　基于探测器的检测系统 143

9.4.2　运用SDN/OpenFlow使模型实用 144

9.5　本章小结 144

参考文献 145

索引 161

点击展开点击收起

— 没有更多了 —