强化学习:原理与Python实战
①全新正版,现货速发,7天无理由退换货②天津、成都、无锡、广东等多仓就近发货,订单最迟48小时内发出③无法指定快递④可开电子发票,不清楚的请咨询客服。
¥
93.29
7.2折
¥
129
全新
库存4件
作者肖智清 著
出版社机械工业
ISBN9787111728917
出版时间2023-07
装帧其他
开本其他
定价129元
货号31813252
上书时间2024-10-15
商品详情
- 品相描述:全新
- 商品描述
-
目录
目录数学符号表前言第1章初识强化学习111强化学习及其关键元素11.2强化学习的应用31.3智能体/环境接口41.4强化学习的分类61.4.1按任务分类61.4.2按算法分类81.5强化学习算法的性能指标91.6案例:基于Gym库的智能体/环境接口101.6.1安装Gym库111.6.2使用Gym库111.6.3小车上山131.7本章小结181.8练习与模拟面试19第2章Markov决策过程2121Markov决策过程模型212.1.1离散时间Markov决策过程212.1.2环境与动力242.1.3策略262.1.4带折扣的回报262.2价值272.2.1价值的定义282.2.2价值的性质282.2.3策略的偏序和改进342.3带折扣的分布352.3.1带折扣的分布的定义352.3.2带折扣的分布的性质372.3.3带折扣的分布和策略的等价性392.3.4带折扣的分布下的期望402.4最优策略与最优价值412.4.1从最优策略到最优价值412.4.2最优策略的存在性422.4.3最优价值的性质与Bellman最优方程432.4.4用线性规划法求解最优价值482.4.5用最优价值求解最优策略512.5案例:悬崖寻路522.5.1使用环境522.5.2求解策略价值532.5.3求解最优价值542.5.4求解最优策略552.6本章小结552.7练习与模拟面试57第3章有模型数值迭代5931Bellman算子及其性质593.2有模型策略迭代643.2.1策略评估653.2.2策略改进663.2.3策略迭代673.3价值迭代683.4自益与动态规划693.5案例:冰面滑行703.5.1使用环境713.5.2有模型策略迭代求解733.5.3有模型价值迭代求解763.6本章小结763.7练习与模拟面试77第4章回合更新价值迭代784.1同策回合更新794.1.1同策回合更新策略评估794.1.2带起始探索的同策回合更新844.1.3基于柔性策略的同策回合更新864.2异策回合更新894.2.1重要性采样894.2.2异策回合更新策略评估924.2.3异策回合更新最优策略求解934.3实验:21点游戏944.3.1使用环境944.3.2同策策略评估964.3.3同策最优策略求解984.3.4异策策略评估1014.3.5异策最优策略求解1024.4本章小结1034、5练习与模拟面试104第5章时序差分价值迭代10651时序差分目标1065.2同策时序差分更新1095.2.1时序差分更新策略评估1095.2.2SARSA算法1135.2.3期望SARSA算法1155.3异策时序差分更新1175.3.1基于重要性采样的异策算法1175.3.2Q学习1195.3.3双重Q学习1205.4资格迹1215.4.1λ回报1225.4.2TD(λ)算法1235.5案例:的士调度1255.5.1使用环境1265.5.2同策时序差分学习1275.5.3异策时序差分学习1305.5.4资格迹学习13256本章小结13457练习与模拟面试135第6章函数近似方法1376.1函数近似原理1386.2基于梯度的参数更新1396.2.1随机梯度下降1396.2.2半梯度下降1416.2.3带资格迹的半梯度下降1426.3函数近似的收敛性1446.3.1收敛的条件1446.3.2Baird反例1456.4深度Q网络1476.4.1经验回放1486.4.2目标网络1516.4.3双重深度Q网络1526.4.4决斗深度Q网络1536.5案例:小车上山1546.5.1使用环境1556.5.2用线性近似求解最优策略1566.5.3用深度Q网络求解最优策略1616.6本章小结1726.7练习与模拟面试172第7章回合更新策略梯度方法17471策略梯度算法的原理1747.1.1函数近似策略1747.1.2策略梯度定理1757.1.3策略梯度和极大似然估计的关系1797.2同策回合更新策略梯度算法1797.2.1简单的策略梯度算法1807.2.2带基线的简单策略梯度算法1807.3异策回合更新策略梯度算法1827.4案例:车杆平衡1837.4.1用同策策略梯度算法求解最优策略1847.4.2用异策策略梯度算法求解最优策略1897.5本章小结1957.6练习与模拟面试196第8章执行者/评论者1978.1执行者/评论者方法1978.2同策执行者/评论者算法1988.2.1动作价值执行者/评论者算法1988.2.2优势执行者/评论者算法1998.2.3带资格迹的执行者/评论者算法2008.3基于代理优势的同策算法2018.3.1性能差别引理2018.3.2代理优势2028.3.3邻近策略优化2038.4自然梯度和信赖域算法2058.4.1KL散度与Fisher信息矩阵2068.4.2代理优势的信赖域2088.4.3自然策略梯度算法2098.4.4信赖域策略优化2128.5重要性采样异策执行者/评论者算法2138.6案例:双节倒立摆2148.6.1用同策执行者/评论者算法求解最优策略2168.6.2用基于代理优势的同策算法求解最优策略2268.6.3用自然策略梯度和信赖域算法求解最优策略2308.6.4用重要性采样异策执行者/评论者算法求解最优策略2428.7本章小结2468.8练习与模拟面试247第9章连续动作空间的确定性策略2489.1确定性策略梯度定理2489.2同策确定性算法2509.3异策确定性算法2519.3.1基本的异策确定性执行者/评论者算法2519.3.2深度确定性策略梯度算法2539.3.3双重延迟深度确定性策略梯度算法2549.4探索过程2559.5案例:倒立摆的控制2569.5.1用深度确定性策略梯度算法求解2579.5.2用双重延迟深度确定性算法求解2639.6本章小结2689.7练习与模拟面试268第10章最大熵强化学习270101最大熵强化学习与柔性强化学习理论27010.1.1奖励工程和带熵的奖励27010.1.2柔性价值27210.1.3柔性策略改进定理和最大熵强化学习的迭代求解27310.1.4柔性最优价值27510.1.5柔性策略梯度定理27610.2柔性强化学习算法28110.2.1柔性Q学习28110.2.2柔性执行者/评论者算法28210.3自动熵调节28410.4案例:月球登陆器28610.4.1环境安装28610.4.2使用环境28710.4.3用柔性Q学习求解LunarLander28910.4.4用柔性执行者/评论者求解LunarLander29210.4.5自动熵调节用于LunarLander29710.4.6求解LunarLander Continuous30210.5本章小结30810.6练习与模拟面试309第11章基于策略的无梯度算法31011.1无梯度算法31011.1.1进化策略算法31011.1.2增强随机搜索算法31111.2无梯度算法和策略梯度算法的比较31211.3案例:双足机器人31311.3.1奖励截断31411.3.2用进化算法求解31511.3.3用增强随机搜索算法求解31711.4本章小结31811.5练习与模拟面试319第12章值分布强化学习320121价值分布及其性质32012.2效用最大化强化学习32312.3基于概率分布的算法32612.3.1类别深度Q网络算法32612.3.2带效用的类别深度Q网络算法32812.4基于分位数的值分布强化学习32912.4.1分位数回归深度Q网络算法33112.4.2含蓄分位网络算法33312.4.3带效用的分位数回归算法33412.5类别深度Q网络算法和分位数回归算法的比较33512.6案例:Atari电动游戏Pong33612.6.1Atari游戏环境的使用33612.6.2Pong游戏33812.6.3包装Atari游戏环境33912.6.4用类别深度Q网络算法玩游戏34012.6.5用分位数回归深度Q网络算法玩游戏34512.6.6用含蓄分位网络算法玩游戏34912.7本章小结35612.8练习与模拟面试356第13章最小化遗憾35813.1遗憾35813.2多臂赌博机36013.2.1多臂赌博机问题描述36013.2.2ε贪心算法36113.2.3置信上界36113.2.4Bayesian置信上界算法36513.2.5Thompson采样算法36813.3置信上界价值迭代36813.4案例:Bernoulli奖励多臂赌博机37613.4.1创建自定义环境37713.4.2用ε贪心策略求解37813.4.3用第一置信上界求解37913.4.4用Bayesian置信上界求解38013.4.5用Thompson采样求解38113.5本章小结38213.6练习与模拟面试382第14章树搜索38414.1回合更新树搜索38514.1.1选择38714.1.2扩展和评估38814.1.3回溯38914.1.4决策39014.1.5训练回合更新树搜索用到的神经网络39014.2回合更新树搜索在棋盘游戏中的应用39314.2.1棋盘游戏39314.2.2自我对弈39814.2.3针对棋盘游戏的网络39914.2.4从AlphaGo到MuZero40114.3案例:井字棋40314.3.1棋盘游戏环境boardgame240314.3.2穷尽式搜索40814.3.3启发式搜索41014.4本章小结41814.5练习与模拟面试418第15章模仿学习和人类反馈强化学习42015.1模仿学习42015.1.1f散度及其性质42115.1.2行为克隆42715.1.3生成对抗模仿学习42915.1.4逆强化学习43115.2人类反馈强化学习和生成性预训练变换模型43215.3案例:机器人行走43315.3.1扩展库PyBullet43315.3.2用行为克隆模仿学习43515.3.3用生成对抗模仿学习43815.4本章小结44415.5练习与模拟面试445第16章更多智能体/环境接口模型44616.1平均奖励离散时间Markov决策过程44616.1.1平均奖励44716.1.2差分价值45016.1.3最优策略45316.2连续时间Markov决策过程45616.3非齐次Markov决策过程45916.3.1非齐次状态表示46016.3.2时间指标有界的情况46116.3.3时间指标无界的情况46216.4半Markov决策过程46316.4.1半Markov决策过程及其价值46316.4.2最优策略求解46616.4.3分层强化学习46616.5部分可观测Markov决策过程46716.5.1离散时间部分可观测Markov决策过程46716.5.2信念46916.5.3信念Markov决策过程47316.5.4信念价值47616.5.5有限部分可观测Markov决策过程的信念价值47916.5.6使用记忆48116.6案例:老虎48216.6.1带折扣回报期望与平均奖励的比较48216.6.2信念Markov决策过程48416.6.3非齐次的信念状态价值48516.7本章小结48716.8练习与模拟面试489
内容摘要
全书分为三个部分:?第1章:从零开始介绍强化学习的背景知识,介绍环境库Gym的使用。?第2~15章:基于折扣奖励离散时间Markov决策过程模型,介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论,进而在理论的基础上讲解算法,并为算法提供配套代码实现。基础理论的讲解突出主干部分,算法讲解全面覆盖主流的强化学习算法,包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应,对于深度强化学习算法还给出了基于TensorFlow2和PyTorch1的对照实现。?第16章:介绍其他强化学习模型,包括平均奖励模型、连续时间模型、非齐次模型,半Markov模型、部分可观测模型等,以便更好了解强化学习研究的全貌。
— 没有更多了 —
以下为对购买帮助不大的评价