• 深度学习系统设计:理论与实践9787111759362
21年品牌 40万+商家 超1.5亿件商品

深度学习系统设计:理论与实践9787111759362

正版图书,可开发票,请放心购买。

111.75 7.5折 149 全新

库存80件

广东广州
认证卖家担保交易快速发货售后保障

作者人工智能系统小组 著

出版社机械工业出版社

ISBN9787111759362

出版时间2023-02

装帧平装

开本16开

定价149元

货号17662424

上书时间2025-01-06

哲仁书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
推荐序一 推荐序二 推荐序三 前言 致谢 第1章人工智能系统概述1 本章简介1 内容概览2 1.1  深度学习的历史、现状与发展2 1.1.1  深度学习的广泛应用2 1.1.2  深度学习方法4 1.1.3  神经网络基本理论的奠定5 1.1.4  深度学习算法、模型的现状和趋势9 1.1.5  小结与讨论12 1.1.6  参考文献12 1.2  算法、框架、体系结构与算力的进步13 1.2.1  大数据和分布式系统13 1.2.2  深度学习算法的进步15 1.2.3  计算机体系结构和计算能力的进步17 1.2.4  计算框架的进步18 1.2.5  小结与讨论21 1.2.6  参考文献21 1.3  深度学习系统的组成与生态22 1.3.1  深度学习系统的设计目标22 1.3.2  深度学习系统的大致组成24 1.3.3  深度学习系统的生态27 1.3.4  小结与讨论29 1.3.5  参考文献29 1.4  深度学习样例背后的系统问题29 1.4.1  一个深度学习样例与其中的系统问题30 1.4.2  模型算子实现中的系统问题33 1.4.3  框架执行深度学习模型的生命周期36 1.4.4  更广泛的人工智能系统生态40 1.4.5  深度学习框架及工具入门实验41 1.4.6  小结与讨论44 1.4.7  参考文献44 1.5  影响深度学习系统设计的理论、原则与假设44 1.5.1  抽象层次化表示与解释45 1.5.2  摩尔定律与算力发展趋势49 1.5.3  局部性原则与内存层次结构52 1.5.4  线性代数计算与模型缺陷容忍特性59 1.5.5  并行加速与阿姆达尔定律优化上限64 1.5.6  冗余与可靠性67 1.5.7  小结与讨论68 1.5.8  参考文献68 第2章神经网络基础70 本章简介70 内容概览70 2.1  神经网络的基本概念70 2.1.1  神经元的数学模型71 2.1.2  神经网络的主要功能72 2.1.3  激活函数73 2.1.4  小结与讨论78 2.2  神经网络训练78 2.2.1  基本训练流程78 2.2.2  损失函数80 2.2.3  梯度下降82 2.2.4  反向传播85 2.2.5  小结与讨论85 2.3  解决回归问题85 2.3.1  提出问题86 2.3.2  万能近似定理86 2.3.3  定义神经网络结构87 2.3.4  前向计算88 2.3.5  反向传播89 2.3.6  运行结果91 2.3.7  小结与讨论92 2.4  解决分类问题92 2.4.1  提出问题92 2.4.2  定义神经网络结构93 2.4.3  前向计算94 2.4.4  反向传播95 2.4.5  运行结果96 2.4.6  小结与讨论96 2.5  深度神经网络97 2.5.1  抽象与设计97 2.5.2  权重矩阵初始化98 2.5.3  批量归一化99 2.5.4  过拟合101 2.5.5  小结与讨论103 2.6  梯度下降优化算法103 2.6.1  随机梯度下降算法103 2.6.2  动量算法104 2.6.3  Adam算法105 2.6.4  小结与讨论105 2.7  卷积神经网络105 2.7.1  卷积神经网络的能力105 2.7.2  卷积神经网络的典型结构106 2.7.3  卷积核的作用107 2.7.4  卷积后续的运算109 2.7.5  卷积神经网络的特性110 2.7.6  卷积类型111 2.7.7  小结与讨论115 2.8  循环神经网络115 2.8.1  循环神经网络的发展简史115 2.8.2  循环神经网络的结构和典型用途117 2.8.3  小结与讨论118 2.9  Transformer模型118 2.9.1  序列到序列模型119 2.9.2  注意力机制120 2.9.3  Transformer122 2.9.4  小结与讨论125 第3章深度学习框架基础126 本章简介126 内容概览126 3.1  基于数据流图的深度学习框架126 3.1.1  深度学习框架发展概述126 3.1.2  编程范式:声明式和命令式128 3.1.3  数据流图129 3.1.4  张量和张量操作130 3.1.5  自动微分基础131 3.1.6  数据流图上的自动微分135 3.1.7  数据流图的调度与执行136 3.1.8  单设备算子间调度136 3.1.9  图切分与多设备执行137 3.1.10  小结与讨论138 3.1.11  参考文献138 3.2  神经网络计算中的控制流139 3.2.1  背景139 3.2.2  静态图:向数据流图中添加控制流原语141 3.2.3  动态图:复用宿主语言控制流语句143 3.2.4  动态图转换为静态图144 3.2.5  小结与讨论145 3.2.6  参考文献145 第4章矩阵运算与计算机体系结构147 本章简介147 内容概览147 4.1  深度学习的历史、现状与发展148 4.1.1  全连接层148 4.1.2  卷积层148 4.1.3  循环网络层149 4.1.4  注意力机制层149 4.1.5  小结与讨论150 4.1.6  参考文献150 4.2  计算机体系结构与矩阵运算150 4.2.1  CPU体系结构151 4.2.2  CPU实现高效计算矩阵乘152 4.2.3  在CPU上实现一个矩阵乘法算子实验154 4.2.4  小结与讨论155 4.3  GPU体系结构与矩阵运算155 4.3.1  GPU体系结构155 4.3.2  GPU编程模型156 4.3.3  GPU实现一个简单的计算157 4.3.4  在GPU上实现一个矩阵乘法算子实验159 4.3.5  小结与讨论160 4.4  面向深度学习的专有硬件加速器与矩阵运算160 4.4.1  深度学习计算的特点与硬件优化方向160 4.4.2  脉动阵列与矩阵计算162 4.4.3  小结与讨论163 第5章深度学习的编译与优化164 本章简介164 内容概览164 5.1  深度神经网络编译器164 5.1.1  前端166 5.1.2  后端167 5.1.3  中间表达167 5.1.4  优化过程168 5.1.5  小结与讨论168 5.2  计算图优化168 5.2.1  算术表达式化简169 5.2.2  公共子表达式消除169 5.2.3  常数传播170 5.2.4  矩阵乘自动融合171 5.2.5  算子融合171 5.2.6  子图替换和随机子图替换172 5.2.7  小结与讨论173 5.3  内存优化173 5.3.1  基于拓扑序的最小内存分配174 5.3.2  张量换入换出174 5.3.3  张量重计算175 5.3.4  小结与讨论176 5.3.5  参考文献176 5.4  内核优化与生成176 5.4.1  算子表达式176 5.4.2  算子表示与调度逻辑的分离177 5.4.3  自动调度搜索与代码生成179 5.4.4  白盒代码生成179 5.4.5  小结与讨论180 5.4.6  参考文献181 5.5  跨算子的全局调度优化181 5.5.1  任意算子的融合181 5.5.2  编译时全局算子调度183 5.5.3  小结与讨论183 5.5.4  参考文献183 第6章分布式训练算法与系统184 本章简介184 内容概览184 6.1  分布式深度学习计算简介185 6.1.1  串行计算到并行计算的演进185 6.1.2  并行计算加速定律187 6.1.3  深度学习的并行化训练188 6.1.4  小结与讨论190 6.1.5  参考文献191 6.2  分布式训练算法分类191 6.2.1  数据并行191 6.2.2  模型并行193 6.2.3  流水并行194 6.2.4  并行方式的对比分析196 6.2.5  小结与讨论196 6.2.6  参考文献196 6.3  深度学习并行训练同步方式197 6.3.1  同步并行197 6.3.2  异步并行198 6.3.3  半同步并行198 6.3.4  小结与讨论199 6.3.5  参考文献199 6.4  分布式深度学习训练系统简介199 6.4.1  基于数据流图的深度学习框架中的分布式支持199 6.4.2  PyTorch中的分布式支持201 6.4.3  通用的数据并行系统Horovod203 6.4.4  分布式训练任务实验206 6.4.5  小结与讨论208 6.4.6  参考文献209 6.5  分布式训练的通信协调209 6.5.1  通信协调的硬件210 6.5.2  通信协调的软件213 6.5.3  AllReduce的实现和优化实验214 6.5.4  小结与讨论217 6.5.5  参考文献217 第7章异构计算集群调度与资源管理系统218 本章简介218 内容概览218 7.1  异构计算集群管理系统简介219 7.1.1  多租环境运行的训练作业219 7.1.2  作业生命周期222 7.1.3  集群管理系统架构223 7.1.4  小结与讨论227 7.1.5  参考文献227 7.2  训练作业、镜像与容器228 7.2.1  深度学习作业228 7.2.2  环境依赖:镜像231 7.2.3  运行时资源隔离:容器233 7.2.4  从操作系统视角看GPU技术栈238 7.2.5  人工智能作业开发体验241 7.2.6  小结与讨论246 7.2.7  参考文献246 7.3  调度247 7.3.1  调度问题优化目标247 7.3.2  单作业调度——群调度249 7.3.3  作业间调度——主导资源公平DRF调度250 7.3.4  组间作业调度——容量调度252 7.3.5  虚拟集群机制254 7.3.6  抢占式调度255 7.3.7  深度学习调度算法实验与模拟研究256 7.3.8  小结与讨论257 7.3.9  参考文献257 7.4  面向深度学习的集群管理系统257 7.4.1  深度学习工作负载的需求258 7.4.2  异构硬件的多样性258 7.4.3  深度学习平台的管理与运维需求259 7.4.4  深度学习负载与异构硬件下的调度设计260 7.4.5  开源和云异构集群管理系统简介268 7.4.6  部署异构资源集群管理系统实验270 7.4.7  小结与讨论279 7.4.8  参考文献279 7.5  存储280 7.5.1  沿用大数据平台存储路线281 7.5.2  沿用高性能计算平台存储路线287 7.5.3  面向深度学习的存储288 7.5.4  小结与讨论294 7.5.5  参考文献294 7.6  开发与运维294 7.6.1  平台功能模块与敏捷开发295 7.6.2  监控体系构建296 7.6.3  测试300 7.6.4  平台DevOps303 7.6.5  平台运维305 7.6.6  小结与讨论307 7.6.7  参考文献307 第8章深度学习推理系统308 本章简介308 内容概览308 8.1  推理系统简介308 8.1.1  对比推理与训练过程309 8.1.2  推理系统的优化目标与约束313 8.1.3  小结与讨论316 8.1.4  参考文献316 8.2  模型推理的离线优化317 8.2.1  通过程序理解推理优化动机317 8.2.2  推理延迟319 8.2.3  层间与张量融合320 8.2.4  目标后端自动调优322 8.2.5  模型压缩324 8.2.6  低精度推理326 8.2.7  小结与讨论327 8.2.8  参考文献327 8.3  部署328 8.3.1  可靠性和可扩展性329 8.3.2  部署灵活性330 8.3.3  模型转换与开放协议333 8.3.4  移动端部署334 8.3.5  推理系统简介338 8.3.6  配置镜像与容器进行云上训练、推理与压测实验339 8.3.7  小结与讨论340 8.3.8  参考文献341 8.4  推理系统的运行期优化341 8.4.1  推理系统的吞吐量341 8.4.2  加速器模型并发执行342 8.4.3  动态批尺寸343 8.4.4  多模型装箱345 8.4.5  内存分配策略调优347 8.4.6  深度学习模型内存分配算法实验与模拟研究349 8.4.7  小结与讨论351 8.4.8  参考文献351 8.5  开发、训练与部署的全生命周期管理——MLOps351 8.5.1  MLOps的生命周期351 8.5.2  MLOps工具链353 8.5.3  线上发布与回滚策略364 8.5.4  MLOps的持续集成与持续交付364 8.5.5  MLOps工具与服务367 8.5.6  小结与讨论367 8.5.7  参考文献367 8.6  推理专有芯片368 8.6.1  推理芯片架构对比369 8.6.2  神经网络推理芯片的动机和由来373 8.6.3  数据中心推理芯片375 8.6.4  边缘推理芯片377 8.6.5  芯片模拟器377 8.6.6  小结与讨论378 8.6.7  参考文献378 第9章自动机器学习系统379 本章简介379 内容概览379 9.1  自动机器学习379 9.1.1  超参数优化380 9.1.2  神经网络结构搜索384 9.1.3  小结与讨论388 9.1.4  参考文献388 9.2  自动机器学习系统与工具389 9.2.1  自动机器学习系统与工具概述389 9.2.2  探索式训练过程391 9.2.3  自动机器学习编程范式392 9.2.4  自动机器学习系统优化前沿394 9.2.5  自动机器学习工具概述与实例分析395 9.2.6  自动机器学习系统实验398 9.2.7  小结与讨论400 9.2.8  参考文献400 第10章强化学习系统401 本章简介401 内容概览401 10.1  强化学习概述401 10.1.1  强化学习的定义402 10.1.2  强化学习的基本概念402 10.1.3  强化学习的作用404 10.1.4  强化学习与传统机器学习的区别405 10.1.5  强化学习与自动机器学习的区别405 10.1.6  小结与讨论406 10.1.7  参考文献406 10.2  分布式强化学习算法407 10.2.1  分布式强化学习算法的基本概念408 10.2.2  分布式强化学习算法的发展409 10.2.3  小结与讨论414 10.2.4  参考文献414 10.3  分布式强化学习对系统提出的需求和挑战415 10.3.1  强化学习系统面临的挑战和机器学习系统的区别415 10.3.2  强化学习对框架的需求417 10.3.3  小结与讨论419 10.3.4  参考文献419 10.4  分布式强化学习框架419 10.4.1  代表性分布式强化学习框架419 10.4.2  小结与讨论424 10.4.3  参考文献425 第11章模型压缩与加速426 本章简介426 内容概览426 11.1  模型压缩简介426 11.1.1  模型压缩的背景427 11.1.2  模型压缩方法429 11.1.3  小结与讨论433 11.1.4  参考文献434 11.2  基于稀疏化的模型压缩434 11.2.1  人类大脑的稀疏性434 11.2.2  深度神经网络的稀疏性435 11.2.3  小结与讨论438 11.2.4  参考文献439 11.3  模型压缩与硬件加速439 11.3.1

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP