MLOps实践——机器学习从开发到生产(全彩)
正版新书 新华官方库房直发 可开电子发票
¥
62.54
5.9折
¥
106
全新
库存6件
作者李攀登
出版社电子工业出版社
出版时间2022-04
版次1
装帧其他
货号文轩12.19
上书时间2024-12-21
商品详情
- 品相描述:全新
图书标准信息
-
作者
李攀登
-
出版社
电子工业出版社
-
出版时间
2022-04
-
版次
1
-
ISBN
9787121431562
-
定价
106.00元
-
装帧
其他
-
开本
16开
-
页数
292页
-
字数
327千字
- 【内容简介】
-
在大数据时代,机器学习(ML)在互联网领域取得了巨大的成功,数据应用也逐渐从“数据驱动”阶段向“模型驱动”阶段跃升,但这也给ML项目落地带来了更大的困难,为了适应时代的发展,MLOps应运而生。本书从多个方面介绍了MLOps实践路径,内容涵盖了设计、构建和部署由ML驱动的应用程序所需的各种实用技能。
- 【作者简介】
-
李攀登,非参数统计硕士, AlgoLink(专注于MLOps研发与应用)的创始人,出海游戏公司博乐科技数据专家。曾任万达集团算法专家,蓝色光标算法团队负责人,Teradata资深数据挖掘工程师,亚信科技高级数据挖掘工程师。研究方向为机器学习、推荐系统、MLOps,拥有机器学习算法应用相关专利7项,MLOps专利2项,软件著作权1项。
- 【目录】
-
目 录
第1章 MLOps概述1
1.1 机器学习涉及的概念1
1.1.1 监督学习3
1.1.2 无监督学习4
1.1.3 半监督学习4
1.1.4 强化学习5
1.1.5 何时使用机器学习5
1.2 机器学习相关符号及术语定义7
1.2.1 原始数据、输入数据、特征与特征工程7
1.2.2 训练样本及预留样本8
1.2.3 参数与超参数8
1.2.4 参数模型、非参数模型、极大似然估计9
1.2.5 机器学习管道11
1.2.6 模型选择与性能权衡12
1.3 机器学习的工程挑战与MLOps解决方案13
1.3.1 MLOps的定义14
1.3.2 MLOps与其他Ops的区别15
1.3.3 谁在关注MLOps17
1.3.4 为什么需要MLOps19
1.3.5 MLOps给企业带来的增益20
1.3.6 MLOps的工作流程21
1.3.7 MLOps工程师需要具备的技能22
1.3.8 什么时候真正需要MLOps23
1.4 MLOps框架下的工程实践24
1.4.1 机器学习工程及生产化模块25
1.4.2 机器学习工程模块的设计原则26
1.4.3 进行机器学习工程的模块设计时需要注意的细节27
1.4.4 编码环境与模型探索27
1.4.5 特征存储31
1.4.6 实验管理和模型管理32
1.4.7 服务32
1.4.8 模型服务规模化33
1.4.9 模型监控34
1.5 本章总结34
第2章 在MLOps框架下开展机器学习项目36
2.1 界定业务范围阶段37
2.1.1 在项目规划时考虑生产化37
2.1.2 业务需求38
2.1.3 确定衡量指标和项目范围38
2.1.4 设计初步解决方案40
2.1.5 制定共同语言41
2.1.6 数据权限及准备44
2.2 研究与探索阶段44
2.2.1 数据探索44
2.2.2 技术有效性检查45
2.3 模型开发阶段46
2.3.1 模型开发的必要准备46
2.3.2 模型开发46
2.3.3 模型验证46
2.4 模型生产化阶段47
2.5 机器学习项目生命周期48
2.6 团队建设及分工49
2.6.1 企业数字化程度50
2.6.2 界定机器学习团队的角色50
2.6.3 探讨机器学习项目的团队建设与分工51
2.6.4 项目外包还是自建机器学习团队53
2.7 本章总结55
第3章 MLOps的基础准备:模型开发56
3.1 背景概要57
3.2 定义机器学习目标57
3.2.1 业务问题概述58
3.2.2 业务目标58
3.2.3 机器学习目标58
3.3 数据收集58
3.3.1 数据获取59
3.3.2 加载数据59
3.3.3 关于数据集61
3.4 数据预处理62
3.4.1 缺失值处理62
3.4.2 离群值检测63
3.5 数据探索64
3.5.1 目标变量65
3.5.2 服务分析65
3.5.3 用户行为分析67
3.6 特征工程70
3.6.1 分类和数值列拆分70
3.6.2 One-Hot编码72
3.6.3 特征缩放处理73
3.6.4 目标变量73
3.6.5 样本生成74
3.7 构建和评估模型74
3.7.1 处理非平衡问题74
3.7.2 模型构建75
3.8 持久化模型78
3.9 构建REST API78
3.9.1 导入相关库并加载模型79
3.9.2 编写预测函数80
3.9.3 用户请求81
3.10 模型投产82
3.10.1 机器学习投产陷阱及挑战83
3.10.2 机器学习模型演化:从独立模型到模型工厂85
3.10.3 利用MLOps实现模型的规模化投产86
3.11 本章总结87
第4章 ML与Ops之间的信息存储与传递机制88
4.1 机器学习实验跟踪89
4.1.1 机器学习实验跟踪的定义90
4.1.2 机器学习实验跟踪的必要性91
4.1.3 随时随地管理实验91
4.1.4 机器学习实验跟踪与模型管理的区别92
4.1.5 在MLOps框架中增加机器学习实验跟踪功能92
4.1.6 设计和实现机器学习实验跟踪API93
4.1.7 在生产中使用机器学习实验跟踪API100
4.2 A/B在线实验101
4.2.1 创建在线实验的必要性101
4.2.2 确定实验的范围与目标102
4.2.3 小样本量的确定方法103
4.2.4 对机器学习模型进行A/B测试104
4.2.5 在MLOps框架中增加A/B在线实验功能105
4.2.6 用于A/B在线实验的MAB方案108
4.2.7 MLOps框架中的A/B实验管理110
4.3 模型注册111
4.3.1 模型注册的定义111
4.3.2 模型注册的必要性112
4.3.3 将模型注册功能融入MLOps框架114
4.3.4 模型注册中心存储的信息115
4.3.5 模型注册的价值116
4.3.6 先从一个简单的模型注册开始118
4.3.7 设计和实现符合MLOps标准的模型注册中心119
4.3.8 在生产中使用模型注册API124
4.3.9 模型注册中心的权限设置126
4.4 特征存储127
4.4.1 特征工程及使用挑战127
4.4.2 特征存储的定义128
4.4.3 在MLOps框架中增加特征存储129
4.4.4 离线与在线特征130
4.4.5 特征存储带来的益处131
4.4.6 特征存储的架构设计132
4.5 本章总结135
第5章 模型统一接口设计及模型打包136
5.1 机器学习模型基础接口概述136
5.1.1 软件开发的策略模式137
5.1.2 Scikit-Learn对接口的处理方法138
5.2 业内一些常见的解决方案139
5.2.1 AWS的机器学习生命周期工具SageMaker139
5.2.2 Meta的机器学习平台FBLearner Flow139
5.2.3 Uber的机器学习平台Michelangelo140
5.2.4 开源的Seldon Core140
5.3 一个简单的机器学习模型接口示例140
5.3.1 继承ModelBase基类142
5.3.2 模型管理基类145
5.3.3 Flask REST端点148
5.4 机器学习项目打包148
5.4.1 模型及代码打包的必要性149
5.4.2 模型和代码打包的事项及示例150
5.4.3 模型序列化150
5.5 本章总结152
第6章 在MLOps框架下规模化部署模型153
6.1 定义及挑战154
6.1.1 机器学习部署的简单定义154
6.1.2 部署机器学习模型的常见挑战155
6.2 对业务的驱动逻辑156
6.2.1 模型部署的边界156
6.2.2 模型部署与业务应用流程的关系157
6.3 常见的设计模式158
6.3.1 用于在线推理的机器学习模型部署的挑战159
6.3.2 什么时候需要在线推理162
6.3.3 什么时候使用批量推理162
6.3.4 数据库批量推理模式163
6.3.5 嵌入式推理模式164
6.3.6 单服务推理模式165
6.3.7 微服务推理模式166
6.4 构建MLOps通用推理服务:模型即服务168
6.4.1 模型即服务的工作流程169
6.4.2 模型即服务的核心服务模块171
6.5 Web服务框架及应用生态172
6.5.1 Web应用程序172
6.5.2 WSGI服务器173
6.5.3 Web服务器176
6.5.4 使用REST API为模型提供服务178
6.6 基于Docker的模型应用程序部署179
6.6.1 Docker的定义180
6.6.2 Docker容器、Python虚拟环境和虚拟机180
6.6.3 构建HTTP REST API181
6.6.4 创建生产级的Docker镜像182
6.6.5 构建并运行Docker容器183
6.7 模型即服务的自动化184
6.7.1 模型即服务的逻辑设计184
6.7.2 模型即服务的通用接口定义187
6.7.3 使用SQLAlchemy ORM重构MLOps的信息存储表187
6.8 在MLOps框架下实现模型部署示例190
6.8.1 将构建好的模型进行注册190
6.8.2 模型部署和服务化193
6.8.3 机器学习实验跟踪功能升级195
6.9 基于开源项目的模型服务解决方案199
6.9.1 基于Kubernetes的资源管理项目KFServing199
6.9.2 机器学习部署平台Seldon Core199
6.9.3 轻量级模型部署及管理平台BentoML200
6.9.4 机器学习生命周期管理平台MLflow200
6.9.5 机器学习模型服务开源方案的总结201
6.9.6 关于机器学习模型部署和服务方案的思考201
6.10 本章总结202
第7章 MLOps框架下的模型发布及零停机模型更新204
7.1 机器学习在生产中的CI/CD205
7.1.1 模型在生产中持续迭代的挑战206
7.1.2 在MLOps框架中添加模型的发布流程207
7.1.3 CI阶段的实践208
7.1.4 CD阶段的实践211
7.2 模型服务的发布策略211
7.2.1 传统软件工程的发布策略212
7.2.2 部署即发布212
7.2.3 制定机器学习模型服务发布策略的必要性213
7.2.4 影子测试策略与渐进式推出策略214
7.2.5 竞争策略216
7.3 零停机更新模型服务218
7.3.1 生产中Flask的局限性219
7.3.2 关于GIL、线程和进程的入门知识219
7.3.3 从单线程的Flask到uWSGI220
7.3.4 模型更新条件检查222
7.3.5 动态更新模型方案222
7.3.6 基于Kubernetes的扩展方案227
7.4 本章总结228
第8章 MLOps框架下的模型监控与运维230
8.1 机器学习模型监控简介230
8.1.1 模型的监控场景231
8.1.2 为什么监控很重要232
8.1.3 机器学习监控与传统软件监控的区别233
8.1.4 谁需要关注机器学习的监控结果234
8.1.5 生产中导致模型衰退或出错的原因235
8.2 数据科学问题的监控236
8.2.1 模型漂移237
8.2.2 决策边界的改变238
8.2.3 模拟漂移与模型重建修正239
8.2.4 数据科学问题监控的常见指标和方法240
8.3 运维问题的监控241
8.3.1 运维问题的监控与可观察性242
8.3.2 运维问题监控的指标定义242
8.4 在MLOps框架内增加监控功能243
8.4.1 机器学习的日志信息记录244
8.4.2 使用特征存储简化模型监控245
8.4.3 A/B在线实验闭环246
8.4.4 模型衰退检测247
8.4.5 模型维护249
8.4.6 模型自动持续训练251
8.4.7 API缓冲252
8.5 本章总结252
第9章 对ML
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价