数据质量管理:数据可靠性与数据质量问题解决之道9787111754114
正版图书,可开发票,请放心购买。
¥
81.75
7.5折
¥
109
全新
库存7件
作者[美]巴尔·摩西,[美]利奥·加维什,[美]莫莉·沃尔维克
出版社机械工业出版社
ISBN9787111754114
出版时间2023-07
装帧平装
开本16开
定价109元
货号16103094
上书时间2024-12-22
商品详情
- 品相描述:全新
- 商品描述
-
目录
目录<br />前言1<br />第1章 为什么数据质量值得关注7<br />1.1 什么是数据质量9<br />1.2 构筑当下10<br />1.2.1 了解“数据宕机的增加”11<br />1.2.2 促成当前形势的其他行业趋势13<br />1.3 总结15<br />第2章 对可靠数据系统的构建模块进行组装16<br />2.1 了解事务型数据和分析型数据之间的差异16<br />2.2 是什么让它们有所不同17<br />2.3 数据仓库与数据湖19<br />2.3.1 数据仓库:模式级别的表类型19<br />2.3.2 数据湖:文件级别的操作21<br />2.3.3 什么是湖仓一体22<br />2.3.4 在仓库和湖之间同步数据23<br />2.4 收集数据质量指标24<br />2.4.1 什么是数据质量指标24<br />2.4.2 如何提取数据质量指标25<br />2.4.3 使用查询日志了解数据仓库中的数据质量31<br />2.4.4 使用查询日志了解数据湖中的数据质量32<br />2.5 设计数据目录33<br />2.6 构建数据目录34<br />2.7 总结38<br />第3章 收集、清洗、转换和测试数据39<br />3.1 收集数据39<br />3.1.1 应用程序日志数据40<br />3.1.2 API响应41<br />3.1.3 传感器数据42<br />3.2 清洗数据43<br />3.3 批处理与流处理45<br />3.4 流处理的数据质量46<br />3.5 数据标准化49<br />3.5.1 处理异构数据源49<br />3.5.2 模式检查和类型强制转换50<br />3.5.3 数据中的句法歧义与语义歧义51<br />3.5.4 管理AWS Kinesis和Apache Kafka之间的事务型数据转换52<br />3.6 运行分析型数据转换53<br />3.6.1 确保ETL期间的数据质量53<br />3.6.2 确保转换期间的数据质量53<br />3.7 警报和测试54<br />3.7.1 dbt单元测试55<br />3.7.2 Great Expectations单元测试57<br />3.7.3 Deequ单元测试59<br />3.8 使用 Apache Airflow 管理数据质量61<br />3.8.1 调度程序的SLA61<br />3.8.2 在Apache Airflow中安装断路器64<br />3.8.3 SQL检查运算符64<br />3.9 总结65<br />第4章 数据管道的监控和异常检测66<br />4.1 了解已知的未知和未知的未知67<br />4.2 构建异常检测的算法68<br />4.2.1 新鲜度监控70<br />4.2.2 了解分布75<br />4.3 为模式和沿袭构建监控器83<br />4.3.1 模式变更和沿袭的异常检测83<br />4.3.2 对沿袭进行可视化87<br />4.3.3 调查数据异常89<br />4.4 使用Python和机器学习扩展异常检测93<br />4.4.1 利用机器学习改进数据监控警报98<br />4.4.2 假阳性和假阴性的解释98<br />4.4.3 提高准确率和召回率100<br />4.4.4 通过数据监控检测新鲜度事件103<br />4.4.5 F分数104<br />4.4.6 模型的准确率重要吗105<br />4.5 深入探究:其他有用的异常检测方法108<br />4.6 为数据仓库和数据湖分别设计数据质量监控器109<br />4.7 总结110<br />第5章 为数据可靠性进行架构设计111<br />5.1 在摄取数据时评估并维护高数据可靠性111<br />5.2 度量和维护管道中的数据质量114<br />5.3 了解下游的数据质量116<br />5.4 构建数据平台119<br />5.4.1 数据摄取120<br />5.4.2 数据存储和处理120<br />5.4.3 数据转换和建模120<br />5.4.4 商业智能和分析121<br />5.4.5 数据发现和治理122<br />5.5 建立对数据的信任122<br />5.5.1 数据可观测性123<br />5.5.2 评估数据质量的投资回报率123<br />5.5.3 如何为数据设置SLA、SLO和SLI125<br />5.6 案例分析:Blinkist128<br />5.7 总结129<br />第6章 解决大规模数据质量问题131<br />6.1 在软件研发过程中解决数据质量问题131<br />6.2 数据事件管理133<br />6.2.1 事件检测134<br />6.2.2 响应137<br />6.2.3 根因分析138<br />6.2.4 解决146<br />6.2.5 不做指责的复盘146<br />6.3 事件应对与缓解策略147<br />6.3.1 建立事件管理的标准程序148<br />6.3.2 为什么数据事件指挥官如此重要153<br />6.4 案例分析:PagerDuty公司的数据事件管理153<br />6.4.1 PagerDuty的数据运营概况153<br />6.4.2 PagerDuty的数据挑战154<br />6.4.3 使用DevOps的很好实践来规模化数据事件管理154<br />6.5 总结155<br />第7章 构建端到端的数据沿袭157<br />7.1 为现代数据系统构建端到端字段级别的沿袭158<br />7.1.1 数据沿袭的基本要求159<br />7.1.2 数据沿袭的设计161<br />7.1.3 解析数据167<br />7.1.4 构建用户界面168<br />7.2 案例分析:在福克斯公司构建数据可靠性170<br />7.2.1 在与利益相关方打交道时,运用“可控自由”原则171<br />7.2.2 投资于去中心化数据团队172<br />7.2.3 避免追逐闪亮的新科技,而应该选择解决问题的技术173<br />7.2.4 为实现自助式分析,要致力于建立数据信任173<br />7.3 总结174<br />第8章 推广和普及数据质量175<br />8.1 将“数据”视为产品176<br />8.2 将数据视为产品的经验177<br />8.2.1 Convoy案例分析:数据即服务或输出178<br />8.2.2 Uber案例分析:数据产品经理的崛起179<br />8.2.3 采用“数据即产品”的方法180<br />8.3 在数据平台中建立信任184<br />8.3.1 确保产品目标与业务目标保持一致184<br />8.3.2 寻求适合的利益相关方的反馈与认可185<br />8.3.3 优先考虑长期增长和可持续性,而非短期收益186<br />8.3.4 为数据及其评估标准设定基准指标187<br />8.3.5 了解何时构建、何时购买187<br />8.4 分配数据质量所有权189<br />8.4.1 首席数据官189<br />8.4.2 商业智能分析师190<br />8.4.3 分析工程师190<br />8.4.4 数据科学家190<br />8.4.5 数据治理主管191<br />8.4.6 数据工程师191<br />8.4.7 数据产品经理191<br />8.4.8 谁来负责数据可靠性192<br />8.5 为数据质量创建责任制193<br />8.6 平衡数据可访问性与数据信任194<br />8.7 对数据进行认证195<br />8.8 实施数据认证流程的七个步骤195<br />8.9 案例分析:Toast寻找适合其数据团队结构的过程200<br />8.9.1 起初:一个艰难满足数据需求的小团队201<br />8.9.2 以分散式数据运营支持超级增长201<br />8.9.3 重组、再集中化并重新聚焦于数据信任202<br />8.9.4 在扩张数据团队时需要考虑的因素203<br />8.10 提高数据素养206<br />8.11 优先考虑数据治理和合规性208<br />8.11.1 优先考虑数据目录208<br />8.11.2 数据目录之外:实施数据治理211<br />8.12 构建数据质量策略211<br />8.12.1 让领导层对数据质量最终负责212<br />8.12.2 设定数据质量的KPI212<br />8.12.3 带头实施数据治理计划212<br />8.12.4 自动化数据沿袭与数据治理工具213<br />8.12.5 创建沟通计划213<br />8.13 总结213<br />第9章 现实世界中的数据质量:对话和案例分析215<br />9.1 为更高的数据质量构建数据网格216<br />9.1.1 面向领域的数据所有者和数据管道217<br />9.1.2 自助式服务功能217<br />9.1.3 互操作性与通信标准化218<br />9.2 为什么要实施数据网格218<br />9.2.1 选不选网格219<br />9.2.2 计算你的数据网格分数219<br />9.3 与 Zhamak Dehghani 的对话:数据质量在数据网格中的作用220<br />9.3.1 你可以从单一解决方案构建数据网格吗220<br />9.3.2 数据网格是数据虚拟化的另一种表达吗221<br />9.3.3 每个数据产品团队是否管理自己独立的数据存储221<br />9.3.4 自助式数据平台与分散式数据网格是一回事吗221<br />9.3.5 数据网格适用于所有的数据团队吗222<br />9.3.6 团队中的某个人会“拥有”数据网格吗222<br />9.3.7 数据网格是否会引起数据工程师和数据分析师之间的摩擦222<br />9.4 案例分析:Kolibri Games的数据栈之旅223<br />9.4.1 最初的数据需求224<br />9.4.2 追求绩效营销225<br />9.4.3 2018年:专业化和集中化227<br />9.4.4 开始以数据为导向228<br />9.4.5 开始数据驱动230<br />9.4.6 构建数据网格233<br />9.4.7 五年数据演变的五个关键思考235<br />9.5 让元数据为业务服务236<br />9.6 通过数据发现释放元数据的价值239<br />9.6.1 数据仓库和数据湖的考量239<br />9.6.2 数据目录可能淹没在数据湖甚至数据网格中240<br />9.6.3 从传统的数据目录过渡到现代的数据发现240<br />9.7 决定何时开始处理公司的数据质量问题243<br />9.7.1 在最近迁移到云端243<br />9.7.2 数据栈随着更多的数据源、更多的表和更高的复杂性而扩展244<br />9.7.3 你的数据团队正在扩充244<br />9.7.4 你的团队至少花费了30%的时间来解决数据质量问题245<br />9.7.5 你的团队拥有比一年前更多的数据消费者245<br />9.7.6 你的公司正在转向自助式服务分析模型245<br />9.7.7 数据是客户价值主张的关键部分246<br />9.7.8 数据质量源于信任246<br />9.8 总结246<br />第10章 开创可靠数据系统的未来248<br />10.1 要积极主动,而不是消极被动249<br />10.2 对数据质量和数据可靠性未来的预测251<br />10.2.1 数据仓库和数据湖将融为一体251<br />10.2.2 数据团队中的新角色252<br />10.2.3 自动化的兴起254<br />10.2.4 更多的分布式环境与数据领域的兴起255<br />10.3何去何从255<br />
内容摘要
本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的很好实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。
主编推荐
你的产品仪表盘看起来时髦吗?你的季度报告过时了吗?你使用的数据集是坏的还是根本就是错误的?这些问题几乎影响每一个团队,但它们通常以一种临时的、被动的方式得到解决。如果你也受困于这些问题,那么本书就是为你准备的。 如今,许多数据工程团队都面临着“好管道,坏数据”的问题。如果你的数据不好,那么数据基础设施再优选也没用。在本书中,来自数据可观测性公司蒙特卡罗的Barr Moses、Lior Gavish和Molly Vorwerck解释了如何利用世界上一些拥有创新性的公司采用的很好实践和技术来解决大规模数据质量和信任问题。 通过阅读本书,你将: ? 构建更可信、更可靠的数据管道。 ? 编写脚本进行数据检查,并通过数据可观测性识别损坏的管道。 ? 了解如何设置和维护数据SLA、SLI和SLO。 ? 制定并领导公司的数据质量计划。 ? 了解如何像对待生产软件一样对待数据服务和系统。 ? 跨数据生态系统自动绘制数据沿袭图。 ? 为关键数据资产构建异常检测器。
精彩内容
本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的很好实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。
— 没有更多了 —
以下为对购买帮助不大的评价