消息首页搜索举报

大数据湖实践

批量上传，套装书可能不全，下单前咨询在线客服！有特殊要求，下单前请咨询客服！

24.91 3.7折 68 全新

库存10件

江西南昌

认证卖家担保交易快速发货售后保障

作者Alex Gorelik

出版社中国电力出版社

ISBN9787519845902

出版时间2020-07

装帧平装

开本16开

定价68元

货号28989501

上书时间2024-11-15

思源汇书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 21小时
好评率暂无

最新上架

茶文化概论 ¥37.19

建筑装饰构造（第二版） ¥23.19

商业空间设计 ¥25.60

PYthon数据处理分析可视化与数据运营 ¥34.97

Revit 2020中文版从入门到精通 ¥50.77

审计学 ¥39.95

全新大学俄语综合教程1 ¥25.25

室内设计AutocAD制图 ¥49.30

消费者行为学 ¥19.66

商品详情

品相描述：全新

商品描述

前言

前言
近些年来，很多企业开始尝试使用大数据和云技术来构建数据湖（data lake），用于支持数据驱动的企业文化和决策，但这些项目经常会陷入停滞甚至失败。因为很多互联网公司的工作方式未必适合这些企业，而市面上又没有全面实用的指南来指导大家如何进行相应的调整。在这个背景下我写了这本书，目的是希望能在这方面提供帮助。
我曾在IBM 和Informatica（主要的数据技术供应商）任管理职务，在Menlo Ventures（一家领先的VC 公司）担任常驻企业家，目前是Waterline（一家大数据初创企业）的创始人兼CTO，在此期间我有幸能和上百位专家、有想法的人、行业分析师以及一线从业者讨论关于成功建立数据湖、培养数据驱动文化的挑战。本书正是我对各个行业（从社交媒体到银行和政府机构）和各种角色（从首席数据官和其他IT 主管到数据架构师、数据科学家和业务分析师）将会遇到的不同场景及其实践的总结。
大数据、数据科学和数据分析实现了数据驱动决策，并有望在许多方面带来前所未有的洞察力和效率，例如我们处理数据的方式、与客户合作的方式以及寻找治愈癌症的方法，但数据科学和数据分析都需要访问历史数据。认识到了这一点，许多公司开始部署大数据湖，将所有数据集中在一个地方并开始保存历史记录，使得数据科学家和分析人员可以访问他们需要的信息，以实现数据驱动的决策。企业大数据湖弥合了不同的现代互联网公司自由文化之间的鸿沟，在这种统一的文化中，数据是所有实践的核心，每个人都是分析师，大部分人都可以对自己的数据集进行编码和处理。
想要取得成功，企业数据湖必须提供三项新的能力：
• 高性价比、可扩展的存储和计算能力，用于在存储和分析大量数据的同时不至于引入过高的计算开销。
• 经济高效的数据获取和治理方式，使得每个人在查找和使用正确数据的同时避免进行编程或手工临时取数，从而避免引入过高的人力成本。
• 分层的、受管理的访问方式，根据不同的用户需求、技术水平和适用的数据管理策略，不同级别的数据可供不同用户使用。
Hadoop、Spark、NoSQL 数据库和基于弹性云的系统是令人兴奋的新技术，它们提供了项能力——高性价比、可扩展的存储和计算能力。虽然它们仍处在逐渐成熟的过程中，并面临着任何新技术固有的一些挑战，但它们已迅速趋向稳定并成为主流。然而这些强大的技术并不能提供另外两项能力——经济高效和分层数据访问。因此，当企业创建大型集群并收集大量数据后，终得到的是数据沼泽而不是数据湖。这是由不可用数据集组成的大型存储库，人们无法查找或理解这些数据集，也无法依赖它做任何决策，因为这太危险了。
本书主要讲解为全面实现大数据湖的三项能力所经历的思考以及实践，讨论了创建和发展数据湖的各种方法，包括数据水洼（data puddle，用作分析沙盒）和数据池（data pond，用作大数据仓库），以及从零开始构建数据湖的方法。书中探讨了自建、云上和虚拟三种不同体系结构数据湖的优缺点，内容包括如何建立不同的区域来存储原始未处理的数据、精心管理和汇总的数据，以及如何管理对这些区域的访问。它解释了如何启用自助服务以便用户能够自助查找、理解和取用数据，如何为具有不同技术能力的用户提供不同的交互，以及如何在此过程中不违反企业的数据管理政策。
目标读者
本书的目标读者是在大型传统企业工作的下面这几类人员：
• 数据服务和治理团队：首席数据官和数据管理员。
• IT 主管和架构师：首席技术官和大数据架构师。
• 分析团队：数据科学家、数据工程师、数据分析师和分析主管。
• 合规团队：首席信息安全官、数据保护官、信息安全分析师和合规检查主管。
本书内容得益于我在30 年的职业生涯中接触过的先进数据技术，以及帮助世界上那些超大型企业解决过的棘手数据问题。它借鉴了的大数据公司和企业的实践，以及来自一线从业者和行业专家的短文和成功案例，为成功构建和部署大数据湖提供了全面的指导。如果你想充分利用这些令人兴奋的新型大数据技术和方法给企业带来优势，那么本书是一个很好的起点。对于管理层来说，他们可以先读一遍此书，当工作中遇到大数据问题时再来翻阅。对于一线从业者来说，他们可以将此书作为规划和执行大数据湖项目的实用参考。
排版约定
本书采用下述排版约定。
斜体（Italic）
表示新术语、URL、电子邮件地址、文件名和扩展名。
等宽字体（Constant Width）
表示程序清单，在段落中出现则表示程序元素，例如变量、函数名、数据类型、环境变量、语句和关键字。
斜体等宽字体（Constant Width Italic）
表示应该替换成用户提供的值，或者由上下文决定的值。
O’Reilly 在线学习平台（O’Reilly Online Learning）
近40 年来，O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。
我们拥有独一无二的专家和革新者组成的庞大网络，他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly 的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境，以及O’Reilly 和200 多家其他出版商提供的大量文本和视频资源。有关的更多信息，请访问http://oreilly.com。
联系我们
请把对本书的评价和问题发给出版社。
美国：
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国：
北京市西城区西直门南大街2号成铭大厦C座807室（100035）
奥莱利技术咨询（北京）有限公司
这本书有专属网页，你可以在那儿找到本书的勘误、示例和其他信息，地址是：http://bit.ly/Enterprise-Big-Data-Lake。
如果你对本书有一些评论或技术上的建议，请发送电子邮件到bookquestions@oreilly.com。
要了解O’Reilly 图书、培训课程、会议和新闻的更多信息，请访问我们的网站，地址是：http://www.oreilly.com。
我们的Facebook：http://facebook.com/oreilly。
我们的Twitter：http://twitter.com/oreillymedia。
我们的YouTube 视频： http://www.youtube.com/oreillymedia。
致谢
首先我要对所有与我分享故事、专业知识和实践的专家和从业者们表示深深的感谢，这是一本关于你们的书，也是为你们而写的书！
此外也非常感谢所有帮助我完成本书书写的人，这是我的本书，没有你们的帮助我肯定无法完成。感谢：
O’Reilly 团队：我的O’Reilly 编辑Andy Oram，他在我精疲力竭的时候为本书注入了新的活力，并帮助它从意识流转变为连贯的内容；产品编辑Tim McGovern，他帮助此书出版；文案编辑Rachel Head，她让我震惊的是，即便经过了两年多的写作、编辑、重写、评论，以及反复的修改与重写，这本书仍然可以改进那么多。
通过短文分享了自己想法和实践的行业贡献者，你可以在书中相应论文旁找到他们的名字和履历。
以全新的视角、批判性的眼光和行业专业知识为本书做出巨大改进的审校者:Sanjeev Mohan、Opinder Bawa 和Nicole Schwartz。
后，感谢我的妻子Irina，我的孩子Hannah、Jane、Lisa 和John，我的妈妈Regina，我的朋友以及Waterline 大家庭的各位。如果没有你们的支持和爱，就不会有这本书。

导语摘要

数据仓库、大数据、数据科学的简单介绍。
了解企业建立数据湖的各种途径。
探索如何构建自助服务模型，以及如何让分析师便捷访问数据的*实践。
使用不同的方法来构建数据湖。
了解不同行业专家实现数据湖的方法。

作者简介

Alex Gorelik是Waterline Data的首席技术官和创始人，也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理，负责管理公司的平台和数据集成技术。此外，他还曾是IBM杰出的工程师，也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。

目录
前言 1
第1 章数据湖概述 7
数据湖的成熟度 9
数据水洼  11
数据池  12
创建成功的数据湖  12
适合的平台 13
适合的数据 14
适合的界面 16
数据沼泽  18
成功实施数据湖的路线图  20
建立数据湖 20
规划数据湖 21
构建自助服务的数据湖  23
构建数据湖  28
云上数据湖 29
逻辑数据湖 29
小结  34
第2 章历史背景 35
数据自助服务驱动——数据库的诞生  36
分析必要性驱动——数据仓库的诞生  39
数据仓库生态系统  40
存储和查询数据  41
加载数据——数据集成工具  47
组织和管理数据  51
消费数据  57
小结  58
第3 章大数据和数据科学概述 59
Hadoop 引领大数据的历史性转变  60
Hadoop 文件系统  60
MapReduce 作业中计算和存储如何交互  61
Schema on Read  63
Hadoop 项目  64
数据科学  65
你的分析机构应该关注什么？  67
机器学习  71
可解释性  72
变更管理  73
小结  74
第4 章建立数据湖 75
为什么是Hadoop 75
防止数据水洼扩散  78
利用大数据的优势  79
以数据科学为先导  80
策略1: 迁移已有功能  83
策略2: 为新项目建立数据湖  85
策略3: 建立数据治理中心  85
哪种策略适合你？  86
小结  88
第5 章从数据池/ 大数据仓库到数据湖 89
数据仓库的基本功能  90
用于分析的维度模型  91
整合不同源的数据  92
使用缓慢变化维保存历史记录  93
数据仓库作为历史库的局限性  93
迁移至数据池  94
数据池中保存历史数据  94
在数据池中使用缓慢变化维  96
数据池演化为数据湖——加载数据仓库中未包含的数据  98
原始数据  98
外部数据  99
IoT 与其他流式数据  102
实时数据湖  103
Lambda 架构  105
数据转换  106
目标系统  108
数据仓库  109
业务数据存储  109
实时应用和数据产品  110
小结  111
第6 章自助服务优化  112
自助服务起源  113
业务分析师  115
发现和理解数据——企业数据归档  116
建立信任  119
数据预置  126
为分析准备数据  128
数据湖数据整理  129
用Hadoop 来准备数据  129
数据预处理的常见案例  130
分析和可视化  133
自助式商业智能的新世界  133
新的分析工作流  134
门卫向店主的角色转变  136
管理自助服务  137
小结  137
第7 章数据湖架构  139
规划数据湖  139
原始区  141
产品区  142
工作区  144
敏感区  145
多数据湖  146
保持各数据湖独立的优势  147
合并多数据湖的优势  147
云上数据湖  148
虚拟数据湖  151
数据联邦  151
大数据虚拟化  152
消除冗余  154
小结  156
第8 章数据湖元数据  157
组织数据  157
技术元数据 159
业务元数据 164
打标  166
自动编目  167
逻辑数据管理  169
敏感数据管理和访问控制  169
数据质量  170
连接分散的数据  172
建立血缘关系  174
数据预置  176
创建目录的工具  176
工具对比  177
数据洋  178
小结  179
第9 章数据访问控制  180
授权与访问控制  181
基于标签的控制策略  182
数据脱敏  186
数据主权与法规  189
自助服务访问管理  191
预置数据  196
小结  204
第10 章行业案例  205
金融服务大数据  206
消费者、数字化和数据正在改变我们所熟知的金融行业  206
拯救银行  208
新数据提供新机遇  212
使用数据湖的关键过程  215
数据湖为金融服务领域带来的价值  218
保险行业中的数据湖  220
智慧城市  222
医疗大数据  224
作者介绍  227
封面介绍  227

内容摘要

主编推荐

— 没有更多了 —

大数据湖实践

思源汇书店

商品详情

相关推荐