• 企业数据湖
  • 企业数据湖
21年品牌 40万+商家 超1.5亿件商品

企业数据湖

158 九五品

仅1件

北京房山
认证卖家担保交易快速发货售后保障

作者M 著;[印度]汤姆斯·约翰(Tomcy John)、潘卡·米斯拉(Pankaj、张世武 李想 张浩林 译

出版社机械工业出版社

出版时间2018-12

版次1

装帧平装

上书时间2024-07-15

之兮书屋

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九五品
图书标准信息
  • 作者 M 著;[印度]汤姆斯·约翰(Tomcy John)、潘卡·米斯拉(Pankaj、张世武 李想 张浩林 译
  • 出版社 机械工业出版社
  • 出版时间 2018-12
  • 版次 1
  • ISBN 9787111615538
  • 定价 99.00元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 392页
  • 丛书 大数据技术丛书
【内容简介】
本书分为三个主要部分。部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的*新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的*后,读者将能够选择正确的大数据技术,使用lambda架构模式来构建企业数据湖。
【作者简介】
汤姆斯·约翰(Tomcy John)是一名企业级Java技术专家,拥有工学学士学位,并且有超过14年多行业的开发经验。他目前担任Emirates Group IT核心架构部门的首席架构师。在此之前,他曾在甲骨文公司、安永公司任职。他主要擅长构建企业级应用,并且在企业内担任首席导师和布道者,以促进新技术融入企业标准技术栈。 
潘卡·米斯拉(Pankaj Misra)是一名技术传播者,拥有工程学士学位,并且有超过16年跨多个业务领域的技术经验。自2015年以来,他一直在Emirates Group IT任职。他擅长架构和构建多技术栈的解决方案及实现。他在印度的技术论坛上也是一名活跃分子,参与过多个海量数据、可水平扩展的近实时数据处理和分析产品的构建。
【目录】
译者序 
推荐序 
关于作者 
关于技术审核人员 
前言 
第一部分 概述 
第1章 数据导论 2 
1.1 探索数据 3 
1.2 什么是企业数据 4 
1.3 企业数据管理 5 
1.4 大数据相关概念 6 
1.5 数据与企业的相关性 8 
1.6 数据质量 9 
1.7 企业中数据如何存放 10 
1.7.1 内联网(企业内部) 10 
1.7.2 互联网(企业外部) 10 
1.7.3 数据持久化存储(RDBMS或者NoSQL) 12 
1.7.4 传统的数据仓库 13 
1.7.5 文件存储 13 
1.8 企业现状 14 
1.9 企业数字化转型 15 
1.10 数据湖用例启示 16 
1.11 总结 17 
第2章 数据湖概念概览 18 
2.1 什么是数据湖 18 
2.2 数据湖如何帮助企业 19 
2.3 数据湖是如何工作的 20 
2.4 数据湖与数据仓库的区别 21 
2.5 数据湖的构建方法 22 
2.6 Lambda架构驱动的数据湖 22 
2.6.1 数据摄取层——摄取数据用于处理和存储 23 
2.6.2 批处理层——批量处理已提取数据 23 
2.6.3 快速处理层——近实时数据处理 24 
2.6.4 数据存储层——存储所有数据 24 
2.6.5 服务层——数据交付与导出 25 
2.6.6 数据获取层——从源系统获取数据 25 
2.6.7 消息层——数据传输的保障 26 
2.6.8 探索数据摄取层 27 
2.6.9 探索Lambda层 28 
2.7 总结 35 
第3章 Lambda架构:一种数据湖 
实现模式 36 
3.1 什么是Lambda架构 36 
3.2 Lambda 架构简史 37 
3.3 Lambda架构的原则 37 
3.3.1 容错原则 38 
3.3.2 不可变数据原则 38 
3.3.3 重新计算原则 38 
3.4 Lambda架构的组件 38 
3.4.1 批处理层 39 
3.4.2 快速处理层 41 
3.4.3 服务层 43 
3.5 Lambda架构的完整工作原理 44 
3.6 Lambda架构的优势 45 
3.7 Lambda架构的劣势 46 
3.8 Lambda架构技术概览 46 
3.9 应用Lambda 47 
3.9.1 企业级日志分析 47 
3.9.2 获取和分析传感器数据 47 
3.9.3 电子邮件平台实时统计 48 
3.9.4 实时赛事分析 48 
3.9.5 推荐引擎 48 
3.9.6 安全威胁分析 48 
3.9.7 多渠道用户行为分析 48 
3.10 Lambda架构运行范例 48 
3.11 Kappa架构 49 
3.12 总结 50 
第4章 数据湖中的Lambda应用 51 
4.1 Hadoop发行版本介绍 51 
4.2 影响企业大数据技术栈选择的因素 53 
4.2.1 技术能力 53 
4.2.2 是否易于部署和维护 53 
4.2.3 集成准备 53 
4.3 批处理层与数据处理 53 
4.3.1 NameNode服务器 54 
4.3.2 Secondary NameNode服务器 55 
4.3.3 YARN 55 
4.3.4 数据存储节点 55 
4.3.5 快速处理层 56 
4.3.6 Flume用于数据获取 57 
4.3.7 Spark Streaming 58 
4.4 服务层 62 
4.4.1 数据存储层 62 
4.4.2 数据访问层 63 
4.5 总结 64 
第二部分 数据湖的技术组件 
第5章 基于Apache Sqoop的批量数据获取 68 
5.1 数据湖背景中的数据获取 68 
5.1.1 数据获取层 68 
5.1.2 批量数据获取——技术路线图 69 
5.2 为什么使用Apache Sqoop 70 
5.2.1 Sqoop简史 71 
5.2.2 Sqoop的优势 71 
5.2.3 Sqoop的劣势 72 
5.3 Sqoop的功能 72 
5.3.1 Sqoop 2的架构 74 
5.3.2 Sqoop 1与Sqoop 2 75 
5.3.3 Sqoop的功能 77 
5.3.4 使用Sqoop导入数据 77 
5.3.5 使用Sqoop导出数据 78 
5.4 Sqoop connector 79 
5.5 Sqoop对HDFS的支持 81 
5.6 Sqoop运行范例 81 
5.6.1 安装与配置 81 
5.6.2 数据源配置 90 
5.6.3 Sqoop配置(数据库驱动) 91 
5.6.4 将HDFS配置为目的地 91 
5.6.5 Sqoop数据导入 91 
5.6.6 Sqoop数据导出 97 
5.6.7 Sqoop job 98 
5.6.8 Sqoop 2 99 
5.6.9 SCV用例视角中的Sqoop 102 
5.7 适合使用Sqoop的场景 103 
5.8 不适合使用Sqoop的场景 104 
5.9 实时Sqooping是否可行 104 
5.10 其他选项 104 
5.10.1 原生大数据connector 105 
5.10.2 Talend 106 
5.10.3 Pentaho Kettle(PDI——Pentaho数据集成) 106 
5.11 总结 106 
第6章 基于Apache Flume的流式数据获取 108 
6.1 数据获取 108 
6.1.1 什么是流式数据 109 
6.1.2 批量数据和流式数据 110 
6.1.3 流式数据获取——技术路线图 110 
6.1.4 什么是Flume 111 
6.1.5 Sqoop和Flume 112 
6.2 为什么使用Flume 113 
6.2.1 Flume简史 113 
6.2.2 Flume的优势 113 
6.2.3 Flume的劣势 114 
6.3 Flume的架构原则 114 
6.4 Flume架构 115 
6.4.1 Flume 架构之一:分布式数据流水线 116 
6.4.2 Flume 架构之二:扇出 117 
6.4.3 Flume 架构之三:扇入 117 
6.4.4 Flume架构中的3层设计 118 
6.4.5 高级Flume架构 118 
6.4.6 Flume的可靠性级别 120 
6.5 Flume事件——流式数据 120 
6.6 Flume Agent 120 
6.7 Flume Source 122 
6.8 Flume Channel 123 
6.9 Flume Sink 125 
6.10 Flume配置 126 
6.11 Flume事务管理 127 
6.12 Flume的其他组件 128 
6.12.1 Channel Processor 128 
6.12.2 Interceptor 129 
6.12.3 Channel Selector 129 
6.12.4 Sink Group 130 
6.12.5 事
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP