大数据技术

18.42 2.6折 69.8 九品

仅1件

北京昌平

认证卖家担保交易快速发货售后保障

作者华为技术有限公司

出版社人民邮电出版社

出版时间2021-06

版次1

装帧其他

货号A7

上书时间2024-12-02

旧书香书城

十年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

媳妇的辞职信：在婚姻里，我选择不做媳妇 ¥16.65

中小学生阅读文库：大林和小林（全新修订版）黑皮名著全新升级版 ¥17.60

让妈妈和孩子不再为吃饭烦恼 ¥15.63

大象马戏团 ¥20.30

最明朗日子的香味 ¥20.33

猫护士雷德 ¥35.22

你能听见什么 ¥22.36

戒了吧.拖延症 ¥17.45

日月的容曜(贰)希望 ¥17.42

商品详情

品相描述：九品

图书标准信息

作者华为技术有限公司
出版社人民邮电出版社
出版时间 2021-06
版次 1
ISBN 9787115556073
定价 69.80元
装帧其他
开本其他
纸张胶版纸
页数 252页
字数 468千字

【内容简介】: 本书系统、全面地介绍大数据技术的基础知识。全书共13章，首先介绍大数据行业与技术趋势；然后介绍大数据生态圈的各项技术，包括分布式文件系统、Hive分布式数据仓库、HBase技术原理、MapReduce和YARN技术原理、Spark基于内存的分布式计算、Flink流批一体分布式实时处理引擎、数据采集与数据装载工具、Kafka分布式消息订阅系统、高可靠集群安全模式、分布式全文检索Elasticsearch、Redis内存数据库等；后介绍华为大数据解决方案。通过学习本书所讲内容，读者可以整体了解大数据技术，掌握大数据生态圈中各项技术为基础和关键的知识。
本书可作为数据科学与大数据、软件工程、计算机科学与技术等专业的大数据概论课程的教材，也可供大数据工程技术人员学习或参考使用，还可作为华为HCIA认证考试的培训教材。
【作者简介】: 华为技术有限公司: 成立于1987年，总部位于广东省深圳市龙岗区。华为是全球领先的信息与通信技术（ICT）解决方案供应商，专注于ICT领域，在电信运营商、企业、终端和云计算等领域构筑了端到端的解决方案优势，为运营商客户、企业客户和消费者提供有竞争力的ICT解决方案、产品和服务，并致力于实现未来信息社会、构建更美好的全联接世界。2013年，华为首超全球大电信设备商爱立信，排名《财富》世界500强第315位。华为的产品和解决方案已经应用于全球170多个国家，服务全球运营商50强中的45家及全球1/3的人口。
【目录】: 第 1章大数据行业与技术趋势 1

1.1　大数据时代　1

1.1.1　大数据的定义　1

1.1.2　大数据分析与传统数据分析　2

1.1.3　大数据时代已经到来　7

1.2　大数据应用领域　8

1.3　大数据时代企业所面临的挑战和机遇　9

1.3.1　大数据时代企业所面临的挑战　9

1.3.2　大数据时代企业所面临的机遇　10

1.4　大数据代表技术和解决方案　11

1.4.1　大数据代表技术　11

1.4.2　大数据解决方案　16

1.5　本章小结　17

1.6　习题　17

第　2章分布式文件系统　18

2.1　文件系统概述　18

2.2　HDFS架构　20

2.2.1　HDFS体系结构　21

2.2.2　HDFS中的数据流　23

2.3　HDFS关键特性　26

2.3.1　HDFS高可用性　26

2.3.2　HDFS元数据持久化　28

2.3.3　HDFS联邦　28

2.3.4　HDFS视图文件系统　29

2.3.5　HDFS机架感知策略　30

2.3.6　HDFS集中式缓存管理　31

2.3.7　配置HDFS数据存储策略　32

2.3.8　HDFS同分布　33

2.4　HDFS操作　34

2.4.1　使用命令行访问HDFS　34

2.4.2　使用Java API访问HDFS　36

2.5　ZooKeeper　40

2.5.1　ZooKeeper体系结构　40

2.5.2　ZooKeeper读/写机制　41

2.5.3　ZooKeeper关键特性　42

2.5.4　ZooKeeper命令行操作　42

2.6　本章小结　42

2.7　习题　43

第3章　Hive分布式数据仓库　44

3.1　数据仓库　44

3.1.1　数据仓库的定义　44

3.1.2　数据仓库和数据库的区别　44

3.1.3　数据仓库的系统结构　45

3.2　Hive概述和体系结构　46

3.2.1　Hive概述　46

3.2.2　Hive的体系结构　46

3.2.3　Hive与传统数据仓库　48

3.2.4　Hive数据存储模型　49

3.3　Hive基本操作　50

3.3.1　Hive数据基本操作　50

3.3.2　用户自定义函数　57

3.3.3　Hive数据压缩与文件存储格式　58

3.4　Hive增强特性　60

3.4.1　支持HDFS同分布　60

3.4.2　支持列加密功能　61

3.4.3　支持HBase删除功能　61

3.4.4　指定行分隔符　61

3.4.5　其他增强特性　62

3.5　本章小结　62

3.6　习题　63

第4章　HBase技术原理　64

4.1　NoSQL数据库　64

4.2　HBase概述与基本架构　66

4.2.1　HBase概述　66

4.2.2　HBase数据模型　67

4.2.3　HBase架构　68

4.2.4　HBase关键流程　70

4.3　HBase基本操作　75

4.3.1　HBase性能优化　75

4.3.2　HBase常用操作　77

4.3.3　HBase Java API操作　79

4.4　HBase增强特性　82

4.4.1　支持二级索引　82

4.4.2　二级索引行键去除padding　83

4.4.3　支持多点分割　83

4.4.4　容灾增强　83

4.4.5　HBase MOB　84

4.4.6　HFS　84

4.5　本章小结　85

4.6　习题　85

第5章　MapReduce和YARN技术原理　86

5.1　MapReduce和YARN基本介绍　86

5.1.1　MapReduce基本介绍　86

5.1.2　YARN基本介绍　87

5.2　MapReduce和YARN的功能与架构　87

5.2.1　MapReduce过程详解　87

5.2.2　经典MapReduce任务调度模型　89

5.2.3　YARN的组件架构　90

5.2.4　MapReduce On YARN　91

5.2.5　YARN 容错机制　92

5.3　YARN的资源隔离和调度　92

5.3.1　YARN资源隔离　92

5.3.2　YARN资源调度　94

5.3.3　抢占与延时调度　97

5.3.4　YARN参数配置　98

5.4　MapReduce和YARN增强特性　103

5.4.1　任务优先级调度　103

5.4.2　提交Application可设置超时参数　104

5.4.3　YARN的权限控制　104

5.4.4　支持CPU硬隔离　105

5.4.5　重启性能优化　105

5.5　MapReduce实例　106

5.5.1　Top10视频分析　106

5.5.2　视频类别统计　108

5.6　本章小结　109

5.7　习题　109

第6章　Spark基于内存的分布式计算　110

6.1　Spark简介　110

6.1.1　Spark概念　110

6.1.2　Spark架构　111

6.1.3　Spark核心组件　112

6.2　Spark编程模型　114

6.2.1　核心数据结构RDD　114

6.2.2　RDD上的操作　114

6.2.3　RDD的持久化　115

6.2.4　RDD计算工作流　115

6.3　Spark调度机制　116

6.3.1　Spark应用执行流程　116

6.3.2　Spark调度与任务分配　117

6.4　Spark生态圈其他技术　120

6.4.1　Spark SQL　120

6.4.2　Spark Streaming　123

6.5　Spark应用案例　127

6.5.1　Spark Shell　127

6.5.2　WordCount　129

6.6　本章小结　130

6.7　习题　130

第7章　Flink流批一体分布式实时处理引擎　131

7.1　Flink概述　131

7.1.1　Flink的特点　131

7.1.2　Flink的应用场景　133

7.2　Flink原理和架构　133

7.2.1　Flink主要组件　133

7.2.2　Flink的插槽和并行度　134

7.3　Flink部署　136

7.3.1　Standalone部署　137

7.3.2　Flink on YARN部署　139

7.4　Flink时间处理　141

7.4.1　时间语义　141

7.4.2　窗口　142

7.4.3　Watermark　144

7.4.4　延迟处理　145

7.5　Flink的容错机制　146

7.5.1　常用State　146

7.5.2　Checkpoint　148

7.5.3　State Backend　150

7.6　Flink应用案例　152

7.7　本章小结　153

7.8　习题　153

第8章　数据采集与数据装载工具　154

8.1　Flume简介及结构　154

8.1.1　Flume定义　154

8.1.2　Flume组成架构　155

8.1.3　Flume拓扑结构　158

8.2　Flume关键特性　160

8.2.1　Source　160

8.2.2　Sink　163

8.2.3　Channel、拦截器与处理器　165

8.3　Flume的安装与配置　166

8.4　数据装载工具Loader　168

8.4.1　Loader简介　168

8.4.2　Loader模块架构　169

8.4.3　Loader作业管理　170

8.4.4　监控作业执行状态　172

8.5　本章小结　173

8.6　习题　173

第9章　Kafka分布式消息订阅系统　175

9.1　Kafka简介　175

9.1.1　Kafka概念　175

9.1.2　Kafka结构　175

9.1.3　Kafka消息传递模式　176

9.1.4　Kafka特点　176

9.2　Kafka组成　178

9.2.1　Kafka组成的概念　178

9.2.2　Kafka组成的功能　179

9.3　Kafka关键流程及数据管理　181

9.3.1　Kafka生产过程分析　181

9.3.2　Broker保存消息　182

9.3.3　Kafka消费过程分析　183

9.3.4　Kafka高可用　184

9.3.5　旧数据处理方式　184

9.4　Kafka应用案例　185

消息队列的应用场景　185

9.5　本章小结　189

9.6　习题　189

第　10章高可靠集群安全模式　190

10.1　统一身份认证管理　190

10.1.1　统一身份认证　190

10.1.2　统一用户管理系统　191

10.2　目录服务和轻型目录访问协议　192

10.2.1　目录服务　192

10.2.2　轻型目录访问协议　193

10.2.3　LdapServer　194

10.2.4　LdapServer集成设计　198

10.2.5　LdapServer应用优势　198

10.3　单点登录及Kerberos基本原理　199

10.3.1　单点登录　199

10.3.2　KrbServer　201

10.3.3　KrbServer认证流程　202

10.4　华为大数据安全认证场景架构　204

10.4.1　安全认证场景架构　204

10.4.2　Kerberos与LdapServer的业务交互　205

10.4.3　常用配置项及命令　206

10.4.4　集群内服务认证　207

10.5　本章小结　207

10.6　习题　208

第　11章分布式全文检索Elasticsearch　209

11.1　Elasticsearch简介　209

11.1.1　Elasticsearch特点　209

11.1.2　Elasticsearch应用场景　210

11.1.3　Elasticsearch在大数据解决方案中的位置　210

11.2　Elasticsearch架构　211

11.2.1　Elasticsearch核心概念　211

11.2.2　Elasticsearch集群架构　213

11.2.3　Elasticsearch内部架构　213

11.3　Elasticsearch关键特性　215

11.3.1　倒排序索引　215

11.3.2　路由算法　216

11.3.3　平衡算法　217

11.3.4　扩容策略　218

11.3.5　减容策略　218

11.3.6　索引HBase数据　219

11.3.7　单机多实例部署　219

11.3.8　分片自动跨节点分配策略　220

11.4　本章小结　221

11.5　习题　222

第　12章 Redis内存数据库　223

12.1　Redis简介　223

12.2　Redis架构　225

12.2.1　Redis架构概述　225

12.2.2　Redis架构设计　225

12.2.3　单线程架构　225

12.2.4　集群环境读/写流程分析　226

12.3　Redis数据类型及操作命令　227

12.3.1　字符串类型　228

12.3.2　列表类型　229

12.3.3　集合类型　231

12.3.4　散列表类型　232

12.3.5　有序集合类型　233

12.4　Redis的持久化　234

12.4.1　RDB持久化　234

12.4.2　AOF持久化　236

12.5　Redis优化　238

12.6　本章小结　239

12.7　习题　239

第　13章华为大数据解决方案　240

13.1　ICT行业发展趋势概述　240

13.1.1　概述　240

13.1.2　华为云Stack解决方案　241

13.1.3　华为云Stack功能架构　242

13.1.4　数字平台场景化解决方案　243

13.1.5　华为云大数据服务　244

13.2　华为大数据服务　245

13.2.1　MRS　245

13.2.2　数据仓库服务　246

13.2.3　云搜索服务　248

13.2.4　图引擎服务　248

13.3　华为智能数据湖运营平台　249

13.3.1　华为云智能数据湖　249

13.3.2　智能数据湖运营平台DAYU　250

13.3.3　数据湖治理　251

13.4　本章小结　252

13.5　习题　252

点击展开点击收起

— 没有更多了 —