• 大数据台架构 数据库 李昉 新华正版
  • 大数据台架构 数据库 李昉 新华正版
21年品牌 40万+商家 超1.5亿件商品

大数据台架构 数据库 李昉 新华正版

54.75 6.2折 89 全新

库存12件

河北保定
认证卖家担保交易快速发货售后保障

作者李昉

出版社电子工业出版社

ISBN9787121430671

出版时间2022-04

版次1

装帧平装

开本16

页数320页

字数416千字

定价89元

货号xhwx_1202621374

上书时间2024-12-16

浩子书屋

九年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

从整个大数据生态的整体架构由浅入深讲述大数据台系统架构的思路、架构方法、设计方法

目录:

章 大数据台架构概述 1

1.1 大数据台的产生与应用 1

1.1.1 大数据台的产生 1

1.1.2 大数据台的应用 2

1.2 大数据台架构 4

1.3 大数据处理系统经典架构 7

1.3.1 什么是lambda架构 7

1.3.2 lambda架构 8

1.3.3 kappa架构 10

1.3.4 适用场景 10

第2章 大数据与hadoop 12

2.1 hadoop简介 12

2.1.1 hadoop起源 12

2.1.2 hadoop特点 13

2.1.3 hadoop版本 13

2.2 hadoop生态系统 14

2.2.1 hadoop生态系统概况 15

2.2.2 hadoop生态系统组成详解 16

2.3 hadoop应用案例 21

2.3.1 hadoop应用案例1:全球大超市沃尔玛 21

2.3.2 hadoop应用案例2:全球大拍ebay 21

2.3.3 hadoop应用案例3:全球大信用卡公司visa 22

2.4 hadoop在的现状与未来 22

2.4.1 早的hadoop交流台:hadoop in china 22

2.4.2 hadoop发展现状 22

2.4.3 hadoop前景展望 25

第3章 开始使用hadoop集群 26

3.1 hadoop初探 26

3.1.1 使用hadoop的先决条件 26

3.1.2 安装环境 27

3.1.3 安装并运行hadoop 29

3.1.4 运行模式 30

3.1.5 hadoop单机模式 31

3.1.6 hadoop伪分布式模式 32

3.1.7 hadoop分布式模式 36

3.1.8 hadoop命令手册解读 39

3.2 hdfs基础和权限管理 45

3.2.1 hdfs特点 45

3.2.2 hdfs基本构成 46

3.2.3 hdfs使用 47

3.2.4 hdfs权限管理 48

3.3 mapreduce job开发、运行与管理 49

3.3.1 为什么需要 mapreduce 49

3.3.2 mapreduce 1.x和mapreduce 2.x 49

3.3.3 mapreduce开发 55

3.3.4 mapreduce运行与管理 58

3.4 yarn管理 62

3.4.1 yarn简介 62

3.4.2 主要组件 64

3.4.3 resourcemanager组件 65

3.4.4 nodemanager组件 65

3.4.5 applicationmaster组件 66

3.4.6 container组件 66

3.4.7 应用提交过程分析 66

第4章 hadoop集群能优化和维护 69

4.1 集群常用配置文件解读 69

4.1.1 配置文件 70

4.1.2 hadoop核心配置文件core-site.xml 71

4.2 hdfs配置优化 78

4.2.1 dfsadmin 81

4.2.2 secondarynamenode 82

4.2.3 rebalance与机架感知 83

4.2.4 安全模式、fsck、升级与回滚 84

4.2.5 集群与环境优化 85

4.3 mapreduce配置优化 86

4.3.1 job配置 86

4.3.2 其他 91

4.4 yarn配置优化 91

4.4.1 yarn 91

4.4.2 capacity scheduler 92

4.4.3 queue properties 94

第5章 高可用配置 97

5.1 架构 97

5.2 使用nfs共享存储 98

5.3 quorum-based存储+zookeeper 99

5.4 qjm 100

5.5 使用zookeeper进行自动故障转移 101

5.6 部署与配置 102

第6章 hadoop其他组件 106

6.1 hbase介绍 106

6.1.1 概述 106

6.1.2 特点 107

6.1.3 架构 108

6.1.4 工作 108

6.1.5 安装与运行 110

6.1.6 基础作 112

6.2 hive介绍 113

6.2.1 概述 113

6.2.2 特点 114

6.2.3 数据结构 114

6.2.4 架构 115

6.2.5 工作 116

6.2.6 安装与运行 116

6.3 pig介绍 118

6.3.1 概述 118

6.3.2 特点 119

6.3.3 运行模式 119

6.3.4 安装与运行 120

6.4 sqoop介绍 121

6.4.1 概述 121

6.4.2 版本介绍 122

6.4.3 特点 122

6.4.4 安装与运行 123

6.4.5 工作 123

第7章 nosql 125

7.1 nosql介绍 125

7.2 newsql介绍 126

7.3 nosql应用场景 127

7.4 能承受海量压力的键值型数据库:redis 128

7.5 处理非结构化数据的利器:monb 128

7.6 图数据库:neo4j 130

7.6.1 什么是图 130

7.6.2 什么是图数据库 130

7.6.3 neo4j简介 130

第8章 spark生态系统 132

8.1 spark在大数据生态中的定位 132

8.1.1 spark简介 132

8.1.2 spark系统定位 135

8.1.3 基本术语 136

8.2 spark主要模块介绍 138

8.2.1 spark core 138

8.2.2 spark sql 146

8.2.3 spark streaming 149

8.2.4 graphx 150

8.2.5 mllib 154

8.3 spark部署模型介绍 156

第9章 spark sql实战案例 158

9.1 spark sql前世今生 158

9.1.1 大数据背景 158

9.1.2 spark和spark sql的产生 159

9.1.3 版本更迭 159

9.2 rdd、dataframe及dataset 160

9.2.1 spark sql基础 161

9.2.2 dataset、dataframe、rdd的区别 167

9.3 使用外部数据源 168

9.3.1 读写文件 168

9.3.2 .parquet文件 169

9.3.3 orc文件 174

9.3.4 json dataset 174

9.4 连接metastore 174

9.4.1 hive table 174

9.4.2 和不同版本的hive metastore交互 175

9.4.3 bc连接其他数据库 176

9.5 自定义函数 178

9.5.1 聚合函数――非标准化类型(untyped)uadf开发 178

9.5.2 类型安全的自定义聚合函数――type-safe的udaf 180

9.6 spark sql与spark thrift server 183

9.6.1 分布式sql引擎 183

9.6.2 hiveserver2服务 184

9.7 spark sql 优化 185

9.7.1 内存缓存数据 185

9.7.2 sql查询中的broadcast hint 186

9.7.3 持久化rdd,选择存储级别 186

9.7.4 数据序列化选择 188

9.7.5 内存管理 189

9.7.6 其他虑 192

0章 spark streaming 195

10.1 spark streaming架构 195

10.2 dstream的特点 196

10.3 dstream的作 197

10.3.1 dstream的输入作 197

10.3.2 dstream的转换作 199

10.4 statefulrdd和windowrdd实战 201

10.4.1 statelessrdd无转化作 201

10.4.2 statefulrdd有转化作 206

10.5 kafka+spark steaming实战 212

10.5.1 搭建kafka环境 212

10.5.2 代码编写 213

10.6 spark streaming的优化 220

1章 数据同步收集 224

11.1 从关系数据库同步数据到hdfs 224

11.1.1 sqoop 225

11.1.2 datax 226

11.2 sqoop的使用 228

11.2.1 安装 228

11.2.2 mysql环境驱动配置 229

11.2.3 导入数据 230

11.3 数据清洗 234

2章 任务调度系统设计 239

12.1 初识任务调度 239

12.2 几种相对成熟的java调度系统选择 242

12.2.1 timer和timertask 242

12.2.2 scheduledthreadpoolexecutor 244

12.2.3 quartz 245

12.2.4 jcrontab 245

12.2.5 相对成熟的调度工具和开源产品 246

12.3 quartz的介绍 250

12.3.1 quartz的储备知识 251

12.3.2 quartz的基本使用 251

12.3.3 trigger的选择 252

12.3.4 jobstore 255

12.3.5 完整的例子 257

12.4 开源工具xxl-job 258

12.4.1 搭建项目 258

12.4.2 运行项目 260

12.4.3 项目简单使用 263

12.4.4 使用和使用建议 267

3章 调度系统选择 274

13.1 常用调度系统及对比 274

13.1.1 oozie简介 274

13.1.2 azkaban简介 275

13.1.3 airflow简介 276

13.1.4 调度系统对比 277

13.2 airflow基本架构设计 278

13.2.1 设计原则 278

13.2.2 airflow的服务构成 278

13.2.3 依赖关系的解决 280

13.2.4 工作 280

13.3 airflow任务调度系统的安装配置及使用 281

13.3.1 安装 281

13.3.2 配置 282

13.3.3 使用 285

13.4 airflow自定义dag的使用 286

4章 数据安全管理 292

14.1 hdfs层面的访问权限及安全模式 292

14.1.1 hdfs权限管理 292

14.1.2 hdfs安全模式 293

14.1.3 acl概念介绍 294

14.2 保障敏感数据的安全 295

14.3 应用层面的安全保障 297

5章 大数据面临的挑战、发展趋势及典型案例 300

15.1 大数据面临的问题与挑战 300

15.1.1 大数据潜在的危害 300

15.1.2 开放与隐私如何衡 301

15.1.3 大数据人才的缺乏 302

15.2 大数据发展趋势 302

15.2.1 大数据与电子 303

15.2.2 大数据与医疗 303

15.2.3 大数据与人工智能 304

15.2.4 大数据云台 304

15.3 典型大数据台案例 304

15.3.1 阿里云数加 304

15.3.2 华为fusion insight大数据台 305

15.3.3 三一重工witsight大数据台 307

内容简介:

对于企业而言,大数据的重要不言而喻,如何构建、实施和应用大数据系统是很复杂的。
本书将为大家全面而深入地介绍hadoop、park和noql台的构建,深入浅出地讲解hadoop、park和noql的基础知识、架构方案与实战等。通过阅读本书,读者可以对大数据台架构有一个明确、清晰的认识,掌握hadoop、park、noql台的使用,从而搭建一个安全可靠的大数据集群台,来满足企业的实际需求。
本书共15章,可分为五大部分。部分(章)为大数据台架构概述,讲述大数据台的基本概念与实际应用;第二部分(第2章〜第6章)主要讲解hadoop的基本使用方法,以及hadoop生态圈的其他组件;第三部分(第7章)主要介绍noql;第四部分(第8章〜0章)主要介绍park生态圈与park实战案例;第五部分(1章〜5章)讲解如何构建大数据台,阐述大数据台的几个核心模块,以及大数据台的未来发展趋势。
本书可作为各类it企业和研发机构的大数据工程师、架构师、软件设计师、程序员,以及相关专业在校的参书。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP