• spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
  • spark大数据分析实战 数据库 张伟洋
21年品牌 40万+商家 超1.5亿件商品

spark大数据分析实战 数据库 张伟洋

"基于spark 2.4.x新版本编撰,通俗易懂,无痛上手 结合丰富案例详解spark生态系统主流的大数据处理技术"

50.55 6.4折 79 全新

库存2件

北京丰台
认证卖家担保交易快速发货售后保障

作者张伟洋

出版社清华大学出版社

ISBN9787302556954

出版时间2020-08

版次1

装帧平装

开本16

页数376页

字数602千字

定价79元

货号xhwx_1202107950

上书时间2024-10-22

智胜图书专营店

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

"park已成为当今非常活跃、高效的大数据计算台,很多互联网公司都使用park来实现公司的核心业务,如阿里的云计算台、的系统等,只要和海量数据相关的领域都有park的身影。
本书基于park 2.4.x新版本编写,涵盖当前整个park生态系统主流的大数据处理技术,以实案例为主,理论为辅,一步一步手把手对常用的park离线计算及实时计算等系统进行详细论述。"

目录:

章spark开发准备——scala基础1

1.1什么是scala1

1.2安装scala2

1.2.1在windows中安装scala2

1.2.2在centos7中安装scala3

1.3scala基础4

1.3.1变量声明4

1.3.2数据类型5

1.3.3表达式7

1.3.4循环8

1.3.5方法与函数10

1.4集合14

1.4.1数组14

1.4.2list16

1.4.3map映17

1.4.4元组19

1.4.5set20

1.5类和对象21

1.5.1类的定义21

1.5.2单例对象22

1.5.3伴生对象22

1.5.4get和set方法23

1.5.5构造器25

1.6抽象类和特质28

1.6.1抽象类28

1.6.2特质30

1.7使用eclie创建scala项目31

1.7.1安装scalaforeclieide31

1.7.2创建scala项目33

1.8使用intellijidea创建scala项目33

1.8.1在idea中安装scala插件34

1.8.2创建scala项目37

第2章初识spark40

2.1大数据开发体架构40

2.2什么是spark42

2.3spark主要组件43

2.4spark运行时架构45

2.4.1yarn集群架构45

2.4.2sparkstandalone架构49

2.4.3sparkonyarn架构50

2.5spark集群搭建与测试53

2.5.1sparkstandalone模式的集群搭建53

2.5.2sparkonyarn模式的集群搭建55

2.5.3sparkha的搭建56

2.6spark应用程序的提交60

2.7sparkshell的使用63

第3章sparkrdd弹分布式数据集66

3.1什么是rdd66

3.2创建rdd67

3.2.1从对象集合创建rdd67

3.2.2从外部存储创建rdd68

3.3rdd的算子69

3.3.1转化算子69

3.3.2行动算子77

3.4rdd的分区78

3.4.1分区数量79

3.4.2自定义分区器88

3.5rdd的依赖93

3.5.1窄依赖94

3.5.2宽依赖94

3.5.3stage划分95

3.6rdd的持久化97

3.6.1存储级别98

3.6.2查看缓存100

3.7rdd的检查点102

3.8共享变量104

3.8.1广播变量104

3.8.2累加器106

3.9案例分析:sparkrdd实现单词107

3.10案例分析:sparkrdd实现分组求topn116

3.11案例分析:sparkrdd实现二次排序120

3.12案例分析:sparkrdd计算均分124

3.13案例分析:sparkrdd倒排索引统计每新增用户126

3.14案例分析:sparkrdd读写hbase130

3.14.1读取hbase表数据131

3.14.2写入hbase表数据134

3.15案例分析:sparkrdd数据倾斜问题解决143

3.15.1数据倾斜的常用解决方法144

3.15.2使用key进行双重聚合145

3.15.3webui查看spark历史作业149

第4章spark内核源码分析151

4.1spark集群启动分析151

4.2spark应用程序提交分析162

4.3spark作业工作分析175

4.3.1mapreduce的工作175

4.3.2spark作业工作的177

4.4spark检查点分析191

第5章sparksql结构化数据处理引擎196

5.1什么是sparksql196

5.2dataframe和dataset197

5.3sparksql的基本使用198

5.4sparksql数据源201

5.4.1基本作201

5.4.2parquet文件206

5.4.3json数据集209

5.4.4hive表211

5.4.5bc213

5.5sparksql内置函数214

5.5.1自定义函数216

5.5.2自定义聚合函数218

5.5.3开窗函数220

5.6案例分析:使用sparksql实现单词223

5.7案例分析:sparksql与hive整合228

5.7.1整合hive的步骤228

5.7.2作hive的几种方式231

5.8案例分析:sparksql读写mysql233

5.9案例分析:sparksql每uv统计238

5.10案例分析:sparksql热点搜索词统计241

5.11综合案例:sparksql智慧交通数据分析244

5.11.1项目介绍244

5.11.2数据准备246

5.11.3统计正常卡数量249

5.11.4统计车流量排名前3的卡号249

5.11.5统计车辆高速通过的卡top5250

5.11.6统计每个卡通过速度快的前3辆车254

5.11.7车辆轨迹分析255

第6章kafka分布式消息系统256

6.1什么是kafka256

6.2kafka架构257

6.3主题与分区259

6.4分区副本260

6.5消费者组262

6.6数据存储机制264

6.7集群环境搭建266

6.8命令行作268

6.8.1创建主题268

6.8.2查询主题269

6.8.3创建生产者269

6.8.4创建消费者270

6.9javaapi作271

6.9.1创建java工程271

6.9.2创建生产者271

6.9.3创建消费者273

6.9.4运行程序275

6.10案例分析:kafka生产者277

第7章sparkstreaming实时流处理引擎285

7.1什么是sparkstreaming285

7.2sparkstreaming工作286

7.3输入dstream和receiver287

7.4个sparkstreaming程序288

7.5sparkstreaming数据源290

7.5.1基本数据源290

7.5.2数据源292

7.5.3自定义数据源293

7.6dstream作297

7.6.1无作297

7.6.2作299

7.6.3窗作300

7.6.4输出作302

7.6.5缓存及持久化303

7.6.6检查点304

7.7案例分析:sparkstreaming按批次累加单词数量306

7.8案例分析:sparkstreaming整合kafka计算实时单词数量311

7.9案例分析:sparkstreaming实时用户志黑名单过滤318

7.10综合案例:用户行为分析322

第8章structuredstreaming结构化流处理引擎325

8.1什么是structuredstreaming325

8.2structuredstreaming单词326

8.3structuredstreaming编程模型328

8.4structuredstreaming查询输出330

8.5structuredstreaming窗作334

8.5.1事件时间334

8.5.2窗聚合单词335

8.5.3延迟数据和水印339

8.6案例分析:structuredstreaming整合kafka实现单词343

第9章graphx图计算引擎347

9.1什么是graphx347

9.2个graphx程序348

9.3graphx数据结构352

9.4graphx图作352

9.4.1基本作352

9.4.2属作355

9.4.3结构作357

9.4.4连接作359

9.4.5聚合作362

9.5案例分析:使用graphx计算社交网络中的均年龄363

内容简介:

本书基于park 2.4.x新版本编写,从park核心编程语言cala讲起,涵盖当前整个park生态系统主流的大数据开发技术。全书共9章,章讲解cala语言的基础知识,包括idea工具的使用等;第2章讲解park的主要组件、集群架构、集群环境搭建以及park应用程序的提交和运行;第3~9章讲解离线计算框架park rdd、park ql和实时计算框架kafka、park treaming、tructured treaming以及图计算框架graphx等的基础知识、架构,同时包括常用hell命令、api作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与hadoop生态系统框架hive、hbae、kafka的整合作。
本书内容丰富,以实案例为主,理论为辅,可作为park新手的入门书,也可作为大数据开发人员和从业者的学用书,还可以作为培训机构或大中专院校的用书。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP