消息首页搜索举报

大数据处理技术基础与应用（Hadoop+Spark)【正版新书】

正版新书出版社直发可开发票，支持7天无理由

54.6 7.8折 69.8 全新

库存18件

江苏无锡

认证卖家担保交易快速发货售后保障

作者许桂秋孙海民胡贵恒

出版社人民邮电

ISBN9787115637680

出版时间2024-02

装帧其他

开本其他

定价69.8元

货号31974568

上书时间2024-07-08

需配书院（南京书店）

十四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 14小时
好评率暂无

最新上架

书虫牛津英汉双语读物美绘光盘版入门级1 2 套装 ¥40.00

书虫牛津英汉双语读物 1级下附英文MP3光盘全10册套装 ¥20.00

书虫牛津英汉双语读物第三级 1 附英文MP3光盘剧场式效果美绘光盘版共4册套装 ¥20.00

书虫牛津英汉双语读物第一级 1 附英文MP3光盘剧场式效果美绘光盘版全5册套装 ¥25.00

书虫牛津英汉双语读物 3年级上附英文MP3光盘全10册套装 ¥18.00

书虫牛津英汉又语读物二级下附英文MP3光盘全13册套装 ¥15.00

骑飞鱼的人【正版新书】 ¥8.60

武都高山戏【正版新书】 ¥38.00

旅游学理论基础【正版新书】 ¥18.80

商品详情

品相描述：全新

商品描述: 作者简介
许桂秋，北京中科特瑞科技有限公司运营总监，主要研究方向为大数据、人工智能技术，已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。

目录
第 1章  大数据技术概述1
1.1  大数据技术简介1
1.1.1  大数据的发展1
1.1.2  大数据的流程4
1.2  大数据的主流软件5
1.2.1  Hadoop5
1.2.2  Spark8
1.2.3  Flink10
1.2.4  Hadoop与Spark对比11
1.3  大数据的主流编程语言12
1.3.1  Python语言12
1.3.2  Java语言13
1.3.3  Scala语言13
1.4  本章小结13
第 2章  Hadoop部署安装与使用14
2.1  Linux基本操作14
2.1.1  Linux简介14
2.1.2  新建与删除用户15
2.1.3  目录权限的查看与修改16
2.1.4  Linux的常用命令18
2.1.5  任务实现21
2.2  搭建Hadoop完全分布式集群21
2.2.1  关闭防火墙21
2.2.2  安装SSH22
2.2.3  安装Xshell及Xftp（可选）22
2.2.4  安装Java24
2.2.5  安装Hadoop25
2.2.6  克隆主机27
2.2.7  安装完全分布式模式29
2.3  查看Hadoop集群的基本信息37
2.3.1  查询存储系统信息37
2.3.2  查询计算资源信息38
2.4  本章小结39
第3章  HDFS基本操作40
3.1  Hadoop Shell命令操作HDFS40
3.1.1  HDFS简介40
3.1.2  HDFS Shell命令简介45
3.1.3  目录操作47
3.1.4  文件操作47
3.1.5  利用Web界面管理HDFS50
3.1.6  任务实现52
3.2  Java操作HDFS52
3.2.1  在Eclipse中创建HDFS交互Java项目53
3.2.2  在Java项目中编写Java应用程序57
3.2.3  编译运行应用程序与打包文件59
3.2.4  任务实现63
3.2.5  文件常用操作的参考代码65
3.3  本章小结71
第4章  MapReduce基本原理与编程实现72
4.1  MapReduce基本原理72
4.1.1  MapReduce简介72
4.1.2  MapReduce编程核心思想73
4.1.3  MapReduce编程规范74
4.1.4  MapReduce的输入格式75
4.1.5  MapReduce的输出格式77
4.1.6  分区77
4.1.7  合并78
4.2  编程实现——按访问次数排序79
4.2.1  编程思路与处理逻辑79
4.2.2  核心模块代码81
4.2.3  任务实现83
4.3  本章小结86
第5章  Hive部署与编程基础87
5.1  搭建伪分布式Hive87
5.1.1  Hive概述87
5.1.2  Hive安装和配置89
5.2  Hive基本操作91
5.2.1  数据库基本操作92
5.2.2  数据表基本操作93
5.2.3  数据基本操作95
5.3  编程实现——部门工资统计96
5.4  本章小结98
第6章  Spark部署与编程基础99
6.1  Spark的运行原理99
6.1.1  集群架构99
6.1.2  运行流程100
6.1.3  核心数据集RDD101
6.1.4  核心原理101
6.2  Scala安装与使用102
6.2.1  Scala 语言概述102
6.2.2  Scala特性102
6.2.3  环境设置与安装103
6.3  Spark安装与使用105
6.3.1  环境搭建前的准备105
6.3.2  Spark的安装与配置106
6.3.3  在PySpark中运行代码109
6.3.4  编程实现——Spark独立应用程序111
6.4  本章小结112
第7章  Spark RDD：弹性分布式数据集113
7.1  RDD概述113
7.2  RDD编程114
7.2.1  RDD编程基础114
7.2.2  键值对RDD136
7.2.3  数据读/写操作141
7.3  编程实现145
7.3.1  任务1：取出排名前五的订单支付金额145
7.3.2  任务2：文件排序149
7.3.3  任务3：二次排序153
7.4  本章小结158
第8章  Spark SQL：结构化数据文件处理159
8.1  Spark SQL概述159
8.1.1  Spark SQL简介159
8.1.2  Spark SQL CLI配置160
8.1.3  Spark SQL与Shell交互161
8.2  DataFrame基础操作161
8.2.1  创建DataFrame对象162
8.2.2  DataFrame查看数据168
8.2.3  DataFrame查询操作171
8.2.4  DataFrame输出操作176
8.3  Spark SQL与MySQL的交互177
8.4  本章小结180
第9章  Spark Streaming：实时计算框架181
9.1  Spark Streaming概述181
9.1.1  Spark Streaming应用场景181
9.1.2  流计算概述181
9.1.3  Spark Streaming特性分析184
9.2  DStream编程模型基础187
9.2.1  DStream概述187
9.2.2  基本输入源188
9.2.3  转换操作196
9.2.4  输出操作201
9.3  编程实现——流数据过滤与分析206
9.4  本章小结210
第 10章  Spark GraphFrames：图计算211
10.1  图计算概述211
10.1.1  图的基本概念211
10.1.2  图计算的应用212
10.1.3  GraphFrames简介213
10.2  GraphFrames编程模型基础213
10.2.1  创建实例化图213
10.2.2  视图和图操作214
10.2.3  保存和加载图216
10.3  编程实现——基于GraphFrames的网页排名216
10.3.1  准备数据集217
10.3.2  GraphFrames实现算法218
10.3.3  使用PageRank进行网页排名220
10.4  本章小结220
第 11章  大数据生态常用工具介绍221
11.1  Flume的安装与使用221
11.1.1  安装及配置Flume221
11.1.2  实例分析223
11.2  Kafka的安装与使用225
11.2.1  Kafka相关概念225
11.2.2  安装Kafka225
11.2.3  实例分析225
11.3  Sqoop的安装与使用226
11.3.1  安装及配置Sqoop227
11.3.2  添加MySQL驱动程序229
11.3.3  测试Sqoop与MySQL的连接229
11.4  编程实现——编写Spark程序使用Kafka数据源230
11.4.1  Kafka准备工作230
11.4.2  Spark准备工作231
11.4.3  编写代码233
11.5  本章小结237

内容摘要
本书是一本介绍大数据处理技术的专业图书，力求提高读者对大数据处理的认知水平和动手能力。本书首先介绍大数据技术的相关概念和发展历程，从实践的角度介绍Hadoop和Spark的安装部署、编程基础和使用方法；然后结合具体案例，重点介绍SparkRDD、 SparkSQL、 SparkStreaming、 SparkGraphFrame等的应用思路和方法，并通过具体代码，让读者更好地感受大数据处理技术的效果。
本书既可以作为高等院校计算机、大数据等相关专业的教材，也可以作为大数据技术相关从业人员的参考书，还可作为零基础人员学习Hadoop和Spark技术的入门图书。

— 没有更多了 —