• Spark大数据分析技术(Python版·微课版)
21年品牌 40万+商家 超1.5亿件商品

Spark大数据分析技术(Python版·微课版)

88 八五品

仅1件

山东枣庄
认证卖家担保交易快速发货售后保障

作者曹洁

出版社清华大学出版社

出版时间2023-03

版次1

装帧其他

货号B03-59

上书时间2024-07-03

鸿成书屋

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
图书标准信息
  • 作者 曹洁
  • 出版社 清华大学出版社
  • 出版时间 2023-03
  • 版次 1
  • ISBN 9787302625520
  • 定价 59.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 胶版纸
【内容简介】
本书系统介绍Spark大数据处理框架。全书共8章,内容包括大数据技术概述、Spark大数据处理框架、Spark RDD编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习、数据可视化。 本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。
【目录】
第1章大数据技术概述1

1.1大数据的基本概念1

1.1.1大数据的定义1

1.1.2大数据的特征1

1.1.3大数据思维2

1.2代表性大数据技术3

1.2.1Hadoop3

1.2.2Spark5

1.2.3Flink5

1.3大数据编程语言5

1.4在线资源5

1.5拓展阅读——三次信息化浪潮的启示6

1.6习题6

第2章Spark大数据处理框架7

2.1Spark概述7

2.1.1Spark的产生背景7

2.1.2Spark的优点8

2.1.3Spark的应用场景9

2.1.4Spark的生态系统9

2.2Spark运行机制10

2.2.1Spark基本概念10

2.2.2Spark运行架构12

2.3在VirtualBox上安装Linux集群13

2.3.1Master节点的安装13

2.3.2虚拟机克隆安装Slave1节点22

2.4Hadoop安装前的准备工作26

2.4.1创建hadoop用户和更新APT262.4.2安装SSH、配置SSH无密码登录27

2.4.3安装Java环境28

2.4.4Linux系统下Scala版本的Eclipse的安装与配置29

2.4.5Eclipse环境下Java程序开发实例30

2.5Hadoop的安装与配置32

2.5.1下载Hadoop安装文件32

2.5.2Hadoop单机模式配置33

2.5.3Hadoop伪分布式模式配置35

2.5.4Hadoop分布式模式配置40

2.6Spark的安装与配置49

2.6.1下载Spark安装文件49

2.6.2单机模式配置50

2.6.3伪分布式模式配置51

2.7使用PySpark编写Python代码54

2.8安装pip工具和常用的数据分析库55

2.9安装Anaconda和配置Jupyter Notebook55

2.9.1安装Anaconda55

2.9.2配置Jupyter Notebook57

2.9.3运行Jupyter Notebook58

2.9.4配置Jupyter Notebook实现和PySpark交互59

2.9.5为Anaconda安装扩展库61

2.10拓展阅读——Spark诞生的启示62

2.11习题62

〖3〗Spark大数据分析技术(Python版·微课版)目录〖3〗第3章Spark RDD编程63

3.1RDD的创建方式63

3.1.1使用程序中的数据集创建RDD63

3.1.2使用文本文件创建RDD65

3.1.3使用JSON文件创建RDD67

3.1.4使用CSV文件创建RDD69

3.2RDD转换操作69

3.2.1映射操作70

3.2.2去重操作72

3.2.3排序操作73

3.2.4分组聚合操作75

3.2.5集合操作78

3.2.6抽样操作79

3.2.7连接操作80

3.2.8打包操作81

3.2.9获取键值对RDD的键和值集合81

3.2.10重新分区操作81

3.3RDD行动操作83

3.3.1统计操作84

3.3.2取数据操作85

3.3.3聚合操作86

3.3.4迭代操作87

3.3.5存储操作88

3.4RDD之间的依赖关系89

3.4.1窄依赖89

3.4.2宽依赖89

3.5RDD的持久化90

3.6案例实战: 利用Spark RDD实现词频统计91

3.7实验1: RDD编程实验92

3.8拓展阅读——中国女排精神94

3.9习题95

第4章Spark SQL结构化数据处理96

4.1Spark SQL96

4.1.1Spark SQL简介96

4.1.2DataFrame与Dataset96

4.2创建DataFrame对象的方法97

4.2.1使用Parquet文件创建DataFrame对象97

4.2.2使用JSON文件创建DataFrame对象98

4.2.3使用SparkSession方式创建DataFrame对象99

4.3将DataFrame对象保存为不同格式的文件104

4.3.1通过write.xxx()方法保存DataFrame对象104

4.3.2通过write.format()方法保存DataFrame对象105

4.3.3将DataFrame对象转化成RDD保存到文件中105

4.4DataFrame的常用操作105

4.4.1行类操作105

4.4.2列类操作106

4.4.3DataFrame的常用属性109

4.4.4输出110

4.4.5筛选112

4.4.6排序116

4.4.7汇总与聚合117

4.4.8统计119

4.4.9合并120

4.4.10连接120

4.4.11to系列转换123

4.5读写MySQL数据库124

4.5.1安装并配置MySQL124

4.5.2读取MySQL数据库中的数据126

4.5.3向MySQL数据库写入数据127

4.6实验2: Spark SQL编程实验128

4.7拓展阅读——中国芯片之路130

4.8习题131

第5章HBase分布式数据库132

5.1HBase概述132

5.1.1HBase的技术特点132

5.1.2HBase与传统关系数据库的区别132

5.1.3HBase与Hadoop中其他组件的关系133

5.2HBase系统架构和数据访问流程134

5.2.1HBase系统架构134

5.2.2HBase数据访问流程136

5.3HBase数据表139

5.3.1HBase数据表逻辑视图139

5.3.2HBase数据表物理视图141

5.3.3HBase数据表面向列的存储142

5.3.4HBase数据表的查询方式143

5.3.5HBase表结构设计143

5.4HBase的安装144

5.4.1下载安装文件144

5.4.2配置环境变量144

5.4.3添加用户权限145

5.4.4查看HBase版本信息145

5.5HBase的配置145

5.5.1单机模式配置146

5.5.2伪分布式模式配置147

5.6HBase的Shell操作150

5.6.1基本操作150

5.6.2创建表151

5.6.3插入与更新表中的数据153

5.6.4查看表中的数据154

5.6.5删除表中的数据156

5.6.6表的启用/禁用156

5.6.7修改表结构157

5.6.8删除HBase表158

5.7HBase的Java API操作158

5.7.1HBase数据库管理API158

5.7.2HBase数据库表API159

5.7.3HBase数据库表行列API161

5.8HBase案例实战163

5.8.1在Eclipse中创建工程163

5.8.2添加项目用到的JAR包164

5.8.3编写Java应用程序165

5.8.4编译运行程序168

5.9利用Python操作HBase169

5.9.1HappyBase的安装169

5.9.2Connection类169

5.9.3Table类170

5.10拓展阅读——HBase存储策略的启示171

5.11习题171

第6章Spark Streaming流计算172

6.1流计算概述172

6.1.1流数据172

6.1.2流计算处理流程172

6.2Spark Streaming工作原理173

6.3Spark Streaming编程模型174

6.3.1编写Spark Streaming程序的步骤174

6.3.2创建StreamingContext对象174

6.4创建DStream175

6.4.1创建输入源为文件流的DStream对象175

6.4.2定义DStream的输入数据源为套接字流178

6.4.3定义DStream的输入数据源为RDD队列流182

6.5DStream操作183

6.5.1DStream无状态转换操作183

6.5.2DStream有状态转换操作187

6.5.3DStream输出操作189

6.6拓展阅读——Spark Streaming流处理过程的启示190

6.7习题190

第7章Spark MLlib机器学习191

7.1MLlib概述191

7.1.1机器学习191

7.1.2PySpark机器学习库193

7.2MLlib基本数据类型193

7.2.1本地向量193

7.2.2带标签的点195

7.2.3本地矩阵196

7.3机器学习流水线198

7.3.1转换器198

7.3.2评估器198

7.3.3流水线199

7.4基本统计201

7.4.1汇总统计201

7.4.2相关分析203

7.4.3分层抽样205

7.4.4生成随机数206

7.4.5核密度估计206

7.5特征提取、转换和选择207

7.5.1特征提取207

7.5.2特征转换210

7.5.3特征选择215

7.6分类算法217

7.6.1逻辑二分类回归分析218

7.6.2决策树分类222

7.7回归算法225

7.7.1循环发电场数据的多元线性回归分析225

7.7.2回归决策树229

7.7.3梯度提升回归树230

7.8聚类算法231

7.8.1聚类概述231

7.8.2k均值聚类算法232

7.9协同过滤推荐算法235

7.9.1协同过滤推荐的原理235

7.9.2交替最小二乘协同过滤推荐算法236

7.10实验3: Spark机器学习实验239

7.11拓展阅读——工匠精神240

7.12习题241

第8章数据可视化242

8.1WordCloud242

8.2PyeCharts247

8.2.1绘制柱状图248

8.2.2绘制折线图250

8.2.3绘制饼图252

8.2.4绘制雷达图252

8.2.5绘制漏斗图253

8.2.6绘制3D柱状图254

8.2.7绘制词云图255

8.3Plotly256

8.3.1绘制折线图256

8.3.2绘制柱状图257

8.3.3绘制饼图259

8.4拓展阅读——文化自信260

8.5习题260

参考文献261
点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP