消息首页搜索举报

PySpark大数据分析与应用

全新正版极速发货

44.14 6.3折 69.8 全新

库存8件

广东广州

认证卖家担保交易快速发货售后保障

作者戴刚，张良均

出版社人民邮电

ISBN9787115634900

出版时间2024-04

装帧其他

开本其他

定价69.8元

货号1203244438

上书时间2024-06-09

大智慧小美丽

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

森林舞会 ¥1.06

西方绘画大师原作.左恩 ¥2.83

脑力训练全书 ¥8.39

无头骑士异闻录(11) ¥7.70

智力开发200问 ¥2.05

当归生产加工适宜技术 ¥7.70

雷雨 ¥11.17

大棋局 ¥9.66

书楼吊堂.破晓 ¥27.87

商品详情

品相描述：全新

商品描述: 作者简介
戴刚，重庆大学计算机科学与技术博士，美国匹兹堡大学访问学者，重庆交通大学经济与管理学院副教授，硕士生导师。主持1项教育部产学研合作项目，主研国家自然科学基金2项，国家科技支持计划1项目，中国移动（重庆分公司）科技公关项目1项，省部级科研项目2项，在国际期刊、国际会议及国内权威学术期刊发辫学术论文7篇。熟悉Java、Python、大数据及相关软件架构，具有丰富的软件开发经验。从事教育教学工作十多年，有扎实的专业素养和丰富的教学经验。

目录
第 1章PySpark大数据分析概述1
1.1　大数据分析概述　1
1.1.1　大数据的概念　2
1.1.2　大数据分析的概念　3
1.1.3　大数据分析的流程　4
1.1.4　大数据分析的应用场景　6
1.1.5　大数据技术体系　6
1.2　Spark大数据技术框架　10
1.2.1　Spark 简介　10
1.2.2　Spark 特点　11
1.2.3　Spark运行架构与流程　11
1.2.4　Spark RDD　14
1.2.5　Spark 生态圈　20
1.3　PySpark大数据分析　21
1.3.1　PySpark 简介　21
1.3.2　PySpark 子模块　22
小结　25
课后习题　26

第　2章 PySpark安装配置　27
2.1　搭建单机模式的PySpark开发
环境　28
2.1.1　安装 JDK　28
2.1.2　安装 Anaconda　28
2.1.3　安装 Hadoop　30
2.1.4　安装 MySQL　36
2.1.5　安装 Hive　37
2.1.6　配置 PySpark 模块　43
2.1.7　运行 Jupyter Notebook　44
2.2　搭建分布式模式的PySpark开发
环境　45
2.2.1　安装配置虚拟机　46
2.2.2　安装 Java　53
2.2.3　搭建Hadoop分布式集群　58
2.2.4　安装MySQL数据库　62
2.2.5　安装Hive数据仓库工具　63
2.2.6　搭建Spark完全分布式集群　66
2.2.7　安装 PyCham　69
2.2.8　安装Python解释器及PySpark 模块　69
2.3　Python函数式编程　69
2.3.1　Python常用数据结构　70
2.3.2　Python函数式编程基础　75
小结　76
课后习题　76

第　3 章基于 PySpark 的 DataFrame 操作　78
3.1　Spark SQL 概述　78
3.1.1　Spark SQL起源与发展历程　79
3.1.2　Spark SQL 主要功能　79
3.1.3　Spark SQL数据核心抽象 DataFrame　80
3.2　pyspark.sql 模块　82
3.2.1　pyspark. sql 模块简介　82
3.2.2　pyspark. sql 模块核心类　83
3.3　DataFrame 基础操作　85
3.3.1　创建 DataFrame 对象　86
332　DataFrame 操作　93
3.3.3　DataFrame 输出操作　113
小结　114
实训　114
实训1网站搜索热词统计分析　114
实训2大数据岗位招聘信息统计分析　…115
课后习题　116

第4章　基于PySpark的流式数据
处理　118
4.1　Spark Streaming 概述　119
4.1.1　流计算简介　119
4.1.2　Spark Streaming 基本概念　121
4.1.3　Spark Streaming 工作原理　121
4.1.4　Spark Streaming 运行机制　122
4.2　pyspark.streaming 模块　123
4.2.1　pyspark. streaming 模块简介　123
4.2.2　pyspark. streaming 模块核心类　124
4.2.3　DStream 基础操作　126
4.3　Structured Streaming 结构化流处理　146
4.3.1　Structured Streaming 概述　146
4.3.2　Structured Streaming 编程模型　147
4.3.3　Structured Streaming 基础操作　148
4.3.4　Structured Streaming 编程步骤　152
小结　155
实训　155
实训1使用Spark　Streaming实现菜品价格
实时计算　155
实训2使用Spark　Streaming实时判别车辆所属地　156
课后习题　156

第5章　基于PySpark的机器
学习库　158
5.1　MLlib 算法　159
5.1.1　机器学习　159
5.1.2　MLlib　159
5.1.3　pyspark.ml 模块　159
5.2　使用pyspark.ml模块的转换器处理
和转换数据　162
5.2.1　数据加载及数据集划分　162
5.2.2　数据降维　164
5.2.3　数据标准化　166
5.2.4　数据类型转换　171
5.3　pyspark.ml模块的评估器和模型评估　175
5.3.1　使用PySpark构建并评估分类模型　175
5.3.2　使用PySpark构建并评估回归模型　182
5.3.3　使用PySpark构建并评估聚类模型　186
5.3.4　使用PySpark构建并评估智能推荐
模型　189
小结　195
实训　195
实训1使用随机森林模型预测是否批准　用户申请　195
实训2使用回归模型实现房价预测………196
课后习题　197

第6章　案例分析：基于PySpark的网络招聘信息的职业类型划分 ……199
6.1　需求与架构分析　200
6.1.1　业务需求分析与技术选型　200
6.1.2　系统架构分析　200
6.2　数据探索　201
6.2.1　数据说明　202
6.2.2　数据读取　202
6.2.3　重复数据与空值探索　204
6.2.4　异常数据探索　205
6.3　数据预处理　207
6.3.1　数据清洗　207
6.3.2　中文分词与去停用词　208
6.3.3　词特征向量化　210
6.4　模型构建与评估　213
6.4.1　LDA算法简介　214
6.4.2　LDA模型构建与评估　215
6.4.3　构建LDA模型　217
6.5　制作词云图　220
小结　225

第7章　案例分析：基于PySpark的
信用贷款风险分析　226
7.1　需求与架构分析　227
7.1.1　业务需求分析　227
7.1.2　系统架构分析　227
7.2　数据探索　228
7.2.1　数据说明　228
7.2.2　建立数据仓库并导入数据　230
7.2.3　用户信息完善情况与逾期率的关系
探索　233
7.2.4　用户信息修改情况与逾期率的关系
探索　236
7.2.5　用户借款月份与逾期率的关系
探索　240
7.3　数据预处理　243
7.3.1　计算用户信息缺失个数及借款月份
构建新特征　243
7.3.2　用户更新信息重建　245
7.3.3　用户登录信息重建　250
7.3.4　分类数据预处理　255
7.3.5　字符串字段编码处理　259
7.3.6　分类数据重编码　263
7.3.7　缺失值处理　265
7.4　模型构建与评估　267
7.4.1　了解 GBTs 算法　267
7.4.2　构建 GBTs 模型　268
7.4.3　评估 GBTs 模型　271
7.5　部署和提交PySpark应用程序…271
7.5.1　打包PySpark应用程序　271
7.5.2　提交PySpark应用程序　274
小结　275
参考文献　276

内容摘要
本书以Python作为开发语言，系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出，理论叙述循序渐进、由浅入深。本书共7章，第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库，内容介绍注重理论与实践相结合，通过典型示例强化PySpark在大数据分析中的实际应用；第6、7章通过基于PySpark的网络招聘信息的职业类型划分和基于PySpark的信用贷款风险分析两个完整的案例实战，结合前5章的PySpark编程知识，实现完整的大数据分析过程。本书大部分章包含实训和课后习题，读者通过练习和操作实践，能够巩固所学的内容。
本书可作为高校数据科学或大数据相关专业的教材，也可作为机器学习爱好者的自学用书。

— 没有更多了 —