• Spark大数据技术与应用
21年品牌 40万+商家 超1.5亿件商品

Spark大数据技术与应用

全新正版 极速发货

27.42 5.5折 49.8 全新

仅1件

广东广州
认证卖家担保交易快速发货售后保障

作者肖芳,张良均 主编

出版社人民邮电出版社

ISBN9787115464880

出版时间2018-02

装帧平装

开本16开

定价49.8元

货号1201659410

上书时间2024-07-03

徐小智的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
张良均,高 级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛的发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明12项,主编图书《神经网络实用教程》《数据挖掘:实用案例分析》《Python数据分析与挖掘》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

目录
第 1章Spark概述1
任务1.1认识Spark1
1.1.1Spark的发展1
1.1.2Spark的特点2
1.1.3Spark生态圈4
1.1.4Spark的应用场景5
任务1.2搭建Spark环境5
1.2.1搭建单机版环境6
1.2.2搭建单机伪分布式环境6
1.2.3搭建完全分布式环境7
任务1.3了解Spark运行架构与原理10
1.3.1Spark集群架构11
1.3.2Spark作业运行流程11
1.3.3Spark核心数据集RDD15
1.3.4Spark核心原理17
小结19
第 2章Scala基础20
任务2.1Scala的简介与安装21
2.1.1Scala简介21
2.1.2Scala特性21
2.1.3Scala的环境设置及安装21
2.1.4运行Scala23
任务2.2定义函数识别号码类型24
2.2.1数据类型24
2.2.2常量和变量25
2.2.3表达式26
2.2.4数组27
2.2.5函数29
2.2.6任务实现31
任务2.3统计广州号码段数量32
2.3.1if判断32
2.3.2循环33
2.3.3任务实现34
任务2.4根据归属地对手机号码段分组34
2.4.1List35
2.4.2Set36
2.4.3Map37
2.4.4元组38
2.4.5函数组合器38
2.4.6任务实现39
任务2.5编写手机号码归属地信息查询程序40
2.5.1Scala类40
2.5.2Scala object42
2.5.3Scala模式匹配42
2.5.4Scala读取文件44
2.5.5任务实现44
小结45
实训45
实训1编写函数过滤文本中的回文单词45
实训2使用Scala编程输出杨辉三角46
课后习题46
第3章Spark编程48
任务3.1以学生成绩数据创建RDD49
3.1.1从内存中已有数据创建RDD50
3.1.2从外部存储创建RDD51
3.1.3任务实现52
任务3.2查询学生成绩表中的前5名52
3.2.1使用map转换数据52
3.2.2使用sortBy()排序53
3.2.3使用collect()查询53
3.2.4使用flatMap转换数据54
3.2.5使用take()方式查询某几个值54
3.2.6任务实现55
任务3.3输出单科成绩为100分的学生ID55
3.3.1使用union()合并多个RDD56
3.3.2使用filter()进行过滤56
3.3.3使用distinct()进行去重56
3.3.4简单的集合操作57
3.3.5任务实现58
任务3.4输出每位学生所有科目的总成绩58
3.4.1键值对RDD简介59
3.4.2创建键值对RDD59
3.4.3转换操作keys与values59
3.4.4转换操作reduceByKey()60
3.4.5转换操作groupByKey()60
3.4.6任务实现60
任务3.5输出每位学生的平均成绩61
3.5.1使用join()连接两个RDD61
3.5.2使用zip组合两个RDD63
3.5.3使用combineByKey合并相同键的值63
3.5.4使用lookup查找指 定键的值64
3.5.5任务实现64
任务3.6将汇总后的学生成绩存储为文本文件65
3.6.1JSON文件的读取与存储65
3.6.2CSV文件的读取与存储67
3.6.3SquenceFile的读取与存储69
3.6.4文本文件的读取与存储70
3.6.5任务实现71
小结72
实训72
实训1统计文本中性别为“男”的用户数73
实训2单词计数73
课后习题74
第4章Spark编程进阶76
任务4.1搭建开发环境77
4.1.1下载与安装IntelliJ IDEA77
4.1.2Scala插件安装与使用79
4.1.3配置Spark运行环境84
4.1.4运行Spark程序85
任务4.2使用移动平均预测股票涨跌92
4.2.1持久化(缓存)93
4.2.2数据分区94
4.2.3计算价格波动幅度98
4.2.4任务实现100
小结103
实训103
实训竞赛网站访问日志分析104
课后习题104
第5章Spark SQL:结构化数据文件处理107
任务5.1认识Spark SQL108
5.1.1Spark SQL简介108
5.1.2Spark SQL CLI配置109
5.1.3Spark SQL与Shell交互110
任务5.2掌握DataFrame基础操作111
5.2.1创建DataFrame对象111
5.2.2DataFrame查看数据114
5.2.3DataFrame查询操作117
5.2.4DataFrame输出操作123
任务5.3探索分析法律服务网站数据125
5.3.1获取数据125
5.3.2网页类型分析126
5.3.3点击次数分析131
5.3.4网页排名分析133
小结135
实训135
实训1统计分析航空公司客户数据的空值以及异常值135
实训2统计分析某公司每年的产品销售量及销售额137
课后习题139
第6章Spark Streaming:实时计算框架141
任务6.1初探Spark Streaming142
6.1.1Spark Streaming概述142
6.1.2Spark Streaming运行原理142
6.1.3初步使用Spark Streaming143
任务6.2掌握DStream编程模型145
6.2.1DStream简介146
6.2.2DStream转换操作146
6.2.3DStream窗口操作148
6.2.4DStream输出操作151
任务6.3Spark Streaming实时更新热门博文155
6.3.1Spark Streaming输入数据源155
6.3.2Spark Streaming计算网页热度158
6.3.3网页热度输出158
6.3.4任务实现159
小结161
实训161
实训1过滤打印包含单词error的记录162
实训2实时过滤歌曲播放次数超过100次的记录并存储在HDFS上162
课后习题162
第7章Spark GraphX:图计算框架165
任务7.1认识Spark GraphX166
7.1.1图的基本概念166
7.1.2图计算的应用167
7.1.3GraphX的基础概念168
7.1.4GraphX的发展168
任务7.2了解GraphX常用API169
7.2.1图的创建与存储169
7.2.2数据查询与数据转换174
7.2.3结构转换与关联聚合180
任务7.3构建信任网络并找出目标用户187
7.3.1构建网站信任网络188
7.3.2找出需要支付稿酬的用户188
7.3.3找出进入热门榜的用户189
小结191
实训191
实训1使用PageRank算法完成网页排名191
实训2利用二度关系完成商品推荐192
课后习题194
第8章Spark MLlib:功能强大的算法库196
任务8.1了解MLlib算法库197
8.1.1机器学习简介197
8.1.2MLlib介绍198
任务8.2以Logistic回归实现用户分类212
8.2.1分析思路212
8.2.2数据处理213
8.2.3MLlib实现Logistic回归215
8.2.4任务实现217
小结221
实训221
实训1通过KMeans定位商圈221
实训2朴素贝叶斯进行文本分类222
课后习题223
第9章项目案例:餐饮平台菜品智能推荐226
任务9.1推荐方案设计227
9.1.1用户数据分析227
9.1.2常用推荐算法229
9.1.3推荐流程设计231
任务9.2数据预处理232
9.2.1原始数据探索分析233
9.2.2异常数据处理237
9.2.3数据变换处理237
9.2.4数据集分割239
任务9.3建立推荐模型240
9.3.1以基于用户的协同过滤算法建模240
9.3.2以基于物品的协同过滤算法建模243
9.3.3以基于Spark ALS的协同过滤算法建立模型246
9.3.4推荐模型的评测251
任务9.4使用模型进行菜品推荐262
9.4.1对某用户推荐10道新菜品262
9.4.2对所有用户进行新菜品推荐267
小结272

内容摘要
本书以任务为导向,较为全面地介绍了Spark大数据技术的相关知识。全书共9章,具体内容包括Spark概述;Scala基础;Spark编程;Spark编程进阶;SparkSQL:结构化数据文件处理;SparkStreaming:实时计算框架;SparkGraphX:图计算框架;SparkMLlib:功能强大的算法库;项目案例:餐饮平台菜品智能推荐。本书的大部分章节都包含了实训与课后习题,通过练习和操作实践,帮助读者巩固所学的内容。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP