正版Spark编程基础Scala版 第二版
¥
31.2
4.8折
¥
65
全新
仅1件
作者林子雨,赖永炫,陶继平
出版社人民邮电出版社
ISBN9787115595010
出版时间2022-12
版次1
装帧平装
开本16开
纸张胶版纸
定价65元
货号2170-9787115595010
上书时间2024-12-23
商品详情
- 品相描述:全新
- 商品描述
-
基本信息
书名:Spark编程基础Scala版 第二版
定价:65元
作者:林子雨,赖永炫,陶继平
出版社:人民邮电出版社
出版日期:2022-12-01
ISBN:9787115595010
字数:
页码:
版次:
装帧:平装
开本:16开
商品重量:
编辑推荐
内容特点 (1)内容全面,结构合理:每章配有本章小结、习题和实验。(2)案例丰富,代码详尽:结合案例讲解编程方法和技术,每段代码重要节点都有详细注释。 资源特点 重点难点知识微课,配套PPT、程序源代码、习题答案等。 服务特点 作者提供服务群等支持,定期举办直播进行教学培训。
内容提要
本书以Scala作为开发Spark应用程序的编程语言,系统地介绍了Spark编程的基础知识。全书共9章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Structured Streaming和Spark MLlib。本书每章都安排了入门级的编程实践操作,以便使读者能更好地学习和更牢固地掌握Spark编程方法。本书配套官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的进阶级大数据课程教材,用于指导Spark编程实践,也可供相关技术人员参考。
目录
目 录章 大数据技术概述1.1 大数据的概念与关键技术1.1.1 大数据的概念1.1.2 大数据关键技术1.2 代表性大数据技术1.2.1 Hadoop1.2.2 Spark1.2.3 Flink1.2.4 Beam1.3 编程语言的选择1.3.1 不同编程语言简介1.3.2 Spark开发语言对比1.4 在线资源1.5 本章小结1.6 习题实验1 Linux系统的安装和常用命令第 2章 Scala语言基础2.1 Scala语言概述2.1.1 计算机的缘起2.1.2 编程范式2.1.3 Scala简介2.1.4 Scala的安装2.1.5 HelloWorld2.2 Scala基础知识2.2.1 基本数据类型和变量2.2.2 输入/输出2.2.3 控制结构2.2.4 数据结构2.3 面向对象编程基础2.3.1 类2.3.2 对象2.3.3 继承2.3.4 参数化类型2.3.5 特质2.3.6 模式匹配2.3.7 包2.4 函数式编程基础2.4.1 函数的定义与使用2.4.2 高阶函数2.4.3 闭包2.4.4 偏应用函数和Curry化2.4.5 针对容器的操作2.4.6 函数式编程实例2.5 本章小结2.6 习题实验2 Scala编程初级实践第3章 Spark的设计与运行原理3.1 概述3.2 Spark生态系统3.3 Spark运行架构3.3.1 基本概念3.3.2 架构设计3.3.3 Spark运行基本流程3.3.4 RDD的设计与运行原理3.4 Spark的部署方式3.5 TensorFlowOnSpark3.6 本章小结3.7 习题第4章 Spark环境搭建和使用方法4.1 安装Spark4.1.1 基础环境4.1.2 下载安装文件4.1.3 配置相关文件4.1.4 Spark和Hadoop的交互4.2 在spark-shell中运行代码4.2.park-shell命令4.2.2 启动spark-shell4.2.3 Spark UI4.3 开发Spark独立应用程序4.3.1 安装编译打包工具4.3.2 编写Spark应用程序代码4.3.3 编译打包4.3.4 通过spark-submit运行程序4.4 Spark集群环境搭建4.4.1 集群概况4.4.2 搭建Hadoop集群4.4.3 在集群中安装Spark4.4.4 配置环境变量4.4.5 Spark的配置4.4.6 启动Spark集群4.4.7 关闭Spark集群4.5 在集群上运行Spark应用程序4.5.1 启动Spark集群4.5.2 在集群中运行应用程序JAR包4.5.3在集群中运行spark-shell4.6 本章小结4.7 习题实验3 Spark和Hadoop的安装第5章 RDD编程5.1 RDD编程基础5.1.1 RDD创建5.1.2 RDD操作5.1.3 持久化5.1.4 分区5.1.5 一个综合实例5.2 键值对RDD5.2.1 键值对RDD的创建5.2.2 常用的键值对转换操作5.2.3 一个综合实例5.3 数据读写5.3.1 本地文件系统的数据读写5.3.2 分布式文件系统HDFS的数据读写5.3.3 读写MySQL数据库5.4 综合实例5.4.1 求TOP值5.4.2 文件排序5.4.3 二次排序5.5 本章小结实验4 RDD编程初级实践第6章 Spark SQL6.1 Spark SQL简介6.1.1 从Shark说起6.1.2 Spark SQL架构6.1.3 为什么推出Spark SQL6.1.4 Spark SQL的特点6.1.5 Spark SQL简单编程实例6.2 结构化数据DataFrame6.2.1 DataFrame概述6.2.2 DataFrame的优点6.3 DataFrame的创建和保存6.3.1 Parquet6.3.2 JSON6.3.3 CSV6.3.4 文本文件6.3.5 序列集合6.4 DataFrame的基本操作6.4.1 DSL语法风格6.4.2 SQL语法风格6.5 从RDD转换得到DataFrame6.5.1 利用反射机制推断RDD模式6.5.2 使用编程方式定义RDD模式6.6 使用Spark SQL读写数据库6.6.1准备工作6.6.2读取MySQL数据库中的数据6.6.3向MySQL数据库写入数据6.6.4编写独立应用程序访问MySQL6.7 DataSet6.7.1 DataFrame、DataSet和RDD的区别6.7.2创建DataSet6.7.3 RDD、DataFrame和DataSet之间的相互转换6.7.4 词频统计实例6.8 本章小结6.9 习题实验5 Spark SQL编程初级实践第7章 Spark Streaming7.1 流计算概述7.1.1 静态数据和流数据7.1.2 批量计算和实时计算7.1.3 流计算概念7.1.4 流计算框架7.1.5 流计算处理流程7.2 Spark Streaming7.2.1 Spark Streaming设计7.2.2 Spark Streaming与Storm的对比7.2.3 从“Hadoop+Storm”架构转向Spark架构7.3 DStream操作概述7.3.1 Spark Streaming工作机制7.3.2 编写Spark Streaming程序的基本步骤7.3.3 创建StreamingContext对象7.4 基本输入源7.4.1 文件流7.4.2 套接字流7.4.3 RDD队列流7.5 高级数据源7.5.1 Kafka简介7.5.2 Kafka准备工作7.5.3 Spark准备工作7.5.4 编写Spark Streaming程序使用Kafka数据源7.6 转换操作7.6.1 DStream无状态转换操作7.6.2 DStream有状态转换操作7.7 输出操作7.7.1 把DStream输出到文本文件中7.7.2 把DStream写入到关系数据库中7.8 本章小结7.9 习题实验6 Spark Streaming编程初级实践第8章 Structured Streaming8.1概述8.1.1 Spark Streaming的不足之处8.1.2 Structured Streaming的设计理念8.1.3 Structured Streaming的处理模型8.1.4 Structured Streaming和Spark SQL、Spark Streaming关系8.1.5 Structured Streaming与其他流处理技术的对比8.2编写Structured Streaming程序的基本步骤8.2.1实现步骤8.2.2测试运行8.3输入源8.3.1File源8.3.2Kafka源8.3.3Socket源8.3.4Rate源8.4输出操作8.4.1启动流计算8.4.2输出模式8.4.3输出接收器8.5容错处理8.5.1从检查点恢复故障8.5.2故障恢复中的限制8.6迟到数据处理8.6.1事件时间8.6.2迟到数据8.6.3水印8.6.4多水印规则8.6.5处理迟到数据的例子8.7查询的管理和监控8.7.1管理和监控的方法8.7.2一个监控的实例8.8本章小结8.9习题实验7 Structured Streaming初级编程实践第9章 Spark MLlib9.1 基于大数据的机器学习9.2 机器学习库MLlib概述9.3 基本数据类型9.3.1 本地向量9.3.2 标注点9.3.3 本地矩阵9.3.4 数据源9.4 基本统计工具9.4.1 相关性9.4.2 假设检验9.4.3 汇总统计9.5 机器学习流水线9.5.1 流水线的概念9.5.2 流水线工作过程9.6 特征提取、转换和选择9.6.1 特征提取9.6.2 特征转换9.6.3 特征选择9.6.4 局部敏感哈希9.7 分类算法9.7.1 逻辑斯蒂回归分类器9.7.2 决策树分类器9.8 聚类算法9.8.1 K-Means聚类算法9.8.2 GMM聚类算法9.9 频繁模式挖掘算法9.9.1 FP-Growth算法9.9.2 PrefixSpan算法9.10 协同过滤算法9.10.1 推荐算法的原理9.10.2 ALS算法9.11 模型选择和超参数调整9.11.1 模型选择工具9.11.2 用交叉验证选择模型9.12 本章小结9.13 习题实验7 Spark机器学习库MLlib编程实践
作者介绍
序言
— 没有更多了 —
以下为对购买帮助不大的评价