¥ 82.1 6.9折 ¥ 119 全新
库存30件
作者作者
出版社机械工业出版社
ISBN9787111739593
出版时间2023-12
版次1
装帧平装
开本32
页数768页
字数602千字
定价119元
货号105_9787111739593
上书时间2024-06-25
前言
章 初识pyspark
1.1 关于数据
1.2 了解hadoop
1.2.1 分布式文件系统hdfs
1.2.2 分布式计算框架mapreduce
1.2.3 资源调度管理框架yarn
1.3 了解hive
1.4 了解spark
1.4.1 spark是什么
1.4.2 spark的发展历程
1.4.3 spark的特点
1.4.4 spark的生态系统
1.4.5 spark的部署模式
1.4.6 spark的运行架构
1.5 pyspark库介绍
1.6 本章小结
第2章 spark环境搭建
2.1 安装环境准备
2.1.1 作系统准备
2.1.2 java环境准备
2.1.3 python环境准备
2.1.4 spark安装包下载
2.1.5 hadoop安装包下载
2.2 spark本地模式安装
2.2.1 使用交互式pyspark运行代码
2.2.2 宽窄依赖和阶段划分
2.2.3 使用spark-submit提交代码
2.3 spark独立集群安装
2.3.1 配置并启动spark集群
2.3.2 使用spark-submit提交代码
2.3.3 spark history server历史服务
2.3.4 独立集群模式的代码运行流程
2.4 spark on yarn模式安装
2.4.1 安装hadoop集群
2.4.2 格式化namenode
2.4.3 启动hadoop集群
2.4.4 配置spark运行在yarn上
2.4.5 使用spark-submit提交代码
2.4.6 spark on yarn模式代码运行流程
2.5 云服务模式databricks介绍
2.5.1 databricks基本概念
2.5.2 创建集群
2.5.3 数据集成
2.5.4 创建本
2.5.5 运行案例
2.5.6 创建作业
2.5.7 运行作业
2.5.8 其他类型的作业
2.6 本章小结
第3章 数据分析基础
3.1 什么是数据分析
3.2 python数据分析工具介绍
3.2.1 数学计算库numpy介绍
3.2.2 数据分析库pandas介绍
3.3 数据分析图表介绍
3.4 python数据可视化工具介绍
3.4.1 matplotlib介绍
3.4.2 seaborn介绍
3.4.3 pyecharts介绍
3.4.4 三种可视化工具的对比
3.5 本章小结
第4章 选择合适的开发工具
4.1 使用databricks探索数据
4.1.1 使用本开发代码
4.1.2【实战案例】阿凡达电影评价分析
4.2 使用jupyterlab探索数据
4.2.1 创建虚拟环境
4.2.2 安装jupyterlab
4.2.3 集成spark引擎
4.2.4【实战案例】房数据分析
4.3 使用pycharm探索数据
4.3.1 安装pycharm
4.3.2 安装python
4.3.3 创建pycharm项目
4.3.4 pycharm插件介绍
4.3.5【实战案例】招聘信息数据分析
4.4 本章小结
第5章 核心功能spark core
5.1 sparkcontext介绍
5.2 rdd介绍
5.3 rdd的特
5.4 rdd的创建
5.4.1 通过并行化本地集合创建rdd
5.4.2 通过外部文件系统数据创建rdd
5.4.3 通过已存在的rdd衍生新的rdd
5.5 rdd的算子
5.5.1 什么是算子
5.5.2 算子的分类
5.6 常用的transformation算子
5.6.1 基本算子
5.6.2 二元组相关的算子
5.6.3 分区相关的算子
5.7 常用的action算子
5.7.1 基本算子
5.7.2 executor端执行的算子
5.8 rdd的持久化
5.8.1 缓存
5.8.2 缓存的特点
5.8.3 检查点
5.8.4 缓存和检查点的比较
5.9 共享变量
5.9.1 广播变量
5.9.2 累加器
5.10【实战案例】共享单车租赁数据分析
5.10.1 数据集成
5.10.2 不同月份的租赁数据分析
5.10.3 不同时间的租赁数据分析
5.10.4 不同周期的租赁数据分析
5.10.5 不同维度的租赁数据分析
5.10.6 天气对租赁需求的影响
5.10.7 温度、风速对租赁需求的影响
5.11 本章小结
第6章 结构化数据处理spark sql
6.1 spark sql概述
6.1.1 什么是spark sql
6.1.2 spark sql的特点
6.2 spark sql的发展历程
6.2.1 从hdfs到hive
6.2.2 从hive到shark
6.2.3 从shark到spark sql
6.3 sparksession介绍
6.4 dataframe概述
6.4.1 什么是dataframe
6.4.2 dataframe的组成
6.5 dataframe的创建
6.5.1 通过rdd创建
6.5.2 通过pandas的dataframe创建
6.5.3 通过外部数据创建
6.6 dataframe的基本作
6.6.1 dsl语法风格
6.6.2 spark join策略介绍
6.6.3 sql语法风格
6.7 dataframe的函数作
6.7.1 内置函数
6.7.2 窗函数
6.7.3 自定义函数
6.8 dataframe的数据清洗
6.8.1 删除重复行
6.8.2 缺失值的处理
6.9 dataframe的持久化
6.10 dataframe的数据写出
6.10.1 写出数据到文件
6.10.2 写出数据到数据库
6.11【实战案例】世界杯数据可视化分析
6.11.1 世界杯汇信息分析
6.11.2 世界杯比赛信息分析
6.12 本章小结
第7章 集成hive数据仓库
7.1 spark on hive作数据仓库
7.1.1 安装hive
7.1.2 启动元数据服务
7.1.3 配置spark on hive
7.1.4 验证spark on hive
7.2 使用mysql替换hive元数据服务
7.2.1 初始化mysql
7.2.2 配置spark on mysql
7.2.3 验证spark on mysql
7.3【实战案例】基于hive数据仓库的电商数据分析
7.3.1 数据集成
7.3.2 产品分析
7.3.3 月交易情况分析
7.3.4 忠诚客户分析
7.3.5 客户区域分析
7.4 本章小结
第8章 spark streaming流式数据处理
8.1 流式数据处理概述
8.1.1 静态数据和流式数据
8.1.2 批量计算和实时计算
8.1.3 流式计算
8.2 spark streaming概述
8.3 streamingcontext介绍
8.4 dstream介绍
8.5 dstream的创建
8.5.1 通过文件创建
8.5.2 通过套接字创建
8.5.3 通过rdd队列创建
8.6 dstream的transformation作
8.6.1 无转换
8.6.2 有转换
8.7 dstream的输出作
8.8 dstream的sql作
8.9 dstream的持久化
8.10【实战案例】地震数据处理分析
8.10.1 数据集成
8.10.2 震级大小分布分析
8.10.3 震源深度分布分析
8.10.4 震中坐标分布分析
8.10.5 中等地震分布分析
8.11 本章小结
第9章 structured streaming结构化流处理
9.1 编程模型
9.1.1 基本概念
事件时间和延迟数据
9.1.3 容错语义
9.2 流式dataframe的创建
9.2.1 通过文件源创建
9.2.2 通过socket源创建
9.2.3 通过rate源创建
9.2.4 通过kafka源创建
9.3 流式dataframe的作
9.3.1 事件时间窗
9.3.2 处理延迟数据和水印
9.3.3 连接作
9.3.4 消除重复数据
9.3.5 不支持的作
9.4 启动流式处理查询
9.4.1 输出模式
9.4.2 输出接收器
9.4.3 触发器
9.5 管理流式查询
9.6 监控流式查询
9.7【实战案例】气象数据处理分析
9.7.1 数据集成
9.7.2 云量分布分析
9.7.3 气温分布分析
9.7.4 降水量分布分析
9.8 本章小结
0章 spark机器学库mllib
10.1 机器学介绍
10.1.1 基本概念
10.1.2 评估指标
10.1.3 主要过程
10.1.4 基于大数据的机器学
10.2 mllib介绍
10.3 数据预处理
10.3.1 缺失值处理
10.3.2 无量纲化处理
10.3.3 特征数据处理
10.4 特征提取和转换
10.5 回归算法介绍
10.5.1 线回归算法介绍
10.5.2 回归树算法介绍
10.6 分类算法介绍
10.6.1 逻辑回归算法介绍
10.6.2 支持向量机算法介绍
10.7聚类算法介绍
10.7.1k-means算法介绍
10.7.2高斯混合模型介绍
10.8【实战案例】信用卡欺诈数据分析
10.8.1 数据预览
10.8.2 机器学训练
10.9 本章小结
1章 综合实战:基于协同过滤的图书系统
11.1 项目介绍
11.2 协同过滤算法
11.2.1 协同过滤算法介绍
11.2.2 相似度度量
11.2.3 交替小二乘法
11.3 项目实现
11.3.1 数据集成
11.3.2 数据分析
11.3.3 结果导出
11.4 数据可视化
11.4.1 flask框架介绍
11.4.2 结果展示
11.5 项目部署
11.6 本章小结
参文献
— 没有更多了 —
以下为对购买帮助不大的评价