• pyspark大数据分析实战 数据库 作者 新华正版
21年品牌 40万+商家 超1.5亿件商品

pyspark大数据分析实战 数据库 作者 新华正版

82.1 6.9折 119 全新

库存30件

河北保定
认证卖家担保交易快速发货售后保障

作者作者

出版社机械工业出版社

ISBN9787111739593

出版时间2023-12

版次1

装帧平装

开本32

页数768页

字数602千字

定价119元

货号105_9787111739593

上书时间2024-06-25

鑫誠書苑

十五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

1. 6位行业专家鼎力,大数据从业者案头宝典。 2. 超过2200分钟的教程程序源代码运行环境安装包,助你早实现从入门到精通。

目录:

前言
章 初识pyspark
1.1 关于数据
1.2 了解hadoop
1.2.1 分布式文件系统hdfs
1.2.2 分布式计算框架mapreduce
1.2.3 资源调度管理框架yarn
1.3 了解hive
1.4 了解spark
1.4.1 spark是什么
1.4.2 spark的发展历程
1.4.3 spark的特点
1.4.4 spark的生态系统
1.4.5 spark的部署模式
1.4.6 spark的运行架构
1.5 pyspark库介绍
1.6 本章小结
第2章 spark环境搭建
2.1 安装环境准备
2.1.1 作系统准备
2.1.2 java环境准备
2.1.3 python环境准备
2.1.4 spark安装包下载
2.1.5 hadoop安装包下载
2.2 spark本地模式安装
2.2.1 使用交互式pyspark运行代码
2.2.2 宽窄依赖和阶段划分
2.2.3 使用spark-submit提交代码
2.3 spark独立集群安装
2.3.1 配置并启动spark集群
2.3.2 使用spark-submit提交代码
2.3.3 spark history server历史服务
2.3.4 独立集群模式的代码运行流程
2.4 spark on yarn模式安装
2.4.1 安装hadoop集群
2.4.2 格式化namenode
2.4.3 启动hadoop集群
2.4.4 配置spark运行在yarn上
2.4.5 使用spark-submit提交代码
2.4.6 spark on yarn模式代码运行流程
2.5 云服务模式databricks介绍
2.5.1 databricks基本概念
2.5.2 创建集群
2.5.3 数据集成
2.5.4 创建本
2.5.5 运行案例
2.5.6 创建作业
2.5.7 运行作业
2.5.8 其他类型的作业
2.6 本章小结
第3章 数据分析基础
3.1 什么是数据分析
3.2 python数据分析工具介绍
3.2.1 数学计算库numpy介绍
3.2.2 数据分析库pandas介绍
3.3 数据分析图表介绍
3.4 python数据可视化工具介绍
3.4.1 matplotlib介绍
3.4.2 seaborn介绍
3.4.3 pyecharts介绍
3.4.4 三种可视化工具的对比
3.5 本章小结
第4章 选择合适的开发工具
4.1 使用databricks探索数据
4.1.1 使用本开发代码
4.1.2【实战案例】阿凡达电影评价分析
4.2 使用jupyterlab探索数据
4.2.1 创建虚拟环境
4.2.2 安装jupyterlab
4.2.3 集成spark引擎
4.2.4【实战案例】房数据分析
4.3 使用pycharm探索数据
4.3.1 安装pycharm
4.3.2 安装python
4.3.3 创建pycharm项目
4.3.4 pycharm插件介绍
4.3.5【实战案例】招聘信息数据分析
4.4 本章小结
第5章 核心功能spark core
5.1 sparkcontext介绍
5.2 rdd介绍
5.3 rdd的特
5.4 rdd的创建
5.4.1 通过并行化本地集合创建rdd
5.4.2 通过外部文件系统数据创建rdd
5.4.3 通过已存在的rdd衍生新的rdd
5.5 rdd的算子
5.5.1 什么是算子
5.5.2 算子的分类
5.6 常用的transformation算子
5.6.1 基本算子
5.6.2 二元组相关的算子
5.6.3 分区相关的算子
5.7 常用的action算子
5.7.1 基本算子
5.7.2 executor端执行的算子
5.8 rdd的持久化
5.8.1 缓存
5.8.2 缓存的特点
5.8.3 检查点
5.8.4 缓存和检查点的比较
5.9 共享变量
5.9.1 广播变量
5.9.2 累加器
5.10【实战案例】共享单车租赁数据分析
5.10.1 数据集成
5.10.2 不同月份的租赁数据分析
5.10.3 不同时间的租赁数据分析
5.10.4 不同周期的租赁数据分析
5.10.5 不同维度的租赁数据分析
5.10.6 天气对租赁需求的影响
5.10.7 温度、风速对租赁需求的影响
5.11 本章小结
第6章 结构化数据处理spark sql
6.1 spark sql概述
6.1.1 什么是spark sql
6.1.2 spark sql的特点
6.2 spark sql的发展历程
6.2.1 从hdfs到hive
6.2.2 从hive到shark
6.2.3 从shark到spark sql
6.3 sparksession介绍
6.4 dataframe概述
6.4.1 什么是dataframe
6.4.2 dataframe的组成
6.5 dataframe的创建
6.5.1 通过rdd创建
6.5.2 通过pandas的dataframe创建
6.5.3 通过外部数据创建
6.6 dataframe的基本作
6.6.1 dsl语法风格
6.6.2 spark join策略介绍
6.6.3 sql语法风格
6.7 dataframe的函数作
6.7.1 内置函数
6.7.2 窗函数
6.7.3 自定义函数
6.8 dataframe的数据清洗
6.8.1 删除重复行
6.8.2 缺失值的处理
6.9 dataframe的持久化
6.10 dataframe的数据写出
6.10.1 写出数据到文件
6.10.2 写出数据到数据库
6.11【实战案例】世界杯数据可视化分析
6.11.1 世界杯汇信息分析
6.11.2 世界杯比赛信息分析
6.12 本章小结
第7章 集成hive数据仓库
7.1 spark on hive作数据仓库
7.1.1 安装hive
7.1.2 启动元数据服务
7.1.3 配置spark on hive
7.1.4 验证spark on hive
7.2 使用mysql替换hive元数据服务
7.2.1 初始化mysql
7.2.2 配置spark on mysql
7.2.3 验证spark on mysql
7.3【实战案例】基于hive数据仓库的电商数据分析
7.3.1 数据集成
7.3.2 产品分析
7.3.3 月交易情况分析
7.3.4 忠诚客户分析
7.3.5 客户区域分析
7.4 本章小结
第8章 spark streaming流式数据处理
8.1 流式数据处理概述
8.1.1 静态数据和流式数据
8.1.2 批量计算和实时计算
8.1.3 流式计算
8.2 spark streaming概述
8.3 streamingcontext介绍
8.4 dstream介绍
8.5 dstream的创建
8.5.1 通过文件创建
8.5.2 通过套接字创建
8.5.3 通过rdd队列创建
8.6 dstream的transformation作
8.6.1 无转换
8.6.2 有转换
8.7 dstream的输出作
8.8 dstream的sql作
8.9 dstream的持久化
8.10【实战案例】地震数据处理分析
8.10.1 数据集成
8.10.2 震级大小分布分析
8.10.3 震源深度分布分析
8.10.4 震中坐标分布分析
8.10.5 中等地震分布分析
8.11 本章小结
第9章 structured streaming结构化流处理
9.1 编程模型
9.1.1 基本概念
事件时间和延迟数据
9.1.3 容错语义
9.2 流式dataframe的创建
9.2.1 通过文件源创建
9.2.2 通过socket源创建
9.2.3 通过rate源创建
9.2.4 通过kafka源创建
9.3 流式dataframe的作
9.3.1 事件时间窗
9.3.2 处理延迟数据和水印
9.3.3 连接作
9.3.4 消除重复数据
9.3.5 不支持的作
9.4 启动流式处理查询
9.4.1 输出模式
9.4.2 输出接收器
9.4.3 触发器
9.5 管理流式查询
9.6 监控流式查询
9.7【实战案例】气象数据处理分析
9.7.1 数据集成
9.7.2 云量分布分析
9.7.3 气温分布分析
9.7.4 降水量分布分析
9.8 本章小结
0章 spark机器学库mllib
10.1 机器学介绍
10.1.1 基本概念
10.1.2 评估指标
10.1.3 主要过程
10.1.4 基于大数据的机器学
10.2 mllib介绍
10.3 数据预处理
10.3.1 缺失值处理
10.3.2 无量纲化处理
10.3.3 特征数据处理
10.4 特征提取和转换
10.5 回归算法介绍
10.5.1 线回归算法介绍
10.5.2 回归树算法介绍
10.6 分类算法介绍
10.6.1 逻辑回归算法介绍
10.6.2 支持向量机算法介绍
10.7聚类算法介绍
10.7.1k-means算法介绍
10.7.2高斯混合模型介绍
10.8【实战案例】信用卡欺诈数据分析
10.8.1 数据预览
10.8.2 机器学训练
10.9 本章小结
1章 综合实战:基于协同过滤的图书系统
11.1 项目介绍
11.2 协同过滤算法
11.2.1 协同过滤算法介绍
11.2.2 相似度度量
11.2.3 交替小二乘法
11.3 项目实现
11.3.1 数据集成
11.3.2 数据分析
11.3.3 结果导出
11.4 数据可视化
11.4.1 flask框架介绍
11.4.2 结果展示
11.5 项目部署
11.6 本章小结
参文献
 



内容简介:

本书是pypark大数据分析的入门读物,适合有python基础的读者学使用。本书基于版本的pypark 3.4.x编写,全书共11章,系统地介绍了pypark大数据分析的方法和,内容涵盖了大数据的相关技术、pypark的基本概念、park环境搭建、数据分析的基本概念及相关工具、开发工具的选择、park核心编程和park ql作等基础知识和核心技术,以及park流式数据处理、park机器学库mllib和基于协同过滤的图书系统等主题。本书通过多个实战案例,带领读者掌握使用python和park进行大数据分析的方法和,从而提高读者的数据处理能力和业务价值。本书内容全面、示例丰富、讲解清晰,读者可以直接应用书中的案例。本书适合自学,也可作为计算机、软件工程、数据科学与大数据等专业的参书,用于指导大数据分析编程实践,还可供相关技术人员参。

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP