消息首页搜索举报

pyspark大数据分析实战数据库新华正版

数据库新华书店全新正版书籍支持7天无理由

72 6.1折 119 全新

库存9件

河北保定

认证卖家担保交易快速发货售后保障

作者作者

出版社机械工业出版社

ISBN9787111739593

出版时间2023-12

版次1

装帧平装

开本32开

页数768页

字数602千字

定价119元

货号xhwx_1203151945

上书时间2023-12-21

浩子书屋

八年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

【高中英语全套】（科一+科二+科三）教师招考中公教育格试研究院编新华正版 ¥153.59

何伟三部曲江城+寻路中国 +奇石杂文 (美)彼得·海斯勒(hessler,p) 新华正版 ¥97.53

小学【综合素质+教育】真题（4本套）教师招考中公教育格试研究院编新华正版 ¥38.65

【初中体育全套】（科一+科二+科三）教师招考中公教育格试研究院编新华正版 ¥153.59

【初中物理全套】（科一+科二+科三）教师招考中公教育格试研究院编新华正版 ¥149.15

智慧的探索丛书不惧老去——哲学伦理学视角下的老年关切社会科学总论、学术张容南新华正版 ¥43.24

艾青诗精选+水浒传诗歌艾青新华正版 ¥53.94

大疆dji mavic 3无人机航拍实战宝典摄影理论锐度影像生活馆新华正版 ¥61.35

眼科学（案例版）（第3版）大中专理科医药卫生管怀进新华正版 ¥103.10

商品详情

品相描述：全新: 正版特价新书

商品描述: 主编：

1.6位行业专家鼎力，大数据从业者案头宝典。2.超过2200分钟的教程程序源代码运行环境安装包，助你早实现从入门到精通。

目录：

前言
章初识pyspark/
  1.1 关于数据/
  1.2 了解hadoop/
      1.2.1 分布式文件系统hdfs/
      1.2.2 分布式计算框架mapreduce/
      1.2.3 资源调度管理框架yarn/
  1.3 了解hive/
  1.4 了解spark/
      1.4.1 spark是什么/
      1.4.2 spark的发展历程/
      1.4.3 spark的特点/
      1.4.4 spark的生态系统/
      1.4.5 spark的部署模式/
      1.4.6 spark的运行架构/
  1.5 pyspark库介绍/
  1.6 本章小结/
第2章 spark环境搭建/
  2.1 安装环境准备/
      2.1.1 作系统准备/
      2.1.2 java环境准备/
      2.1.3 python环境准备/
      2.1.4 spark安装包下载/
      2.1.5 hadoop安装包下载/
  2.2 spark本地模式安装/
      2.2.1 使用交互式pyspark运行代码/
      2.2.2 宽窄依赖和阶段划分/
      2.2.3 使用spark-submit提交代码/
  2.3 spark独立集群安装/
      2.3.1 配置并启动spark集群/
      2.3.2 使用spark-submit提交代码/
      2.3.3 spark history server历史服务/
      2.3.4 独立集群模式的代码运行流程/
  2.4 spark on yarn模式安装/
      2.4.1 安装hadoop集群/
      2.4.2 格式化namenode/
      2.4.3 启动hadoop集群/
      2.4.4 配置spark运行在yarn上/
      2.4.5 使用spark-submit提交代码/
      2.4.6 spark on yarn模式代码运行流程/
  2.5 云服务模式databricks介绍/
      2.5.1 databricks基本概念/
      2.5.2 创建集群/
      2.5.3 数据集成/
      2.5.4 创建本/
      2.5.5 运行案例/
      2.5.6 创建作业/
      2.5.7 运行作业/
      2.5.8 其他类型的作业/
  2.6 本章小结/
第3章数据分析基础/
  3.1 什么是数据分析/
  3.2 python数据分析工具介绍/
      3.2.1 数学计算库numpy介绍/
      3.2.2 数据分析库pandas介绍/
  3.3 数据分析图表介绍/
  3.4 python数据可视化工具介绍/
      3.4.1 matplotlib介绍/
      3.4.2 seaborn介绍/
      3.4.3 pyecharts介绍/
      3.4.4 三种可视化工具的对比/
  3.5 本章小结/
第4章选择合适的开发工具/
  4.1 使用databricks探索数据/
      4.1.1 使用本开发代码/
      4.1.2【实战案例】阿凡达电影评价分析/
  4.2 使用jupyterlab探索数据/
      4.2.1 创建虚拟环境/
      4.2.2 安装jupyterlab/
      4.2.3 集成spark引擎/
      4.2.4【实战案例】房数据分析/
  4.3 使用pycharm探索数据/
      4.3.1 安装pycharm/
      4.3.2 安装python/
      4.3.3 创建pycharm项目/
      4.3.4 pycharm插件介绍/
      4.3.5【实战案例】招聘信息数据分析/
  4.4 本章小结/
第5章核心功能spark core/
  5.1 sparkcontext介绍/
  5.2 rdd介绍/
  5.3 rdd的特/
  5.4 rdd的创建/
      5.4.1 通过并行化本地集合创建rdd/
      5.4.2 通过外部文件系统数据创建rdd/
      5.4.3 通过已存在的rdd衍生新的rdd/
  5.5 rdd的算子/
      5.5.1 什么是算子/
      5.5.2 算子的分类/
  5.6 常用的transformation算子/
      5.6.1 基本算子/
      5.6.2 二元组相关的算子/
      5.6.3 分区相关的算子/
  5.7 常用的action算子/
      5.7.1 基本算子/
      5.7.2 executor端执行的算子/
  5.8 rdd的持久化/
      5.8.1 缓存/
      5.8.2 缓存的特点/
      5.8.3 检查点/
      5.8.4 缓存和检查点的比较/
  5.9 共享变量/
      5.9.1 广播变量/
      5.9.2 累加器/
  5.10【实战案例】共享单车租赁数据分析/
      5.10.1 数据集成/
      5.10.2 不同月份的租赁数据分析/
      5.10.3 不同时间的租赁数据分析/
      5.10.4 不同周期的租赁数据分析/
      5.10.5 不同维度的租赁数据分析/
      5.10.6 天气对租赁需求的影响/
      5.10.7 温度、风速对租赁需求的影响/
  5.11 本章小结/
第6章结构化数据处理spark sql/
  6.1 spark sql概述/
      6.1.1 什么是spark sql/
      6.1.2 spark sql的特点/
  6.2 spark sql的发展历程/
      6.2.1 从hdfs到hive/
      6.2.2 从hive到shark/
      6.2.3 从shark到spark sql/
  6.3 sparksession介绍/
  6.4 dataframe概述/
      6.4.1 什么是dataframe/
      6.4.2 dataframe的组成/
  6.5 dataframe的创建/
      6.5.1 通过rdd创建/
      6.5.2 通过pandas的dataframe创建/
      6.5.3 通过外部数据创建/
  6.6 dataframe的基本作/
      6.6.1 dsl语风格/
      6.6.2 spark join策略介绍/
      6.6.3 sql语风格/
  6.7 dataframe的函数作/
      6.7.1 内置函数/
      6.7.2 窗函数/
      6.7.3 自定义函数/
  6.8 dataframe的数据清洗/
      6.8.1 删除重复行/
      6.8.2 缺失值的处理/
  6.9 dataframe的持久化/
  6.10 dataframe的数据写出/
      6.10.1 写出数据到文件/
      6.10.2 写出数据到数据库/
  6.11【实战案例】世界杯数据可视化分析/
      6.11.1 世界杯汇信息分析/
      6.11.2 世界杯比赛信息分析/
  6.12 本章小结/
第7章集成hive数据仓库/
  7.1 spark on hive作数据仓库/
      7.1.1 安装hive/
      7.1.2 启动元数据服务/
      7.1.3 配置spark on hive/
      7.1.4 验证spark on hive/
  7.2 使用mysql替换hive元数据服务/
      7.2.1 初始化mysql/
      7.2.2 配置spark on mysql/
      7.2.3 验证spark on mysql/
  7.3【实战案例】基于hive数据仓库的电商数据分析/
      7.3.1 数据集成/
      7.3.2 产品分析/
      7.3.3 月交易情况分析/
      7.3.4 忠诚客户分析/
      7.3.5 客户区域分析/
  7.4 本章小结/
第8章 spark streaming流式数据处理/
  8.1 流式数据处理概述/
      8.1.1 静态数据和流式数据/
      8.1.2 批量计算和实时计算/
      8.1.3 流式计算/
  8.2 spark streaming概述/
  8.3 streamingcontext介绍/
  8.4 dstream介绍/
  8.5 dstream的创建/
      8.5.1 通过文件创建/
      8.5.2 通过套接字创建/
      8.5.3 通过rdd队列创建/
  8.6 dstream的transformation作/
      8.6.1 无状态转换/
      8.6.2 有状态转换/
  8.7 dstream的输出作/
  8.8 dstream的sql作/
  8.9 dstream的持久化/
  8.10【实战案例】地震数据处理分析/
      8.10.1 数据集成/
      8.10.2 震级大小分布分析/
      8.10.3 震源深度分布分析/
      8.10.4 震中坐标分布分析/
      8.10.5 中等地震分布分析/
  8.11 本章小结/
第9章 structured streaming结构化流处理/
  9.1 编程模型/
      9.1.1 基本概念/
      9.1.2 事件时间和延迟数据/
      9.1.3 容错语义/
  9.2 流式dataframe的创建/
      9.2.1 通过文件源创建/
      9.2.2 通过socket源创建/
      9.2.3 通过rate源创建/
      9.2.4 通过kafka源创建/
  9.3 流式dataframe的作/
      9.3.1 事件时间窗/
      9.3.2 处理延迟数据和水印/
      9.3.3 连接作/
      9.3.4 消除重复数据/
      9.3.5 不支持的作/
  9.4 启动流式处理查询/
      9.4.1 输出模式/
      9.4.2 输出接收器/
      9.4.3 触发器/
  9.5 管理流式查询/
  9.6 监控流式查询/
  9.7【实战案例】气象数据处理分析/
      9.7.1 数据集成/
      9.7.2 云量分布分析/
      9.7.3 气温分布分析/
      9.7.4 降水量分布分析/
  9.8 本章小结/
0章 spark机器学库mllib/
  10.1 机器学介绍/
      10.1.1 基本概念/
      10.1.2 评估指标/
      10.1.3 主要过程/
      10.1.4 基于大数据的机器学/
  10.2 mllib介绍/
  10.3 数据预处理/
      10.3.1 缺失值处理/
      10.3.2 无量纲化处理/
      10.3.3 特征数据处理/
  10.4 特征提取和转换/
  10.5 回归算介绍/
      10.5.1 线回归算介绍/
      10.5.2 回归树算介绍/
  10.6 分类算介绍/
      10.6.1 逻辑回归算介绍/
      10.6.2 支持向量机算介绍/
  10.7聚类算介绍/
      10.7.1k-means算介绍/
      10.7.2高斯混合模型介绍/
  10.8【实战案例】信用卡欺诈数据分析/
      10.8.1 数据预览/
      10.8.2 机器学训练/
  10.9 本章小结/
1章综合实战：基于协同过滤的图书系统/
  11.1 项目介绍/
  11.2 协同过滤算/
      11.2.1 协同过滤算介绍/
      11.2.2 相似度度量/
      11.2.3 交替小二乘/
  11.3 项目实现/
      11.3.1 数据集成/
      11.3.2 数据分析/
      11.3.3 结果导出/
  11.4 数据可视化/
      11.4.1 flask框架介绍/
      11.4.2 结果展示/
  11.5 项目部署/
  11.6 本章小结/
参文献/

内容简介：

本书是pyspark大数据分析的入门读物，适合有python基础的读者学使用。本书基于近期新版本的pyspark3.4.x编写，全书共11章，系统地介绍了pyspark大数据分析的方和，内容涵盖了大数据的相关技术、pyspark的基本概念、spark环境搭建、数据分析的基本概念及相关工具、开发工具的选择、spark核心编程和sparksql作等基础知识和核心技术，以及spark流式数据处理、spark机器学库mllib和基于协同过滤的图书系统等主题。本书通过多个实战案例，带领读者掌握使用python和spark进行大数据分析的方和，从而提高读者的数据处理能力和业务价值。本书内容全面、示例丰富、讲解清晰，读者可以直接应用书中的案例。本书适合自学，也可作为计算机、软件工程、数据科学与大数据等专业的参书，用于指导大数据分析编程实践，还可供相关技术人员参。

— 没有更多了 —

pyspark大数据分析实战 数据库 新华正版

浩子书屋

商品详情

pyspark大数据分析实战数据库新华正版