• PySpark大数据分析实战
21年品牌 40万+商家 超1.5亿件商品

PySpark大数据分析实战

正版新书 新华官方库房直发 可开电子发票

74.98 6.3折 119 全新

库存11件

江苏南京
认证卖家担保交易快速发货售后保障

作者伍鲜 常丽娟

出版社机械工业出版社

ISBN9787111739593

出版时间2023-12

版次1

装帧平装

开本16开

纸张胶版纸

页数372页

字数0.602千字

定价119元

货号SC:9787111739593

上书时间2024-09-17

文源文化

六年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
全新正版 提供发票
商品描述
主编推荐:
1. 6位行业专家鼎力推荐,大数据从业者推荐案头宝典。
2. 赠送超过2200分钟的视频教程+程序源代码+运行环境安装包,助你早日实现从入门到精通。
内容简介:
本书是PySpark大数据分析的入门读物,适合有一定Python基础的读者学习使用。本书基于近期新版本的PySpark 3.4.x编写,全书共11章,系统地介绍了PySpark大数据分析的方法和技巧,内容涵盖了大数据的相关技术、PySpark的基本概念、Spark环境搭建、数据分析的基本概念及相关工具、开发工具的选择、Spark核心编程和Spark SQL操作等基础知识和核心技术,以及Spark流式数据处理、Spark机器学习库MLlib和基于协同过滤的图书推荐系统等高级主题。本书通过多个实战案例,带领读者掌握使用Python和Spark进行大数据分析的方法和技巧,从而提高读者的数据处理能力和业务价值。

本书内容全面、示例丰富、讲解清晰,读者可以直接应用书中的案例。本书适合自学,也可作为计算机、软件工程、数据科学与大数据等专业的教学参考书,用于指导大数据分析编程实践,还可供相关技术人员参考。

目录:
前言

第1章 初识PySpark

1.1 关于数据

1.2 了解Hadoop

1.2.1 分布式文件系统HDFS

1.2.2 分布式计算框架MapReduce

1.2.3 资源调度管理框架YARN

1.3 了解Hive

1.4 了解Spark

1.4.1 Spark是什么

1.4.2 Spark的发展历程

1.4.3 Spark的特点

1.4.4 Spark的生态系统

1.4.5 Spark的部署模式

1.4.6 Spark的运行架构

1.5 PySpark库介绍

1.6 本章小结

第2章 Spark环境搭建

2.1 安装环境准备

2.1.1 操作系统准备

2.1.2 Java环境准备

2.1.3 Python环境准备

2.1.4 Spark安装包下载

2.1.5 Hadoop安装包下载

2.2 Spark本地模式安装

2.2.1 使用交互式pyspark运行代码

2.2.2 宽窄依赖和阶段划分

2.2.3 使用spark-submit提交代码

2.3 Spark独立集群安装

2.3.1 配置并启动Spark集群

2.3.2 使用spark-submit提交代码

2.3.3 Spark History Server历史服务

2.3.4 独立集群模式的代码运行流程

2.4 Spark on YARN模式安装

2.4.1 安装Hadoop集群

2.4.2 格式化Na
...

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

全新正版 提供发票
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP