• 一版一印 Spark大数据分析与实战(Python+PySpark微课版高等职业教育大数据工程技术系列教材)
  • 一版一印 Spark大数据分析与实战(Python+PySpark微课版高等职业教育大数据工程技术系列教材)
  • 一版一印 Spark大数据分析与实战(Python+PySpark微课版高等职业教育大数据工程技术系列教材)
21年品牌 40万+商家 超1.5亿件商品

一版一印 Spark大数据分析与实战(Python+PySpark微课版高等职业教育大数据工程技术系列教材)

内页干净,偶尔几页少量笔记字迹

25 4.2折 59.8 九品

仅1件

浙江嘉兴
认证卖家担保交易快速发货售后保障

作者李新辉

出版社电子工业出版社

出版时间2024-02

版次1

装帧其他

上书时间2024-09-22

艺妍精品二手书社

五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 李新辉
  • 出版社 电子工业出版社
  • 出版时间 2024-02
  • 版次 1
  • ISBN 9787121472770
  • 定价 59.80元
  • 装帧 其他
  • 开本 16开
  • 页数 308页
  • 字数 517千字
【内容简介】


park是业界主流的大数据计算框架。本书通过一系列大数据应用案例和实践项目贯穿始终,使用python详细阐述了 park 大数据环境的搭建、park rdd 离线数据计算、park ql 离线数据处理、park treaming实时数据计算等一系列常见的大数据处理问题,并在此基础上对park的核心概念及技术进行了详细分析,后以两个综合案例分别展示了park离线数据处理和实时数据处理的具体应用与部署。本书践行“做中学”的设计理念,内容编排符合学与认知规律,从简单细小案例入手,辅以大量配图对学过程中涉及的枯燥数据、抽象概念和复杂进行图示化说明,语言浅显易懂,技术体系清晰,逻辑衔接合理。在本书后两个综合案例中,分别从需求分析、技术准备、数据清洗、需求实现、数据可视化等几个关键环节展开叙述,便于读者对park大数据项目的整体开发流程有一个比较清晰的认识。
【目录】


章  spark大数据台与环境搭建1
1.1  引言2
1.2  spark大数据台介绍2
1.2.1  spark是什么2
1.2.2  spark与大数据的应用场景4
1.2.3  spark编程环境(pyspark)5
1.2.4  spark应用程序7
1.3  spark大数据环境搭建8
1.3.1  linux作系统安装和配置8
1.3.2  hadoop伪分布集群环境搭建23
1.3.3  spark单机运行环境搭建35
1.4  python核心语法概览47
1.5  单元训练49
第2章  spark rdd离线数据计算50
2.1  引言51
2.2  rdd基本51
2.3  rdd编程模型53
2.4  spark rdd常用作55
2.4.1  rdd的创建55
2.4.2  rdd的转换作60
2.4.3  rdd的行动作87
2.5  spark rdd数据计算实例90
2.5.1  词频统计案例90
2.5.2  基本topn问题案例92
2.5.3  用户消费数据处理案例95
2.6  spark文件的读/写96
2.6.1  文本文件的读/写96
2.6.2  sequencefile文件的读/写99
2.7  单元训练99
第3章  spark sql离线数据处理101
3.1  引言101
3.2  dataframe基本102
3.3  spark sql常用作103
3.3.1  dataframe的基本创建103
3.3.2  dataframe的查看108
3.3.3  dataframe的数据作(dsl)111
3.3.4  dataframe的数据作(sql)123
3.4  spark sql数据处理实例136
3.4.1  词频统计案例136
3.4.2  人信息统计案例137
3.4.3  电影评分数据分析案例139
3.5  spark sql访问数据库143
3.5.1  在linux作系统上安装mysql143
3.5.2  dataframe写入mysql145
3.5.3  从mysql中创建dataframe147
3.6  dataframe创建和保存147
3.6.1  创建dataframe148
3.6.2  保存dataframe149
3.7  spark的数据类型转换150
3.8  单元训练152
第4章  spark streaming实时数据计算155
4.1  引言156
4.2  spark streaming基本156
4.3  spark streaming词频统计157
4.3.1  cat网络工具测试157
4.3.2  dstream词频统计158
4.4  dstream数据转换作161
4.4.1  dstream无转换作161
4.4.2  dstream基于更新的转换162
4.4.3  dstream基于滑动窗的转换164
4.5  dstream输出作166
4.6  dstream数据源读取168
4.6.1  读取文件数据流168
4.6.2  读取kafka数据流169
4.7  单元训练176
第5章  spark编程177
5.1  引言177
5.2  搭建pyspark开发环境178
5.2.1  pyspark交互式编程环境178
5.2.2  jupyter notebook编程环境180
5.2.3  pycharm集成开发环境183
5.3  理解rdd188
5.3.1  rdd基本概念188
5.3.2  rdd的分区190
5.3.3  rdd的依赖关系191
5.3.4  rdd的计算调度193
5.4  rdd缓存机制199
5.5  广播变量和累加器201
5.5.1  广播变量201
5.5.2  累加器203
5.6  spark生态和应用架构206
5.6.1  spark生态架构206
5.6.2  spark应用架构208
5.7  spark集群和应用部署211
5.7.1  spark伪分布集群的搭建211
 5.7.2  spark应用部署模式216
5.7.3  spark应用部署实例219
5.8  单元训练227
第6章  spark大数据分析项目实例228
6.1  引言228
6.2  centos7+k8虚拟机安装229
6.3  hadoop+spark分布式集群环境235
6.3.1  hadoop+spark standalone分布式集群环境搭建235
6.3.2  hadoop+spark on yarn分布式集群环境搭建239
6.4  spark离线数据处理实例244
6.4.1  需求分析244
6.4.2  准备工作246
6.4.3  美妆商品订单数据分析263
6.4.4  美妆商品订单数据可视化280
6.5  spark实时数据处理实例286
6.5.1  需求分析286
6.5.2  准备工作287
6.5.3  通话记录生产者模拟289
6.5.4  消息接收者测试291
6.5.5  spark streaming通话记录消息处理294
6.6  spark数据分析案例部署298

点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP