消息首页搜索举报

一版一印 Spark大数据分析与实战(Python+PySpark微课版高等职业教育大数据工程技术系列教材)

内页干净，偶尔几页少量笔记字迹

25 4.2折 59.8 九品

仅1件

浙江嘉兴

认证卖家担保交易快速发货售后保障

作者李新辉

出版社电子工业出版社

出版时间2024-02

版次1

装帧其他

上书时间2024-09-22

艺妍精品二手书社

五年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 11小时
好评率暂无

店主推荐
最新上架

销售冠军是怎样炼成的 ¥368.00

孙子兵法春秋孙武 ¥20.00

正版特价现货记忆浙江 2014 ¥368.00

过目不忘的图像记忆法：一生受用的9堂记忆课 ¥168.00

正版特价政治理论教程：国外经典政治学教材译丛 ¥249.00

正版送书签十天突破雅思口语 9787111534563 慎小嶷：十天突破雅思口语剑11版 ¥36.00

全新正版防伪无笔记现货 Nuke数字影视后期合成附光盘 ¥268.00

操作系统概念（第七版）翻译版 ¥74.00

正版特价现货投资学精要：（第七版）上下册两本合售 ¥35.00

正版特价上海交通大学研究生教材：矩阵理论与应用 ¥18.00

正版特价学术交流英语 ¥45.00

正版特价面向21世纪课程教材·信息管理与信息系统专业教材系列：运筹学（第4版）（本科版） ¥3.00

全新未使用数控车工（中级）附光盘 ¥18.00

全新未使用中级技能型人才培训用书国家职业资格培训教材：数控铣工加工中心操作工附光盘一张 ¥20.00

正版现货全新版大学英语（第二版）快速阅读4（新题型）附光盘 ¥1.00

正版现货园林卷子：古画上的园林往事 ¥65.00

全新正版先进制造技术第3版 ¥18.00

商品详情

品相描述：九品

图书标准信息

作者李新辉
出版社电子工业出版社
出版时间 2024-02
版次 1
ISBN 9787121472770
定价 59.80元
装帧其他
开本 16开
页数 308页
字数 517千字

【内容简介】: park是业界主流的大数据计算框架。本书通过一系列大数据应用案例和实践项目贯穿始终，使用python详细阐述了 park 大数据环境的搭建、park rdd 离线数据计算、park ql 离线数据处理、park treaming实时数据计算等一系列常见的大数据处理问题，并在此基础上对park的核心概念及技术进行了详细分析，后以两个综合案例分别展示了park离线数据处理和实时数据处理的具体应用与部署。本书践行“做中学”的设计理念，内容编排符合学与认知规律，从简单细小案例入手，辅以大量配图对学过程中涉及的枯燥数据、抽象概念和复杂进行图示化说明，语言浅显易懂，技术体系清晰，逻辑衔接合理。在本书后两个综合案例中，分别从需求分析、技术准备、数据清洗、需求实现、数据可视化等几个关键环节展开叙述，便于读者对park大数据项目的整体开发流程有一个比较清晰的认识。
【目录】: 章  spark大数据台与环境搭建1
1.1  引言2
1.2  spark大数据台介绍2
1.2.1  spark是什么2
1.2.2  spark与大数据的应用场景4
1.2.3  spark编程环境（pyspark）5
1.2.4  spark应用程序7
1.3  spark大数据环境搭建8
1.3.1  linux作系统安装和配置8
1.3.2  hadoop伪分布集群环境搭建23
1.3.3  spark单机运行环境搭建35
1.4  python核心语法概览47
1.5  单元训练49
第2章  spark rdd离线数据计算50
2.1  引言51
2.2  rdd基本51
2.3  rdd编程模型53
2.4  spark rdd常用作55
2.4.1  rdd的创建55
2.4.2  rdd的转换作60
2.4.3  rdd的行动作87
2.5  spark rdd数据计算实例90
2.5.1  词频统计案例90
2.5.2  基本topn问题案例92
2.5.3  用户消费数据处理案例95
2.6  spark文件的读/写96
2.6.1  文本文件的读/写96
2.6.2  sequencefile文件的读/写99
2.7  单元训练99
第3章  spark sql离线数据处理101
3.1  引言101
3.2  dataframe基本102
3.3  spark sql常用作103
3.3.1  dataframe的基本创建103
3.3.2  dataframe的查看108
3.3.3  dataframe的数据作（dsl）111
3.3.4  dataframe的数据作（sql）123
3.4  spark sql数据处理实例136
3.4.1  词频统计案例136
3.4.2  人信息统计案例137
3.4.3  电影评分数据分析案例139
3.5  spark sql访问数据库143
3.5.1  在linux作系统上安装mysql143
3.5.2  dataframe写入mysql145
3.5.3  从mysql中创建dataframe147
3.6  dataframe创建和保存147
3.6.1  创建dataframe148
3.6.2  保存dataframe149
3.7  spark的数据类型转换150
3.8  单元训练152
第4章  spark streaming实时数据计算155
4.1  引言156
4.2  spark streaming基本156
4.3  spark streaming词频统计157
4.3.1  cat网络工具测试157
4.3.2  dstream词频统计158
4.4  dstream数据转换作161
4.4.1  dstream无转换作161
4.4.2  dstream基于更新的转换162
4.4.3  dstream基于滑动窗的转换164
4.5  dstream输出作166
4.6  dstream数据源读取168
4.6.1  读取文件数据流168
4.6.2  读取kafka数据流169
4.7  单元训练176
第5章  spark编程177
5.1  引言177
5.2  搭建pyspark开发环境178
5.2.1  pyspark交互式编程环境178
5.2.2  jupyter notebook编程环境180
5.2.3  pycharm集成开发环境183
5.3  理解rdd188
5.3.1  rdd基本概念188
5.3.2  rdd的分区190
5.3.3  rdd的依赖关系191
5.3.4  rdd的计算调度193
5.4  rdd缓存机制199
5.5  广播变量和累加器201
5.5.1  广播变量201
5.5.2  累加器203
5.6  spark生态和应用架构206
5.6.1  spark生态架构206
5.6.2  spark应用架构208
5.7  spark集群和应用部署211
5.7.1  spark伪分布集群的搭建211
5.7.2  spark应用部署模式216
5.7.3  spark应用部署实例219
5.8  单元训练227
第6章  spark大数据分析项目实例228
6.1  引言228
6.2  centos7+k8虚拟机安装229
6.3  hadoop+spark分布式集群环境235
6.3.1  hadoop+spark standalone分布式集群环境搭建235
6.3.2  hadoop+spark on yarn分布式集群环境搭建239
6.4  spark离线数据处理实例244
6.4.1  需求分析244
6.4.2  准备工作246
6.4.3  美妆商品订单数据分析263
6.4.4  美妆商品订单数据可视化280
6.5  spark实时数据处理实例286
6.5.1  需求分析286
6.5.2  准备工作287
6.5.3  通话记录生产者模拟289
6.5.4  消息接收者测试291
6.5.5  spark streaming通话记录消息处理294
6.6  spark数据分析案例部署298

点击展开点击收起

— 没有更多了 —