• Python大数据处理库PySpark实战
21年品牌 40万+商家 超1.5亿件商品

Python大数据处理库PySpark实战

正版新书 新华官方库房直发 可开电子发票

56.88 7.2折 79 全新

库存7件

江苏南京
认证卖家担保交易快速发货售后保障

作者汪明

出版社清华大学出版社

ISBN9787302575085

出版时间2021-03

版次1

装帧平装

开本16开

纸张胶版纸

页数320页

字数512千字

定价79元

货号SC:9787302575085

上书时间2024-06-26

问典书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
全新正版 提供发票
商品描述
作者简介:
汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。
主编推荐:
PySpark可以对大数据进行分布式处理,降低了大数据的学习门槛。本书是一本PySpark入门教材,重点讲述PySpark安装、PySpark用法、ETL数据处理、PySpark机器学习及其实战,最后给出一个综合实战案例。本书逻辑线索清晰,内容体系合理,适合有一定Python基础的大数据分析和处理人员学习使用。
内容简介:
我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。本书内容全面、示例丰富,可作为广大PySpark入门读者推荐的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。
目录:
第1章 大数据时代 1

1.1 什么是大数据 1

1.1.1 大数据的特点 2

1.1.2 大数据的发展趋势 3

1.2 大数据下的分析工具 4

1.2.1 Hadoop 5

1.2.2 Hive 6

1.2.3 HBase 6

1.2.4 Apache Phoenix 7

1.2.5 Apache Drill 7

1.2.6 Apache Hudi 7

1.2.7 Apache Kylin 8

1.2.8 Apache Presto 8

1.2.9 ClickHouse 8

1.2.10 Apache Spark 9

1.2.11 Apache Flink 10

1.2.12 Apache Storm 10

1.2.13 Apache Druid 10

1.2.14 Apache Kafka 11

1.2.15 TensorFlow 11

1.2.16 PyTorch 12

1.2.17 Apache Superset 12

1.2.18 Elasticsearch 12

1.2.19 Jupyter Notebook 13

1.2.20 Apache Zeppelin 13

1.3 小结 14

第2章 大数据的瑞士军刀——Spark 15

2.1 Hadoop与生态系统 15

2.1.1 Hadoop概述 15

2.1.2 HDFS体系结构 19

2.1.3 Hadoop生态系统 20

2.2 Spark
...

—  没有更多了  —

以下为对购买帮助不大的评价

全新正版 提供发票
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP