• Spark权威指南
  • Spark权威指南
  • Spark权威指南
  • Spark权威指南
  • Spark权威指南
  • Spark权威指南
  • Spark权威指南
21年品牌 40万+商家 超1.5亿件商品

Spark权威指南

10 九品

仅1件

河南商丘
认证卖家担保交易快速发货售后保障

作者Bill Chambers;Matei Zaharia

出版社中国电力出版社

出版时间2020-03

版次1

装帧其他

货号中25-15

上书时间2024-12-23

怡鑫书店

六年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 Bill Chambers;Matei Zaharia
  • 出版社 中国电力出版社
  • 出版时间 2020-03
  • 版次 1
  • ISBN 9787519840099
  • 定价 128.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 胶版纸
  • 页数 552页
  • 字数 657千字
【内容简介】
通过本书你将了解到如何使用、部署和维护Apache Spark开源集群计算框架。本书由Spark的创始人所撰写,重点介绍Spark*版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。
  本书的主要内容有:
  大数据技术和Spark概述。
  通过实例学习DataFrame、SQL、Dataset等Spark的核心API。
  了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。
  了解Spark如何在集群上运行。
  Spark集群和应用程序的调试、监控、和调优。
  学习Spark强大的流处理引擎——结构化流处理。
  学习MLlib并了解如何应用它解决包括分类、推荐,以及其他多种实际问题。
【作者简介】
Bill Chambers是Databricks的一名产品经理,致力于使用Spark和Databricks帮助客户完成大规模数据分析的任务。Bill还定期写关于数据科学和大数据方面的博客, 并常在各种会议和见面会上展示产品。他拥有加州大学伯克利分校信息学院的信息系统硕士学位, 研究方向为数据科学。Matei Zaharia是斯坦福大学计算机科学系助理教授和Databricks的首席技术官。他于2009年在加州大学伯克利分校创立了Spark项目, 那时他是一名博士生, 并继续担任Apache Spark项目的副主席。Matei Zaharia还是Apache Mesos项目的联合创始人,也是Apache Hadoop项目的贡献者。Matei Zaharia以他出色的研究工作获得了2014年美国计算机学会博士论文奖和VMware系统研究奖。
【目录】


前言1第ⅰ部分 大数据与spark概述章 spark是什么? 9apache spark的设计哲学 10背景: 大数据问题12spark的历史 12spark的现状和未来 14运行spark 14第2章 spark浅析  18spark的基本架构18spark api的多语言支持 20spark的api21启动spark 21转换作 24动作作 25spark用户接26一个完整的例子 27小结35第3章 spark工具集介绍 36运行生产应用程序37dataset: 类型安全的结构化api 38结构化流处理39机器学和数据分析 43低级api48sparkr 49spark的生态系统和工具包50小结50第ⅱ部分 结构化api——dataframe、sql和dataset第4章 结构化api概述  53dataframe类型和dataset类型 54schema 54结构化spark类型概述 54结构化api执行概述 61小结63第5章 基本的结构化作 64模式65列和表达式66记录和行 69dataframe转换作70小结86第6章 处理不同的数据类型  87在哪里查找api87转换成spark类型89处理布尔类型89处理数值类型92处理字符串类型 96处理期和时间戳类型  101处理数据中的空值 106处理json类型  113用户自定义函数  115小结 119第7章 聚合作  120聚合函数  122分组 128window函数 130分组集  133用户自定义的聚合函数  138小结 139第8章 连接作  140连接表达式 140连接类型  140内连接  142外连接  143左外连接  143右外连接  144左半连接  144左反连接  145自然连接  146交连接(笛卡尔连接)  146连接作常见问题与解决方案 147小结 152第9章 数据源 153数据源 api 的结构  154csv 文件 156json 文件 161parquet文件  163orc文件  164sql数据库  165文本文件  173i/o概念  174小结 1770章 spark sql  178什么是 sql?  178大数据和sql: apache hive 178大数据和sql: spark sql 179如何运行spark sql 查询 180catalog 182视图 187数据库  188选择语句  189主题  190其他功能  194小结 1951章 dataset  196何时使用dataset 197创建dataset 197动作作  199转换作  199连接 201分组和聚合 202小结 203第ⅲ部分 低级api2章 弹分布式数据集 207什么是低级api?  207关于rdd  208创建rdd  210作rdd  212转换作  213动作作  215保存文件  218缓存 219检查点  220通过pipe方调用系统命令作rdd  220小结 2223章 rdd 223key-value基础 (key-value rdd)224聚合作  226cogrou 230连接作  231控制分区  232自定义序列化 235小结 2364章 分布式共享变量  237广播变量  237累加器  239小结 243第ⅳ部分 生产与应用5章 spark如何在集群上运行 247spark应用程序的体系结构 247spark应用程序的生命周期( spark外部)  250spark应用程序的生命周期( spark)  253执行细节  258小结 2596章 开发spark应用程序 260编写spark应用程序  260测试spark应用程序  265开发过程  268启动应用程序 268配置应用程序 271小结 2787章 部署spark  279在哪里部署spark集群  280集群管理器 282其他注意事项 288小结 2898章 监控与调试  290监控级别  290要监视什么 291spark志 292spark ui  293调试和spark救方案  301小结 3119章 能调优  312间接能优化 313直接能优化 320小结 325第ⅴ部分 流处理第20章 流处理基础  329什么是流处理?  330流处理设计要点  334spark的流处理api  336小结 338第21章 结构化流处理基础 339结构化流处理概述 339核心概念  340结构化流处理实例 343结构化流上的转换作  347聚合 348输入和输出 349流式dataset api  358小结 359第22章 事件时间和有状态处理  360事件时间  360有状态处理 362任意有状态处理  362事件时间基础知识 363事件时间的窗  363在流中删除重复项 370任意有状态处理  371小结 380第23章 生产中的结构化流处理  381容错和检查点 381更新应用程序 382度量和监视 384警报 386使用流侦听器进行监视 387小结 388第ⅵ部分 分析与机器学第24章 分析和机器学概览 391分析简介 392spark的分析工具包 399mllib概念 400mllib的执行  402部署模式  412小结 413第25章 预处理和特征工程 414根据应用场景格式化模型  414转换器  416预处理的估计器  417转换器 418处理连续型特征  422使用类别特征 428文本数据转换器  431特征作  440特征选择  442主题  443编写自定义转换器 444小结 445第26章 分类  446应用场景  446分类的类型 446mllib中的分类模型  447逻辑回归  449决策树  452森林和梯度提升树  454朴素贝叶斯 456分类评估器和自动化模型校正 457one-vs-rest分类 459多层感知器 459小结 459第27章 回归  460应用场景  460mllib中的回归模型  461线回归  462广义线回归 464决策树  466森林和梯度提升树  467方  468评估器和自动化模型校正  469度量标准  470小结 471第28章 系统  472应用场景  472基于交替小二乘的协同过滤  473系统的评估器 476度量指标  477频繁模式挖掘 479小结 479第29章 无监督学  480应用场景  480模型的可扩展  481k-means  482二分k-means  484高斯混合模型 485lda主题模型 487小结 490第30章 图分析 491构建图  493查询图  495模式发现  496图算  498小结 504第31章 深度学  505什么是深度学?  505在spark中使用深度学 506深度学库 508deep learning pipelines的一个简单示例  510小结 514第ⅶ部分 生态系统第32章 语言支持: python(pyspark)和r(sparkr和sparklyr)  517pyspark  518spark 中的r  519小结 529第33章 生态系统和社区  530spark软件包  530社区 533小结 534

点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP