• spark与hadoop大数据分析 数据库 作者
  • spark与hadoop大数据分析 数据库 作者
  • spark与hadoop大数据分析 数据库 作者
  • spark与hadoop大数据分析 数据库 作者
  • spark与hadoop大数据分析 数据库 作者
21年品牌 40万+商家 超1.5亿件商品

spark与hadoop大数据分析 数据库 作者

数据科学家参指南,深度剖析了如何利用高效的spark提升hadoop生态系统的实时,提升大数据处理能力

13.25 2.2折 59 全新

仅1件

北京丰台
认证卖家担保交易快速发货售后保障

作者作者

出版社机械工业出版社

ISBN9787111569411

出版时间2017-07

版次1

装帧平装

开本16

页数234页

定价59元

货号732_9787111569411

上书时间2024-12-02

智胜图书专营店

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
目录:

译者序
前言
章从宏观视角看大数据分析1
1.1大数据分析以及hadoop和spark在其中承担的角3
1.1.1典型大数据分析项目的生命周期4
1.1.2hadoop和spark承担的角6
1.2大数据科学以及hadoop和spark在其中承担的角6
1.2.1从数据分析到数据科学的根本转变6
1.2.2典型数据科学项目的生命周期8
1.2.3hadoop和spark承担的角9
1.3工具和技术9
1.4实际环境中的用例11
1.5小结12
第2章apache hadoop和apache spark入门13
2.1apache hadoop概述13
2.1.1hadoop分布式文件系统14
2.1.2hdfs的特15
2.1.3mapreduce16
2.1.4mapreduce的特17
2.1.5mapreducev1与mapreducev2对比17
2.1.6yarn18
2.1.7hadoop上的存储选择20
2.2apache spark概述24
2.2.1spark的发展历史24
2.2.2apache spark是什么25
2.2.3apache spark不是什么26
2.2.4mapreduce的问题27
2.2.5spark的架构28
2.3为何把hadoop和spark结合使用31
2.3.1hadoop的特31
2.3.2spark的特31
2.4安装hadoop和spark集群33
2.5小结36
第3章深入剖析apache spark37
3.1启动spark守护进程37
3.1.1使用cdh38
3.1.2使用hdp、mapr和spark预制软件包38
3.2学spark的核心概念39
3.2.1使用spark的方法39
3.2.2弹分布式数据集41
3.2.3spark环境43
3.2.4变换和动作44
3.2.5rdd中的并行度46
3.2.6延迟评估49
3.2.7谱系图50
3.2.8序列化51
3.2.9在spark中利用hadoop文件格式52
3.2.10数据的本地53
3.2.11共享变量54
3.2.12键值对rdd55
3.3spark程序的生命周期55
3.3.1流水线57
3.3.2spark执行的摘要58
3.4spark应用程序59
3.4.1sparkshell和spark应用程序59
3.4.2创建spark环境59
3.4.3sparkconf59
3.4.4sparksubmit60
3.4.5spark配置项的优先顺序61
3.4.6重要的应用程序配置61
3.5持久化与缓存62
3.5.1存储级别62
3.5.2应该选择哪个存储级别63
3.6spark资源管理器:standalone、yarn和mesos63
3.6.1本地和集群模式63
3.6.2集群资源管理器64
3.7小结67
第4章利用spark sql、data—frame和dataset进行大数据分析69
4.1spark sql的发展史70
4.2spark sql的架构71
4.3介绍spark sql的四个组件72
4.4dataframe和dataset的演变74
4.4.1rdd有什么问题74
4.4.2rdd变换与dataset和dataframe变换75
4.5为什么要使用dataset和dataframe75
4.5.1优化76
4.5.2速度76
4.5.3自动模式发现77
4.5.4多数据源,多种编程语言77
4.5.5rdd和其他api之间的互作77
4.5.6仅选择和读取必要的数据78
4.6何时使用rdd、dataset和dataframe78
4.7利用dataframe进行分析78
4.7.1创建sparksession79
4.7.2创建dataframe79
4.7.3把dataframe转换为rdd82
4.7.4常用的dataset/dataframe作83
4.7.5缓存数据84
4.7.6能优化84
4.8利用dataset api进行分析85
4.8.1创建dataset85
4.8.2把dataframe转换为dataset86
4.8.3利用数据字典访问元数据87
4.9data sources api87
4.9.1读和写函数88
4.9.2内置数据源88
4.9.3外部数据源93
4.10把spark sql作为分布式sql引擎97
4.10.1把spark sql的thrift服务器用于bc/odbc访问97
4.10.2使用beeline客户端查询数据98
4.10.3使用spark—sql cli从hive查询数据99
4.10.4与bi工具集成100
4.11hive on spark100
4.12小结100
第5章利用spark streaming和structured streaming进行实时分析102
5.1实时处理概述103
5.1.1spark streaming的优缺点104
5.1.2spark streaming的发展史104
5.2spark streaming的架构104
5.2.1spark streaming应用程序流106
5.2.2无和有的流处理107
5.3spark streaming的变换和动作109
5.3.1union109
5.3.2join109
5.3.3transform作109
5.3.4updatestatebykey109
5.3.5mapwithstate110
5.3.6窗作110
5.3.7输出作111
5.4输入数据源和输出存储111
5.4.1基本数据源112
5.4.2数据源112
5.4.3自定义数据源112
5.4.4接收器的可靠112
5.4.5输出存储113
5.5使用kafka和hbase的spark streaming113
5.5.1基于接收器的方法114
5.5.2直接方法(无接收器)116
5.5.3与hbase集成117
5.6spark streaming的概念118
5.6.1使用dataframe118
5.6.2mllib作119
5.6.3缓存/持久化119
5.6.4spark streaming中的容错机制119
5.6.5spark streaming应用程序的能调优121
5.7监控应用程序122
5.8结构化流概述123
5.8.1结构化流应用程序的工作流123
5.8.2流式dataset和流式dataframe
5.8.3流式dataset和流式dataframe的作
5.9小结129
第6章利用spark和hadoop的本与数据流
6.1基于网络的本概述
6.2jupyter概述
6.2.1安装jupyter
6.2.2用jupyter进行分析134
6.3apache zeppelin概述
6.3.1jupyter和zeppelin对比
6.3.2安装apachezeppelin
6.3.3使用zeppelin进行分析
6.4livy rest作业服务器和hue本140
6.4.1安装设置livy服务器和hue
6.4.2使用livy服务器
6.4.3livy和hue本搭配使用
6.4.4livy和zeppelin搭配使用
6.5用于数据流的apache nifi概述
6.5.1安装apache nifi
6.5.2把nifi用于数据流和分析
6.6小结
第7章利用spark和hadoop进行机器学
7.1机器学概述153
7.2在spark和hadoop上进行机器学
7.3机器学算法155
7.3.1有监督学
7.3.2无监督学156
7.3.3系统157
7.3.4特征提取和变换157
7.3.5优化158
7.3.6spark mllib的数据类型
7.4机器学算法示例160
7.5构建机器学流水线163
7.5.1流水线工作流的一个示例163
7.5.2构建一个ml流水线164
7.5.3保存和加载模型
7.6利用h2o和spark进行机器学167
7.6.1为什么使用sparkling water
7.6.2yarn上的一个应用程序流167
7.6.3sparkling water入门168
7.7hivemall概述
7.8hivemall for spark概述
7.9小结170
第8章利用spark和mahout构建系统
8.1构建系统171
8.1.1基于内容的过滤172
8.1.2协同过滤172
8.2系统的局限173
8.3用mllib实现系统173
8.3.1准备环境174
8.3.2创建rdd175
8.3.3利用dataframe探索数据176
8.3.4创建训练和测试数据集178
8.3.5创建一个模型178
8.3.6做出预测179
8.3.7利用测试数据对模型进行评估179
8.3.8检查模型的准确度
8.3.9显式和隐式反馈181
8.4mahout和spark的集成181
8.4.1安装mahout
8.4.2探索mahoutshell
8.4.3利用mahout和搜索工具构建一个通用的系统
8.5小结189
第9章利用graph行图分析
9.1图处理概述190
9.1.1图是什么191
9.1.2图数据库和图处理系统191
9.1.3graphx概述
9.1.4图算法192
9.2graphx入门193
9.2.1graphx的基本作
9.2.2图的变换198
9.2.3graphx算法
9.3利用graphx分析航班数据205
9.4graphframes概述
9.4.1模式发现
9.4.2加载和保存graphframes
9.5小结212
0章利用sparkr进行交互式分析
10.1r语言和sparkr概述
10.1.1r语言是什么
10.1.2sparkr概述
10.1.3sparkr架构
10.2sparkr入门
10.2.1安装和配置r
10.2.2使用sparkrshell
10.2.3使用sparkr脚本
10.3在sparkr里使用dataframe
10.4在rstudio里使用sparkr
10.5利用sparkr进行机器学
10.5.1利用朴素贝叶斯模型230
10.5.2利用k均值模型
10.6在zeppelin里使用sparkr
10.7小结

内容简介:

本书介绍了apachepark和hadoop的基础知识,并深入探讨了所有park组件:parkcore、parkql、dataframe、dataet、普通流、结构化流、mllib、graphx,以及hadoop的核心组件(hdf、mapreduce和yarn)等,此外,也讲解了在parkhadoop集群中实现的示例。

作者简介:

文卡特安卡姆(venkatankam),有超过18年的it经验和5年以上的大数据技术经验,与客户一起设计和开发过可扩展的大数据应用程序。他在利用hadoop和park进行大数据分析方面拥有丰富的经验,与优选很多客户进行了合作。他是cloudera认证的hadoop开发者和管理员,也是databrick认证的park开发者。他还是一些优选hadoop和park会议小组的创始人和主持人,热爱与社区分享知识。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP