消息首页搜索举报

Hadoop数据分析

全新正版极速发货

42.58 6.2折 69 全新

仅1件

广东广州

认证卖家担保交易快速发货售后保障

作者(美)本杰明·班福特(Benjamin Bengfort),(美)珍妮·基姆(Jenny Kim) 著;王纯超译

出版社人民邮电出版社

ISBN9787115479648

出版时间2018-04

装帧平装

开本16开

定价69元

货号1201678933

上书时间2024-08-28

徐小智的书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

小彗星旅行记有声伴读注音版 ¥10.75

四川新文学大系小说编(第一卷) ¥66.04

炼金师的厨房 ¥23.73

中国共产党第二个历史决议的制定与通过 ¥12.83

融创育青衿创教育:"融创"综合课程研究与实践 ¥50.89

逐夏.完结篇-印特签-定制版 ¥28.37

基于服务失败负溢出效应的OTA平台生态圈服务补救效果影响机制研究 ¥52.77

崔敬邕墓志考证 ¥47.07

财政信息管理系统 ¥39.70

商品详情

品相描述：全新

商品描述: 作者简介
本杰明·班福特（Benjamin Bengfort），数据科学家，目前正在马里兰大学攻读博士学位，方向为机器学习和分布式计算；熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。
珍妮·基姆（Jenny Kim），经验丰富的大数据工程师，不仅进行商业软件的开发，在学术界也有所建树，在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前任职于Cloudera的Hue团队。

目录
前言ix
第一部分  分布式计算入门
第1章  数据产品时代2
1.1  什么是数据产品2
1.2  使用Hadoop构建大规模数据产品4
1.2.1  利用大型数据集4
1.2.2  数据产品中的Hadoop5
1.3  数据科学流水线和Hadoop生态系统6
1.4  小结8
第2章  大数据操作系统9
2.1  基本概念10
2.2  Hadoop架构11
2.2.1  Hadoop集群12
2.2.2  HDFS14
2.2.3  YARN15
2.3  使用分布式文件系统16
2.3.1  基本的文件系统操作16
2.3.2  HDFS文件权限18
2.3.3  其他HDFS接口19
2.4  使用分布式计算20
2.4.1  MapReduce：函数式编程模型20
2.4.2  MapReduce：集群上的实现22
2.4.3  不止一个MapReduce：作业链27
2.5  向YARN提交MapReduce作业28
2.6  小结30
第3章  Python框架和HadoopStreaming31
3.1  HadoopStreaming32
3.1.1  使用Streaming在CSV数据上运行计算34
3.1.2  执行Streaming作业38
3.2  Python的MapReduce框架39
3.2.1  短语计数42
3.2.2  其他框架45
3.3  MapReduce进阶46
3.3.1  combiner46
3.3.2  partitioner47
3.3.3  作业链47
3.4  小结50
第4章  Spark内存计算52
4.1  Spark基础53
4.1.1  Spark栈54
4.1.2  RDD55
4.1.3  使用RDD编程56
4.2  基于PySpark的交互性Spark59
4.3  编写Spark应用程序61
4.4  小结67
第5章  分布式分析和模式69
5.1  键计算70
5.1.1  复合键71
5.1.2  键空间模式74
5.1.3  pair与stripe78
5.2  设计模式80
5.2.1  概要81
5.2.2  索引85
5.2.3  过滤90
5.3  迈向第后一英里分析95
5.3.1  模型拟合96
5.3.2  模型验证97
5.4  小结98
第二部分  大数据科学的工作流和工具
第6章  数据挖掘和数据仓102
6.1  Hive结构化数据查询103
6.1.1  Hive命令行接口（CLI）103
6.1.2  Hive查询语言104
6.1.3  Hive数据分析108
6.2  HBase113
6.2.1  NoSQL与列式数据库114
6.2.2  HBase实时分析116
6.3  小结122
第7章  数据采集123
7.1  使用Sqoop导入关系数据124
7.1.1  从MySQL导入HDFS124
7.1.2  从MySQL导入Hive126
7.1.3  从MySQL导入HBase128
7.2  使用Flume获取流式数据130
7.2.1  Flume数据流130
7.2.2  使用Flume获取产品印象数据133
7.3  小结136
第8章  使用不错API进行分析137
8.1  Pig137
8.1.1  PigLatin138
8.1.2  数据类型142
8.1.3  关系运算符142
8.1.4  用户定义函数143
8.1.5  Pig小结144
8.2  Spark不错API144
8.2.1  SparkSQL146
8.2.2  DataFrame148
8.3  小结153
第9章  机器学习154
9.1  使用Spark进行可扩展的机器学习154
9.1.1  协同过滤156
9.1.2  分类161
9.1.3  聚类163
9.2  小结166
第10章  总结：分布式数据科学实战167
10.1  数据产品生命周期168
10.1.1  数据湖泊169
10.1.2  数据采集171
10.1.3  计算数据存储172
10.2  机器学习生命周期173
10.3  小结175
附录A  创建Hadoop伪分布式开发环境176
附录B  安装Hadoop生态系统产品184
术语表193
关于作者211
关于封面211

内容摘要
通过提供分布式数据存储和并行计算框架，Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览，为数据科学家深入了解特定主题领域铺平道路，从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分，第一部分从很好高的层次介绍分布式计算，讨论如何在集群上运行计算；第二部分则重点关注数据科学家应该了解的工具和技术，意在为各种分析和大规模数据管理提供动力。

— 没有更多了 —