消息首页搜索举报

Hadoop & Spark大数据开发实战

正版保障假一赔十可开发票

11.69 2.0折 58 全新

库存62件

广东广州

认证卖家担保交易快速发货售后保障

作者肖睿，雷刚跃主编

出版社中国水利水电出版社

ISBN9787517056430

出版时间2017-07

装帧平装

开本16开

定价58元

货号9007548

上书时间2024-09-15

灵感书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

镜子里的时光 ¥5.34

满分仔漫画小学数学同步练习(三年级上) ¥23.08

长江歌 ¥26.43

中国古代文人画 ¥5.68

生物分离工程原理与应用 ¥33.47

医学细胞生物学:课程思政版 ¥61.47

遥想当年花满径 ¥37.00

伊豆的舞女·雪国 ¥36.38

零基础学二胡 ¥4.77

商品详情

品相描述：全新

商品描述: 作者简介
肖睿，北京大学教育学博士，课工场创始人，总经理。长期服务于中国IT职业教育领军企业北大青鸟Aptech，现任北大青鸟Aptech副总裁，职业教育研究院院长。肖睿先生曾就读于吉林大学少年班，专攻人工智能专家系统方向，作为靠前很好软件技术专家，早期曾领导北大方正核心软件产品研发，并受聘为北京大学软件学院特约讲师、北京创客总部创业导师、教育部专业和课程评审专家、人力资源和社会保障部岗位标准评审专家。拥有20年IT职业教育产品管理和企业管理经验，是中国IT职业教育领军人物。

目录
前言

关于引用作品版权说明

章初识Hadoop

本章任务

任务1大数据概述

1.1.1大数据基本概念

1.1.2大数据对于企业带来的挑战

任务2Hadoop概述

1.2.1Hadoop简介

1.2.2Hadoop生态系统

1.2.3大数据应用案例

任务3Hadoop环境搭建

1.3.1虚拟机安装

1.3.2Linux系统安装

1.3.3Hadoop伪分布式环境搭建

本章总结

本章作业

第2章分布式文件系统HDFS

本章任务

任务1初识HDFS

2.1.1HDFS概述

2.1.2HDFS基本概念

2.1.3HDFS体系结构

任务2HDFS操作

2.2.1HDFS shell访问

2.2.2Java API访问

任务3HDFS运行机制

2.3.1HDFS文件读写流程

2.3.2HDFS副本机制

2.3.3数据负载均衡

2.3.4机架感知

任务4HDFS进阶

2.4.1Hadoop序列化

2.4.2基于文件的数据结构SequenceFile

2.4.3基于文件的数据结构MapFile

本章总结

本章作业

第3章分布式计算框架

MapReduce

本章任务

任务1MapReduce编程模型

3.1.1MapReduce概述

3.1.2MapReduce编程模型

3.1.3MapReduce WordCount编程实例

任务2MapReduce进阶

3.2.1MapReduce类型

3.2.2MapReduce输入格式

3.2.3MapReduce输出格式

3.2.4Combiner

3.2.5Partitioner

3.2.6RecordReader

任务3MapReduce不错编程

3.3.1Join的MapReduce实现

3.3.2排序的MapReduce实现

3.3.3二次排序的MapReduce实现

3.3.4合并小文件的MapReduce实现

本章总结

本章作业

第4章YARN与Hadoop新特性

本章任务

任务1初识资源调度框架YARN

4.1.1YARN产生背景

4.1.2初识YARN

4.1.3YARN运行机制

任务2HDFS新特性

4.2.1HDFS NameNode HA

4.2.2HDFS NameNode Federation

4.2.3HDFS SnapShots

4.2.4WebHDFS RESTAPI

4.2.5DistCp

任务3YARN新特性

4.3.1ResaurceManager Restart

4.3.2ResaurcaManager HA

本章总结

本章作业

第5章大数据数据仓库Hive

本章任务

任务1初识Hive

5.1.1Hive简介

5.1.2Hive架构

5.1.3Hive与Hadoop的关系

5.1.4Hive与传统关系型数据库对比

5.1.5Hive数据存储

5.1.6Hive环境部署

任务2Hive基本操作

5.2.1DDL操作

5.2.2DML操作

5.2.3Hive shell操作

任务3Hive进阶

5.3.1Hive函数

5.3.2Hive常用调优策略

本章总结

本章作业

第6章离线处理辅助系统

本章任务

任务1使用Sqoop完成数据迁移

6.1.1Sqoop简介

6.1.2导入MySQL数据到HDFS

6.1.3导出HDFS数据到MySQL

6.1.4导入MySQL数据到Hive

6.1.5Sqoop中Job的使用

任务2工作流调度框架Azkaban

6.2.1Azkaban简介

6.2.2Azkaban部署

6.2.3Azkaban实战

本章总结

本章作业

第7章Spark入门

本章任务

任务1初识Spark

7.1.1Spark概述

7.1.2Spark优点

7.1.3Spark生态系统BDAS

任务2Scala入门

7.2.1Scala介绍

7.2.2Scala函数

7.2.3Scala面向对象

7.2.4Scala集台

7.2.5Scala进阶

任务3获取Spark源码并进行编译

7.3.1获取Spark源码

7.3.2Spark源码编译

任务4次与Spark亲密接触

7.4.1Spark环境部署

7.4.2Spark完成词频统计分析

本章总结

本章作业

第8章SparkCore

本章任务

任务1Spark的基石RDD

8.1.1RDD概述

8.1.2RDD常用创建方式

8.1.3RDD的转换

8.1.4RDD的动作

8.1.5RDD的依赖

任务2RDD进阶

8.2.1RDD缓存

8.2.2共享变量（Shared Variables）

8.2.3Spark核心概念

8.2.4Spark运行架构

任务3基于RDD的Spark编程

8.3.1开发前置准备

8.3.2使用Spark Cora开发词频计数WordCount

8.3.3使用Spark Core进行年龄统计

本章总结

本章作业

第9章SparkSQL

本章任务

任务1Spark SQL前世今生

9.1.1为什么需要SQL

9.1.2常用的SQL on Hadoop框架

9.1.3Spark SQL概述

任务2Spark SQL编程

9.2.1Spark SQL编程入口

9.2.2DataFrame是什么

9.2.3DataFrame编程

任务3Spark SQL进阶

9.3.1Spark SQL外部数据源操作

9.3.2Spark SQL函数的使用

9.3.3Spark SQL常用调优

本章总结

本章作业

0章Spark Streaming

本章任务

任务1初始流处理框架及Spark Streaming

10.1.1流处理框架概述

10.1.2Spark Streaming概述

任务2Spark Streaming编程

10.2.1Spark Streaming核心概念

10.2.2使用Spark Streaming编程

任务3Spark Streaming进阶

10.3.1Spark Streaming整合Flume

10.3.2Spark Streaming整合Kafka

10.3.3Spark Streaming常用优化策略

本章总结

本章作业

精彩内容
大数据让我们以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，*终形成变革之力。本书围绕Hadoop和Spark这两个主流技术进行讲解，主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、Spark Core、 Spark SQL、Spark Streaming等知识。
为保证*学习效果，本书紧密结合实际应用，利用大量案例说明和实践，提炼含金量十足的开发经验。本书使用Hadoop和Spark进行大数据开发，并配以完善的学习资源和支持服务，包括视频教程、案例素材下载、学习交流社区、讨论组等终身学习内容，为开发者带来的学习体验，更多技术支持请访问课工场官网：www.kgc.cn。

— 没有更多了 —

Hadoop & Spark大数据开发实战

灵感书店

商品详情

相关推荐