hadoop大数据挖掘从入门到实战 数据库 邓杰 编
博客园资历博主、极客学院大数据特邀讲师hadoop数据挖掘经验结
¥
60.45
6.1折
¥
99
全新
库存4件
作者邓杰 编
出版社机械工业出版社
ISBN9787111600107
出版时间2018-06
版次1
装帧平装
开本16
页数402页
定价99元
货号xhwx_1201716932
上书时间2024-12-26
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
目录:
前言
章 集群及开发环境搭建1
1.1 环境准备1
1.1.1 基础软件下载1
1.1.2 准备linux作系统2
1.2 安装hadoop4
1.2.1 基础环境配置4
1.2.2 zookeeper部署7
1.2.3 hadoop部署9
1.2.4 效果验证21
1.2.5 集群架构详解24
1.3 hadoop版hello world25
1.3.1 hadoop shell介绍25
1.3.2 wordcount初体验27
1.4 开发环境28
1.4.1 搭建本地开发环境28
1.4.2 运行及调试预览31
1.5 小结34
第2章 实战:快速构建一个hadoop项目并线上运行35
2.1 构建一个简单的项目工程35
2.1.1 构建java project结构工程35
2.1.2 构建maven结构工程36
2.2 作分布式文件系统(hdfs)39
2.2.1 基本的应用接作39
2.2.2 在高可用台上的使用方法42
2.3 利用ide提交mapreduce作业43
2.3.1 在单点上的作43
2.3.2 在高可用台上的作46
2.4 编译应用程序并打包51
2.4.1 编译java project工程并打包51
2.4.2 编译maven工程并打包55
2.5 部署与调度58
2.5.1 部署应用58
2.5.2 调度任务59
2.6 小结60
第3章 hadoop套件实战61
3.1 sqoop——数据传输工具61
3.1.1 背景概述61
3.1.2 安装及基本使用62
3.1.3 实战:在关系型数据库与分布式文件系统之间传输数据64
3.2 flume——志收集工具66
3.2.1 背景概述67
3.2.2 安装与基本使用67
3.2.3 实战:收集系统志并上传到分布式文件系统(hdfs)上72
3.3 hbase——分布式数据库74
3.3.1 背景概述74
3.3.2 存储架构介绍75
3.3.3 安装与基本使用75
3.3.4 实战:对hbase业务表进行增、删、改、查作79
3.4 zeppelin——数据集分析工具85
3.4.1 背景概述85
3.4.2 安装与基本使用85
3.4.3 实战:使用解释器作不同的数据处理引擎88
3.5 drill——低延时sql查询引擎92
3.5.1 背景概述93
3.5.2 安装与基本使用93
3.5.3 实战:对分布式文件系统(hdfs)使用sql进行查询95
3.5.4 实战:使用sql查询hbase数据库99
3.5.5 实战:对数据仓库(hive)使用类实时统计、查询作101
3.6 spark——实时流数据计算104
3.6.1 背景概述104
3.6.2 安装部署及使用105
3.6.3 实战:对接kafka消息数据,消费、计算及落地108
3.7 小结114
第4章 hive编程——使用sql提交mapreduce任务到hadoop集群115
4.1 环境准备与hive初识115
4.1.1 背景介绍115
4.1.2 基础环境准备116
4.1.3 hive结构初识116
4.1.4 hive与关系型数据库(rdbms)118
4.2 安装与配置hive118
4.2.1 hive集群基础架构119
4.2.2 利用haproxy实现hive server负载均衡120
4.2.3 安装分布式hive集群123
4.3 可编程方式126
4.3.1 数据类型126
4.3.2 存储格式128
4.3.3 基础命令129
4.3.4 java编程语言作数据仓库(hive)131
4.3.5 实践hive streaming134
4.4 运维和监控138
4.4.1 基础命令138
4.4.2 监控工具hive cube140
4.5 小结143
第5章 游戏玩家的用户行为分析——特征提取144
5.1 项目应用概述144
5.1.1 场景介绍144
5.1.2 台架构与数据采集145
5.1.3 准备系统环境和软件147
5.2 分析与设计148
5.2.1 整体分析148
5.2.2 指标与数据源分析149
5.2.3 整体设计151
5.3 技术选型153
5.3.1 套件选取简述154
5.3.2 套件使用简述154
5.4 编码实践157
5.4.1 实现代码157
5.4.2 统计结果处理163
5.4.3 应用调度169
5.5 小结174
第6章 hadoop台管理与维护175
6.1 hadoop分布式文件系统(hdfs)175
6.1.1 hdfs特175
6.1.2 基础命令详解176
6.1.3 解读namenode standby179
6.2 hadoop台监控182
6.2.1 hadoop志183
6.2.2 常用分布式监控工具187
6.3 台维护196
6.3.1 安全模式196
6.3.2 节点管理198
6.3.3 hdfs快照200
6.4 小结203
第7章 hadoop异常处理解决方案204
7.1 定位异常204
7.1.1 跟踪志204
7.1.2 分析异常信息208
7.1.3 阅读开发业务代码209
7.2 解决问题的方式210
7.2.1 搜索关键字211
7.2.2 查看hadoop jira212
7.2.3 阅读相关源码213
7.3 实战案例分析216
7.3.1 案例分析1:启动hbase失败216
7.3.2 案例分析2:hbase表查询失败219
7.3.3 案例分析3:spark的临时数据不自动清理222
7.4 小结223
第8章 初识hadoop核心源码224
8.1 基础准备与源码编译224
8.1.1 准备环境224
8.1.2 加载源码228
8.1.3 编译源码230
8.2 初识hadoop 2233
8.2.1 hadoop的起源233
8.2.2 hadoop 2源码结构图234
8.2.3 hadoop模块包235
8.3 mapreduce框架剖析236
8.3.1 代mapreduce框架236
8.3.2 第二代mapreduce框架238
8.3.3 两代mapreduce框架的区别239
8.3.4 第二代mapreduce框架的重构思路240
8.4 序列化241
8.4.1 序列化的由来242
8.4.2 hadoop序列化243
8.4.3 writable实现类245
8.5 小结247
第9章 hadoop通信机制和协议248
9.1 hadoop rpc概述248
9.1.1 通信模型248
9.1.2 hadoop rpc特点250
……
内容简介:
本书采用“理论实战”的形式编写,全面介绍了hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个hadoop项目并线上运行;hadoop套件实战;hive编程——使用ql提交mapreduce任务到hadoop集群;游戏玩家的用户行为分析——特征提取;hadoop台管理与维护;hadoop异常处理解决方案;初识hadoop核心源码;hadoop通信机制和协议;hadoop分布式文件系统剖析;elk实战案例——游戏应用实时志分析台;kafka实战案例——实时处理游戏用户数据;hadoop拓展——kafka剖析。本书不但适合刚入门的初学者系统学hadoop的各种基础语法和开发,而且也适合有多年开发经验的开发者提高。另外,本书也适合社会培训机构和相关院校作为教材或者参书。
作者简介:
邓杰,博客园资历博主,资历大数据全栈开发者,极客学院大数据讲师,开源爱好者。善于开发大数据监控系统辅助常工作,提升工作效率。开发了大数据自助类台系统。开发并在github上发布了kafka系统监控管理工具kafkaeagle,深受业内开发者的赞誉。作为极客学院特邀讲师,制作了多个技术,讲授hadoop和kafka等相关技术课程,广受学员。
精彩内容:
前言大数据时代,数据的存储与挖掘至关重要。企业在追求高可靠、高扩展及高容错的大数据处理台的同时还希望能够降低成本,而hadoop为实现这些需求提供了解决方案。hadoop在分布式计算与存储上具有先天优势。它作为apache软件会的开源项目,其版本迭代持续至今,而且已经拥有一个非常活跃的社区和全球众多开发者,并且成为了当前非常流行的大数据处理台。很多公司,特别是互联网公司,都纷纷开始使用或者已经使用hadoop来做海量数据存储与数据挖掘。hadoop简单易学,其学曲线缓且学周期短。它的作命令和linux命令非常相似。一个熟悉linux的开发者只需要短短的一周时间,可以学会hadoop开发,完成一个高可用集群的部署和高可用应用程序的编写。面对hadoop的普及和学热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握hadoop数据挖掘的相关知识。这便是笔者编写本书的原因。本书使用通俗易懂的语言进行讲解,从基础部署到集群的管理,再到底层设计等内容均有涉及。通过阅读本书,读者可以较为轻松地掌握hadoop大数据挖掘与分析的相关技术。本书特1.提供专业的配套,高效、直观笔者曾接受过极客学院的专业制作指导,并在极客学院录制过多期hadoop和kafka实战课程,得到了众多学者的青睐及。为了便于读者更加高效、直观地学本书内容,笔者特意为本书实战部分的内容录制了配套,读者可以在的辅助下学,从而更加轻松地掌握hadoop。2.分享大量来自一线的开发经验,贴近实际开发本书给出的代码讲解和实例大多数来自于笔者多年的积累和技术分享,几乎都是得到了学者一致的干货。另外,笔者还是一名开源爱好者,编写了业内的kafkaeagle监控系统。本书3章介绍了该系统的使用,以帮助读者掌握如何监控大数据集群的相关知识。3.分享多个来自一线的实例,有很强的实用本书精心挑选了多个实用很强的例子,如hadoop套件实战、hive编程、hadoop台管理与维护、elk实战和kafka实战等。读者不但可以从这些例子中学和理解hadoop及其套件的相关知识点,而且还可以将这些例子应用于实际开发中。4.讲解通俗易懂,力争触类旁通,举一反三本书用通俗易懂的语言讲解,避“云山雾罩”,让读者不知所云。书中在讲解一些常用知识点时将hadoop命令与linux命令进行了对比,便于熟悉linux命令的读者能够迅速掌握hadoop的作命令。本书内容章集群及开发环境搭建本章介绍的主要内容包括:环境准备;安装hadoop;演示hadoop版helloworld示例程序,以及搭建hadoop开发环境。第2章实战:快速构建一个hadoop项目并线上运行本章首先介绍了快速构建项目工程的方法,如maven和javaproject;然后介绍了分布式文件系统的作命令,以及利用ide提交mapreduce作业的相关知识;后介绍了编译应用程序并打包,以及部署与调度等内容。第3章hadoop套件实战本章介绍了hadoop生态圈中常见的大数据套件的背景知识和使用方法,涵盖qoop、flume、hbae、zeppelin、drill及park等套件。第4章hive编程——使用ql提交mapreduce任务到hadoop集群本章主要介绍了hive数据仓库的相关内容:hive底层设计组成;安装和配置hive;基于hive应用接进行编程;开源监控工具hivecube。第5章游戏玩家的用户行为分析——特征提取本章首先对hadoop的基础知识进行了梳理;然后介绍了项目的背景和台架构;接着对项目进行了整体分析与指标设计,并进行了技术选型;后对分析的指标进行了编码实践。第6章hadoop台管理与维护本章介绍了hadoop台管理与维护的重要方法。本章首先介绍了hadoop分布式文件系统的特,然后介绍了hdf的基础命令,并对namenode进行了解读。另外,本章对hadoop台维护时的常规作,如节点管理、hdf快照和安全模式等内容也进行了讲解。第7章hadoop异常处理解决方案本章介绍了hadoop异常处理解决方案的几个知识点。主要内容包括:跟踪志;分析异常信息;利用搜索引擎检索关键字;查看hadoopjira;阅读hadoop源代码。本章后以实战案例的形式分析了几种异常情况:启动hbae集群失败;hbae表查询失败;park的临时数据不自动清理等。第8章初识hadoop核心源码本章首先介绍了hadoop源码基础环境准备及源代码编译;接着介绍了hadoop的起源和两代mapreduce框架间的差异;后介绍了hadoop的序列化机制。第9章hadoop通信机制和协议本章首先介绍了hadoop通信模型和hadooprpc的特点;然后通过编码实践介绍了hadooprpc的使用,同时还介绍了与之类似的开源rpc框架;后介绍了mapreduce的通信协议和rpc协议的实现过程。0章hadoop分布式文件系统剖析本章主要介绍了hadoop分布式文件系统的设计特点、命令空间和节点、数据备份策略
— 没有更多了 —
以下为对购买帮助不大的评价