大数据技术入门到商业实战——hadoop+spark+flink全解析 数据库 开课吧 组编
none
¥
19.22
1.9折
¥
99
全新
库存10件
作者开课吧 组编
出版社机械工业
ISBN9787111686187
出版时间2021-08
版次1
装帧平装
开本16
页数238页
定价99元
货号721_9787111686187
上书时间2024-11-16
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
目录:
前言
章初识大数据
1.1什么是大数据
1.2大数据行业应用
1.3什么是hadoop
1.4hadoop产生背景
1.5hadoop的架构模块介绍
1.6hadoop在大数据、云计算中的位置和关系
1.7外hadoop应用案例介绍
1.8hadoop生态圈以及各组成部分简介
1.9本章小结
第2章hadoop之分布式文件系统hdfs
2.1构建hadoop集群
2.1.1集群简介
2.1.2hadoop集群部署
2.2hadoop集群启动和停止
2.2.1hadoop集群启动
2.2.2hadoop集群停止
2.3hdfs的shell命令行客户端作
2.4hdfs的工作机制
2.4.1hdfs概述
2.4.2hdfs的重要特
2.4.3hdfs写数据流程
2.4.4hdfs读数据流程
2.5namenode和secondarynamenode功能剖析
2.5.1namenode与secondarynamenode解析
2.5.2元数据的checkpoint的条件
2.5.3fsimage与edits详解
2.5.4fsimage和edits文件信息查看
2.6datanode的工作机制及存储
2.6.1datanode工作机制
2.6.2数据完整保证
2.6.3datanode掉线判断时限参数
2.7hdfs的安全模式
2.8本章小结
第3章hadoop之分布式计算mapreduce
3.1mapreduce概述
3.1.1mapreduce介绍
3.1.2为什么要使用mapreduce
3.2mapreduce框架结构及核心运行机制
3.3mapreduce编程规范和示例编写
3.3.1编程规范
3.3.2mapreduce编程入门之单词
3.4maptask数量及切片机制
3.4.1maptask个数
3.4.2如何控制maptask的个数
3.4.3map并行度的经验之谈
3.5reducetask并行度的决定
3.6mapreduce中的biner
3.7mapreduce中的shuffle
3.7.1map端
3.7.2reduce端
3.7.3shuffle小结
3.8mapreduce与yarn
3.8.1yarn概述
3.8.2yarn的重要概念
3.9mapreduce在yarn上运行流程
3.9.1job 提交过程
3.9.2job 初始化过程
3.9.3task 任务分配
3.9.4task 任务执行
3.9.5运行进度与更新
3.9.6job 完成
3.10实战项目1:基于mapreduce实现用户流量分析
3.10.1需求描述
3.10.2需求分析
3.10.3开发实现
3.10.4提交任务
3.11本章小结
第4章分布式协调服务zookeeper
4.1zookeeper简介
4.1.1zookeeper是什么
4.1.2zookeeper常用应用场景
4.2zookeeper集群部署
4.2.1zookeeper集群角
4.2.2zookeeper集群安装
4.3zookeeper核心工作机制
4.3.1zookeeper特
4.3.2zookeeper数据结构
4.3.3节点类型
4.4zookeeper的shell命令行作
4.4.1客户端连接
4.4.2命令行作
4.5项目实战2:基于zookeeper实现服务器上下线动态感知
4.5.1需求描述
4.5.2开发实现
4.6本章小结
第5章分布式数据库hbase
5.1hbase数据库介绍
5.1.1hbase简介
5.1.2hbase表的数据模型
5.2hbase整体架构
5.3hbase集群搭建
5.4hbase的shell命令演示
5.5hbase的
5.5.1hbase的存储
5.5.2hbase读数据流程
5.5.3hbase写数据流程
5.6hbase的flush、pact机制
5.6.1flush触发条件
5.6.2flush的流程
5.6.3pact合并机制
5.7hbase表的预分区
5.8region合并
5.8.1region合并说明
5.8.2如何进行region合并
5.9hbase表的rowkey设计
5.9.1rowkey长度原则
5.9.2rowkey散列原则
5.9.3rowkey原则
5.10hbase表的热点
5.10.1表的热点描述
5.10.2热点问题解决
5.11项目实战3:基于mapreduce实现数据入库hbase表中
5.11.1需求描述
5.11.2开发实现
5.12本章小结
第6章数据仓库hive
6.1hive基本概念
6.1.1hive简介
6.1.2hive与传统数据库对比
6.2hive的架构
6.3hive的数据类型
6.4hive的安装部署
6.5hive的交互方式
6.5.1hive交互shell
6.5.2hive bc服务
6.5.3hive的命令
6.6hive的ddl作
6.6.1数据库的ddl作
6.6.2表的ddl作
6.7hive的分区表
6.8hive的静态分区和动态分区
6.8.1静态分区
6.8.2动态分区
6.9hive的数据导入
6.10hive数据导出
6.11项目实战4:基于hive分析用户搜索志数据
6.11.1需求描述
6.11.2数据格式
6.11.3开发实现
6.12本章小结
第7章志采集框架flume
7.1flume介绍
7.1.1flume概述
7.1.2flume的优势
7.1.3flume的运行机制
7.1.4flume采集系统结构图
7.2flume安装部署
7.3flume数据采集应用
7.3.1采集目录到hdfs
7.3.2采集文件到hdfs
7.4项目实战5:flume之静态的使用
7.4.1案例场景
7.4.2场景分析
7.4.3数据流程处理分析
7.4.4开发实现
7.5本章小结
第8章分布式消息系统kafka
8.1kafka概述
8.1.1kafka定义
8.1.2kafka的特
8.1.3kafka集群架构和角
8.2kafka集群安装部署
8.3kafka命令行的管理使用
8.4kafka生产者和消费者的api代码开发
8.4.1生产者代码开发
8.4.2消费者代码开发
8.5kafka分区策略
8.6为什么kafka速度那么快
8.7kafka的文件存储机制
8.7.1文件存储概述
8.7.2segment文件
8.7.3kafka如何快速查询数据
8.7.4kafka高效文件存储设计特点
8.8consumer消费
8.8.1consumer与topic关系
8.8.2offset管理
8.8.3coordinator工作机制
8.9项目实战6: kafka整合flume
8.9.1需求描述
8.9.2需求分析
8.9.3需求实现
8.10本章小结
……
第9章 spark内存计算框架
0章 flink实时流处理
内容简介:
本书全面详细地介绍了大数据生态系统中的主流技术。全书共10章,主要包括大数据生态系统概述、大数据采集技术、大数据存储技术、大数据分析处理技术等内容,书中涵盖了hadoop、hive、hbae、kafka、park、flink等技术的和实践,其中重点介绍了hadoop技术、park技术及flink技术。本书详细介绍了主流大数据技术框架的基本、环境搭建、作使用和在典型行业中的具体应用,使读者不仅能够在宏观上全面认知大数据生态系统,而且还能在微观上深入理解大数据技术细节。本书不仅适合大数据技术初学者阅读,还可以帮助金融、电信、电商、能源、部门的大数据应用决策和技术人员,以及it经理、cto、cio等快速学大数据技术,并能作为大数据相关岗位培训的教程。
— 没有更多了 —
以下为对购买帮助不大的评价