企业级大数据平台构建:架构与实现9787111595953
正版二手图书,可开发票,请放心购买。
¥
15.29
2.2折
¥
69
九品
仅1件
作者朱凯
出版社机械工业出版社
ISBN9787111595953
出版时间2018-04
装帧平装
开本16开
定价69元
货号1084698433476476939
上书时间2025-01-10
商品详情
- 品相描述:九品
- 商品描述
-
作者简介
朱凯 资深大数据专家和架构师,现就职于远光软件,担任大数据事业平台部副总经理。
拥有10年IT从业经验,精通大数据、Java、Node.JS等技术。对大数据领域的主流技术与解决方案有深入研究,擅长分布式系统的架构设计与整合。曾主导过多款大数据平台级产品的规划设计与研发工作,一线实战经验丰富。
目录
推荐序 思者常新,厚积薄发
前言
第1章 浅谈企业级大数据平台的重要性
1.1 缺乏统一大数据平台的问题
1.1.1 资源浪费
1.1.2 数据孤岛
1.1.3 服务孤岛
1.1.4 安全存疑
1.1.5 缺乏可维护性和可扩展性
1.1.6 缺乏可复制性
1.2 构建统一大数据平台的优势
1.3 企业级大数据平台需要具备的基本能力
1.3.1 集群管理与监控
1.3.2 数据接入
1.3.3 数据存储与查询
1.3.4 数据计算
1.3.5 平台安全与管理
1.4 平台辅助工具
1.5 本章小结
第2章 企业级大数据平台技术栈介绍
2.1 HDFS
2.1.1 概述
2.1.2 RAID技术
2.1.3 核心设计目标
2.1.4 命名空间
2.1.5 数据模型
2.1.6 Namenode和Datanode
2.1.7 使用场景
2.2 Zookeeper
2.2.1 概述
2.2.2 核心特性
2.2.3 命名空间
2.2.4 数据模型
2.2.5 节点状态监听
2.2.6 原子消息广播协议
2.2.7 使用场景
2.3 HBase
2.3.1 概述
2.3.2 数据模型
2.3.3 Regions
2.3.4 HBase Master
2.3.5 Region Server
2.3.6 MemStore与HFile
2.3.7 使用场景
2.4 YARN
2.4.1 概述
2.4.2 资源模型和Container
2.4.3 ResourceManager
2.4.4 ApplicationMaster
2.4.5 NodeManager
2.4.6 单一集群架构
2.4.7 工作流程
2.4.8 使用场景
2.5 Spark
2.5.1 概述
2.5.2 数据模型
2.5.3 编程模型和作业调度
2.5.4 依赖
2.5.5 容错
2.5.6 集群模式
2.5.7 使用场景
2.6 本章小结
第3章 使用Ambari安装Hadoop集群
3.1 概述
3.2 集群设计
3.2.1 主控节点
3.2.2 存储与计算节点
3.2.3 安全认证与管理节点
3.2.4 协同管理与其他节点
3.3 Ambari的安装、配置与启动
3.3.1 安装前的准备
3.3.2 安装Ambari-Server
3.3.3 Ambari-Server目录结构
3.3.4 配置Ambari-Server
3.3.5 启动Ambari-Server
3.4 新建集群
3.4.1 设置集群名称并配置HDP安装包
3.4.2 配置集群
3.5 Ambari控制台功能简介
3.5.1 集群服务管理
3.5.2 集群服务配置
3.5.3 辅助工具
3.6 本章小结
第4章 构建企业级平台安全方案
4.1 浅谈企业级大数据平台面临的安全隐患
4.1.1 缺乏统一的访问控制机制
4.1.2 缺乏统一的资源授权策略
4.1.3 缺乏Hadoop服务安全保障
4.2 初级安全方案
4.2.1 访问控制
4.2.2 数据授权与管理
4.3 本章小结
第5章 Hadoop服务安全方案
5.1 Kerberos协议简介
5.2 使用FreeIPA安装Kerberos和LDAP
5.2.1 安装FreeIPA
5.2.2 IPA-Server管理控制台功能介绍
5.2.3 IPA CLI功能介绍
5.3 开启Ambari的Kerberos安全选项
5.3.1 集成前的准备
5.3.2 集成IPA
5.3.3 测试Kerberos认证
5.4 本章小结
第6章 单点登录与用户管理
6.1 集成单点登录
6.1.1 CAS简介
6.1.2 安装CAS-Server
6.1.3 集成Knox网关与CAS-Server
6.1.4 集成Ranger与CAS-Server
6.1.5 集成Ambari与CAS-Server
6.2 实现统一的用户管理系统
6.3 使用Java程序调用脚本
6.4 创建Ranger扩展用户
6.5 本章小结
第7章 搭建平台管理端RESTful服务
7.1 搭建RESTful服务框架
7.2 用户查询
7.2.1 引入LDAP模块
7.2.2 配置LDAP
7.2.3 实现持久层
7.2.4 实现服务层
7.2.5 实现RESTful服务
7.2.6 整合用户管理
7.3 RESTful服务安全认证
7.3.1 用户登录服务
7.3.2 使用JWT认证
7.3.3 创建用户登录RESTful服务
7.3.4 认证过滤器
7.3.5 测试服务安全认证
7.4 数据仓库数据查询
7.4.1 创建JDBC连接
7.4.2 Kerberos登录
7.4.3 使用JDBC协议查询
7.4.4 实现服务层与RESTful服务
7.4.5 测试查询
7.5 数据仓库元数据查询
7.5.1 使用query服务查询数仓元数据
7.5.2 引入JdbcTemplate模块
7.5.3 增加Hive元数据库配置
7.5.4 实现元数据持久层
7.5.5 实现元数据服务层与RESTful服务
7.5.6 测试元数据查询
7.6 本章小结
第8章 Spark任务与调度服务
8.1 提交Spark任务的3种方式
8.1.1 使用Spark-Submit脚本提交
8.1.2 使用Spark Client提交
8.1.3 使用YARN RESTful API提交
8.2 查询Spark日志
8.3 任务调度
8.3.1 引入Quartz模块
8.3.2 增加Quartz配置
8.3.3 编写调度任务
8.3.4 改进空间
8.4 本章小结
附录A Hadoop简史
附录B Hadoop生态其他常用组件一览
附录C 常用组件配置说明
内容摘要
这是一部教你如何从0到1架构与实现一个企业级大数据平台的著作,是作者在大数据和系统架构领域超过20000小时的经验总结。作者从横向视角出发,手把手教你如何拉通Hadoop体系技术栈,以此搭建一个真实可用、安全可靠的大数据平台。通过阅读本书,一定能从本书的内容中找到灵感和思路来应对实际工作中面对的问题。
主编推荐
(1)资深大数据专家/一线架构师20000小时实际工作经验总结
(2)以横向视角出发,拉通Hadoop体系技术栈,手把手教你快速构建一个真实可用、安全可靠的企业级大数据平台
精彩内容
1.4平台辅助工具大数据平台作为一个技术支撑平台,它面向的用户群体至少包括应用开发、平台运维和数据分析这三类用户群体。这三类用户因为自身的工作职责不同导
致其关注平台的视角也会不同。应用开发的职责是基于技术平台开发应用,基于平台编写程序,所以他们更关注的是开发SDK、程序调试跟踪的方式;平台运维的职责是保障大数据平台的正常稳定运行,所以他们关注的是平台的各种监控指标。而数据分析的职责是基于平台数据做数据分析,所以他们关注的是如何使用机器学习相关算法,用最快的速度验证自己的想法并得出反馈。
通过前面的介绍,我们可以知道大数据平台的基本能力从底层技术角度已经覆盖了这三类用户的需求
,但是这样将赤裸裸的底层技术直接拿出来给用户使用,对于用户来说体验真是太糟糕了。所以大数据平台需要一层纽带将原始的底层技术能力和终端活生生
的人联系起来。这层纽带便是由众多辅助平台使用的工具所组成的,它们可以大幅度降低大数据平台的使用门槛,并增强平台的易用性和友好性。
1.开发套件相比于传统的软件编程方式,大数据领域的程序开发会复杂很多。为了迎合分治思想,同时能够使程序以最大的并行度执行,我们的程序都会以多线程的方式分布式地运行在多台服务器之上,这就使程序的开发和调试难度陡增。除此之外,在程序的设计思路上,大数据领域也和传统领域有着显著的不同,例如
大数据领域的存储技术可以突破传统关系型数据库的诸多限制,使得一张单表拥有上千列和数亿行成为可能。这就使得我们可以使用与以往软件完全不同的设计思路去实现一些功能。
所以大数据平台应该拥有与之适配的一套SDK开
发套件,将底层的复杂逻辑进行封装从而对上层应用屏蔽,同时提供一套简单易用的开发接口和一系列辅助开发和调试的工具。
2.任务管理与调度得益于单一集群架构,集群内的所有服务器资源现在可以由一个统一的资源调度系统进行整合使用。
因此,我们开发的数据导人、离线计算等程序都需要
以任务的形式提交到调度系统。于是便有了对各种任务进行提交、状态跟踪、日志查询和执行周期性调度等需求。
所以大数据平台应该能提供一个可视化的任务管理与系统对内部对所有应用任务进行控制和监管。
3.自助式数据探索分析数据分析、数据挖掘可以说是一个循环往复的过程。不断地通过抛出假设、建立模型、验证假设、修正模型这样一个循环过程渐进明细。这些步骤通常需
要专业的大数据开发工程师以代码编程的形式进行实现。然而,我们必须面对这样一个不幸的事实,专业
— 没有更多了 —
以下为对购买帮助不大的评价