实战大数据(Hadoop+Spark+Flink)——从平台构建到交互式数据分析(离线/实时)
¥
23.72
2.4折
¥
99
九品
仅1件
作者杨俊
出版社机械工业出版社
出版时间2021-05
版次1
装帧其他
货号A3
上书时间2024-11-24
商品详情
- 品相描述:九品
图书标准信息
-
作者
杨俊
-
出版社
机械工业出版社
-
出版时间
2021-05
-
版次
1
-
ISBN
9787111679660
-
定价
99.00元
-
装帧
其他
-
开本
16开
-
纸张
胶版纸
-
页数
244页
-
字数
376千字
- 【内容简介】
-
本书可以作为大数据开发工程师实用手册,以完整项目案例开发为主线,结合具体技术理论讲解和实际操作,详细讲解了大数据项目开发过程中开发人员应该具备的能力。共包含7个章节内容,1至3章主要学习大数据集群搭建,解决大数据项目开发环境和运行环境问题,第4章主要学习HBase数据库和Kafka消息队列,解决了大数据的存储和交换问题,第5、6章主要学习大数据项目离线分析和实时分析,解决了大数据的计算问题,第7章主要学习Web技术开发,解决了大数据可视化问题。 本书主要读者对象为大数据开发工程师、Hadoop工程师、Spark工程师、ETL工程师、大数据分析工程师,并可以作为大数据相关岗位培训的教程。
- 【作者简介】
-
2005.09 - 2009.07 河南平顶山学院计算机科学与技术学院 2010.03 - 2012.12 派克赛斯网络技术服务有限公司 2013.03 - 2010.12 西岸传媒 2010.12 - 至今 北京大讲台科技有限公司 本书由大讲台(http://www.dajiangtai.com/)组织编写。北京大讲台科技有限公司是一家科技驱动的创新型IT在线教育机构。大讲台扎根国内互联网发展最前沿的北京中关村,北大、清华、北理、北航等名校环绕,积聚了一批来自百度、阿里巴巴、腾讯、达内、慧科、弘成教育、新东方等众多知名公司的教育人才和研发人才。大讲台拥有自主知识产权的混合式自适应学习平台(大讲台网,http://www.dajiangtai.com),并于 2015年5 月获得数百万元天使投资,估值超过 2000万元。同时,平台独特的个性化任务推送模式、游戏化的学习体验、离企业需求更近的实战教学和体贴的在线服务设计等诸多方面广受学员好评。
- 【目录】
-
前言
章 大数据技术概述
1.1 什么是大数据
1.2 大数据台架构
1.2.1 数据获取
1.2.2 数据存储
1.2.3 数据处理
1.2.4 交互式分析
1.2.5 机器学与数据挖掘
1.2.6 资源管理
1.3 大数据工程师的技能树
1.3.1 大数据主流开发语言
1.3.2 大数据台的构建
1.3.3 大数据采集
1.3.4 大数据存储与交换
1.3.5 大数据离线计算
1.3.6 大数据实时计算
1.4 大数据项目需求分析与设计
1.4.1 项目需求分析
1.4.2 系统架构设计
1.4.3 离线和实时计算数据流程设计
1.4.4 大数据台规划
1.5 本章小结
第2章 搭建idea开发环境及linux虚拟机
2.1 搭建idea开发环境
2.1.1 k的安装与配置
2.1.2 maven的安装与配置
2.1.3 idea的安装与配置
2.1.4 使用idea构建maven项目
2.2 搭建linux虚拟机
2.2.1 安装linux系统
2.2.2 配置linux静态ip
2.2.3 linux主机名和ip映射
2.2.4 关闭linux防火墙
2.2.5 创建linux用户和用户组
2.2.6 linux ssh密登录
2.3 本章小结
第3章 基于hadoop构建大数据台
3.1 zookeeper分布式协调服务
3.1.1 zookeeper架构设计及
3.1.2 zookeeper集群安装前的准备工作
3.1.3 zookeeper集群的安装部署
3.1.4 zookeeper shell的作
3.2 hdfs分布式文件系统
3.2.1 hdfs架构设计及
3.2.2 hdfs的高可用(ha)
3.2.3 hdfs联邦机制
3.3 yarn资源管理系统
3.3.1 yarn架构设计及
3.3.2 mapreduce on yarn工作流程
3.3.3 yarn的容错
3.3.4 yarn的高可用(ha)
3.3.5 yarn的调度器及使用
3.4 hadoop分布式集群的构建
3.4.1 hdfs分布式集群的构建
3.4.2 yarn分布式集群的构建
3.4.3 hadoop集群运行测试
3.4.4 hadoop集群调优
3.5 mapreduce分布式计算框架
3.5.1 mapreduce概述
3.5.2 mapreduce编程模型
3.5.3 mapreduce应用示例
3.5.4 wordcount代码实现
3.6 本章小结
第4章 基于hbase和kafka构建 海量数据存储与交换系统
4.1 构建hbase分布式实时数据库
4.1.1 hbase概述
4.1.2 hbase架构设计
4.1.3 hbase分布式集群的构建
4.1.4 hbase能调优
4.1.5 hbase新闻业务表建模
4.2 搭建kafka分布式消息系统
4.2.1 kafka概述
4.2.2 kana架构设计
4.2.3 kana分布式集群的构建
4.2.4 kana集群监控
4.3 本章小结
第5章 用户行为离线分析——构建志采集和分析台
5.1 搭建flume志采集系统
5.1.1 flume概述
5.1.2 flume架构设计
5.1.3 flume环境的搭建
5.1.4 构建flume集群
5.2 使用flume采集用户行为数据
5.2.1 flume与kana集成
5.2.2 flume与hbase集成
5.2.3 flume与kava、hbase集成
5.3 基于hive的离线大数据分析
5.3.1 hive概述
5.3.2 hive架构设计
5.3.3 hive的安装部署
5.3.4 hive在大数据仓库中的应用
5.3.5 hive与hbase集成
5.4 基于hive的用户行为数据离线分析
5.4.1 离线项目架构设计
5.4.2 用户行为离线分析
5.5 本章小结
第6章 基于spark的用户行为实时分析
6.1 spark快速入门
6.1.1 spark概述
6.1.2 spark的简安装
6.1.3 spark实现wordcgunt
6.2 spark core的核心功能
6.2.1 spark架构的
6.2.2 弹分布式数据集rdd
6.2.3 spark算子
6.2.4 pair rdd及算子
6.3 spark分布式集群的构建
6.3 1 spark的运行模式
6.3.2 standalone模式集群的构建
6.3.3 spark on yarn模式集群的构建
6.4 基于spark streaming的新闻项目实时分析
6.4.1 spark streaming概述
6.4.2 spark sffeaming的运行
6.4.3 spark streamin-g程模型
6.4.4 spark streaming实时分析用户行为
6.5 基于sphrk sql的新闻项目离线分析
6.5.1 spark sql架构的
6.5.2 spark sql与hive、mysql、hbase集成
6.5.3 spark sql用户行为离线分析
6.6 基于spark structured streaming的新闻项目实时分析
6.6.1 structured streaming概述
6.6.2 structured streaming编程模型
6.6.3 基于structured streaming的用户行为实时分析
6.7 本章小结
第7章 基于flink的用户行为实时分析
7.1 flink快速入门
7.1.1 flink概述
7.1.2 flink的简安装
7.1.3 flink实现wordcount
7.2 flink分布式集群的构建
7.2.1 flink的运行模式
7.2.2 flink standmone模式集群的构建
7.2.3 flink on yarn模式集群的构建
7.3 基于flink datastream的新闻项目实时分析
7.3.1 flink datastream概述
7.3.2 flink datastream 编程模型
7.3.3 flink datastream用户行为实时分析
7.4 基于flink dataset的新闻项目离线分析
7.4.1 flink dataset的运行
7.4.2 flink dataset 编程模型
7.4.3 flink dataset用户行为离线分析
7.5 本章小结
第8章 用户行为数据可视化
8.1 构建java web系统查询用户行为
8.1.1 基于java web的系统架构
8.1.2 构建并部署java web项目
8.1.3 用户行为查询代码开发
8.2 用户行为数据展示与分析
8.2.1 项目打包发布
8.2.2 项目整体联调
8.2.3 数据大屏展示与用户行为分析
8.3 本章小结
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价