Hadoop与大数据挖掘
¥
74.25
7.5折
¥
99
全新
库存123件
作者王哲,张良均,李国辉 等
出版社机械工业出版社
ISBN9787111709473
出版时间2021-05
装帧平装
开本16开
定价99元
货号11674176
上书时间2024-11-27
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
张良均,资深大数据分析与挖掘专家、模式识别专家、AI技术专家。有10余年大数据分析与挖掘经验,擅长Python、R、Hadoop、Matlab等技术实现的数据挖掘与分析,对机器学习等AI技术驱动的数据分析也有深入研究。 为电信、电力、互联网、生产制造、零售、银行、生物、化工、医药等多个行业上百家大型企业提供过数据挖掘应用与咨询服务,实践经验很好丰富。 华南师范大学、中南财经政法大学、广东工业大学、西安理工大学、广西科技大学、重庆交通大学、桂林电子科技大学等校外硕导或兼职教授。 撰写了《R语言数据分析与挖掘实战》《数据挖掘:实用案例分析》《Hadoop大数据分析与挖掘实战》等10余部畅销书,累计销量超过30万册。
目录
前言
第一部分 基础篇
第1章 浅谈大数据
1.1 大数据产生的背景
1.1.1 信息化浪潮
1.1.2 信息技术变革
1.1.3 数据生产方式变革
1.1.4 大数据的发展历程
1.1.5 大数据时代的挑战
1.1.6 大数据时代面临的机遇
1.2 大数据概述
1.2.1 大数据的概念
1.2.2 大数据的特征
1.2.3 大数据的影响
1.2.4 大数据与互联网、云计算的关系
1.3 大数据挖掘概述
1.3.1 数据挖掘的概念
1.3.2 大数据环境下的数据挖掘
1.3.3 数据挖掘的过程
1.3.4 数据挖掘常用工具
1.4 大数据平台
1.5 小结
第2章 大数据基础架构Hadoop——实现大数据分布式存储与计算
2.1 Hadoop技术概述
2.1.1 Hadoop的发展历史
2.1.2 Hadoop的特点
2.1.3 Hadoop存储框架—HDFS
2.1.4 Hadoop计算引擎—MapReduce
2.1.5 Hadoop资源管理器—YARN
2.2 Hadoop应用场景介绍
2.3 Hadoop生态系统
2.4 Hadoop安装配置
2.4.1 创建Linux虚拟机
2.4.2 设置固定IP
2.4.3 远程连接虚拟机
2.4.4 配置本地yum源及安装常用软件
2.4.5 在Linux下安装Java
2.4.6 修改配置文件
2.4.7 克隆虚拟机
2.4.8 配置SSH免密登录
2.4.9 配置时间同步服务
2.4.10 启动关闭集群
2.5 Hadoop HDFS文件操作命令
2.5.1 创建目录
2.5.2 上传和下载文件
2.5.3 查看文件内容
2.5.4 删除文件或目录
2.6 Hadoop MapReduce编程开发
2.6.1 使用IDEA搭建MapReduce开发环境
2.6.2 通过词频统计了解MapReduce执行流程
2.6.3 通过源码认识MapReduce编程
2.7 场景应用:电影网站用户影评分析
2.7.1 了解数据字段并分析需求
2.7.2 多维度分析用户影评
2.8 小结
第3章 数据仓库Hive——实现大数据查询与处理
3.1 Hive技术概述
3.1.1 Hive简介
3.1.2 Hive的特点
3.1.3 Hive的架构
3.2 Hive应用场景介绍
3.3 Hive安装配置
3.3.1 配置MySQL数据库
3.3.2 配置Hive数据仓库
3.4 HiveQL查询语句
3.4.1 Hive的基础数据类型
3.4.2 创建与管理数据库
3.4.3 创建与管理数据表
3.4.4 Hive表的数据装载
3.4.5 掌握select查询
3.4.6 了解运算符的使用
3.4.7 掌握Hive内置函数
3.5 Hive自定义函数的使用
3.5.1 了解Hive自定义函数
3.5.2 自定义UDF
3.5.3 自定义UDAF
3.5.4 自定义UDTF
3.6 场景应用:基站掉话率排名统计
3.6.1 创建基站数据表并导入数据
3.6.2 统计基站掉话率
3.7 小结
第4章 分布式协调框架ZooKeeper——实现应用程序分布式协调服务
4.1 ZooKeeper技术概述
4.1.1 ZooKeeper简介
4.1.2 ZooKeeper的特点
4.2 ZooKeeper应用场景介绍
4.3 ZooKeeper分布式安装配置
4.4 ZooKeeper客户端常用命令
4.4.1 创建znode
4.4.2 获取znode数据
4.4.3 监视znode
4.4.4 删除znode
4.4.5 设置znode权限
4.5 ZooKeeper Java API操作
4.5.1 创建IDEA工程并连接ZooKeeper
4.5.2 获取、修改和删除znode数据
4.6 场景应用:服务器上下线动态监控
4.7 小结
第5章 分布式数据库HBase——实现大数据存储与快速查询
5.1 HBase技术概述
5.1.1 HBase的发展历程
5.1.2 HBase的特点
5.1.3 HBase的核心功能模块
5.1.4 HBase的数据模型
5.1.5 设计表结构的原则
5.2 HBase应用场景介绍
5.3 HBase安装配置
5.4 HBase Shell操作
5.4.1 创建与删除表
5.4.2 插入数据
5.4.3 查询数据
5.4.4 删除数据
5.4.5 扫描全表
5.4.6 按时间版本查询记录
5.5 HBase不错应用
5.5.1 IDEA开发环境搭建
5.5.2 HBase Java API使用
5.5.3 HBase与MapReduce交互
5.6 场景应用:用户通话记录数据存储设计及查询
5.6.1 设计通话记录数据结构
5.6.2 查询用户通话记录
5.7 小结
第6章 分布式计算框架Spark——实现大数据分析与挖掘
6.1 Spark技术概述
6.1.1 Spark的发展历史
6.1.2 Spark的特点
6.1.3 Spark生态圈
6.2 Spark应用场景介绍
6.3 Spark集群安装配置
6.4 Spark Core—底层基础框架
6.4.1 Spark集群架构
6.4.2 Spark作业运行模式
6.4.3
内容摘要
这是一本讲解如何基于Hadoop技术栈进行大数据挖掘和分析的著作。它能带领你零基础快速掌握Hadoop技术栈,以及基于它的大数据挖掘与分析的流程和方法。
全书核心内容分为两部分。
1)Hadoop技术栈:
详细讲解了Hadoop、Hive、HBase、Spark、Flume、Kafka等大数据技术的基础、原理、应用,通过这部分内容读者能对Hadoop技术栈有从宏观到微观的全面了解。
2)Hadoop大数据挖掘:
通过3个综合案例,逐步展示了基于Hadoop的大数据挖掘的完整流程和方法。
几位作者在大数据项目研发、教育、咨询等领域有10余年的丰富经验,对教育界和企业界供需两端的了解非常深入,全书的结构和内容围绕这两端的需求精心设计,能让Hadoop大数据挖掘与分析的教育和学习事半功倍。
本书第1版出版后,获得了教育界和企业界的良好反馈,其中数十家高等院校采用本书作为教材或参考书。第2版在第1版的基础上,在技术适应性、案例实用性等方面做了大量更新,与时俱进,更有竞争力!
为了便于学习和教学,本书配套数据文件、实现代码、课后习题、教学PPT。
精彩内容
这是一本讲解如何基于Hadoop技术栈进行大数据挖掘和分析的著作。它能带领你零基础快速掌握Hadoop技术栈,以及基于它的大数据挖掘与分析的流程和方法。 全书核心内容分为两部分。 1)Hadoop技术栈: 详细讲解了Hadoop、Hive、HBase、Spark、Flume、Kafka等大数据技术的基础、原理、应用,通过这部分内容读者能对Hadoop技术栈有从宏观到微观的全面了解。 2)Hadoop大数据挖掘: 通过3个综合案例,逐步展示了基于Hadoop的大数据挖掘的完整流程和方法。 几位作者在大数据项目研发、教育、咨询等领域有10余年的丰富经验,对教育界和企业界供需两端的了解很好深入,全书的结构和内容围绕这两端的需求精心设计,能让Hadoop大数据挖掘与分析的教育和学习事半功倍。 本书第1版出版后,获得了教育界和企业界的良好反馈,其中数十家高等院校采用本书作为教材或参考书。第2版在第1版的基础上,在技术适应性、案例实用性等方面做了大量更新,与时俱进,更有竞争力! 为了便于学习和教学,本书配套数据文件、实现代码、课后习题、教学PPT。
— 没有更多了 —
以下为对购买帮助不大的评价