消息首页搜索举报

大数据技术入门--Hadoop+Spark/大数据与人工智能技术丛书

正版保障假一赔十可开发票

32.04 6.4折 49.9 全新

库存4件

广东广州

认证卖家担保交易快速发货售后保障

作者于海浩，刘志坤主编

出版社清华大学出版社

ISBN9787302591818

出版时间2022-01

装帧平装

开本16开

定价49.9元

货号11360128

上书时间2024-09-19

灵感书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

机械设计基础 ¥13.29

孕味瑜伽 ¥7.32

中国石化招聘考试专用教材:一本通 ¥31.16

数字时代的教师学习:面向STEM教育的在线专业发展 ¥59.32

中国参与世界遗产建制之研究 ¥40.75

现代日语性别表达研究:以女性标记词为中心 ¥32.96

英语翻译教程 ¥11.56

愿你的青春不负梦想 ¥13.65

新时代的婚姻：有一种幸福叫平淡中透露着浪漫 ¥7.08

商品详情

品相描述：全新

商品描述

前言

近年来，随着大数据底层设施的逐渐成熟，大数据技术开始结合具体行业，向行业应用延伸。围绕数据资源、基础硬件、通用软件等方面的大数据产业正在逐渐形成。各行各业对大数据人才的需求也日益增强。鉴于此，国内外一些高校先后开设“数据科学与大数据”专业，旨在培养具备大数据技术的高级人才。
为满足相关技术人员和高校师生学习大数据技术基础知识，我们在总结近几年大数据技术基础知识和应用案例的基础上，以理论结合实践的方式将大数据基本概念、大数据开发技术与实际应用相结合，精心组织并完成了本书的编写。
本书主要内容
本书为一本夯实大数据基础知识，以实际应用为导向的书籍，非常适合初、中级学习大数据技术的读者。读者可以在短时间内学习本书中介绍的所有知识，掌握大数据技术的开发方法。
作为一本关于大数据技术的入门书籍，本书共有14章。
第1章主要介绍了大数据的研究背景、大数据的定义及其技术特点以及大数据处理的主要技术特点与难点，后阐述了研究大数据的意义。
第2章主要介绍了Hadoop的起源、生态体系和集群架构，对Hadoop的安装配置进行了详细的讲解。
第3章主要介绍了Hadoop中非常重要的分布式存储文件系统——HDFS，分析了HDFS的存储架构以及常用Shell命令和Java API，并且通过一个具体案例实现了HDFS的Java API的编程。
第4章主要介绍了Hadoop的分布式计算框架MapReduce，分析了MapReduce的核心思想、工作原理、运行机制以及MapReduce的核心过程Shuffle，后通过单词计数和倒排索引两个案例详细分析MapReduce的编写过程和思路。
第5章主要介绍了Hive的架构、安装和相关操作，重点介绍Hive的DDL、DML、DQL操作。
第6章首先介绍了HBase的架构、寻址机制以及HBase的安装，然后介绍了HBase的Shell操作，包括新建表、插入数据、删除等操作，后介绍了HBase常用的Java API，并且进行了案例实现。
第7章主要介绍了Spark的基本概念和主要特点、Spark的安装、运行架构和运行基本流程，是为学习Spark RDD和 Spark SQL做基础知识储备。
第8章主要介绍了RDD的运行原理和运行流程，并对RDD的基本操作进行了详细的介绍，后用一个Scala编程案例实现对RDD的操作。
第9章主要介绍了Spark SQL的原理和运行流程，并对DataFrame的基本操作进行了详细的介绍，后通过三个Scala编程案例实现了Spark SQL的DataFrame操作、Spark SQL 读写MySQL数据库和Spark SQL读写Hive。
第10章主要介绍了Spark Streaming的一些基本概念和原理，介绍了DStream编程模型，后通过三个Scala编程案例实现了DStream的有状态状态操作、无状态状态操作、输出操作。
第11章主要介绍了Spark Streaming与Flume、Kafka的整合，介绍了Flume和Kafka的安装过程，后通过一个Scala编程案例实现Spark Streaming与Flume、Kafka的整合与开发。
第12章介绍了机器学习的定义和分类，重点介绍了Spark MLlib目前包含的算法和组件，通过四个具体实例TFIDF、线性回归、逻辑回归、协同过滤展示了利用Spark MLlib进行机器学习的方法和步骤。
第13章介绍了分布式优惠券后台应用系统的开发核心思路，优惠券后台应用系统包括商户投放子系统和用户消费子系统，分别介绍了两个子系统的核心代码以及测试调用过程。
第14章介绍了新闻话题实时统计分析系统的开发核心思路和核心代码以及启动调用过程。

本书特色
（1）以实战开发为导向，对基础理论知识点与开发过程进行详细讲解。
（2）实战案例丰富，涵盖16 个完整项目案例和两个综合案例，综合案例可以加深对本书所学的知识点的理解和掌握。
（3）代码详尽，避免对 API 的形式展示，规避重复代码。
（4）语言简明易懂，由浅入深带领读者学会以 Hadoop生态圈为核心的开发技术和大数据常见的机器学习算法。
配套资源
为便于教学，本书配有源代码、数据集、安装程序、教学大纲。
（1）获取源代码、数据集方式：先扫描本书封底的文泉云盘防盗码，再扫描下方二维码，即可获取。

源代码

数据集

（2）其他配套资源可以扫描本书封底的“书圈”二维码下载。
读者对象
本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。
本书在编写过程中参考了诸多相关资料，在此对原作者表示衷心的感谢。限于作者水平和时间仓促，书中难免存在疏漏之处，欢迎读者批评指正。
作者
2022年1月

商品简介

本书基础理论、应用开发以及实际案例相结合，围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法，后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章，分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统，书中的每个知识点都有相应的实现代码和实例。本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。

作者简介
于海浩，男，1974年1月生，高级工程师，黑龙江工程学院计算机学院教师，主讲大数据实践和人工智能课程，研究方向为大数据处理与挖掘，深度学习。主持或参与国家、省部级、厅局级项目6项。以第一作者发表论文10余篇，作为高级项目经理和企业管理者组织了黑龙江省电力营销系统、地下管廊运维监管平台、智慧城管、城镇职工医疗系统的项目管理工作，有任企业技术总监的职务经历。

目录
目录
第1章大数据概述

1.1大数据的研究背景

1.2大数据的定义及其技术特点

1.2.1大数据的定义

1.2.2大数据的基本特点

1.2.3典型的大数据处理需求与计算特征

1.3大数据处理的主要技术特点与难点

1.4研究大数据的意义

1.5本章小结

第2章Hadoop简介及安装部署

2.1Hadoop简介及生态体系

2.2Hadoop集群架构

2.3Hadoop集群运行环境搭建

2.3.1Hadoop安装配置过程

2.3.2验证Hadoop的安装

2.4本章小结

第3章HDFS

3.1相关基本概念

3.2HDFS存储架构

3.2.1HDFS写入流程

3.2.2HDFS读取流程

3.3HDFS的优点与缺点

3.3.1HDFS的优点

3.3.2HDFS的缺点

3.4HDFS Shell常用命令

3.5HDFS的Java API

3.6本章小结

第4章MapReduce计算框架

4.1MapReduce核心思想

4.2MapReduce的工作原理

4.3MapReduce的运行机制

4.4MapReduce数据本地化

4.5MapReduce编程

4.5.1MapReduce运行模式

4.5.2MapReduce编程组件与数据类型

4.6MapReduce编程示例

4.6.1单词计数

4.6.2倒排索引

4.7本章小结

第5章Hive数据仓库

5.1Hive概述

5.1.1Hive简介

5.1.2Hive的架构

5.1.3Hive的优缺点

5.2Hive的安装

5.2.1安装MySQL

5.2.2安装Hive

5.3Hive数据库相关操作

5.3.1Hive的数据类型

5.3.2Hive基础SQL语法

5.4本章小结

第6章HBase分布式数据库

6.1HBase概述

6.1.1HBase的架构

6.1.2HBase的特点

6.1.3HBase数据存储方式

6.1.4HBase寻址机制

6.2HBase的安装

6.3HBase数据模型

6.4HBase的Shell操作

6.5HBase常用的Java API及示例程序

6.5.1HBase常用的Java API

6.5.2程序示例

6.6本章小结

第7章Spark基础

7.1Spark概述

7.1.1Spark的主要特点

7.1.2Spark生态系统

7.1.3Spark相对于Hadoop MapReduce的优势

7.2Spark的安装

7.2.1Spark的部署方式

7.2.2Spark的安装

7.3Spark运行架构与原理

7.4Spark运行流程

7.5本章小结

第8章Spark RDD弹性分布式数据集

8.1RDD的设计与运行原理

8.1.1RDD的概念

8.1.2RDD的分区

8.1.3RDD的依赖关系

8.1.4RDD在Spark中的运行流程

8.1.5RDD容错机制

8.2RDD API编程

8.2.1RDD的创建

8.2.2RDD的操作

8.3程序示例：倒排索引

8.4本章小结

第9章Spark SQL

9.1Spark SQL概述

9.1.1Spark SQL简介

9.1.2Spark SQL的架构

9.2DataFrame

9.2.1DataFrame简介

9.2.2DataFrame的创建

9.2.3DataFrame的常用操作

9.3Dataset

9.4Spark SQL编程

9.4.1DataFrame操作

9.4.2Spark SQL 读写MySQL数据库

9.4.3Spark SQL 读写Hive

9.5本章小结

第10章 Spark Streaming实时计算框架

10.1Spark Streaming概述

10.1.1流数据和流计算

10.1.2Spark Streaming简介

10.1.3DStream简介

10.2DStream编程

10.2.1DStream转换操作

10.2.2DStream输出操作相关的方法

10.3DStream编程示例

10.3.1DStream编程基本步骤——文件流

10.3.2无状态转换操作

10.3.3有状态转换操作

10.3.4输出操作

10.4本章小结

第11章Spark Streaming与Flume、Kafka的整合

11.1Flume简介及安装

11.1.1Flume简介

11.1.2Flume的安装

11.2Kafka简介及安装

11.2.1Kafka简介

11.2.2Kafka的安装

11.3Flume与Kafka的区别和侧重点

11.4Spark Streaming与Flume、Kafka的整合与开发

11.5本章小结

第12章Spark MLlib机器学习

12.1机器学习的概念

12.1.1机器学习的定义

12.1.2机器学习的分类

12.2MLlib简介

12.3Spark MLlib的数据类型

12.3.1本地向量

12.3.2标注点

12.3.3本地矩阵

12.4Spark MLlib机器学习示例

12.4.1特征抽取——TFIDF

12.4.2分类与回归——线性回归

12.4.3分类与回归——逻辑回归

12.4.4协同过滤——电影推荐

12.5本章小结

第13章实战案例——分布式优惠券后台应用系统

13.1系统简介

13.2整体架构

13.3表结构设计

13.4系统实现

13.4.1商户投放子系统

13.4.2用户消费子系统

13.5系统运行测试

13.5.1启动系统

13.5.2商户投放子系统测试

13.5.3用户消费子系统测试

13.6本章小结

第14章实战案例——新闻话题实时统计分析系统

14.1系统简介

14.2系统总体架构

14.3表结构设计

14.4系统实现

14.4.1模拟日志生成程序

14.4.2Flume配置

14.4.3配置Kafka

14.4.4Spark Streaming开发

14.4.5WebSocket和前端界面开发

14.5系统运行测试

14.6本章小结

参考文献

内容摘要
本书基础理论、应用开发以及实际案例相结合，围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法，最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章，分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统，书中的每个知识点都有相应的实现代码和实例。本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。

主编推荐
"（1）以实战开发为导向，对基础理论知识点与开发过程进行详细讲解。（2）实战案例丰富，涵盖18 个完整项目案例和2个综合案例，综合案例可以加深对本书所学的知识点的理解和掌握。（3）代码详尽，避免对 API 的形式展示，规避重复代码。（4）语言简明易懂，由浅入深带你学会以 Hadoop生态圈为核心的开发技术和大数据常见的机器学习算法。 "

精彩内容
本书基础理论、应用开发以及实际案例相结合，围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法，最后以两个实战案例全面、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章，分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、HBase分布式数据库、Spark基础、Spark RDD弹性分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统，书中的每个知识点都有相应的实现代码和实例。
本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。

媒体评论
(1)以实战开发为导向，对基础理论知识点与开发过程进行详细讲解。
(2)实战案例丰富，涵盖18 个完整项目案例和2个综合案例，综合案例可以加深对本书所学的知识点的理解和掌握。
(3)代码详尽，避免对 API 的形式展示，规避重复代码。
(4)语言简明易懂，由浅入深带你学会以 Hadoop生态圈为核心的开发技术和大数据常见的机器学习算法。
16个完整的项目案例和两个综合案例，配有教学大纲等资源

— 没有更多了 —