大数据采集技术与应用
全新正版 极速发货
¥
10.96
4.4折
¥
25
全新
库存4件
作者上海德拓信息技术股份有限公司编
出版社西安电子科技大学出版社
ISBN9787560653921
出版时间2019-08
装帧平装
开本16开
定价25元
货号1201951631
上书时间2024-10-01
商品详情
- 品相描述:全新
- 商品描述
-
目录
章 大数据采集技术与应用概述
1.1 大数据概述
1.1.1 大数据时代
1.1.2 大数据的概念
1.1.3 大数据的特征
1.1.4 大数据的应用
1.1.5 大数据关键技术
1.1.6 大数据处理流程
1.2 大数据采集技术概述
1.2.1 数据采集与大数据采集
1.2.2 大数据采集流程
1.3 大数据采集技术应用
1.3.1 大数据处理平台介绍
1.3.2 政务大数据融合平台
1.3.3 交通大数据融合平台
1.3.4 入境大数据融合平台
本章小结
课后作业
第2章 大数据同步技术——Datax
2.1 Datax概述
2.1.1 Datax介绍
2.1.2 Datax特点
2.1.3 Datax结构模式
2.1.4 Datax的优势
2.2 Datax安装与配置
2.2.1 配置Java环境
2.2.2 安装Python
2.2.3 安装Datax
2.3 Datax应用实例
2.3.1 跨文件系统数据同步
2.3.2 跨数据库数据同步
2.3.3 同类数据库数据同步
本章小结
课后作业
第3章 大数据清洗技术——Kettle
3.1 Kettle概述
3.1.1 Kettle概念
3.1.2 Kettle设计原则
3.1.3 Kettle设计模块
3.1.4 Kettle应用场景
3.2 Kettle安装与配置
3.2.1 配置Java环境
3.2.2 安装Kettle
3.2.3 安装MySQL
3.3 Kettle应用实例
3.3.1 数据表记录去重
3.3.2 数据表记录过滤
3.3.3 数据表记录聚合
本章小结
课后作业
第4章 大数据日志采集技术——Logstash
4.1 Logstash概述
4.1.1 Logstash概念
4.1.2 Logstash工作原理
4.1.3 Logstash优势
4.2 Logstash安装与配置
4.2.1 安装Logstash
4.2.2 配置Logstash
4.2.3 Logstash运行方式
4.3 Logstash应用实例
4.3.1 日志数据整合
4.3.2 日志数据过滤
4.3.3 日志数据分析
本章小结
课后作业
第5章 大数据实时采集技术——KafKa
5.1 Kafka概述
5.1.1 Kafka概念与特性
5.1.2 Kafka基本架构
5.1.3 Kafka应用场景
5.2 Kafka安装与部署
5.2.1 安装Kafka
5.2.2 搭建单机版Kafka
5.2.3 搭建多个Broker的Kafka集群
5.2.4 搭建完全分布式Kafka集群
5.3 Kafka应用实例
5.3.1 Kafka生产者实例
5.3.2 Kafka消费者实例
5.3.3 Kafka生产者与消费者综合实例
本章小结
课后作业
第6章 态势感知——舆情热点大数据平台中的数据采集技术
6.1 项目背景
6.2 舆情热点大数据平台数据采集需求分析
6.2.1 项目目标与意义
6.2.2 项目特色
6.2.3 项目准备
6.2.4 项目需求分析
6.3 舆情热点大数据平台数据采集设计与实现
6.3.1 舆情热点数据采集
6.3.2 舆情热点数据抽取
6.3.3 舆情热点数据清洗
本章小结
课后作业
参考文献
内容摘要
本书以当前流行的大数据采集技术和清洗技术为主,从大数据采集技术特性和实现入手,对其基本架构、实现原理、应用部署等方面进行了全面翔实的介绍。本书主要内容包括:大数据采集技术与应用概述、大数据同步技术——Datax、大数据清洗技术——Kettle、大数据日志采集技术——Logstash、大数据实时采集技术——Kafka、态势感知——舆情热点大数据平台中的数据采集技术。本书可作为高等学校应用型本科大数据、云计算、人工智能等相关专业的教材,也可作为高职高专大数据、云计算、人工智能等相关专业的教材,同时也适合希望深入了解大数据采集技术的开发人员学习使用。
精彩内容
大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受人们关注。目前,大数据技术在金融、教育、经济和工业等领域得到了非常广泛的应用。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学习大数据技术,大数据技术已经成为程序员所需的基本技能。为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,如《大数据技术体系详解》、《Hadoop权威指南》等。尽管如此,有关大数据采集技术和大数据清洗技术的书籍并不多见。数据采集和清洗作为大数据处理流程中的关键步骤,对后期的数据质量起到非常重要的作用。为此,笔者根据自己多年的项目实践和教学经验,尝试编写了本书。本书内容主要以当前流行的大数据采集技术和清洗技术为主,从大数据采集技术特性和实现入手,对其基本架构、实现原理、应用部署等方面进行了全面翔实的介绍。然后以德拓大数据处理平台为依托,对Datax、Kettle、Logstash、Kafka等技术进行实战演练。最后通过真实案例分析了大数据处理过程中的数据采集和数据清洗技术的综合应用。本书主要内容包括:大数据采集技术与应用概述、大数据同步技术——Datax、大数据清洗技术——Kettle、大数据日志采集技术——Logstash、大数据实时采集技术——Kafka、态势感知——舆情热点大数据平台中的数据采集技术。本书主要特点如下:(1) 理论与实践紧密结合。本书语言通俗、图文并茂,通过大量插图展示所讲理论,基于德拓大数据平台进行实战演练,做到理论不再抽象,实践不再盲目。(2) 教学案例丰富。案例设计力求创新,设计思路循序渐进,环环相扣。案例形式新颖,内容简洁清晰。(3) 注重立体化教材建设。通过主教材、电子课件、电子教案、实训指导、配套视频和习题等教学资源的有机结合,提高教学服务水平,为高素质技能人才的培养创造良好条件。本书相关配套资源可扫描封底二维码获取。由于大数据技术发展日新月异,加上编者水平有限,书中难免存在疏漏之处,恳请广大同行、专家及读者批评指正。
— 没有更多了 —
以下为对购买帮助不大的评价