• 数据采集与预处理技术应用
21年品牌 40万+商家 超1.5亿件商品

数据采集与预处理技术应用

正版保障 假一赔十 可开发票

38.46 6.4折 59.9 全新

库存21件

广东广州
认证卖家担保交易快速发货售后保障

作者安俊秀等编著

出版社机械工业出版社

ISBN9787111733850

出版时间2023-08

装帧平装

开本16开

定价59.9元

货号13419797

上书时间2024-09-11

灵感书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
目 录出版说明前言 第1章 数据采集与预处理概述11.1 大数据简介11.1.1 数据的概念、类型、组织形式11.1.2 大数据的概念、特点与作用31.1.3 大数据的技术应用41.2 数据分析简介51.2.1 数据分析的基本流程51.2.2 数据分析的方法与技术61.3 数据采集简介81.3.1 数据采集的三大方式及工具81.3.2 数据采集的应用场景111.4 数据预处理简介121.4.1 数据预处理的目的与意义131.4.2 数据预处理的流程131.4.3 数据预处理的工具介绍15习题17第2章 大数据开发环境的搭建182.1 安装Python与JDK182.1.1 Java和Python概述182.1.2 Python的安装与配置192.1.3 JDK的安装与配置202.1.4 Python与Java的IDE介绍212.2 MySQL数据库的安装与配置222.2.1 SQL概述222.2.2 安装MySQL数据库232.2.3 MySQL数据库的基本使用242.3 Hadoop的安装与配置262.3.1 单节点环境262.3.2 伪分布式环境272.3.3 节点间免密通信282.3.4 Hadoop的启动和测试292.4 在Hadoop集群上运行WordCount312.4.1 运行Java版本WordCount实例312.4.2 运行Python版本WordCount实例33习题36第3章 使用Flume采集系统日志数据373.1 Flume概述373.2 Flume的安装运行383.3 Flume的核心组件383.3.1 Agent393.3.2 Source403.3.3 Sink403.3.4 Channel403.3.5 Event413.4 Flume与选择器413.4.1 Flume内置413.4.2 自定义463.5 Flume负载均衡与故障转移493.6 实践案例:使用Flume采集数据上传到HDFS52习题54第4章 使用Kafka采集系统日志数据554.1 Kafka概述554.1.1 消息队列554.1.2 Kafka的特点564.1.3 Kafka与Flume的区别574.2 Kafka的安装部署574.2.1 集群规划574.2.2 安装Zookeeper574.2.3 安装Kafka594.3 Kafka的基本架构604.3.1 Kafka的消息系统604.3.2 Producer与Consumer604.3.3 主题与分区614.3.4 Broker与Kafka集群614.3.5 Zookeeper在Kafka中的作用624.4 实践案例:使用Kafka采集本地日志数据634.5 实践案例:Kafka与Flume结合采集日志数据65习题67第5章 其他常用的系统日志数据采集工具685.1 Scribe685.1.1 Scribe简介685.1.2 Scribe的配置文件685.1.3 实践案例:使用Scribe采集系统日志数据705.2 Chukwa715.2.1 Chukwa简介715.2.2 Chukwa架构与数据采集725.2.3 实践案例:使用Chukwa采集系统日志数据745.3 Splunk755.3.1 Splunk概述755.3.2 Splunk的安装与基本使用755.3.3 实践案例:使用Splunk采集系统日志数据775.4 日志易805.4.1 日志易的特点805.4.2 注册日志易账号815.4.3 实践案例:使用日志易采集搜索本地日志文件825.5 Logstash905.5.1 Logstash简介905.5.2 Logstash的工作原理905.5.3 Logstash安装与部署905.5.4 实践案例:使用Logstash采集并处理系统日志数据915.5.5 实践案例:使用Logstash将数据导入Elasticsearch935.6 Fluentd945.6.1 Fluentd简介955.6.2 Fluentd的安装与配置955.6.3 Fluentd的基本命令965.6.4 实践案例:使用Fluentd采集系统日志数据97习题99第6章 使用网络爬虫采集Web数据1006.1 网络爬虫概述1006.1.1 网络爬虫的基本原理1006.1.2 网络爬虫的类型1006.2 网络爬虫基础1016.2.1 网络爬虫的基本爬取方式1016.2.2 使用正则表达式进行字符串匹配1036.2.3 使用解析库解析网页1046.2.4 Ajax数据的爬取1066.2.5 使用selenium抓取动态渲染页面1066.3 常见的网络爬虫框架1076.3.1 Scrapy框架1076.3.2 WebMagic框架1106.3.3 Crawler4j框架1116.3.4 WebCollector框架1136.4 实践案例:使用Scrapy爬取电商网站数据114习题118第7章 Python数据预处理库的使用1197.1 Python与数据分析1197.1.1 Python的特点1197.1.2 为何使用Python进行数据分析1207.2 NumPy:数组与向量计算1207.3 Pandas:数据结构化操作1237.4 SciPy:科学化计算1277.5 Matplotlib:数据可视化1307.6 实践案例:使用Python预处理旅游路线数据137习题143第8章 使用ETL工具Kettle进行数据预处理1448.1 Kettle概述1448.2 Kettle的安装与配置1448.3 Kettle的基本使用1458.3.1 Kettle的使用界面1458.3.2 新建转换与任务1468.3.3 数据获取1498.3.4 数据清洗与转换1568.3.5 数据迁移和装载1608.4 实践案例:使用Kettle处理某电商网站数据163习题167第9章 其他常用的数据预处理工具1689.1 Pig1689.1.1 Pig概述1689.1.2 Pig的安装和配置1699.1.3 Pig Latin的基本概念1709.1.4 使用Pig进行数据预处理1769.2 OpenRefine1829.2.1 OpenRefine概述1839.2.2 OpenRefine创建项目1839.2.3 OpenRefine的基本使用1869.3 实践案例:使用Pig和OpenRefine预处理二手房数据188习题195参考文献196

内容摘要
本书重点介绍了数据采集和数据预处理的相关理论与技术。全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。

主编推荐
聚焦大数据关键技术要点,详解数据采集与数据预处理理论与技术介绍主流数据采集工具(Flume、Kafka、日志易、Scribe、Scrapy框架等),及主流数据预处理工具(Python、Kettle、Pig、OpenRefine)的应用随书提供全套教学课件、教学大纲、授课计划、数据集、源代码等教学资源

精彩内容
本书重点介绍了数据采集和数据预处理的相关理论与技术。全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP