消息首页搜索举报

数据采集与预处理技术应用

全新正版极速发货

29.95 5.0折 59.9 全新

库存8件

广东广州

认证卖家担保交易快速发货售后保障

作者安俊秀唐聃柳源等

出版社机械工业

ISBN9787111733850

出版时间2023-08

装帧其他

开本其他

定价59.9元

货号1203021174

上书时间2024-06-09

大智慧小美丽

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

心灵、自我与社会 ¥23.94

中国诗歌研究动态 ¥59.94

晚清大变革 ¥16.33

NAES宏观经济形势分析 ¥25.25

中国经济特区研究 ¥44.93

有机化学实验 ¥14.63

实证社会科学 ¥19.88

人美画谱 ¥17.97

写给儿童的中国地理 ¥10.14

商品详情

品相描述：全新

商品描述: 作者简介
安俊秀，成都信息工程大学教授，访问学者，硕士生导师。软件自动生成与智能服务四川省重点实验室学术带头人(知识本体和大数据方向)。并行计算与大数据研究所负责人。长期从事数据科学与大数据技术相关的研究与教学工作，已发表研究领域相关论文40余篇，主编大数据与人工智能方面专著或教材10余部。

目录
目录出版说明前言第1章数据采集与预处理概述11.1 大数据简介11.1.1 数据的概念、类型、组织形式11.1.2 大数据的概念、特点与作用31.1.3 大数据的技术应用41.2 数据分析简介51.2.1 数据分析的基本流程51.2.2 数据分析的方法与技术61.3 数据采集简介81.3.1 数据采集的三大方式及工具81.3.2 数据采集的应用场景111.4 数据预处理简介121.4.1 数据预处理的目的与意义131.4.2 数据预处理的流程131.4.3 数据预处理的工具介绍15习题17第2章大数据开发环境的搭建182.1 安装Python与JDK182.1.1 Java和Python概述182.1.2 Python的安装与配置192.1.3 JDK的安装与配置202.1.4 Python与Java的IDE介绍212.2 MySQL数据库的安装与配置222.2.1 SQL概述222.2.2 安装MySQL数据库232.2.3 MySQL数据库的基本使用242.3 Hadoop的安装与配置262.3.1 单节点环境262.3.2 伪分布式环境272.3.3 节点间免密通信282.3.4 Hadoop的启动和测试292.4 在Hadoop集群上运行WordCount312.4.1 运行Java版本WordCount实例312.4.2 运行Python版本WordCount实例33习题36第3章使用Flume采集系统日志数据373.1 Flume概述373.2 Flume的安装运行383.3 Flume的核心组件383.3.1 Agent393.3.2 Source403.3.3 Sink403.3.4 Channel403.3.5 Event413.4 Flume拦截器与选择器413.4.1 Flume内置拦截器413.4.2 自定义拦截器463.5 Flume负载均衡与故障转移493.6 实践案例：使用Flume采集数据上传到HDFS52习题54第4章使用Kafka采集系统日志数据554.1 Kafka概述554.1.1 消息队列554.1.2 Kafka的特点564.1.3 Kafka与Flume的区别574.2 Kafka的安装部署574.2.1 集群规划574.2.2 安装Zookeeper574.2.3 安装Kafka594.3 Kafka的基本架构604.3.1 Kafka的消息系统604.3.2 Producer与Consumer604.3.3 主题与分区614.3.4 Broker与Kafka集群614.3.5 Zookeeper在Kafka中的作用624.4 实践案例：使用Kafka采集本地日志数据634.5 实践案例：Kafka与Flume结合采集日志数据65习题67第5章其他常用的系统日志数据采集工具685.1 Scribe685.1.1 Scribe简介685.1.2 Scribe的配置文件685.1.3 实践案例：使用Scribe采集系统日志数据705.2 Chukwa715.2.1 Chukwa简介715.2.2 Chukwa架构与数据采集725.2.3 实践案例：使用Chukwa采集系统日志数据745.3 Splunk755.3.1 Splunk概述755.3.2 Splunk的安装与基本使用755.3.3 实践案例：使用Splunk采集系统日志数据775.4 日志易805.4.1 日志易的特点805.4.2 注册日志易账号815.4.3 实践案例：使用日志易采集搜索本地日志文件825.5 Logstash905.5.1 Logstash简介905.5.2 Logstash的工作原理905.5.3 Logstash安装与部署905.5.4 实践案例：使用Logstash采集并处理系统日志数据915.5.5 实践案例：使用Logstash将数据导入Elasticsearch935.6 Fluentd945.6.1 Fluentd简介955.6.2 Fluentd的安装与配置955.6.3 Fluentd的基本命令965.6.4 实践案例：使用Fluentd采集系统日志数据97习题99第6章使用网络爬虫采集Web数据1006.1 网络爬虫概述1006.1.1 网络爬虫的基本原理1006.1.2 网络爬虫的类型1006.2 网络爬虫基础1016.2.1 网络爬虫的基本爬取方式1016.2.2 使用正则表达式进行字符串匹配1036.2.3 使用解析库解析网页1046.2.4 Ajax数据的爬取1066.2.5 使用selenium抓取动态渲染页面1066.3 常见的网络爬虫框架1076.3.1 Scrapy框架1076.3.2 WebMagic框架1106.3.3 Crawler4j框架1116.3.4 WebCollector框架1136.4 实践案例：使用Scrapy爬取电商网站数据114习题118第7章 Python数据预处理库的使用1197.1 Python与数据分析1197.1.1 Python的特点1197.1.2 为何使用Python进行数据分析1207.2 NumPy：数组与向量计算1207.3 Pandas：数据结构化操作1237.4 SciPy：科学化计算1277.5 Matplotlib：数据可视化1307.6 实践案例：使用Python预处理旅游路线数据137习题143第8章使用ETL工具Kettle进行数据预处理1448.1 Kettle概述1448.2 Kettle的安装与配置1448.3 Kettle的基本使用1458.3.1 Kettle的使用界面1458.3.2 新建转换与任务1468.3.3 数据获取1498.3.4 数据清洗与转换1568.3.5 数据迁移和装载1608.4 实践案例：使用Kettle处理某电商网站数据163习题167第9章其他常用的数据预处理工具1689.1 Pig1689.1.1 Pig概述1689.1.2 Pig的安装和配置1699.1.3 Pig Latin的基本概念1709.1.4 使用Pig进行数据预处理1769.2 OpenRefine1829.2.1 OpenRefine概述1839.2.2 OpenRefine创建项目1839.2.3 OpenRefine的基本使用1869.3 实践案例：使用Pig和OpenRefine预处理二手房数据188习题195参考文献196

内容摘要
本书重点介绍了数据采集和数据预处理的相关理论与技术。全书共9章，主要包括数据采集与预处理概述，大数据开发环境的搭建，使用Flume采集系统日志数据，使用Kafka采集系统日志数据，其他常用的系统日志数据采集工具，使用网络爬虫采集Web数据，Python数据预处理库的使用，使用ETL工具Kettle进行数据预处理，以及其他常用的数据预处理工具。本书在第2章至第9章安排了丰富的实践操作，实现了理论与实践的有机结合，帮助读者更好地学习和掌握数据采集与预处理的关键技术。本书可以作为高等院校大数据专业的大数据课程教材，也可以作为计算机相关专业的专业课或选修课教材，同时也可以作为从事大数据相关专业的工作人员的参考用书。

— 没有更多了 —