数据清洗
全新正版 极速发货
¥
36.77
6.3折
¥
58
全新
库存4件
作者李法平 主编
出版社清华大学出版社
ISBN9787302493273
出版时间2018-06
装帧平装
开本16开
定价58元
货号1201725102
上书时间2024-08-05
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
李法平,副教授/系统分析师,硕士,重庆电子工程职业学院软件学院移动应用开发教研室主任,主要从事高职软件类专业教学研究、教育信息化系统和企业信息化系统等应用技术研究。
目录
第1章数据清洗概述1
1.1数据清洗简介1
1.1.1数据科学过程1
1.1.2数据清洗定义2
1.1.3数据清洗任务3
1.1.4数据清洗流程4
1.1.5数据清洗环境5
1.1.6数据清洗实例说明6
1.2数据标准化7
1.2.1数据标准化概念7
1.2.2数据标准化常用方法8
1.3数据仓库简介9
1.3.1数据仓库定义9
1.3.2数据仓库组成要素10
1.3.3数据仓库分类11
1.3.4数据仓库相关技术12
1.3.5常用工具简介13
1.4习题14
第2章数据格式与编码16
2.1文件文本格式16
2.1.1常见文本格式17
2.1.2xls及xlsx文件格式18
2.1.3JSON文本格式19
2.1.4HTML和XML文本格式19
2.2数据编码20
2.2.1数据类型21
2.2.2数据类型间转换25
2.2.3 字符编码26
2.2.4空值和乱码28
2.3数据转换28
2.3.1电子表格转换29
2.3.2RDBMS数据转换30
2.4习题30
第3章基本技术方法31
3.1ETL入门31
3.1.1ETL解决方案31
3.1.2ETL基本构成33
3.1.3ETL技术选型35
3.2技术路线35
3.2.1文本清洗路线35
3.2.2RDBMS清洗路线36
3.2.3Web内容清洗路线36
3.3ETL工具37
3.3.1ETL功能37
3.3.2开源ETL工具38
3.4ETL子系统39
3.4.1抽取39
3.4.2清洗和更正数据39
3.4.3数据发布40
3.4.4管理ETL41
3.5习题41
第4章数据清洗常用工具及基本操作42
4.1MicrosoftExcel数据清洗基本操作42
4.1.1Excel数据清洗概述42
4.1.2Excel数据清洗53
4.2Kettle简介及基本操作57
4.2.1Kettle软件概述57
4.2.2Kettle基本操作60
4.2.3Kettle数据清洗实例操作64
4.3OpenRefine简介及基本操作68
4.3.1OpenRefine软件概述69
4.3.2OpenRefine基本操作70
4.3.3OpenRefine数据清洗实例操作73
4.4DataWrangler简介及基本操作80
4.4.1DataWrangler软件概述80
4.4.2DataWrangler基本操作81
4.4.3DataWrangler数据清洗实例操作82
4.5Hawk简介及基本操作86
4.5.1Hawk软件概述86
4.5.2Hawk基本操作88
4.5.3Hawk数据清洗实例操作91
4.6上机练习与实训98
4.7习题103
第5章数据抽取104
5.1文本文件抽取104
5.1.1制表符文本抽取107
5.1.2CSV文件抽取111
5.2Web数据抽取114
5.2.1HTML文件抽取114
5.2.2JSON数据抽取116
5.2.3XML数据抽取120
5.3数据库数据抽取123
5.3.1数据导入导出123
5.3.2ETL工具抽取124
5.3.3SQL到NoSQL抽取127
5.4上机练习与实训135
5.5习题143
第6章数据转换与加载144
6.1数据清洗转换144
6.1.1数据清洗145
6.1.2数据检验151
6.1.3错误处理156
6.2数据质量评估161
6.2.1数据评估指标161
6.2.2审计数据163
6.3数据加载164
6.3.1数据加载的概念164
6.3.2数据加载的方式164
6.3.3批量数据加载165
6.3.4数据加载异常处理165
6.4上机练习与实训166
6.5习题173
第7章采集Web数据实例175
7.1网页结构175
7.1.1DOM模型175
7.1.2正则表达式178
7.2网络爬虫181
7.2.1网络爬虫简介181
7.2.2网络爬虫异常处理189
7.3行为日志采集190
7.3.1用户实时行为数据采集190
7.3.2用户实时行为数据分析193
7.4上机练习与实训195
7.5习题198
第8章清洗RDBMS数据实例199
8.1准备工作199
8.1.1准备待清洗的数据集200
8.1.2搭建操作环境200
8.1.3数据导入MySQL201
8.2数据库数据清洗205
8.2.1缺失值清洗205
8.2.2格式内容清洗209
8.2.3逻辑错误清洗214
8.2.4非需求数据清洗217
8.3数据脱敏处理218
8.4习题222
参考文献223
附录A大数据和人工智能实验环境224
附录BHadoop环境要求234
附录C名词解释236
内容摘要
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。本书共分为8章:靠前章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集等;第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。本书系统地讲解了数据清洗理论和实际应用,适用于高职高专院校和应用型本科的大数据课程教学,也适用于希望了解数据清洗的广大读者。
— 没有更多了 —
以下为对购买帮助不大的评价