• 数据清洗 大中专理科计算机 李法 主编
  • 数据清洗 大中专理科计算机 李法 主编
  • 数据清洗 大中专理科计算机 李法 主编
  • 数据清洗 大中专理科计算机 李法 主编
  • 数据清洗 大中专理科计算机 李法 主编
21年品牌 40万+商家 超1.5亿件商品

数据清洗 大中专理科计算机 李法 主编

新华书店全新正版书籍 支持7天无理由

42.7 7.4折 58 全新

仅1件

北京丰台
认证卖家担保交易快速发货售后保障

作者李法 主编

出版社清华大学出版社

ISBN9787302493273

出版时间2018-06

版次1

装帧平装

开本16

页数238页

字数280千字

定价58元

货号xhwx_1201725102

上书时间2024-07-04

智胜图书专营店

六年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
目录:

章数据清洗概述1
1.1数据清洗简介1
1.1.1数据科学过程1
1.1.2数据清洗定义2
1.1.3数据清洗任务3
1.1.4数据清洗流程4
1.1.5数据清洗环境5
1.1.6数据清洗实例说明6
1.2数据标准化7
1.2.1数据标准化概念7
1.2.2数据标准化常用方法8
1.3数据仓库简介9
1.3.1数据仓库定义9
1.3.2数据仓库组成要素10
1.3.3数据仓库分类11
1.3.4数据仓库相关技术12
1.3.5常用工具简介13
1.4题14
第2章数据格式与编码16
2.1文件文本格式16
2.1.1常见文本格式17
2.1.2xls及xlsx文件格式18
2.1.3json文本格式19
2.1.4html和xml文本格式19
2.2数据编码20
2.2.1数据类型21
2.2.2数据类型间转换25
2.2.3  字符编码26
2.2.4空值和乱码28
2.3数据转换28
2.3.1电子表格转换29
2.3.2rdbms数据转换30
2.4题30
第3章基本技术方法31
3.1etl入门31
3.1.1etl解决方案31
3.1.2etl基本构成33
3.1.3etl技术选型35
3.2技术路线35
3.2.1文本清洗路线35
3.2.2rdbms清洗路线36
3.2.3web内容清洗路线36
3.3etl工具37
3.3.1etl功能37
3.3.2开源etl工具38
3.4etl子系统39
3.4.1抽取39
3.4.2清洗和更正数据39
3.4.3数据发布40
3.4.4管理etl41
3.5题41
第4章数据清洗常用工具及基本作42
4.1microsoftexcel数据清洗基本作42
4.1.1excel数据清洗概述42
4.1.2excel数据清洗53
4.2kettle简介及基本作57
4.2.1kettle软件概述57
4.2.2kettle基本作60
4.2.3kettle数据清洗实例作64
4.3openrefine简介及基本作68
4.3.1openrefine软件概述69
4.3.2openrefine基本作70
4.3.3openrefine数据清洗实例作73
4.4datawrangler简介及基本作80
4.4.1datawrangler软件概述80
4.4.2datawrangler基本作81
4.4.3datawrangler数据清洗实例作82
4.5hawk简介及基本作86
4.5.1hawk软件概述86
4.5.2hawk基本作88
4.5.3hawk数据清洗实例作91
4.6上机练与实训98
4.7题103
第5章数据抽取104
5.1文本文件抽取104
5.1.1制表符文本抽取107
5.1.2csv文件抽取111
5.2web数据抽取114
5.2.1html文件抽取114
5.2.2json数据抽取116
5.2.3xml数据抽取120
5.3数据库数据抽取123
5.3.1数据导入导出123
5.3.2etl工具抽取124
5.3.3sql到nosql抽取127
5.4上机练与实训135
5.5题143
第6章数据转换与加载144
6.1数据清洗转换144
6.1.1数据清洗145
6.1.2数据检验151
6.1.3错误处理156
6.2数据质量评估161
6.2.1数据评估指标161
6.2.2审据163
6.3数据加载164
6.3.1数据加载的概念164
6.3.2数据加载的方式164
6.3.3批量数据加载165
6.3.4数据加载异常处理165
6.4上机练与实训166
6.5题173
第7章采集web数据实例175
7.1网页结构175
7.1.1dom模型175
7.1.2正则表达式178
7.2网络爬虫181
7.2.1网络爬虫简介181
7.2.2网络爬虫异常处理189
7.3行为志采集190
7.3.1用户实时行为数据采集190
7.3.2用户实时行为数据分析193
7.4上机练与实训195
7.5题198
第8章清洗rdbms数据实例199
8.1准备工作199
8.1.1准备待清洗的数据集200
8.1.2搭建作环境200
8.1.3数据导入mysql201
8.2数据库数据清洗205
8.2.1缺失值清洗205
8.2.2格式内容清洗209
8.2.3逻辑错误清洗214
8.2.4非需求数据清洗217
8.3数据脱敏处理218
8.4题222
参文献223
附录a大数据和人工智能实验环境224
附录bhadoop环境要求234
附录c名词解释236

内容简介:

数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。本书共分为8章:靠前章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍window和类unix作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍etl概念、数据清洗的技术路线、etl工具及etl子系统等;第4章介绍excel、kettle、openrefine、datawrangler和hawk的安装及使用等;第5章介绍kettle下文本文件抽取、web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用javacript技术进行行为志数据采集等;第8章介绍rdbm的数据清洗方法和数据脱敏处理技术等。本书系统地讲解了数据清洗理论和实际应用,适用于高职高专院校和应用型本科的大数据课程,也适用于希望了解数据清洗的广大读者。

作者简介:

李法,副教授/系统分析师,硕士,重庆电子工程职业学院软件学院移动应用开发教研室主任,主要从事高职软件类专业研究、教育信息化系统和企业信息化系统等应用技术研究。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP