样本数据处理/数据科学与大数据系列 大中专公共社科综合 许桂秋
none
¥
47.8
6.8折
¥
69.8
全新
仅1件
作者许桂秋
出版社电子工业出版社
ISBN9787121435737
出版时间2022-06
版次1
装帧平装
开本16
页数336页
字数538千字
定价69.8元
货号xhwx_1202664538
上书时间2025-01-03
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
目录:
章 数据预处理概述1
1.1 数据预处理的背景与目的1
1.1.1 数据预处理的背景:数据质量1
1.1.2 数据预处理的目的3
1.2 数据预处理的流程3
1.2.1 数据清洗3
1.2.2 数据集成5
1.2.3 数据变换6
1.2.4 数据归约9
1.2.5 数据预处理的注意事项14
1.3 数据预处理的工具14
本章题15
第2章 kettle工具的初步使用16
2.1 kettle的安装16
2.1.1 java的安装16
2.1.2 kettle的下载安装与spoon的启动20
2.2 kettle的使用21
2.2.1 转换的基本概念21
2.2.2 个转换案例23
本章题42
第3章 数据的导入与导出43
3.1 基于文件的数据导入与导出43
3.1.1 文本文件的导入与导出43
3.1.2 文本文件的导入与导出案例45
3.1.3 excel文件的导入与导出51
3.1.4 excel文件的导入与导出案例51
3.1.5 xml文件的导入与导出59
3.1.6 xml文件的导入与导出案例59
3.1.7 json文件的导入与导出64
3.1.8 json文件的导入与导出案例65
3.2 基于数据库的数据导入与导出69
3.2.1 关系数据库的数据导入与导出69
3.2.2 mysql数据库的数据导入与导出案例71
3.3 基于web的数据导入与导出78
3.3.1 html数据的导入与导出78
3.3.2 html数据的导入与导出案例79
3.3.3 基于 get请求的导入与导出83
3.3.4 基于 get请求的导入与导出案例83
3.4 基于cdc变更数据的导入与导出86
3.4.1 基于源数据的cdc86
3.4.2 基于源数据的cdc案例87
3.4.3 基于触发器的cdc98
3.4.4 基于触发器的cdc案例99
3.4.5 基于快照的cdc109
3.4.6 基于快照的cdc案例109
3.4.7 基于志的cdc113
3.4.8 基于志的cdc案例113
本章题116
第4章 数据清洗117
4.1 数据清洗概述117
4.1.1 kettle常用的数据清洗步骤117
4.1.2 字符串清理119
4.1.3 字段清理123
4.1.4 使用参照表清理数据130
4.1.5 数据校验136
4.2 数据排重141
4.2.1 如何识别重复数据141
4.2.2 去除重复数据142
4.2.3 去除不重复数据144
4.3 使用脚本组件进行数据清洗147
4.3.1 使用javascript代码组件清理数据147
4.3.2 使用正则表达式组件清理数据149
4.3.3 使用其他脚本组件清理数据152
本章题156
第5章 数据标注157
5.1 数据标注简介157
5.1.1 数据标注是什么157
5.1.2 数据标注分类简介158
5.1.3 数据标注流程简介159
5.2 数据标注分类160
5.2.1 图像标注161
5.2.2 文本标注164
5.2.3 语音标注166
5.3 数据标注质量检验167
5.3.1 数据标注质量的影响167
5.3.2 数据标注的质量标准169
5.3.3 数据标注质量检验方法172
5.4 图像数据标注实战175
5.4.1 车辆车牌标注175
5.4.2 遥感影像标注180
5.4.3 医疗影像标注184
5.4.4 行人数据标注188
5.4.5 基于行人标注数据集的行人检测192
5.5 文本标注实战198
本章题207
第6章 kettle作业设计208
6.1 作业的概念及组成209
6.1.1 作业项209
6.1.2 跳210
6.1.3 注释210
6.2 作业的执行方式210
6.2.1 回溯210
6.2.2 多路径和回溯211
6.2.3 并行执行211
6.3 作业的创建及常用作业项212
6.3.1 创建作业213
6.3.2 “start”作业项213
6.3.3 “作业”作业项213
6.3.4 “转换”作业项215
6.4 变量216
6.4.1 定义变量216
6.4.2 使用变量218
6.5 监控218
6.5.1 志219
6.5.2 邮件通知220
6.6 命令行启动221
6.7 作业实验223
本章题252
第7章 基于kettle构建数据仓库253
7.1 数据仓库的介绍253
7.1.1 数据仓库的起因253
7.1.2 数据仓库的发展254
7.1.3 数据仓库的定义255
7.1.4 数据仓库的特点255
7.1.5 数据仓库的结构255
7.1.6 数据仓库建模256
7.1.7 数据仓库与etl的关系257
7.2 构建维度表258
7.2.1 管理各种键258
7.2.2 维度表的加载262
7.2.3 缓慢变化维度263
7.3 构建事实表268
7.3.1 批量加载268
7.3.2 查找维度271
7.3.3 事实表的处理271
本章题280
第8章 基于python的数据导入与导出281
8.1 pandas281
8.1.1 series282
8.1.2 dataframe284
8.2 文本文件的导入与导出286
8.2.1 导入csv文件286
8.2.2 导出csv文件290
8.2.3 json格式数据的导入与导出291
8.3 excel文件的导入与导出292
8.4 数据库的导入与导出292
8.4.1 关系数据库的导入与导出293
8.4.2 非关系数据库的导入与导出294
本章题297
第9章 基于python的数据整理298
9.1 合并多个数据集298
9.1.1 使用键进行dataframe合并298
9.1.2 使用inde行dataframe合并302
9.1.3 沿着横轴或纵轴串接303
9.2 数据重塑305
9.2.1 多级索引数据的重塑305
9.2.2 应用pivot方法重塑数据307
9.3 数据转换310
9.3.1 移除重复数据310
9.3.2 利用函数或映进行数据转换312
9.3.3 值转换312
9.3.4 重命名轴索引313
9.3.5 离散化和面元划分314
9.3.6 检测或过滤异常值317
9.3.7 排列和采样318
9.3.8 计算指标/哑变量319
本章题322
内容简介:
本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用python语言及kettle软件进行数据处理的能力。全书内容分别为数据预处理概述、kettle工具的初步使用、数据的导入与导出、数据清洗、数据标注、kettle作业设计、基于kettle构建数据仓库、基于python的数据导入与导出、基于python的数据整理。 本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不在于是覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成,以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,本书中引入了多个基础技术案例及综合实践案例,以帮助读者了解样本数据处理涉及的基本技术的知识和技能。 本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,也可供对样本数据处理技术感兴趣的读者阅读。
— 没有更多了 —
以下为对购买帮助不大的评价