• 数据预处理从入门到实战 基于SQL、R、Python
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

数据预处理从入门到实战 基于SQL、R、Python

56.07 6.3折 89 全新

库存5件

山东泰安
认证卖家担保交易快速发货售后保障

作者[日]本桥智光

出版社人民邮电出版社

出版时间2021-02

版次1

装帧平装

货号607 8-19

上书时间2024-08-19

邹鲁文化书店

十年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
图书标准信息
  • 作者 [日]本桥智光
  • 出版社 人民邮电出版社
  • 出版时间 2021-02
  • 版次 1
  • ISBN 9787115552327
  • 定价 89.00元
  • 装帧 平装
  • 开本 其他
  • 纸张 胶版纸
  • 页数 253页
  • 字数 421千字
【内容简介】
在大数据、人工智能时代,数据分析必不可少。本书以数据分析中至关重要的数据预处理为主题,通过54道例题具体介绍了基于SQL、R、Python的处理方法和相关技巧。全书共4个部分:第1部分介绍预处理的基础知识;第2部分介绍以数据结构为对象的预处理,包括数据提取、数据聚合、数据连接、数据拆分、数据生成和数据扩展;第3部分介绍以数据内容为对象的预处理,涉及数值型、分类型、日期时间型、字符型和位置信息型;第4部分为预处理实战,介绍与实际业务相同的预处理流程。
  本书适合新手数据科学家、系统工程师、具备编程及数理基础的技术人才,以及对数据挖掘和数据分析等感兴趣的人阅读。
【作者简介】
本桥智光(作者)

先后在系统开发公司担任研究员,在互联网企业担任数据科学家,目前在数字医疗初创公司SUSMED株式会社担任CTO,同时就职于HOXO-M株式会社,并以自由职业者的身份从事量子退火计算机的验证工作,拥有制造业、零售业、金融业、运输业、休闲业和互联网等多个行业的数据分析经验。曾在KDD CUP 2015中赢得亚军。爱好是开发马里奥AI。

Twitter:@tomomoto_LV3

陈涛(译者)

运筹学硕士毕业,主要从事数据库、数据分析工作,对机器学习、深度学习领域相关的理论和技术较为熟悉。因兴趣自学日语,一直致力于追求兴趣和工作的完美结合。

邮箱:victory123_456@163.com
【目录】
第 1部分 预处理入门      1

第 1章 什么是预处理 2

1-1 数据 2

记录数据 2

数据类型 3

1-2 预处理的作用 3

机器学习 4

无监督学习和有监督学习 4

用于数据分析的3种预处理 5

1-3 预处理的流程 6

对数据结构的预处理 7

对数据内容的预处理 7

预处理的步骤 7

1-4 3种编程语言 9

正确使用编程语言 9

1-5 包和库 10

用于数据分析的包和库 10

1-6 数据集 11

酒店预订记录 12

工厂产品记录 13

月度指标记录 14

文本数据集 14

1-7 读取数据 14

第 2部分 对数据结构的预处理 19

第 2章 数据提取 20

2-1 提取指定的列 20

Q 提取列 21

2-2 按指定条件提取 26

Q 按条件提取数据行 28

Q 间接利用索引提取数据行 33

2-3 不基于数据值的采样 35

Q 随机采样 35

2-4 基于聚合ID的采样 38

Q 按ID采样 39

第3章 数据聚合 43

3-1 计算数据条数和类型数 43

Q 计数和唯一值计数 44

3-2 计算合计值 48

Q 合计值 48

3-3 计算最值、代表值 50

Q 代表值 51

3-4 计算离散程度 54

Q 方差和标准差 54

3-5 计算众数 57

Q 众数 58

3-6 排序 61

排序函数 61

Q 为时序数据添加编号 62

Q 排序 66

第4章 数据连接 69

4-1 主表的连接 69

Q 主表的连接 70

4-2 切换按条件连接的表 77

Q 切换按条件连接的主表 77

4-3 连接历史数据 84

Q 获取往前数第n条记录的数据 85

Q 前n条记录的合计值 88

Q 前n条记录的平均值 92

Q 过去n天的合计值 95

4-4 交叉连接 99

Q 交叉连接处理 99

第5章 数据拆分 105

5-1 记录数据中模型验证数据的拆分 105

Q 交叉验证 107

5-2 时序数据中模型验证数据的拆分 111

Q 准备时序数据中的训练数据和验证数据 113

第6章 数据生成 117

6-1 通过欠采样调整不平衡数据 118

6-2 通过过采样调整不平衡数据 119

Q 过采样 120

第7章 数据扩展 124

7-1 转换为横向显示 124

Q 转换为横向显示 125

7-2 转换为稀疏矩阵 128

Q 稀疏矩阵 128

第3部分 对数据内容的预处理 131

第8章 数值型 132

8-1 转换为数值型 132

Q 各种数据类型的转换 132

8-2 通过对数化实现非线性变换 135

Q 对数化 137

8-3 通过分类化实现非线性变换 139

Q 数值型的分类化 140

8-4 归一化 142

Q 归一化 143

8-5 删除异常值 146

Q 根据标准差删除异常值 146

8-6 用主成分分析实现降维 148

Q 用主成分分析实现降维 149

8-7 数值填充 152

Q 删除缺失记录 153

Q 用常数填充 155

Q 均值填充 157

Q 用PMM实现多重插补 160

第9章 分类型 164

9-1 转换为分类型 164

Q 分类型的转换 165

9-2 哑变量化 168

Q 哑变量化 169

9-3 分类值的聚合 171

Q 分类值的聚合 172

9-4 分类值的组合 175

Q 分类值的组合 175

9-5 分类型的数值化 177

Q 分类型的数值化 178

9-6 分类型的填充 181

Q 用KNN填充 182

第 10章 日期时间型 185

10-1 转换为日期时间型、日期型 185

Q 日期时间型、日期型的转换 185

10-2 转换为年、月、日、时、分、秒、星期 189

Q 获取各日期时间元素 190

10-3 转换为日期时间差 194

Q 计算日期时间差 195

10-4 日期时间型的增减 200

Q 日期时间的增减处理 200

10-5 转换为季节 203

Q 转换为季节 204

10-6 转换为时间段 208

10-7 转换为工作日、休息日 209

Q 添加休息日标志 209

第 11章 字符型 212

11-1 通过形态分析进行分解 213

Q 提取名词和动词 213

11-2 转换为单词的集合数据 215

Q 创建词袋 216

11-3 用TF-IDF调整单词权重 220

Q 创建使用TF-IDF的词袋 221

第 12章 位置信息型 224

12-1 从日本坐标系到世界坐标系的转换以及从度、分、秒到度的转换 224

Q 从日本坐标系转换为世界坐标系 224

12-2 两点间距离、方向的计算 228

Q 计算距离 228

第4部分 预处理实战 233

第 13章 实战练习 234

13-1 聚合分析的预处理 234

Q 聚合分析的准备工作 234

13-2 用于推荐的预处理 238

Q 生成推荐矩阵 238

13-3 预测建模的预处理 243

Q 用于预测建模的预处理 243

结语 254

参考文献 255
点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP