• 数据预处理从入门到实战(基于SQL\R\Python)/图灵程序设计丛书
21年品牌 40万+商家 超1.5亿件商品

数据预处理从入门到实战(基于SQL\R\Python)/图灵程序设计丛书

全新正版 极速发货

54.28 6.1折 89 全新

库存7件

广东广州
认证卖家担保交易快速发货售后保障

作者(日)本桥智光

出版社人民邮电出版社

ISBN9787115552327

出版时间2021-02

装帧平装

开本16开

定价89元

货号1202292203

上书时间2024-08-07

谢岳书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
本桥智光(作者)
先后在系统开发公司担任研究员,在互联网企业担任数据科学家,目前在数字医疗初创公司SUSMED株式会社担任CTO,同时就职于HOXO-M株式会社,并以自由职业者的身份从事量子退火计算机的验证工作,拥有制造业、零售业、金融业、运输业、休闲业和互联网等多个行业的数据分析经验。曾在KDD CUP 2015中赢得亚军。爱好是开发马里奥AI。
Twitter:@tomomoto_LV3
陈涛(译者)
运筹学硕士毕业,主要从事数据库、数据分析工作,对机器学习、深度学习领域相关的理论和技术较为熟悉。因兴趣自学日语,一直致力于追求兴趣和工作的完美结合。
邮箱:victory123_456@163.com

目录
部分  预处理入门
  章  什么是预处理
    1-1  数据
      记录数据
      数据类型
    1-2  预处理的作用
      机器学习
      无监督学习和有监督学习
      用于数据分析的3种预处理
    1-3  预处理的流程
      对数据结构的预处理
      对数据内容的预处理
      预处理的步骤
    1-43  种编程语言
      正确使用编程语言
    1-5  包和库
      用于数据分析的包和库
    1-6  数据集
      酒店预订记录
      工厂产品记录
      月度指标记录
      文本数据集
    1-7  读取数据
第2部分  对数据结构的预处理
  第2章  数据提取
    2-1  提取指定的列
      Q  提取列
    2-2  按指定条件提取
      Q  按条件提取数据行
      Q  间接利用索引提取数据行
    2-3  不基于数据值的采样
      Q  随机采样
    2-4  基于聚合ID的采样
      Q  按ID采样
  第3章  数据聚合
    3-1  计算数据条数和类型数
      Q  计数和唯一值计数
    3-2  计算合计值
      Q  合计值
    3-3  计算最值、代表值
      Q  代表值
    3-4  计算离散程度
      Q  方差和标准差
    3-5  计算众数
      Q  众数
    3-6  排序
      排序函数
      Q  为时序数据添加编号
      Q  排序
  第4章  数据连接
    4-1  主表的连接
      Q  主表的连接
    4-2  切换按条件连接的表
      Q  切换按条件连接的主表
    4-3  连接历史数据
      Q  获取往前数第n条记录的数据
      Q  前n条记录的合计值
      Q  前n条记录的平均值
      Q  过去n天的合计值
    4-4  交叉连接
      Q  交叉连接处理
  第5章  数据拆分
    5-1  记录数据中模型验证数据的拆分
      Q  交叉验证
    5-2  时序数据中模型验证数据的拆分
      Q  准备时序数据中的训练数据和验证数据
  第6章  数据生成
    6-1  通过欠采样调整不平衡数据
    6-2  通过过采样调整不平衡数据
      Q  过采样
  第7章  数据扩展
    7-1  转换为横向显示
      Q  转换为横向显示
    7-2  转换为稀疏矩阵
      Q  稀疏矩阵
第3部分  对数据内容的预处理
  第8章  数值型
    8-1  转换为数值型
      Q  各种数据类型的转换
    8-2  通过对数化实现非线性变换
      Q  对数化
    8-3  通过分类化实现非线性变换
      Q  数值型的分类化
    8-4  归一化
      Q  归一化
    8-5  删除异常值
      Q  根据标准差删除异
    8-6  用主成分分析实现降维
      Q  用主成分分析实现降维
    8-7  数值填充
      Q  删除缺失记录
      Q  用常数填充
      Q  均值填充
      Q  用PMM实现多重插补
  第9章  分类型
    9-1  转换为分类型
      Q  分类型的转换
    9-2  哑变量化
      Q  哑变量化
    9-3  分类值的聚合
      Q  分类值的聚合
    9-4  分类值的组合
      Q  分类值的组合
    9-5  分类型的数值化
      Q  分类型的数值化
    9-6  分类型的填充
      Q  用KNN填充
  0章  日期时间型
    10-1  转换为日期时间型、日期型
      Q  日期时间型、日期型的转换
    10-2  转换为年、月、日、时、分、秒、星期
      Q  获取各日期时间元素
    10-3  转换为日期时间差
      Q  计算日期时间差
    10-4  日期时间型的增减
      Q  日期时间的增减处理
    10-5  转换为季节
      Q  转换为季节
    10-6  转换为时间段
    10-7  转换为工作日、休息日
      Q  添加休息日标志
  1章  字符型
    11-1  通过形态分析进行分解
      Q  提取名词和动词
    11-2  转换为单词的集合数据
      Q  创建词袋
    11-3  用TF-IDF调整单词权重
      Q  创建使用TF-IDF的词袋
  2章  位置信息型
    12-1  从日本坐标系到世界坐标系的转换以及从度、分、秒到度的转换
      Q  从日本坐标系转换为世界坐标系
    12-2  两点间距离、方向的计算
      Q  计算距离
第4部分  预处理实战
  3章  实战练习
    13-1  聚合分析的预处理
      Q  聚合分析的准备工作
    13-2  用于推荐的预处理
      Q  生成推荐矩阵
    13-3  预测建模的预处理
      Q  用于预测建模的预处理
结语
参考文献

内容摘要
    在大数据、人工智能时代,数据分析必不可少。本书以数据分析中至关重要的数据预处理为主题,通过54道例题具体介绍了基于SQL、R、Python的处理方法和相关技巧。全书共4个部分:部分介绍预处理的基础知识;第2部分介绍以数据结构为对象的预处理,包括数据提取、数据聚合、数据连接、数据拆分、数据生成和数据扩展;第3部分介绍以数据内容为对象的预处理,涉及数值型、分类型、日期时间型、字符型和位置信息型;第4部分为预处理实战,介绍与实际业务相同的预处理流程。
    本书适合新手数据科学家、系统工程师、具备编程及数理基础的技术人才,以及对数据挖掘和数据分析等感兴趣的人阅读。

主编推荐
一本书掌握大数据、人工智能时代需要的数据预处理技术

·KDD CUP 2015亚军得主多行业实战经验总结;
·54道例题,涵盖常见数据预处理技术;
·3个实战案例,快速提升应用能力;
·3种语言实现对比,代码优化关键点一目了然;
·配套数据+源码可下载;
·SQL的版本为Redshift,Pyhton的版本为3.6,R的版本的3.4;
·双色印刷。

数据提取/数据聚合/数据连接/数据拆分/数据生成/数据扩展
数值型/分类型/日期时间型/字符型/位置信息型

1.习题式结构,带着问题思考、学习,效果更好
本书采用问题驱动式,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。
2.对比3种不同语言的实现,把握每种语言的特长
用SQL、R、Python对比解决相同的案例问题,可以让读者了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。
3.同时给出一般代码与理想代码,优化处理的关键一目了然
对于每道例题,都同时给出一般代码与理想代码,读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP