消息首页搜索举报

正版图书大数据预处理技术 9787115503510 人民邮电出版社

正版图书没有图片的请核对书号下单以书名为准~ 出版时间系统采集的请注意！

28.3 5.1折 55 全新

仅1件

河北保定

认证卖家担保交易快速发货售后保障

作者未知

出版社人民邮电出版社

ISBN9787115503510

出版时间2019-04

版次1

装帧平装

开本16开

纸张胶版纸

页数253页

字数99999千字

定价55元

货号wht- 9787115503510

上书时间2024-05-17

静语飞扬

十年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 27小时
好评率暂无

最新上架

“文革”前夜的中国（精装） ¥60.72

历史的见证：“文革”的终结 ¥74.34

“大跃进”亲历记 ¥48.36

新时代党建党务权威读物：入党培训实用教材·2021最新版（根据党的十九大精神编写） ¥24.18

大众哲学（修订本） ¥26.91

毛泽东军事思想理论研究：毛泽东武略（纪念版） ¥60.72

《1949-1976年的中国》丛书：凯歌行进的时期·1949-1956 ¥37.08

政党论 ¥60.76

大跃进运动研究：“大跃进”的发动 ¥49.92

商品详情

品相描述：全新: 库存书未翻阅

商品描述: 基本信息
书名:大数据预处理技术
定价：55元
作者:未知
出版社：人民邮电出版社
出版日期：2019-04-01
ISBN：9787115503510
字数：471000
页码：253
版次：
装帧：平装
开本：16开
商品重量：
编辑推荐
数据预处理是数据挖掘中必不可少的关键一步，更是进行数据挖掘前的准备工作，一方面保证挖掘数据的正确性和有效性；另一方面通过对数据格式和内容的调整，使数据更符合挖掘的需要。
内容提要
作者针对大数据问题，分析如何进行大数据的导入，如何使用大数据工具进行快速的数据预处理，以及如何构建数据仓库。详细讲解了Kettle工具的使用、数据集成、Kettle作业项设计等。
目录
章数据预处理概述　11．1　数据预处理的背景与目的　11．1．1　数据预处理的背景：数据质量　11．1．2　数据预处理的目的　31．2　数据预处理的流程　31．2．1　数据清理　31．2．2　数据集成　51．2．3　数据变换　61．2．4　数据归约　81．2．5　数据预处理的注意事项　121．3　数据预处理的工具　12第2章　Kettle工具的初步使用　142．1　Kettle的安装　142．1．1　Java的安装　142．1．2　Kettle的下载安装与Spoon的启动　192．2　Kettle的使用　192．2．1　转换的基本概念　192．2．2　个转换案例　21第3章　基于Kettle的数据导入与导出　423．1　基于文件的数据导入与导出　423．1．1　文本文件的导入与导出　423．1．2　文本文件的导入与导出案例　433．1．3　Excel文件的导入与导出　493．1．4　Excel文件的导入与导出案例　503．1．5　XML文件的导入与导出　573．1．6　XML文件的导入与导出案例　573．1．7　JSON文件的导入与导出　623．1．8　JSON文件的导入与导出案例　623．2　基于数据库的数据导入与导出　663．2．1　关系型数据库的数据导入与导出　673．2．2　MySQL数据库的数据导入与导出案例　693．3　基于Web的数据导入与导出　753．3．1　HTML数据的导入与导出　763．3．2　HTML数据的导入与导出案例　763．3．3　基于HTTP GET请求的导入与导出　803．3．4　基于HTTP GET请求的导入与导出案例　803．4　基于CDC变更数据的导入与导出　833．4．1　基于源数据的CDC　833．4．2　基于源数据的CDC案例　843．4．3　基于触发器的CDC　953．4．4　基于触发器的CDC案例　953．4．5　基于快照的CDC　1053．4．6　基于快照的CDC案例　1053．4．7　基于日志的CDC　1093．4．8　基于日志的CDC案例　109第4章　数据清理　1124．1　数据清理概述　1124．1．1　常用的数据清理步骤　1124．1．2　字符串清理　1134．1．3　字段清理　1184．1．4　使用参照表清理数据　1254．1．5　数据校验　1304．2　数据排重　1344．2．1　如何识别重复数据　1354．2．2　去除完全重复数据　1354．2．3　去除不完全重复数据　1364．3　使用脚本组件进行数据清理　1404．3．1　使用JavaScript代码组件清理数据　1404．3．2　使用正则表达式组件清理数据　1424．3．3　使用其他脚本组件清理数据　145第5章　Kettle作业设计　1505．1　作业的概念及组成　1515．1．1　作业项　1515．1．2　跳　1525．1．3　注释　1525．2　作业的执行方式　1525．2．1　回溯　1525．2．2　多路径和回溯　1535．2．3　并行执行　1535．3　作业的创建及常用作业项　1545．3．1　创建作业　1555．3．2　“START”作业项　1555．3．3　“作业”作业项　1565．3．4　“转换”作业项　1585．4　变量　1585．4．1　定义变量　1595．4．2　使用变量　1605．5　监控　1615．5．1　日志　1615．5．2　邮件通知　1625．6　命令行启动　1635．7　作业实验　165第6章　构建数据仓库　1936．1　构建维度表　1936．1．1　管理各种键　1936．1．2　维度表的加载　1976．1．3　缓慢变化维度　1986．2　构建事实表　2036．2．1　批量加载　2036．2．2　查找维度　2066．2．3　事实表的处理　207第7章　基于Python的数据导入与导出　2167．1　Pandas　2167．1．1　Series　2167．1．2　DataFrame　2197．2　文本文件的导入与导出　2207．2．1　导入CSV文件　2217．2．2　导出CSV文件　2237．2．3　JSON格式数据的导入与导出　2247．3　二进制文件的导入与导出　2257．4　数据库的导入与导出　2267．4．1　关系型数据库的导入与导出　2267．4．2　非关系型数据库的导入与导出　227第8章　基于Python的数据整理　2318．1　合并多个数据集　2318．1．1　使用key进行DataFrame合并　2318．1．2　使用index进行DataFrame合并　2348．1．3　沿着横轴或纵轴串接　2358．2　数据重塑　2378．2．1　多级索引数据的重塑　2388．2．2　应用pivot方法重塑数据　2398．3　数据转换　2428．3．1　移除重复数据　2428．3．2　利用函数或映射进行数据转换　2438．3．3　值转换　2438．3．4　重命名轴索引　2448．3．5　离散化和面元划分　2458．3．6　检测或过滤异常值　2478．3．7　排列和随机采样　2488．3．8　计算指标/哑变量　249参考文献　253
作者介绍
许桂秋男，85年出生，计算机学士，工商管理硕士。 2009年-2012年，中国石油天然气股份有限公司，负责项目管理工作，企业内部高级讲师； 2012年-2015年，曙光信息产业股份有限公司，负责项目管理与企业内部培训工作，企业内部高级讲师； 2016年至今，曙光瑞翼教育合作中心，教学运营总监，负责各高校合作项目部的具体运营管理及指导工作。
序言

【封面】

— 没有更多了 —

正版图书 大数据预处理技术 9787115503510 人民邮电出版社

静语飞扬

商品详情

正版图书大数据预处理技术 9787115503510 人民邮电出版社