图书标准信息
-
作者
陈明
-
出版社
清华大学出版社
-
出版时间
2021-06
-
版次
1
-
ISBN
9787302566762
-
定价
59.00元
-
装帧
其他
-
开本
16开
-
纸张
胶版纸
-
字数
475.000千字
- 【作者简介】
-
教授,博士生导师。研究领域为分布计算、计算智能、大数据技术等。中国石油大学(北京)计算机科学与技术系创始系主任。获北京市教学名师奖。中国工程教育认证专家。
- 【目录】
-
*
第1章数据科学与大数据技术概述/1 知识结构1 1.1数据科学简介1 1.1.1数据科学的产生与发展1 1.1.2数据科学的定义与方法2 1.1.3数据科学的知识体系6 1.1.4数据科学、数据技术与数据工程7 1.2大数据的生态环境与概念8 1.2.1大数据的生态环境8 1.2.2大数据的概念9 1.3大数据处理周期12 1.3.1大数据处理的全过程12 1.3.2大数据技术的特征13 1.4大数据处理模式13 1.4.1离线处理模式14 1.4.2在线处理模式14 1.4.3交互处理模式19 1.5科学研究第四范式19 1.5.1科学研究范式产生与发展19 1.5.2数据密集型科学研究第四范式20 1.6大数据应用25 1.6.1大数据应用趋势25 1.6.2大数据应用评价与应用实例26 本章小结28 第2章Hadoop大数据处理ping台/29 知识结构29 2.1MapReduce分布编程模型29 2.1.1MapReduce计算过程30 2.1.2基于MapReduce的计算举例30数据科学与大数据技术导论2.2基于Hadoop的分布计算30 2.2.1作业服务器31 2.2.2计算流程31 2.2.3MapReduce程序的执行过程33 2.3MapReduce程序设计分析35 2.3.1MapReduce模型编程方法35 2.3.2单词计数程序设计36 2.4YARN大数据处理ping台40 2.4.1Hadoop 1.0版本的缺点40 2.4.2轻量级弹性计算ping台41 2.4.3基本概念与术语42 2.4.4MapReduce框架43 2.4.5编程模型44 2.4.6YARN基本架构与工作流程45 2.5Spark大数据处理框架48 2.5.1Spark的主要特点48 2.5.2软件栈48 2.5.3核心概念50 2.5.4RDD51 本章小结58 第3章大数据采集与存储管理/59 知识结构59 3.1大数据采集概述59 3.1.1大数据采集的定义与特点60 3.1.2大数据采集的挑战60 3.1.3传统数据采集与大数据采集的比较61 3.2大数据采集的方法61 3.2.1传感器采集数据61 3.2.2系统日志采集62 3.2.3数据库采集系统62 3.2.4网页数据采集62 3.3大数据存储架构与系统79 3.3.1数据层79 3.3.2分布式文件系统80 3.4基于大数据的数据库系统82 3.4.1大数据存储管理技术82 3.4.2大数据库83 3.4.3大数据存储管理的核心算法88 3.5HBase数据库94 3.5.1HBase概述94 3.5.2HBase的数据模型97 3.5.3HBase的逻辑实体98 3.5.4HBase的工作原理100 3.6Hive数据仓库100 3.6.1Hive主要功能101 3.6.2Hive的数据单元与数据类型101 3.6.3Hive的特性102 3.6.4Hive应用举例102 3.6.5HBase与Hive的比较102 本章小结103 第4章大数据抽取/104 知识结构104 4.1大数据抽取概述105 4.1.1数据抽取的定义105 4.1.2数据抽取程序105 4.1.3数据抽取方式106 4.2增量数据抽取技术106 4.2.1增量数据抽取的特点与策略106 4.2.2基于时间戳的增量数据抽取方式107 4.2.3全表比对抽取方法107 4.3数据源109 4.3.1公开数据库109 4.3.2利用网络爬虫获得数据110 4.3.3数据交易ping台110 4.3.4网络指数110 4.4基于Hadoopping台的大数据抽取110 4.4.1将数据导入Hadoopping台110 4.4.2将数据从CSV文件导入Hive表111 4.4.3将关系数据导入HDFS的方法114 4.4.4CSV文件的读取和写入119 4.4.5Flume获取日志文件123 4.5大数据抽取的应用126 4.5.1应用实例126 4.5.2非关系数据库中的数据抽取软件简介126 本章小结128 第5章大数据清洗/129 知识结构129 5.1数据质量与数据清洗129 5.1.1数据质量129 5.1.2数据质量提高技术132 5.1.3数据清洗算法的标准135 5.1.4数据清洗的过程与模型136 5.2不完整数据清洗136 5.2.1基本方法136 5.2.2基于kNN近邻缺失数据的填充算法138 5.3异常数据清洗140 5.3.1异常值的检测141 5.3.2统计学方法141 5.3.3基于邻近度的离群点检测145 5.4重复数据清洗146 5.4.1使用字段相似度识别重复值算法146 5.4.2快速去重算法147 5.5文本清洗149 5.5.1字符串匹配算法149 5.5.2文本相似度度量方法153 5.6数据清洗的实现157 5.6.1数据清洗的步骤157 5.6.2数据清洗程序158 本章小结160 第6章数据转换/161 知识结构161 6.1基本的数据转换161 6.1.1对数转换161 6.1.2ping方根转换163 6.1.3ping方转换163 6.1.4倒数变换163 6.2数据ping滑163 6.2.1移动ping均法164 6.2.2指数ping滑法166 6.2.3分箱ping滑法171 6.3数据规范化172 6.3.1#小#大规范化方法173 6.3.2z分数规范化方法173 6.3.3小数定标规范化方法174 6.3.4数据规范化程序174 本章小结176 第7章大数据约简/177 知识结构177 7.1特征约简178 7.1.1特征构造178 7.1.2特征提取179 7.1.3特征选择180 7.2样本约简187 7.2.1随机抽样187 7.2.2系统抽样187 7.2.3分层抽样187 7.3数据立方体188 7.3.1多维数据模型188 7.3.2多维数据模型的模式190 7.3.3数据立方体聚集191 7.4属性子集选择算法192 7.4.1逐步向前选择属性193 7.4.2逐步向后删除属性193 7.4.3混合式选择193 7.4.4判定树归纳193 7.5数值约简194 7.5.1有参数值约简194 7.5.2无参数值约简195 7.6概念分层与数值离散化196 7.6.1概念分层196 7.6.2数值离散化方法198 本章小结202 第8章大数据集成/203 知识结构203 8.1数据集成技术概述203 8.1.1数据集成的概念与相关问题204 8.1.2数据集成的核心问题206 8.1.3数据集成的分类207 8.2数据迁移209 8.2.1在组织内部移动数据210 8.2.2非结构化数据集成211 8.2.3将处理移动到数据端212 8.3数据集成模式213 8.3.1联邦数据库集成模式213 8.3.2中间件集成模式214 8.3.3数据仓库集成模式215 8.4数据集成系统216 8.4.1全局模式217 8.4.2语义映射217 8.4.3查询重写218 8.5数据集成系统的构建218 8.5.1模式之间映射关系的生成218 8.5.2适应性查询219 8.5.3XML219 8.5.4P2P数据管理219 本章小结220 第9章大数据分析/221 知识结构221 9.1大数据分析概述221 9.1.1几种常用的大数据分析方法222 9.1.2数字特征223 9.1.3统计方法229 9.1.4常用的抽样组织形式230 9.2相关分析230 9.2.1相关系数231 9.2.2相关分析的任务231 9.2.3相关分析的过程232 9.3回归分析233 9.3.1回归分析过程233 9.3.2回归分析类型233 9.3.3回归模型与应用中的问题233 9.4判别分析234 9.4.1判别函数234 9.4.2判别分析方法235 9.5显著性检验238 9.5.1显著性检验的基本思想238 9.5.2检验步骤与检验方法239 9.6主成分分析240 9.6.1主成分分析原理240 9.6.2主成分分析方法举例240 9.6.3主成分分析Python程序243 本章小结246 第10章大数据挖掘/247 知识结构247 10.1大数据挖掘概述247 10.1.1数据统计分析与数据挖掘的主要区别248 10.1.2数据挖掘的定义与相关概念248 10.1.3数据挖掘的理论基础248 10.1.4基于数据存储方式的数据挖掘249 10.2关联规则251 10.2.1关联规则生成描述251 10.2.2频繁项目集生成算法252 10.3分类256 10.3.1分类的定义与典型的分类算法256 10.3.2分类的基本步骤258 10.3.3k近邻分类算法258 10.4聚类方法260 10.4.1聚类的概念260 10.4.2聚类算法的特点261 10.4.3聚类算法分类262 10.4.4距离与相似性的度量263 10.4.5划分聚类方法264 10.4.6层次聚类方法267 10.5序列模式268 10.5.1时间序列268 10.5.2时间序列挖掘的常用方法268 10.5.3序列模式挖掘269 10.6非结构化文本数据挖掘271 10.6.1用户反馈文本271 10.6.2用户反馈文本挖掘过程272 10.6.3文本的自然语言处理274 本章小结275 第11章数据可视化与可视分析/276 知识结构276 11.1数据可视化概述276 11.1.1数据可视化概念277 11.1.2感知与认知277 11.1.3可视化突出点与设计原则279 11.2大数据可视化工具与软件280 11.2.1Matplotlib简介281 11.2.2多图形和多坐标系284 11.2.3创建子图285 11.3绘制图形286 11.3.1折线绘制286 11.3.2散点图289 11.3.3泡泡图绘制290 11.3.4条形图绘制293 11.3.5直方图绘制295 11.3.6饼图绘制297 11.3.7轮廓图绘制300 11.3.8雷达图300 11.4大数据可视化302 11.4.1文本可视化302 11.4.2网络(图)可视化303 11.4.3时空数据可视化305 11.4.4多维数据可视化306 11.5大数据可视分析307 11.5.1可视分析的理论基础308 11.5.2大数据可视分析技术312 本章小结315 参考文献/316
以下为对购买帮助不大的评价