• 数据科学与大数据技术导论(书皮有破损不影响阅读)
21年品牌 40万+商家 超1.5亿件商品

数据科学与大数据技术导论(书皮有破损不影响阅读)

15 2.5折 59 八五品

库存2件

河北廊坊
认证卖家担保交易快速发货售后保障

作者陈明

出版社清华大学出版社

出版时间2021-06

版次1

装帧其他

货号D10

上书时间2024-09-20

晶晶鑫书店

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
图书标准信息
  • 作者 陈明
  • 出版社 清华大学出版社
  • 出版时间 2021-06
  • 版次 1
  • ISBN 9787302566762
  • 定价 59.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 胶版纸
  • 字数 475.000千字
【作者简介】

教授,博士生导师。研究领域为分布计算、计算智能、大数据技术等。中国石油大学(北京)计算机科学与技术系创始系主任。获北京市教学名师奖。中国工程教育认证专家。

【目录】
 *
第1章数据科学与大数据技术概述/1 知识结构1 1.1数据科学简介1 1.1.1数据科学的产生与发展1 1.1.2数据科学的定义与方法2 1.1.3数据科学的知识体系6 1.1.4数据科学、数据技术与数据工程7 1.2大数据的生态环境与概念8 1.2.1大数据的生态环境8 1.2.2大数据的概念9 1.3大数据处理周期12 1.3.1大数据处理的全过程12 1.3.2大数据技术的特征13 1.4大数据处理模式13 1.4.1离线处理模式14 1.4.2在线处理模式14 1.4.3交互处理模式19 1.5科学研究第四范式19 1.5.1科学研究范式产生与发展19 1.5.2数据密集型科学研究第四范式20 1.6大数据应用25 1.6.1大数据应用趋势25 1.6.2大数据应用评价与应用实例26 本章小结28 第2章Hadoop大数据处理ping台/29 知识结构29 2.1MapReduce分布编程模型29 2.1.1MapReduce计算过程30 2.1.2基于MapReduce的计算举例30数据科学与大数据技术导论2.2基于Hadoop的分布计算30 2.2.1作业服务器31 2.2.2计算流程31 2.2.3MapReduce程序的执行过程33 2.3MapReduce程序设计分析35 2.3.1MapReduce模型编程方法35 2.3.2单词计数程序设计36 2.4YARN大数据处理ping台40 2.4.1Hadoop 1.0版本的缺点40 2.4.2轻量级弹性计算ping台41 2.4.3基本概念与术语42 2.4.4MapReduce框架43 2.4.5编程模型44 2.4.6YARN基本架构与工作流程45 2.5Spark大数据处理框架48 2.5.1Spark的主要特点48 2.5.2软件栈48 2.5.3核心概念50 2.5.4RDD51 本章小结58 第3章大数据采集与存储管理/59 知识结构59 3.1大数据采集概述59 3.1.1大数据采集的定义与特点60 3.1.2大数据采集的挑战60 3.1.3传统数据采集与大数据采集的比较61 3.2大数据采集的方法61 3.2.1传感器采集数据61 3.2.2系统日志采集62 3.2.3数据库采集系统62 3.2.4网页数据采集62 3.3大数据存储架构与系统79 3.3.1数据层79 3.3.2分布式文件系统80 3.4基于大数据的数据库系统82 3.4.1大数据存储管理技术82 3.4.2大数据库83 3.4.3大数据存储管理的核心算法88 3.5HBase数据库94 3.5.1HBase概述94 3.5.2HBase的数据模型97 3.5.3HBase的逻辑实体98 3.5.4HBase的工作原理100 3.6Hive数据仓库100 3.6.1Hive主要功能101 3.6.2Hive的数据单元与数据类型101 3.6.3Hive的特性102 3.6.4Hive应用举例102 3.6.5HBase与Hive的比较102 本章小结103 第4章大数据抽取/104 知识结构104 4.1大数据抽取概述105 4.1.1数据抽取的定义105 4.1.2数据抽取程序105 4.1.3数据抽取方式106 4.2增量数据抽取技术106 4.2.1增量数据抽取的特点与策略106 4.2.2基于时间戳的增量数据抽取方式107 4.2.3全表比对抽取方法107 4.3数据源109 4.3.1公开数据库109 4.3.2利用网络爬虫获得数据110 4.3.3数据交易ping台110 4.3.4网络指数110 4.4基于Hadoopping台的大数据抽取110 4.4.1将数据导入Hadoopping台110 4.4.2将数据从CSV文件导入Hive表111 4.4.3将关系数据导入HDFS的方法114 4.4.4CSV文件的读取和写入119 4.4.5Flume获取日志文件123 4.5大数据抽取的应用126 4.5.1应用实例126 4.5.2非关系数据库中的数据抽取软件简介126 本章小结128 第5章大数据清洗/129 知识结构129 5.1数据质量与数据清洗129 5.1.1数据质量129 5.1.2数据质量提高技术132 5.1.3数据清洗算法的标准135 5.1.4数据清洗的过程与模型136 5.2不完整数据清洗136 5.2.1基本方法136 5.2.2基于kNN近邻缺失数据的填充算法138 5.3异常数据清洗140 5.3.1异常值的检测141 5.3.2统计学方法141 5.3.3基于邻近度的离群点检测145 5.4重复数据清洗146 5.4.1使用字段相似度识别重复值算法146 5.4.2快速去重算法147 5.5文本清洗149 5.5.1字符串匹配算法149 5.5.2文本相似度度量方法153 5.6数据清洗的实现157 5.6.1数据清洗的步骤157 5.6.2数据清洗程序158 本章小结160 第6章数据转换/161 知识结构161 6.1基本的数据转换161 6.1.1对数转换161 6.1.2ping方根转换163 6.1.3ping方转换163 6.1.4倒数变换163 6.2数据ping滑163 6.2.1移动ping均法164 6.2.2指数ping滑法166 6.2.3分箱ping滑法171 6.3数据规范化172 6.3.1#小#大规范化方法173 6.3.2z分数规范化方法173 6.3.3小数定标规范化方法174 6.3.4数据规范化程序174 本章小结176 第7章大数据约简/177 知识结构177 7.1特征约简178 7.1.1特征构造178 7.1.2特征提取179 7.1.3特征选择180 7.2样本约简187 7.2.1随机抽样187 7.2.2系统抽样187 7.2.3分层抽样187 7.3数据立方体188 7.3.1多维数据模型188 7.3.2多维数据模型的模式190 7.3.3数据立方体聚集191 7.4属性子集选择算法192 7.4.1逐步向前选择属性193 7.4.2逐步向后删除属性193 7.4.3混合式选择193 7.4.4判定树归纳193 7.5数值约简194 7.5.1有参数值约简194 7.5.2无参数值约简195 7.6概念分层与数值离散化196 7.6.1概念分层196 7.6.2数值离散化方法198 本章小结202 第8章大数据集成/203 知识结构203 8.1数据集成技术概述203 8.1.1数据集成的概念与相关问题204 8.1.2数据集成的核心问题206 8.1.3数据集成的分类207 8.2数据迁移209 8.2.1在组织内部移动数据210 8.2.2非结构化数据集成211 8.2.3将处理移动到数据端212 8.3数据集成模式213 8.3.1联邦数据库集成模式213 8.3.2中间件集成模式214 8.3.3数据仓库集成模式215 8.4数据集成系统216 8.4.1全局模式217 8.4.2语义映射217 8.4.3查询重写218 8.5数据集成系统的构建218 8.5.1模式之间映射关系的生成218 8.5.2适应性查询219 8.5.3XML219 8.5.4P2P数据管理219 本章小结220 第9章大数据分析/221 知识结构221 9.1大数据分析概述221 9.1.1几种常用的大数据分析方法222 9.1.2数字特征223 9.1.3统计方法229 9.1.4常用的抽样组织形式230 9.2相关分析230 9.2.1相关系数231 9.2.2相关分析的任务231 9.2.3相关分析的过程232 9.3回归分析233 9.3.1回归分析过程233 9.3.2回归分析类型233 9.3.3回归模型与应用中的问题233 9.4判别分析234 9.4.1判别函数234 9.4.2判别分析方法235 9.5显著性检验238 9.5.1显著性检验的基本思想238 9.5.2检验步骤与检验方法239 9.6主成分分析240 9.6.1主成分分析原理240 9.6.2主成分分析方法举例240 9.6.3主成分分析Python程序243 本章小结246 第10章大数据挖掘/247 知识结构247 10.1大数据挖掘概述247 10.1.1数据统计分析与数据挖掘的主要区别248 10.1.2数据挖掘的定义与相关概念248 10.1.3数据挖掘的理论基础248 10.1.4基于数据存储方式的数据挖掘249 10.2关联规则251 10.2.1关联规则生成描述251 10.2.2频繁项目集生成算法252 10.3分类256 10.3.1分类的定义与典型的分类算法256 10.3.2分类的基本步骤258 10.3.3k近邻分类算法258 10.4聚类方法260 10.4.1聚类的概念260 10.4.2聚类算法的特点261 10.4.3聚类算法分类262 10.4.4距离与相似性的度量263 10.4.5划分聚类方法264 10.4.6层次聚类方法267 10.5序列模式268 10.5.1时间序列268 10.5.2时间序列挖掘的常用方法268 10.5.3序列模式挖掘269 10.6非结构化文本数据挖掘271 10.6.1用户反馈文本271 10.6.2用户反馈文本挖掘过程272 10.6.3文本的自然语言处理274 本章小结275 第11章数据可视化与可视分析/276 知识结构276 11.1数据可视化概述276 11.1.1数据可视化概念277 11.1.2感知与认知277 11.1.3可视化突出点与设计原则279 11.2大数据可视化工具与软件280 11.2.1Matplotlib简介281 11.2.2多图形和多坐标系284 11.2.3创建子图285 11.3绘制图形286 11.3.1折线绘制286 11.3.2散点图289 11.3.3泡泡图绘制290 11.3.4条形图绘制293 11.3.5直方图绘制295 11.3.6饼图绘制297 11.3.7轮廓图绘制300 11.3.8雷达图300 11.4大数据可视化302 11.4.1文本可视化302 11.4.2网络(图)可视化303 11.4.3时空数据可视化305 11.4.4多维数据可视化306 11.5大数据可视分析307 11.5.1可视分析的理论基础308 11.5.2大数据可视分析技术312 本章小结315 参考文献/316
点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP