• 大数据技术概论
  • 大数据技术概论
  • 大数据技术概论
  • 大数据技术概论
  • 大数据技术概论
21年品牌 40万+商家 超1.5亿件商品

大数据技术概论

全新正版现货

41.3 7.9折 52 全新

仅1件

四川成都
认证卖家担保交易快速发货售后保障

作者陈明

出版社中国铁道出版社

ISBN9787113248185

出版时间2019-02

装帧平装

开本16开

纸张胶版纸

定价52元

货号26772485

上书时间2024-07-10

天涯淘书阁

五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版全新
商品描述

编辑】:
全面:对大数据涉及的各项技术如Hadoop、MapReduce、Storm、Spark等做了深入简出的介绍。
实用:配有多个实际操作案例供读者参考,轻松学习。

内容简介】:

大数据技术是一个面向实际应用的技术。从大数据中获取有价值信息是大数据技术的精髓。本书概括性介绍了数据科学与大数据技术的主要内容。全书分为 9 章,主要包括概述、大数据处理平台、大数据获取与存储管理技术、大数据抽取技术、大数据清洗技术、大数据去噪与标准化、大数据约简与集成技术、大数据分析与挖掘技术、大数据分析结果解释与展现。
  本书在内容上,注重基本概念、基本方法介绍,实例丰富、语言精练、逻辑层次清晰,适合作为大学“数据科学与大数据技术”专业和相近专业的教材,也可以作为科技人员的参考书。



作者简介】:

陈明,国内计算机科学领域资深专家,曾任大连理工大学计算机科学与工程系教授、系主任,中国石油大学(北京)计算机科学与技术系教授、系主任。中国计算机学会理事、中国人工智能学会理事、中国人工智能学会智能信息网专委会副主任。全国高校计算机基础教育研究会常务理事、IT&AT 教育工程专家组成员。



目录】:

第 1 章 概述 ............................................ 1 
1.1 数据科学 ................................................2 
1.1.1 数据科学的产生与发展 ................2 
1.1.2 数据科学的相关术语 ....................2 
1.1.3 数据科学的主要内容 ....................3 
1.1.4 数据科学的研究过程与体系框架.................................................4 
1.1.5 数据科学、数据技术与数据工程.................................................6 
1.1.6 大数据问题 ....................................6 
1.2 大数据的生态环境 ................................7 
1.2.1 互联网世界 ....................................7 
1.2.2 物理世界 ........................................9 
1.3 大数据的概念 ........................................9 
1.3.1 数据容量 ......................................10 
1.3.2 数据类型 ...................................... 11 
1.3.3 价值密度 ...................................... 11 
1.3.4 速度 .............................................. 11 
1.3.5 真实性 .......................................... 11 
1.4 大数据的性质 ...................................... 11 
1.4.1 非结构性 ......................................12 
1.4.2 不完备性 ......................................13 
1.4.3 时效性 ..........................................13 
1.4.4 安全性 ..........................................13 
1.4.5 可靠性 ..........................................13 
1.5 大数据处理周期 ..................................13 
1.5.1 大数据处理全过程 ......................14 
1.5.2 大数据技术的特征 ......................15 
1.5.3 大数据的一些热点技术 ..............17 
1.6 科学研究范式 ......................................18 
1.6.1 科学研究范式的产生与发展 ......18 
1.6.2 数据密集型科学研究第四范式....19 
小结 ...............................................................23 
第 2 章 大数据处理平台 ........................ 24 
2.1 Hadoop 大数据处理平台 ....................24 
2.1.1 离线计算概述 ..............................25 
2.1.2 MapReduce 分布编程模型 ..........26 
2.1.3 基于 Hadoop 的分布计算 ............27 
2.1.4 MapReduce 程序设计分析 ..........31 
2.1.5 Hadoop 环境部署与程序运行 .....36 
2.2 Storm 大数据处理平台 .......................42 
2.2.1 流式数据的概念与特征 ..............43 
2.2.2 大数据的计算模式 ......................45 
2.2.3 流式数据处理技术的应用 ..........46 
2.2.4 流式计算的系统架构 ..................50 
2.2.5 Storm 流处理过程 ........................52 
2.2.6 单词计数 topology .......................56 
2.3 Spark 大数据处理平台 ........................58 
2.3.1 交互式处理系统的问题 ..............58 
2.3.2 Scala 编程语言简介 .....................58 
2.3.3 Spark 的主要特点 ........................59 
2.3.4 软件栈 ..........................................60 
2.3.5 核心概念 ......................................61 
2.3.6 弹性分布式数据集 RDD .............62 
2.3.7 单词计数实例分析 ......................66 
小结 ...............................................................67 
第 3 章 大数据获取与存储管理技术 ...... 68 
3.1 大数据获取 ..........................................69 
3.1.1 大数据获取的挑战 ......................69 
3.1.2 传统的数据获取与大数据获取的区别...............................................69 
3.2 领域数据 ..............................................70 
3.2.1 文本数据 ......................................70 
3.2.2 语音数据 ......................................71 
3.2.3 图片数据 ......................................71 
3.2.4 摄像头视频数据 ..........................71 
3.2.5 图像数字化数据 ..........................71 
3.2.6 图形数字化数据 ..........................71 
3.2.7 空间数据 ......................................72 
3.3 网站数据 ..............................................72 
3.3.1 网站内部数据 ..............................73 
3.3.2 网站外部数据 ...........................73 
3.3.3 移动网站数据 ..............................73 
3.4 网络爬虫 ..............................................73 
3.4.1 网络爬虫的工作过程 ..................74 
3.4.2 通用网络爬虫 ..............................74 
3.4.3 聚焦网络爬虫 ..............................77 
3.4.4 数据抓取目标的定义 ..................79 
3.4.5 网页分析算法 ..............................80 
3.4.6 更新策略 ......................................81 
3.4.7 分布式爬虫的系统结构 ..............82 
3.5 大数据存储 ..........................................84 
3.5.1 大数据存储模型 ..........................84 
3.5.2 大数据存储问题 ..........................84 
3.5.3 大数据存储方式 ..........................85 
3.6 大数据存储管理技术 ..........................86 
3.6.1 数据容量问题 ..............................86 
3.6.2 大图数据 ......................................87 
3.6.3 数据存储管理 ..............................88 
3.7 NoSQL 和 NewSQL .............................89 
3.7.1 NoSQL ..........................................90 
3.7.2 NewSQL 数据库 ..........................93 
3.7.3 不同数据库架构混合应用模式....93 
3.8 分布式文件系统 ..................................94 
3.8.1 评价指标 ......................................94 
3.8.2 HDFS 文件系统 ...........................95 
3.8.3 NFS 文件系统 ..............................96 
3.9 虚拟存储技术 ......................................97 
3.9.1 虚拟存储的特点 ..........................98 
3.9.2 虚拟存储的应用 ..........................98 
3.10 云存储技术 ........................................99 
3.10.1 云存储原理 ................................99 
3.10.2 网络结构 ....................................99 
3.10.3 云的分类 ....................................99 
小结 .............................................................100 
第 4 章 大数据抽取技术 ...................... 101 
4.1 大数据抽取技术概述 .......................101 
4.1.1 数据抽取的定义 ........................102 
4.1.2 数据映射与数据迁移 ................102 
4.1.3 数据抽取程序 ............................103 
4.1.4 抽取、转换和加载 ....................103 
4.1.5 数据抽取方式 ............................104 
4.2 增量数据抽取技术 ............................104 
4.2.1 增量抽取的特点与策略 ............105 
4.2.2 基于触发器的增量抽取方式.............................................105 
4.2.3 基于时间戳的增量抽取方式.............................................105 
4.2.4 全表删除插入方式 ..................106 
4.2.5 全表比对抽取方式 ....................106 
4.2.6 日志表方式 ................................107 
4.2.7 系统日志分析方式 ....................107 
4.2.8 各种数据抽取机制的比较与分析.........................................107 
4.3 非结构化数据抽取 ............................109 
4.3.1 非结构化数据类型 ....................109 
4.3.2 非结构化数据模型 ....................109 
4.3.3 非结构化数据组织 .................... 111 
4.3.4 纯文本抽取通用程序库 ............ 112 
4.4 基于 Hadoop 平台的数据抽取 ......... 113 
小结 ............................................................. 114 
第 5 章 大数据清洗技术 .......................115 
5.1 数据质量与数据清洗 ........................ 115 
5.1.1 数据质量 .................................... 116 
5.1.2 数据质量提高技术 .................... 118 
5.1.3 数据清洗算法的标准 ................120 
5.1.4 数据清洗的过程与模型 ............120 
5.2 不完整数据清洗 ................................121 
5.2.1 基本方法 ....................................121 
5.2.2 基于 k-NN 近邻缺失数据的填充算法.....................................123 
5.3 异常数据清洗 ....................................124 
5.3.1 异常值产生的原因 ....................125 
5.3.2 统计方法 ....................................125 
5.3.3 基于邻近度的离群点检测 ........126 
5.4 重复数据清洗 ....................................127 
5.4.1 使用字段相似度识别重复值算法.............................................127 
5.4.2 搜索引擎快速去重算法 ............128 
5.5 文本清洗 ............................................128 
5.5.1 字符串匹配算法 ........................129 
5.5.2 文本相似度度量 ........................131 
5.5.3 文档去重算法 ............................135 
5.6 数据清洗的实现 ................................135 
5.6.1 数据清洗的步骤 ........................135 
5.6.2 基于 MapReduce 的大数据去重.............................................136 
小结 .............................................................138 
第 6 章 大数据去噪与标准化 ............... 139 
6.1 基本的数据转换方法 ........................139 
6.1.1 对数转换 ....................................139 
6.1.2 平方根转换 ................................140 
6.1.3 平方转换 ....................................140 
6.1.4 倒数变换 ....................................140 
6.2 数据平滑技术 ....................................140 
6.2.1 移动平均法 ................................141 
6.2.2 指数平滑法 ................................142 
6.2.3 分箱平滑法 ................................146 
6.3 数据规范化 ........................................148 
6.3.1 zui小 - zui大规范化方法 ............148 
6.3.2 z 分数规范化方法 ......................149 
6.3.3 小数定标规范化方法 ................149 
6.4 数据泛化处理 ....................................150 
6.4.1 空间数据支配泛化算法 ............150 
6.4.2 非空间数据支配泛化方法 ........151 
6.4.3 统计信息网格方法 ....................151 
小结 .............................................................151 
第 7 章 大数据约简与集成技术 ........... 152 
7.1 数据约简概述 ....................................153 
7.1.1 数据约简定义 ............................153 
7.1.2 数据约简方式 ............................153 
7.2 特征约简 ............................................153 
7.2.1 特征提取 ....................................154 
7.2.2 特征选择 ....................................154 
7.3 样本约简 ............................................155 
7.3.1 简单随机抽样 ............................155 
7.3.2 系统抽样 ....................................155 
7.3.3 分层抽样 ....................................155 
7.4 数据立方体聚集 ................................155 
7.4.1 多维性 ........................................156 
7.4.2 数据聚集 ....................................156 
7.5 维约简 ................................................157 
7.5.1 维约简的目的 ............................157 
  • 大数据技术概论
  • 大数据技术概论
  • 大数据技术概论
  • 大数据技术概论
  • 大数据技术概论

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版全新
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP