• 大数据技术概论 陈明 中国铁道出版社 9787113248185 正版旧书
21年品牌 40万+商家 超1.5亿件商品

大数据技术概论 陈明 中国铁道出版社 9787113248185 正版旧书

正版旧书 里面部分笔记 内容完好 可正常使用 旧书不附带光盘

3.85 八五品

库存13件

江西南昌
认证卖家担保交易快速发货售后保障

作者陈明

出版社中国铁道出版社

ISBN9787113248185

出版时间2019-02

装帧线装

页数276页

货号4343754

上书时间2024-04-16

辉煌二手教材专营店

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
商品描述
温馨提示:亲!旧书库存变动比较快,有时难免会有断货的情况,为保证您的利益,拍前请务必联系卖家咨询库存情况!谢谢!
书名:大数据技术概论
编号:4343754
ISBN:9787113248185[十位:]
作者:陈明
出版社:中国铁道出版社
出版日期:2019年02月
页数:276
定价:52.00 元
参考重量:0.560Kg
-------------------------
新旧程度:6-9成新左右,不影响阅读,详细情况请咨询店主
如图书附带、磁带、学习卡等请咨询店主是否齐全* 图书目录 *
第 1 章 概述 ............................................ 1 1.1 数据科学 ................................................2 1.1.1 数据科学的产生与发展 ................2 1.1.2 数据科学的相关术语 ....................2 1.1.3 数据科学的主要内容 ....................3 1.1.4 数据科学的研究过程与体系框架.................................................4 1.1.5 数据科学、数据技术与数据工程.................................................6 1.1.6 大数据问题 ....................................6 1.2 大数据的生态环境 ................................7 1.2.1 互联网世界 ....................................7 1.2.2 物理世界 ........................................9 1.3 大数据的概念 ........................................9 1.3.1 数据容量 ......................................10 1.3.2 数据类型 ...................................... 11 1.3.3 价值密度 ...................................... 11 1.3.4 速度 .............................................. 11 1.3.5 真实性 .......................................... 11 1.4 大数据的性质 ...................................... 11 1.4.1 非结构性 ......................................12 1.4.2 不完备性 ......................................13 1.4.3 时效性 ..........................................13 1.4.4 安全性 ..........................................13 1.4.5 可靠性 ..........................................13 1.5 大数据处理周期 ..................................13 1.5.1 大数据处理全过程 ......................14 1.5.2 大数据技术的特征 ......................15 1.5.3 大数据的一些热点技术 ..............17 1.6 科学研究范式 ......................................18 1.6.1 科学研究范式的产生与发展 ......18 1.6.2 数据密集型科学研究第四范式....19 小结 ...............................................................23 第 2 章 大数据处理平台 ........................ 24 2.1 Hadoop 大数据处理平台 ....................24 2.1.1 离线计算概述 ..............................25 2.1.2 MapReduce 分布编程模型 ..........26 2.1.3 基于 Hadoop 的分布计算 ............27 2.1.4 MapReduce 程序设计分析 ..........31 2.1.5 Hadoop 环境部署与程序运行 .....36 2.2 Storm 大数据处理平台 .......................42 2.2.1 流式数据的概念与特征 ..............43 2.2.2 大数据的计算模式 ......................45 2.2.3 流式数据处理技术的应用 ..........46 2.2.4 流式计算的系统架构 ..................50 2.2.5 Storm 流处理过程 ........................52 2.2.6 单词计数 topology .......................56 2.3 Spark 大数据处理平台 ........................58 2.3.1 交互式处理系统的问题 ..............58 2.3.2 Scala 编程语言简介 .....................58 2.3.3 Spark 的主要特点 ........................59 2.3.4 软件栈 ..........................................60 2.3.5 核心概念 ......................................61 2.3.6 弹性分布式数据集 RDD .............62 2.3.7 单词计数实例分析 ......................66 小结 ...............................................................67 第 3 章 大数据获取与存储管理技术 ...... 68 3.1 大数据获取 ..........................................69 3.1.1 大数据获取的挑战 ......................69 3.1.2 传统的数据获取与大数据获取的区别...............................................69 3.2 领域数据 ..............................................70 3.2.1 文本数据 ......................................70 3.2.2 语音数据 ......................................71 3.2.3 图片数据 ......................................71 3.2.4 摄像头视频数据 ..........................71 3.2.5 图像数字化数据 ..........................71 3.2.6 图形数字化数据 ..........................71 3.2.7 空间数据 ......................................72 3.3 网站数据 ..............................................72 3.3.1 网站内部数据 ..............................73 3.3.2 网站外部数据 ...........................73 3.3.3 移动网站数据 ..............................73 3.4 网络爬虫 ..............................................73 3.4.1 网络爬虫的工作过程 ..................74 3.4.2 通用网络爬虫 ..............................74 3.4.3 聚焦网络爬虫 ..............................77 3.4.4 数据抓取目标的定义 ..................79 3.4.5 网页分析算法 ..............................80 3.4.6 更新策略 ......................................81 3.4.7 分布式爬虫的系统结构 ..............82 3.5 大数据存储 ..........................................84 3.5.1 大数据存储模型 ..........................84 3.5.2 大数据存储问题 ..........................84 3.5.3 大数据存储方式 ..........................85 3.6 大数据存储管理技术 ..........................86 3.6.1 数据容量问题 ..............................86 3.6.2 大图数据 ......................................87 3.6.3 数据存储管理 ..............................88 3.7 NoSQL 和 NewSQL .............................89 3.7.1 NoSQL ..........................................90 3.7.2 NewSQL 数据库 ..........................93 3.7.3 不同数据库架构混合应用模式....93 3.8 分布式文件系统 ..................................94 3.8.1 评价指标 ......................................94 3.8.2 HDFS 文件系统 ...........................95 3.8.3 NFS 文件系统 ..............................96 3.9 虚拟存储技术 ......................................97 3.9.1 虚拟存储的特点 ..........................98 3.9.2 虚拟存储的应用 ..........................98 3.10 云存储技术 ........................................99 3.10.1 云存储原理 ................................99 3.10.2 网络结构 ....................................99 3.10.3 云的分类 ....................................99 小结 .............................................................100 第 4 章 大数据抽取技术 ...................... 101 4.1 大数据抽取技术概述 .......................101 4.1.1 数据抽取的定义 ........................102 4.1.2 数据映射与数据迁移 ................102 4.1.3 数据抽取程序 ............................103 4.1.4 抽取、转换和加载 ....................103 4.1.5 数据抽取方式 ............................104 4.2 增量数据抽取技术 ............................104 4.2.1 增量抽取的特点与策略 ............105 4.2.2 基于触发器的增量抽取方式.............................................105 4.2.3 基于时间戳的增量抽取方式.............................................105 4.2.4 全表删除插入方式 ..................106 4.2.5 全表比对抽取方式 ....................106 4.2.6 日志表方式 ................................107 4.2.7 系统日志分析方式 ....................107 4.2.8 各种数据抽取机制的比较与分析.........................................107 4.3 非结构化数据抽取 ............................109 4.3.1 非结构化数据类型 ....................109 4.3.2 非结构化数据模型 ....................109 4.3.3 非结构化数据组织 .................... 111 4.3.4 纯文本抽取通用程序库 ............ 112 4.4 基于 Hadoop 平台的数据抽取 ......... 113 小结 ............................................................. 114 第 5 章 大数据清洗技术 .......................115 5.1 数据质量与数据清洗 ........................ 115 5.1.1 数据质量 .................................... 116 5.1.2 数据质量提高技术 .................... 118 5.1.3 数据清洗算法的标准 ................120 5.1.4 数据清洗的过程与模型 ............120 5.2 不完整数据清洗 ................................121 5.2.1 基本方法 ....................................121 5.2.2 基于 k-NN 近邻缺失数据的填充算法.....................................123 5.3 异常数据清洗 ....................................124 5.3.1 异常值产生的原因 ....................125 5.3.2 统计方法 ....................................125 5.3.3 基于邻近度的离群点检测 ........126 5.4 重复数据清洗 ....................................127 5.4.1 使用字段相似度识别重复值算法.............................................127 5.4.2 搜索引擎快速去重算法 ............128 5.5 文本清洗 ............................................128 5.5.1 字符串匹配算法 ........................129 5.5.2 文本相似度度量 ........................131 5.5.3 文档去重算法 ............................135 5.6 数据清洗的实现 ................................135 5.6.1 数据清洗的步骤 ........................135 5.6.2 基于 MapReduce 的大数据去重.............................................136 小结 .............................................................138 第 6 章 大数据去噪与标准化 ............... 139 6.1 基本的数据转换方法 ........................139 6.1.1 对数转换 ....................................139 6.1.2 平方根转换 ................................140 6.1.3 平方转换 ....................................140 6.1.4 倒数变换 ....................................140 6.2 数据平滑技术 ....................................140 6.2.1 移动平均法 ................................141 6.2.2 指数平滑法 ................................142 6.2.3 分箱平滑法 ................................146 6.3 数据规范化 ........................................148 6.3.1 zui小 - zui大规范化方法 ............148 6.3.2 z 分数规范化方法 ......................149 6.3.3 小数定标规范化方法 ................149 6.4 数据泛化处理 ....................................150 6.4.1 空间数据支配泛化算法 ............150 6.4.2 非空间数据支配泛化方法 ........151 6.4.3 统计信息网格方法 ....................151 小结 .............................................................151 第 7 章 大数据约简与集成技术 ........... 152 7.1 数据约简概述 ....................................153 7.1.1 数据约简定义 ............................153 7.1.2 数据约简方式 ............................153 7.2 特征约简 ............................................153 7.2.1 特征提取 ....................................154 7.2.2 特征选择 ....................................154 7.3 样本约简 ............................................155 7.3.1 简单随机抽样 ............................155 7.3.2 系统抽样 ....................................155 7.3.3 分层抽样 ....................................155 7.4 数据立方体聚集 ................................155 7.4.1 多维性 ........................................156 7.4.2 数据聚集 ....................................156 7.5 维约简 ................................................157 7.5.1 维约简的目的 ............................157 7.5.2 维约简的基本策略 ....................158 7.5.3 维约简的分类 ............................158 7.6 属性子集选择算法 ............................159 7.6.1 逐步向前选择属性 ....................159 7.6.2 逐步向后删除属性 ....................159 7.6.3 混合式选择 ...............................159 7.6.4 判定树归纳 ................................159 7.7 数据压缩 ............................................160 7.7.1 离散小波变换方法 ....................160 7.7.2 主成分分析压
  • 大数据技术概论 陈明 中国铁道出版社 9787113248185 正版旧书

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP