多粒度大数据分析方法:以引领树和云模型为例
批量上传,套装书可能不全,下单前咨询在线客服! 正版书 !!!
¥
110.39
6.5折
¥
169
全新
库存10件
作者徐计,王国胤,李天瑞,邓伟辉
出版社科学出版社
ISBN9787030749857
出版时间2023-09
装帧平装
开本16开
定价169元
货号29647623
上书时间2024-10-21
商品详情
- 品相描述:全新
- 商品描述
-
导语摘要
在大数据时代,数据的获取、传输和存储融入了人类生产生活的方方面面,而大数据核心价值体现为人们对数据的分析、理解与应用。面对如此海量、高速和异构的数据,仅靠人类的认知和理解能力远不能满足价值发现的需要。同时,计算机总是针对最细粒度数据进行迭代优化的求解模式在特定场景下也不能满足数据分析的时限需求。粒计算作为一种模拟人类知识表示和问题求解的近似数据分析范式,其优点在于解决问题时能够选择合适粒度,达到求解精度和计算时效的**平衡。所以,粒计算通常能够以更高的效率获得“有效解”。本书以引领树和云模型作为数据多粒度表示的基本方法,系统地展示了引领树和云模型在大数据多粒度聚类、数据流即时聚类、半监督学习和时间序列预测等大数据分析场景中的理论研究成果及应用案例。
目录
目录
序
前言
本书常用记号
第1章 绪论 1
1.1 大数据 2
1.1.1 大数据的定义 2
1.1.2 大数据处理研究现状 3
1.2 基于粒计算的大数据分析 4
1.2.1 粒计算概述 4
1.2.2 粒计算在大数据分析中的优势 7
1.2.3 大数据的粒计算分析框架 8
1.3 本章小结 9
参考文献 10
第2章 预备知识 13
2.1 基于密度峰值的聚类 13
2.1.1 DPC 中心的特征 14
2.1.2 中心点和异常点特征 14
2.1.3 算法步骤 15
2.1.4 与其他聚类方法的对比分析 15
2.2 云模型简介 16
2.2.1 云模型的定义 16
2.2.2 高斯云模型 17
2.3 学习过程的效率评价 19
2.3.1 时间复杂性 19
2.3.2 空间复杂性 20
2.4 学习结果的准确性评价 20
2.4.1 聚类评价 20
2.4.2 分类评价 22
2.4.3 回归分析评价 23
2.5 本章小结 23
参考文献 24
第3章 基于引领树的高效多粒度聚类25
3.1 引言 25
3.2 DenPEHC算法 27
3.2.1 DPC中γ参数曲线的分析 28
3.2.2 聚类中心点的自动选择 29
3.2.3 DPC中的引领树 32
3.2.4 DenPEHC算法描述 33
3.2.5 异常点检测 35
3.2.6 复杂性分析 37
3.3 海量高维数据的DenPEHC聚类 37
3.3.1 海量高维数据的多粒度聚类.37
3.3.2 DenPEHC-LSHD算法 38
3.3.3 类别属性取值的距离度量 39
3.3.4 子集规模的确定 40
3.3.5 水平粒化的加速效应 41
3.4 实验及结果分析 41
3.4.1 实验环境与数据集 41
3.4.2 实验结果与分析 42
3.5 本章小结 50
参考文献 50
第4章 基于胖节点引领树和密度峰值的数据流聚类.54
4.1 引言 54
4.2 引领树结构中的偏序关系 58
4.3 DP-Stream算法.58
4.3.1 引领树和胖节点引领树的粒化.60
4.3.2 异常点检测 61
4.3.3 胖节点引领树的增量式更新.63
4.3.4 概念漂移检测 66
4.3.5 数据老化与弱节点删除 68
4.4 复杂性分析 68
4.5 实验及结果分析 69
4.5.1 实验环境与数据集 69
4.5.2 实验结果与分析 71
4.6 本章小结 82
参考文献 83
第5章 基于引领树的很优粒化和流形信息粒表示 86
5.1 引言 86
5.2 基于局部密度的很优粒化 88
5.3 信息粒的流形描述 90
5.3.1 信息粒的流形描述子构建 91
5.3.2 从流形描述子重建数据 92
5.3.3 流形描述子的评价 94
5.4 LoDOG信息粒的可解释性 95
5.5 复杂性分析 97
5.5.1 LoDOG复杂性分析 97
5.5.2 关于流形描述子的复杂性 97
5.5.3 与其他研究工作的关系 98
5.6 实验及结果分析 100
5.6.1 实验环境与数据集 100
5.6.2 实验结果与分析 100
5.7 本章小结 111
参考文献 111
第6章 很优引领森林上的非迭代式标签传播 115
6.1 引言 115
6.2 很优引领森林上的标签传播 116
6.2.1 LaPOLeaF标签传播的三阶段分析 117
6.2.2 LaPOLeaF 算法 120
6.3 新增数据的快速学习 122
6.4 针对大数据的LaPOLeaF 123
6.4.1 分治法与并行计算策略 123
6.4.2 使用LSH的近似计算方法 125
6.5 分析与讨论 126
6.5.1 复杂性分析 126
6.5.2 与其他方法的关系讨论 127
6.6 实验及结果分析 127
6.6.1 实验环境与数据集 127
6.6.2 实验结果与分析.128
6.6.3 ImageNet2012数据子集 132
6.7 LaPOLeaF在水质预测中的应用 133
6.8 本章小结 135
参考文献 136
第7章 基于二维正态云的时间序列粒化降维 139
7.1 引言 139
7.2 分段二维正态云表示方法 140
7.3 基于2D-NCR的时间序列相似性度量 142
7.4 时间复杂度分析 147
7.5 实验及结果分析 148
7.5.1 实验设置 148
7.5.2 时间序列分类实验 149
7.5.3 时间序列聚类实验 153
7.6 本章小结 156
参考文献 156
第8章 基于高斯云变换和模糊时间序列的多粒度水质预测 159
8.1 引言 159
8.2 高斯云变换 160
8.3 多粒度水质预测模型 162
8.3.1 论域分区 163
8.3.2 近似周期性 164
8.3.3 模糊时间序列预测模型 165
8.3.4 自适应期望模型 168
8.4 实验及结果分析 168
8.4.1 实验数据集 169
8.4.2 实验设置 169
8.4.3 DO预测实验 170
8.4.4 CODMn指数预测实验 174
8.5 本章小结 178
参考文献 178
内容摘要
在大数据时代,数据的获取、传输和存储融入了人类生产生活的方方面面,而大数据核心价值体现为人们对数据的分析、理解与应用。面对如此海量、高速和异构的数据,仅靠人类的认知和理解能力远不能满足价值发现的需要。同时,计算机总是针对最细粒度数据进行迭代优化的求解模式在特定场景下也不能满足数据分析的时限需求。粒计算作为一种模拟人类知识表示和问题求解的近似数据分析范式,其优点在于解决问题时能够选择合适粒度,达到求解精度和计算时效的**平衡。所以,粒计算通常能够以更高的效率获得“有效解”。本书以引领树和云模型作为数据多粒度表示的基本方法,系统地展示了引领树和云模型在大数据多粒度聚类、数据流即时聚类、半监督学习和时间序列预测等大数据分析场景中的理论研究成果及应用案例。
— 没有更多了 —
以下为对购买帮助不大的评价