• 数据挖掘:概念与技术(原书第3版) 9787111391401
21年品牌 40万+商家 超1.5亿件商品

数据挖掘:概念与技术(原书第3版) 9787111391401

正版图书,可开发票,请放心购买。

43.45 5.5折 79 全新

库存26件

广东广州
认证卖家担保交易快速发货售后保障

作者Jiawei

出版社机械工业出版社

ISBN9787111391401

出版时间2022-06

装帧平装

开本16开

定价79元

货号22846300

上书时间2024-10-25

哲仁书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言
社会的计算机化显著地增强了我们产生和收集数据的能力。大量数据从我们生活的每个角落涌出。存储的或瞬态的数据的爆炸性增长已激起对新技术和自动工具的需求,以帮助我们智能地将海量数据转换成有用的信息和知识。这导致称做数据挖掘的一个计算机科学前沿学科的产生,这是一个充满希望和欣欣向荣并具有广泛应用的学科。数据挖掘通常又称为数据中的知识发现(KDD),是自动地或方便地提取代表知识的模式;这些模式隐藏在大型数据库、数据仓库、Web、其他大量信息库或数据流中。
  本书考察知识发现和数据挖掘的基本概念和技术。作为一个多学科领域,数据挖掘从多个学科汲取营养。这些学科包括统计学、机器学习、模式识别、数据库技术、信息检索、网络科学、知识库系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术,关注可行性、有用性、有效性和可伸缩性问题。因此,本书不打算作为数据库系统、机器学习、统计学或其他某领域的导论,尽管我们确实提供了这些领域的必要背景材料,以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介绍。对于计算科学的学生、应用开发人员、行业专业人员以及涉及以上列举的学科的研究人员,本书应当是有用的。
  数据挖掘出现于20世纪80年代后期,20世纪90年代有了突飞猛进的发展,并可望在新千年继续繁荣。本书全面展示该领域,介绍有趣的数据挖掘技术和系统,并讨论数据挖掘的应用和研究方向。写本书的重要动机是需要建立一个学习数据挖掘的有组织的框架——由于这个快速发展领域的多学科特点,这是一项具有挑战性的任务。我们希望本书有助于具有不同背景和经验的人交换关于数据挖掘的见解,为进一步促进这个令人激动的、不断发展的领域的成长做出贡献。
本书的组织
  自本书第1版、第2版出版以来,数据挖掘领域已经取得了重大进展,开发出了许多新的数据挖掘方法、系统和应用,特别是对于处理包括信息网络、图、复杂结构和数据流,以及文本、Web、多媒体、时间序列、时间空间数据在内的新的数据类型。这种快速发展、新技术不断涌现使得在一本书中涵盖整个领域的广泛内容非常困难。因此,我们决定与其继续扩大本书的涵盖面,还不如让本书以足够的广度和深度涵盖该领域的核心内容,而把复杂数据类型的处理留给另一本即将面世的书。
  第3版对本书的前两版做了全面修订,加强和重新组织了全书的技术内容,显著地扩充和加强处理一般数据类型挖掘的核心技术。第2版中讨论特定主题的章节(例如,数据预处理、频繁模式挖掘、分类和聚类)在这一版都被扩充,每章都分成两章。对于这些主题,一章囊括基本概念和技术,而另一章提供高级概念和方法。
  第2版关于复杂数据类型的章节(例如,流数据、序列数据、图结构数据、社会网络数据和多重关系数据,以及文本、Web、多媒体和时间空间数据)现在保留给专门介绍数据挖掘的高级课题的新书。为了支持读者学习这些高级课题,我们把第2版的相关章节的电子版放在本书的网站上,作为第3版的配套材料。
  第3版各章的简要内容如下(重点介绍新的内容):
  第1章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的数据库技术的发展历程和数据挖掘应用的重要性。该章考察挖掘的数据类型,包括关系的、事务的和数据仓库数据,以及复杂的数据类型,如时间序列、序列、数据流、时间空间数据、多媒体数据、文本数据、图、社会网络和Web数据。该章根据所挖掘的知识类型、所使用的技术以及目标应用的类型,对数据挖掘任务进行了一般分类。 后讨论该领域的主要挑战。
  第2章介绍一般数据特征。该章首先讨论数据对象和属性类型,然后介绍基本统计数据描述的典型度量。该章概述各种类型数据的数据可视化技术。除了数值数据的可视化方法外,还介绍文本、标签、图和多维数据的可视化方法。第2章还介绍度量各种类型数据的相似性和相异性的方法。
  第3章介绍数据预处理技术。该章首先介绍数据质量的概念,然后讨论数据清理、数据集成、数据归约、数据变换和数据离散化的方法。
  第4章和第5章是数据仓库、OLAP(联机分析处理)和数据立方体技术的引论。第4章介绍数据仓库和OLAP的基本概念、建模、结构、一般实现,以及数据仓库和其他数据泛化的关系。第5章更深入地考察数据立方体技术,详细地研究数据立方体的计算方法,包括Star-Cubing和高维OLAP方法。该章还讨论数据立方体和OLAP技术的进一步研究,如抽样立方体、排序立方体、预测立方体、用于复杂数据挖掘查询的多特征立方体和发现驱动的数据立方体的探查。
  第6章和第7章介绍挖掘大型数据集中的频繁模式、关联和相关性的方法。第6章介绍基本概念,如购物篮分析,还有条理地提供了许多频繁项集挖掘技术。这些涵盖从基本Apriori算法和它的变形,到改进性能的更高级的方法,包括频繁模式增长方法,使用数据的垂直形式的频繁模式挖掘,挖掘闭频繁项集和极大频繁项集。该章还讨论模式评估方法并介绍挖掘相关模式的度量。第7章介绍高级模式挖掘

导语摘要
本书从数据库角度全面系统地介绍数据挖掘的概念、方法和技术以及技术研究进展,并重点关注近年来该领域重要和 新的课题——数据仓库和数据立方体技术,流数据挖掘,社会化网络挖掘,空间、多媒体和其他复杂数据挖掘。本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都的一本书。

作者简介


    JiaweiHan(韩家炜),是伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系的Bliss教授。他因知识发现和数据挖掘研究方面的贡献而获得许多奖励,包括ACMSIGKDD创新奖(2004)、IEEE计算机学会技术成就奖(2005)和IEEE W.WallaceMcDowell奖(2009)。他是ACM和IEEE会士。他还担任《ACM Transactions on KnowledgeDiscovery from Data》的执行主编(2006—2011)和许多杂志的编委,包括《IEEE Transactionson Knowledge and Data Engineering》和《Data Mining KnowledgeDiscovery》。

    MichelineKamber,由加拿大魁北克蒙特利尔Concordia大学获计算机科学(人工智能专业)硕士学位。她曾是NSERC学者,作为研究者在McGill大学、西蒙-弗雷泽大学和瑞士工作。她的数据挖掘背景和以易于理解的形式写作的热情使得本书更受专业人员、教师和学生的欢迎。

    Jian Pei(裴健),现在是西蒙-弗雷泽大学计算机科学学院教授。他在JiaweiHan的指导下,于2002年获西蒙-弗雷泽大学计算科学博士学位。他在数据挖掘、数据库、Web搜索和信息检索的主要学术论坛发表了大量文章,并积极服务于学术团体。他的文章被引用数千次,并获多次荣誉奖。他是多种数据挖掘和数据分析杂志的助理编辑。
 


目录
出版者的话
中文版序
译者序
译者简介
第3版序
第2版序
前言
致谢
作者简介
第1章 引论1
 1.1 为什么进行数据挖掘1
  1.1.1 迈向信息时代1
  1.1.2 数据挖掘是信息技术的进化2
 1.2 什么是数据挖掘4
 1.3 可以挖掘什么类型的数据6
  1.3.1 数据库数据6
  1.3.2 数据仓库7
  1.3.3 事务数据9
  1.3.4 其他类型的数据9
 1.4 可以挖掘什么类型的模式10
  1.4.1 类/概念描述:特征化与区分10
  1.4.2 挖掘频繁模式、关联和相关性11
  1.4.3 用于预测分析的分类与回归12
  1.4.4 聚类分析13
  1.4.5 离群点分析14
  1.4.6 所有模式都是有趣的吗14
 1.5 使用什么技术15
  1.5.1 统计学15
  1.5.2 机器学习16
  1.5.3 数据库系统与数据仓库17
  1.5.4 信息检索17
 1.6 面向什么类型的应用18
  1.6.1 商务智能18
  1.6.2 Web搜索引擎18
 1.7 数据挖掘的主要问题19
  1.7.1 挖掘方法19
  1.7.2 用户界面20
  1.7.3 有效性和可伸缩性21
  1.7.4 数据库类型的多样性21
  1.7.5 数据挖掘与社会21
 1.8 小结22
 1.9 习题23
 1.10 文献注释23
第2章 认识数据26
 2.1 数据对象与属性类型26
  2.1.1 什么是属性27
  2.1.2 标称属性27
  2.1.3 二元属性27
  2.1.4 序数属性28
  2.1.5 数值属性28
  2.1.6 离散属性与连续属性29
 2.2 数据的基本统计描述29
  2.2.1 中心趋势度量:均值、中位数和众数30
  2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差32
  2.2.3 数据的基本统计描述的图形显示34
 2.3 数据可视化37
  2.3.1 基于像素的可视化技术37
  2.3.2 几何投影可视化技术38
  2.3.3 基于图符的可视化技术40
  2.3.4 层次可视化技术42
  2.3.5 可视化复杂对象和关系42
 2.4 度量数据的相似性和相异性44
  2.4.1 数据矩阵与相异性矩阵45
  2.4.2 标称属性的邻近性度量46
  2.4.3 二元属性的邻近性度量46
  2.4.4 数值属性的相异性:闵可夫斯基距离48
  2.4.5 序数属性的邻近性度量49
  2.4.6 混合类型属性的相异性50
  2.4.7 余弦相似性51
 2.5 小结52
 2.6 习题53
 2.7 文献注释54
第3章 数据预处理55
 3.1 数据预处理:概述55
  3.1.1 数据质量:为什么要对数据预处理55
  3.1.2 数据预处理的主要任务56
 3.2 数据清理58
  3.2.1 缺失值58
  3.2.2 噪声数据59
  3.2.3 数据清理作为一个过程60
 3.3 数据集成61
  3.3.1 实体识别问题62
  3.3.2 冗余和相关分析62
  3.3.3 元组重复65
  3.3.4 数据值冲突的检测与处理65
 3.4 数据归约65
  3.4.1 数据归约策略概述66
  3.4.2 小波变换66
  3.4.3 主成分分析67
  3.4.4 属性子集选择68
  3.4.5 回归和对数线性模型:参数化数据归约69
  3.4.6 直方图70
  3.4.7 聚类71
  3.4.8 抽样71
  3.4.9 数据立方体聚集72
 3.5 数据变换与数据离散化73
  3.5.1 数据变换策略概述73
  3.5.2 通过规范化变换数据74
  3.5.3 通过分箱离散化76
  3.5.4 通过直方图分析离散化76
  3.5.5 通过聚类、决策树和相关分析离散化76
  3.5.6 标称数据的概念分层产生77
 3.6 小结79
 3.7 习题79
 3.8 文献注释80
第4章 数据仓库与联机分析处理82
 4.1 数据仓库:基本概念82
  4.1.1 什么是数据仓库82
  4.1.2 操作数据库系统与数据仓库的区别84
  4.1.3 为什么需要分离的数据仓库85
  4.1.4 数据仓库:一种多层体系结构85
  4.1.5 数据仓库模型:企业仓库、数据集市和虚拟仓库87
  4.1.6 数据提取、变换和装入88
  4.1.7 元数据库88
 4.2 数据仓库建模:数据立方体与OLAP89
  4.2.1 数据立方体:一种多维数据模型89
  4.2.2 星形、雪花形和事实星座:多维数据模型的模式91
  4.2.3 维:概念分层的作用94
  4.2.4 度量的分类和计算95
  4.2.5 典型的OLAP操作96
  4.2.6 查询多维数据库的星网查询模型98
 4.3 数据仓库的设计与使用99
  4.3.1 数据仓库的设计的商务分析框架99
  4.3.2 数据仓库的设计过程100
  4.3.3 数据仓库用于信息处理101
  4.3.4 从联机分析处理到多维数据挖掘102
 4.4 数据仓库的实现103
  4.4.1 数据立方体的有效计算:概述103
  4.4.2 索引OLAP数据:位图索引和连接索引105
  4.4.3 OLAP查询的有效处理107
  4.4.4 OLAP服务器结构:ROLAP、MOLAP、HOLAP的比较107
 4.5 数据泛化:面向属性的归纳109
  4.5.1 数据特征的面向属性的归纳109
  4.5.2 面向属性归纳的有效实现113
  4.5.3 类比较的面向属性归纳114
 4.6 小结116
 4.7 习题117
 4.8 文献注释119
第5章 数据立方体技术121
 5.1 数据立方体计算:基本概念121
  5.1.1 立方体物化:完全立方体、冰山立方体、闭立方体和立方体外壳122
  5.1.2 数据立方体计算的一般策略124
 5.2 数据立方体计算方法126
  5.2.1 完全立方体计算的多路数组聚集126
  5.2.2 BUC:从顶点方体向下计算冰山立方体129
  5.2.3 Star-Cubing:使用动态星树结构计算冰山立方体132
  5.2.4 为快速高维OLAP预计算壳片段136
 5.3 使用探索立方体技术处理高级查询141
  5.3.1 抽样立方体:样本数据上基于OLAP的挖掘141
  5.3.2 排序立方体:top-k查询的有效计算145
 5.4 数据立方体空间的多维数据分析147
  5.4.1 预测立方体:立方体空间的预测挖掘147
  5.4.2 多特征立方体:多粒度上的复杂聚集149
  5.4.3 基于异常的、发现驱动的立方体空间探查149
 5.5 小结152
 5.6 习题152
 5.7 文献注释155
第6章 挖掘频繁模式、关联和相关性:基本概念和方法157
 6.1 基本概念157
  6.1.1 购物篮分析:一个诱发例子157
  6.1.2 频繁项集、闭项集和关联规则158
 6.2 频繁项集挖掘方法160
  6.2.1 Apriori算法:通过限制候选产生发现频繁项集160
  6.2.2 由频繁项集产生关联规则164
  6.2.3 提高Apriori算法的效率165
  6.2.4 挖掘频繁项集的模式增长方法166
  6.2.5 使用垂直数据格式挖掘频繁项集169
  6.2.6 挖掘闭模式和极大模式170
 6.3 哪些模式是有趣的:模式评估方法171
  6.3.1 强规则不一定是有趣的172
  6.3.2 从关联分析到相关分析172
  6.3.3 模式评估度量比较173
 6.4 小结176
 6.5 习题177
 6.6 文献注释179
第7章 高级模式挖掘180
 7.1 模式挖掘:一个路线图180
 7.2 多层、多维空间中的模式挖掘182
  7.2.1 挖掘多层关联规则182
  7.2.2 挖掘多维关联规则185
  7.2.3 挖掘量化关联规则186
  7.2.4 挖掘稀有模式和负模式188
 7.3 基于约束的频繁模式挖掘190
  7.3.1 关联规则的元规则制导挖掘190
  7.3.2 基于约束的模式产生:模式空间剪枝和数据空间剪枝191
 7.4 挖掘高维数据和巨型模式195
 7.5 挖掘压缩或近似模式198
  7.5.1 通过模式聚类挖掘压缩模式199
  7.5.2 提取感知冗余的top-k模式200
 7.6 模式探索与应用202
  7.6.1 频繁模式的语义注解202
  7.6.2 模式挖掘的应用205
 7.7 小结206
 7.8 习题207
 7.9 文献注释208
第8章 分类:基本概念211
 8.1 基本概念211
  8.1.1 什么是分类211
  8.1.2 分类的一般方法211
 8.2 决策树归纳213
  8.2.1 决策树归纳214
  8.2.2 属性选择度量217
  8.2.3 树剪枝222
  8.2.4 可伸缩性与决策树归纳224
  8.2.5 决策树归纳的可视化挖掘225
 8.3 贝叶斯分类方法226
  8.3.1 贝叶斯定理227
  8.3.2 朴素贝叶斯分类227
 8.4 基于规则的分类230
  8.4.1 使用IF-THEN规则分类230
  8.4.2 由决策树提取规则231
  8.4.3 使用顺序覆盖算法的规则归纳232
 8.5 模型评估与选择236
  8.5.1 评估分类器性能的度量236
  8.5.2 保持方法和随机二次抽样240
  8.5.3 交叉验证240
  8.5.4 自助法241
  8.5.5 使用统计显著性检验选择模型241
  8.5.6 基于成本效益和ROC曲线比较分类器243
 8.6 提高分类准确率的技术245
  8.6.1 组合分类方法简介245
  8.6.2 装袋246
  8.6.3 提升和AdaBoost247
  8.6.4 随机森林249
  8.6.5 提高类不平衡数据的分类准确率250
 8.7 小结251
 8.8 习题251
 8.9 文献注释253
第9章 分类:高级方法255
 9.1 贝叶斯信念网络255
  9.1.1 概念和机制255
  9.1.2 训练贝叶斯信念网络257
 9.2 用后向传播分类258
  9.2.1 多层前馈神经网络258
  9.2.2 定义网络拓扑259
  9.2.3 后向传播260
  9.2.4 黑盒内部:后向传播和可解释性263
 9.3 支持向量机265
  9.3.1 数据线性可分的情况265
  9.3.2 数据非线性可分的情况268
 9.4 使用频繁模式分类270
  9.4.1 关联分类270
  9.4.2 基于有区别力的频繁模式分类272
 9.5 惰性学习法(或从近邻学习)275
  9.5.1 k- 近邻分类275
  9.5.2 基于案例的推理277
 9.6 其他分类方法277
  9.6.1 遗传算法277
  9.6.2 粗糙集方法278
  9.6.3 模糊集方法278
 9.7 关于分类的其他问题280
  9.7.1 多类分类280
  9.7.2 半监督分类281
  9.7.3 主动学习282
  9.7.4 迁移学习283
 9.8 小结284
 9.9 习题285
 9.10 文献注释286
第10章 聚类分析:基本概念和方法288
 10.1 聚类分析288
  10.1.1 什么是聚类分析288
  10.1.2 对聚类分析的要求289
  10.1.3 基本聚类方法概述291
 10.2 划分方法293
  10.2.1 k-均值:一种基于形心的技术293
  10.2.2 k-中心点:一种基于代表对象的技术295
 10.3 层次方法297
  10.3.1 凝聚的与分裂的层次聚类298
  10.3.2 算法方法的距离度量300
  10.3.3 BIRCH:使用聚类特征树的多阶段聚类301
  10.3.4 Chameleon:使用动态建模的多阶段层次聚类303
  10.3.5 概率层次聚类304
 10.4 基于密度的方法306
  10.4.1 DBSCAN:一种基于高密度连通区域的基于密度的聚类307
  10.4.2 OPTICS:通过点排序识别聚类结构309
  10.4.3 DENCLUE:基于密度分布函数的聚类311
 10.5 基于网格的方法312
  10.5.1 STING:统计信息网格312
  10.5.2 CLIQUE:一种类似于Apriori的子空间聚类方法314
 10.6 聚类评估315
  10.6.1 估计聚类趋势316
  10.6.2 确定簇数317
  10.6.3 测定聚类质量317
 10.7 小结319
 10.8 习题320
 10.9 文献注释321
第11章 高级聚类分析323
 11.1 基于概率模型的聚类323
  11.1.1 模糊簇324
  11.1.2

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP