数据挖掘原理9787302596493
正版图书,可开发票,请放心购买。
¥
58.15
4.9折
¥
118
全新
库存30件
作者[英]麦克斯·布拉默
出版社清华大学出版社有限公司
ISBN9787302596493
出版时间2021-11
装帧平装
开本16开
定价118元
货号11367576
上书时间2024-11-26
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
麦克斯·布拉默(Max Bramer),朴次茅斯大学信息技术系荣休教授、国际信息处理联合会(IFIP)副主席、英国计算机学会AI专家组主席。
自20世纪80年代以来,麦克斯教授一直积极参与“数据挖掘”领域的研究,该领域后来也被称为“数据库知识发现”和“大数据和预测分析”。麦克斯教授完成了多个数据挖掘项目,特别是关于数据自动分类的项目,并在技术文献中发表了大量文章。麦克斯教授拥有多年为本科生和研究生讲授“数据挖掘”这门课程的经验。
目录
目 录
第1章 数据挖掘简介 1
1.1 数据爆炸 1
1.2 知识发现 2
1.3 数据挖掘的应用 3
1.4 标签数据和无标签数据 4
1.5 监督学习:分类 4
1.6 监督学习:数值预测 6
1.7 无监督学习:关联规则 6
1.8 无监督学习:聚类 7
第2章 用于挖掘的数据 9
2.1 标准制定 9
2.2 变量的类型 10
2.3 数据准备 11
2.4 缺失值 13
2.4.1 丢弃实例 14
2.4.2 用最频繁值/平均值替换 14
2.5 减少属性个数 14
2.6 数据集的UCI存储库 15
2.7 本章小结 16
2.8 自我评估练习 16
第3章 分类简介:朴素贝叶斯和_x00B_最近邻算法 17
3.1 什么是分类 17
3.2 朴素贝叶斯分类器 18
3.3 最近邻分类 24
3.3.1 距离测量 26
3.3.2 标准化 28
3.3.3 处理分类属性 29
3.4 急切式和懒惰式学习 30
3.5 本章小结 30
3.6 自我评估练习 30
第4章 使用决策树进行分类 33
4.1 决策规则和决策树 33
4.1.1 决策树:高尔夫示例 33
4.1.2 术语 35
4.1.3 degrees数据集 35
4.2 TDIDT算法 38
4.3 推理的类型 40
4.4 本章小结 41
4.5 自我评估练习 41
第5章 决策树归纳:使用熵_x00B_进行属性选择 43
5.1 属性选择:一个实验 43
5.2 替代决策树 44
5.2.1 足球/无板篮球示例 44
5.2.2 匿名数据集 46
5.3 选择要分裂的属性:使用熵 48
5.3.1 lens24数据集 48
5.3.2 熵 49
5.3.3 使用熵进行属性选择 50
5.3.4 信息增益最大化 52
5.4 本章小结 53
5.5 自我评估练习 53
第6章 决策树归纳:使用频率表_x00B_进行属性选择 55
6.1 实践中的熵计算 55
6.1.1 等效性证明 57
6.1.2 关于零值的说明 58
6.2 其他属性选择标准:多样性_x00B_基尼指数 58
6.3 χ2属性选择准则 59
6.4 归纳偏好 62
6.5 使用增益比进行属性选择 63
6.5.1 分裂信息的属性 64
6.5.2 总结 65
6.6 不同属性选择标准生成的_x00B_规则数 65
6.7 缺失分支 66
6.8 本章小结 67
6.9 自我评估练习 67
第7章 估计分类器的预测精度 69
7.1 简介 69
7.2 方法1:将数据划分为_x00B_训练集和测试集 70
7.2.1 标准误差 70
7.2.2 重复训练和测试 71
7.3 方法2:k折交叉验证 72
7.4 方法3:N折交叉验证 72
7.5 实验结果I 73
7.6 实验结果II:包含缺失值的_x00B_数据集 75
7.6.1 策略1:丢弃实例 75
7.6.2 策略2:用最频繁值/_x00B_平均值替换 76
7.6.3 类别缺失 77
7.7 混淆矩阵 77
7.8 本章小结 79
7.9 自我评估练习 79
第8章 连续属性 81
8.1 简介 81
8.2 局部与全局离散化 83
8.3 向TDIDT添加局部离散化 83
8.3.1 计算一组伪属性的信息_x00B_增益 84
8.3.2 计算效率 88
8.4 使用ChiMerge算法进行_x00B_全局离散化 90
8.4.1 计算期望值和χ2 92
8.4.2 查找阈值 96
8.4.3 设置minIntervals和_x00B_maxIntervals 97
8.4.4 ChiMerge算法:总结 98
8.4.5 对ChiMerge算法的评述 98
8.5 比较树归纳法的全局离_x00B_散化和局部离散化 99
8.6 本章小结 100
8.7 自我评估练习 100
第9章 避免决策树的过度拟合 101
9.1 处理训练集中的冲突 101
9.2 关于过度拟合数据的更多_x00B_规则 105
9.3 预剪枝决策树 106
9.4 后剪枝决策树 108
9.5 本章小结 113
9.6 自我评估练习 113
第10章 关于熵的更多信息 115
10.1 简介 115
10.2 使用位的编码信息 118
10.3 区分M个值(M不是2_x00B_的幂) 119
10.4 对“非等可能”的值进行_x00B_编码 121
10.5 训练集的熵 123
10.6 信息增益必须为正数或0 124
10.7 使用信息增益简化分类_x00B_任务的特征 125
10.7.1 示例1:genetics_x00B_数据集 126
10.7.2 示例2:bcst96数据集 128
10.8 本章小结 130
10.9 自我评估练习 130
第11章 归纳分类的模块化规则 131
11.1 规则后剪枝 131
11.2 冲突解决 132
11.3 决策树的问题 135
11.4 Prism算法 137
11.4.1 基本Prism算法的_x00B_变化 143
11.4.2 将Prism算法与TDIDT_x00B_算法进行比较 144
11.5 本章小结 145
11.6 自我评估练习 145
第12章 度量分类器的性能 147
12.1 真假正例和真假负例 148
12.2 性能度量 149
12.3 真假正例率与预测精度 152
12.4 ROC图 153
12.5 ROC曲线 155
12.6 寻找最佳分类器 155
12.7 本章小结 157
12.8 自我评估练习 157
第13章 处理大量数据 159
13.1 简介 159
13.2 将数据分发到多个_x00B_处理器 161
13.3 案例研究:PMCRI 163
13.4 评估分布式系统PMCRI的_x00B_有效性 165
13.5 逐步修改分类器 169
13.6 本章小结 173
13.7 自我评估练习 173
第14章 集成分类 175
14.1 简介 175
14.2 估计分类器的性能 177
14.3 为每个分类器选择不同的_x00B_训练集 178
14.4 为每个分类器选择一组_x00B_不同的属性 179
14.5 组合分类:替代投票_x00B_系统 179
14.6 并行集成分类器 183
14.7 本章小结 183
14.8 自我评估练习 183
第15章 比较分类器 185
15.1 简介 185
15.2 配对t检验 186
15.3 为比较评估选择数据集 191
15.4 抽样 193
15.5 “无显著差异”的结果有多_x00B_糟糕 195
15.6 本章小结 196
15.7 自我评估练习 196
第16章 关联规则挖掘I 199
16.1 简介 199
16.2 规则兴趣度的衡量标准 200
16.2.1 Piatetsky-Shapiro标准_x00B_和RI度量 202
16.2.2 规则兴趣度度量_x00B_应用于chess数据集 204
16.2.3 使用规则兴趣度度量_x00B_解决冲突 206
16.3 关联规则挖掘任务 206
16.4 找到最佳N条规则 207
16.4.1 J-Measure:度量规则的_x00B_信息内容 207
16.4.2 搜索策略 209
16.5 本章小结 211
16.6 自我评估练习 211
第17章 关联规则挖掘II 213
17.1 简介 213
17.2 事务和项目集 213
17.3 对项目集的支持 215
17.4 关联规则 215
17.5 生成关联规则 217
17.6 Apriori 218
17.7 生成支持的项目集:一个_x00B_示例 221
17.8 为支持项目集生成规则 223
17.9 规则兴趣度度量:提升度_x00B_和杠杆率 224
17.10 本章小结 226
17.11 自我评估练习 227
第18章 关联规则挖掘III:_x00B_频繁模式树 229
18.1 简介:FP-growth 229
18.2 构造FP-tree 231
18.2.1 预处理事务数据库 231
18.2.2 初始化 233
18.2.3 处理事务1:f, c, a, _x00B_m, p 234
18.2.4 处理事务2:f, c, a, _x00B_b, m 235
18.2.5 处理事务3:f, b 239
18.2.6 处理事务4:c, b, p 240
18.2.7 处理事务5:f, c, a, _x00B_m, p 240
18.3 从FP-tree中查找频繁_x00B_项目集 242
18.3.1 以项目p结尾的_x00B_项目集 244
18.3.2 以项目m结尾的_x00B_项目集 252
18.4 本章小结 258
18.5 自我评估练习 258
第19章 聚类 259
19.1 简介 259
19.2 k-means聚类 261
19.2.1 示例 262
19.2.2 找到最佳簇集 266
19.3 凝聚式层次聚类 267
19.3.1 记录簇间距离 269
19.3.2 终止聚类过程 272
19.4 本章小结 272
19.5 自我评估练习 272
第20章 文本挖掘 273
20.1 多重分类 273
20.2 表示数据挖掘的文本_x00B_文档 274
20.3 停用词和词干 275
20.4 使用信息增益减少特征 276
20.5 表示文本文档:构建向_x00B_量空间模型 276
20.6 规范权重 277
20.7 测量两个向量之间的_x00B_距离 278
20.8 度量文本分类器的性能 279
20.9 超文本分类 280
20.9.1 对网页进行分类 280
20.9.2 超文本分类与文本_x00B_分类 281
20.10 本章小结 284
20.11 自我评估练习 284
第21章 分类流数据 285
21.1 简介 285
21.2 构建H-Tree:更新数组 287
21.2.1 currentAtts数组 287
21.2.2 splitAtt数组 288
21.2.3 将记录排序到适当的_x00B_叶节点 288
21.2.4 hitcount数组 289
21.2.5 classtotals数组 289
21.2.6 acvCounts阵列 289
21.2.7 branch数组 290
21.3 构建H-Tree:详细示例 291
21.3.1 步骤1:初始化根_x00B_节点0 291
21.3.2 步骤2:开始读取_x00B_记录 291
21.3.3 步骤3:考虑在节点0_x00B_处分裂 292
21.3.4 步骤4:在根节点上拆分_x00B_并初始化新的叶节点 293
21.3.5 步骤5:处理下一组_x00B_记录 295
21.3.6 步骤6:考虑在节点2_x00B_处分裂 296
21.3.7 步骤7:处理下一组_x00B_记录 296
21.3.8 H-Tree算法概述 297
21.4 分裂属性:使用信息_x00B_增益 299
21.5 分裂属性:使用Hoeffding_x00B_边界 301
21.6 H-Tree算法:最终版本 304
21.7 使用不断进化的H-Tree_x00B_进行预测 306
21.8 实验:H-Tree与TDIDT 308
21.8.1 lens24数据集 308
21.8.2 vote数据集 310
21.9 本章小结 311
21.10 自我评估练习 311
第22章 分类流数据II:时间_x00B_相关数据 313
22.1 平稳数据与时间相关_x00B_数据 313
22.2 H-Tree算法总结 315
22.2.1 currentAtts数组 316
22.2.2 splitAtt数组 316
22.2.3 hitcount数组 316
22.2.4 classtotals数组 316
22.2.5 acvCounts数组 317
22.2.6 branch数组 317
22.2.7 H-Tree算法的伪代码 317
22.3 从H-Tree到CDH-Tree:_x00B_概述 319
22.4 从H-Tree转换到CDH-Tree:_x00B_递增计数 319
22.5 滑动窗口方法 320
22.6 在节点处重新分裂 324
22.7 识别可疑节点 324
22.8 创建备用节点 326
22.9 成长/遗忘备用节点_x00B_及其后代 329
22.10 用备用节点替换一个_x00B_内部节点 331
22.11 实验:跟踪概念漂移 337
22.11.1 lens24数据:替代_x00B_模式 339
22.11.2 引入概念漂移 339
22.11.3 使用交替lens24_x00B_数据的实验 340
22.11.4 关于实验的评论 347
22.12 本章小结 347
22.13 自我评估练习 347
第23章 神经网络概论 349
23.1 简介 349
23.2 神经网络示例1 351
23.3 神经网络示例2 354
23.3.1 前向传播输入节点_x00B_的值 356
23.3.2 前向传播:公式汇总 361
23.4 反向传播 361
23.4.1 随机梯度下降 362
23.4.2 求梯度 363
23.4.3 从输出层倒推到_x00B_隐藏层 365
23.4.4 从隐藏层倒推到_x00B_输入层 367
23.4.5 更新权值 370
23.5 处理多实例训练集 372
23.6 使用神经网络进行分类:_x00B_iris数据集 372
23.7 使用神经网络进行分类:_x00B_seeds数据集 376
23.8 神经网络:注意事项 379
23.9 本章小结 380
23.10 自我评估练习 380
附录A 基本数学知识 381
附录B 数据集 395
附录C 更多信息来源 411
附录D 词汇表和符号 413
附录E 自我评估练习题答案 433
内容摘要
本书解释、探索了数据挖掘的主要技术,可以从数据中自动提取隐式和潜在有用的信息。数据挖掘越来越多地用于商业、科学和其他应用领域,它侧重于分类、关联规则挖掘和聚类。书中对每个主题都进行了清晰的解释,重点是算法而不是数学公式,并通过详细的有效示例加以说明。本书是为没有强数学或统计学背景的读者写的,并详细解释了使用的所有公式。本书适合作为本科生或研究生层次的教材,适用专业包括计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学。为了帮助读者自学,本书旨在帮助普通读者理解什么是“黑盒”,这样他们就可以有差别地使用商业数据挖掘包,不错读者或学术研究者可以对未来该领域的技术进步做出贡献。书中每一章都有实践练习,让读者检查自己的进度。附录还包括所使用的技术术语的完整术语表。数据挖掘原理包括对流数据分类算法的介绍,包括平稳数据(底层模型是固定的)和依赖时间的数据(底层模型不时变化)——这种现象称为概念漂移。本书提供了前馈神经网络与反向传播的详细描述,并显示它如何可以用于分类。
主编推荐
"《数据挖掘原理(第4版)》的重点是介绍基本技术,而不是展示当今近期新的数据挖掘技术。一旦掌握了基本技术,就可通过多种渠道了解该领域的近期新进展。本书共23章,分别介绍了概述、用于挖掘的数据、朴素贝叶斯和最近邻算法、使用决策树进行分类、决策树归纳、估计分类器的预测精度、连续属性、避免决策树的过度拟合、关于熵的更多信息、归纳分类的模块化规则、度量分类器的性能、处理大量数据、集成分类、比较分类器、关联规则挖掘、聚类、文本挖掘、分类流数据、神经网络。 《数据挖掘原理(第4版)》涉及大量数据集、属性和值,也涉及不少数学公式,字母繁多,格式复杂。为便于检查对所学知识的掌握情况,每章都包含自我评估练习。所以本书末尾还有5个附录,分别介绍了基本数学知识、数据集、更多信息来源、词汇表和符号、自我评估练习题答案。 《数据挖掘原理(第4版)》面向计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学专业的学生,可用作本科生或硕士研究生的入门教材。同时,对于那些希望进-一步提高自身能力的技术或管理人员来说,本书也是不错的自学书籍。 "
精彩内容
《数据挖掘原理(第4版)》解释、探索了数据挖掘的主要技术,可以从数据中自动提取隐式和潜在有用的信息。数据挖掘越来越多地用于商业、科学和其他应用领域,它侧重于分类、关联规则挖掘和聚类。
书中对每个主题都进行了清晰的解释,重点是算法而不是数学公式,并通过详细的有效示例加以说明。本书是为没有强数学或统计学背景的读者写的,并详细解释了使用的所有公式。
《数据挖掘原理(第4版)》适合作为本科生或研究生层次的教材,适用专业包括计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学。
为了帮助读者自学,本书旨在帮助普通读者理解什么是“黑盒”,这样他们就可以有差别地使用商业数据挖掘包,高级读者或学术研究者可以对未来该领域的技术进步做出贡献。
书中每一章都有实践练习,让读者检查自己的进度。附录还包括所使用的技术术语的完整术语表。
数据挖掘原理包括对流数据分类算法的介绍,包括平稳数据(底层模型是固定的)和依赖时间的数据(底层模型不时变化)——这种现象称为概念漂移。
《数据挖掘原理(第4版)》提供了前馈神经网络与反向传播的详细描述,并显示它如何可以用于分类。
媒体评论
《数据挖掘原理(第4版)》的重点是介绍基本技术,而不是展示当今最新的数据挖掘技术。一旦掌握了基本技术,就可通过多种渠道了解该领域的最新进展。本书共23章,分别介绍了概述、用于挖掘的数据、朴素贝叶斯和最近邻算法、使用决策树进行分类、决策树归纳、估计分类器的预测精度、连续属性、避免决策树的过度拟合、关于熵的更多信息、归纳分类的模块化规则、度量分类器的性能、处理大量数据、集成分类、比较分类器、关联规则挖掘、聚类、文本挖掘、分类流数据、神经网络。
《数据挖掘原理(第4版)》涉及大量数据集、属性和值,也涉及不少数学公式,字母繁多,格式复杂。为便于检查对所学知识的掌握情况,每章都包含自我评估练习。所以本书末尾还有5个附录,分别介绍了基本数学知识、数据
— 没有更多了 —
以下为对购买帮助不大的评价