• 数据挖掘导论(英文版·原书第2版)
  • 数据挖掘导论(英文版·原书第2版)
  • 数据挖掘导论(英文版·原书第2版)
21年品牌 40万+商家 超1.5亿件商品

数据挖掘导论(英文版·原书第2版)

正版内页干净

30 1.5折 199 九品

仅1件

河南商丘
认证卖家担保交易快速发货售后保障

作者[美]陈封能(Pang-Ning Tan)、迈克尔·斯坦巴赫(Michael、Stein 著

出版社机械工业出版社

出版时间2019-11

版次1

装帧平装

货号F—19

上书时间2024-06-19

彦彦书城

六年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 [美]陈封能(Pang-Ning Tan)、迈克尔·斯坦巴赫(Michael、Stein 著
  • 出版社 机械工业出版社
  • 出版时间 2019-11
  • 版次 1
  • ISBN 9787111637882
  • 定价 199.00元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 836页
【内容简介】
本书从算法的角度介绍数据挖掘所使用的主要原理与技术。为了更好地理解数据挖掘技术如何用于各种类型的数据,研究这些原理与技术是至关重要的。 

本书所涵盖的主题包括:数据预处理、预测建模、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法,为读者提供将数据挖掘应用于实际问题所需的必要背景以及使用方法。
【作者简介】
陈封能(Pang-Ning Tan) 密歇根州立大学计算机科学与工程系教授,主要研究方向是数据挖掘、数据库系统、网络空间安全、网络分析等。
【目录】
第1章 绪论 1 

11 什么是数据挖掘 4 

12 数据挖掘要解决的问题 5 

13 数据挖掘的起源 7 

14 数据挖掘任务 9 

15 本书组织结构 13 

16 文献注释 15 

17 习题 21 

第2章 数据 23 

21 数据类型 26 

211 属性与度量 27 

212 数据集的类型 34 

22 数据质量 42 

221 测量和数据收集问题 42 

222 关于应用的问题 49 

23 数据预处理 50 

231 聚集 51 

232 抽样 52 

233 维归约 56 

234 特征子集选择 58 

235 特征创建 61 

236 离散化和二元化 63 

237 变量变换 69 

24 相似性和相异性的度量 71 

241 基础 72 

242 简单属性之间的相似度和相异度 74 

243 数据对象之间的相异度 76 

244 数据对象之间的相似度 78 

245 邻近度度量的例子 79 

246 互信息 88 

* 247 核函数 90 

* 248 Bregman散度 94 

249 邻近度计算问题 96 

2410 选择正确的邻近度度量 98 

25 文献注释 100 

26 习题 105 

第3章 分类:基本概念和技术 113 

31 基本概念 114 

32 一般的分类框架 117 

33 决策树分类器 119 

331 构建决策树的基本算法 121 

332 表示属性测试条件的方法 124 

333 选择属性测试条件的方法 127 

334 决策树归纳算法 136 

335 示例:Web机器人检测 138 

336 决策树分类器的特征 140 

34 模型的过拟 147 

35 模型选择 156 

351 验证集应用 156 

352 模型复杂度合并 157 

353 统计范围估计 162 

354 决策树的模型选择 162 

36 模型评估 164 

361 保持方法 165 

362 交叉验证 165 

37 超参数的使用 168 

371 超参数选择 168 

372 嵌套交叉验证 170 

38 模型选择和评估中的陷阱 172 

381 训练集和测试集之间的重叠 172 

382 使用验证错误率作为泛化错误率 

*39 模型比较 173 

391 估计准确率的置信区间 174 

392 比较两个模型的性能 175 

310 文献注释 176 

311 习题 185 

第4章 分类:其他技术 193 

41 分类器的种类 193 

42 基于规则的分类器 195 

421 基于规则的分类器原理 197 

422 规则集的属性 198 

423 规则提取的直接方法 199 

424 规则提取的间接方法 204 

425 基于规则的分类器的特点 206 

43 最近邻分类器 208 

431 算法 209 

432 最近邻分类器的特点 210 

44 朴素贝叶斯分类器 212 

441 概率论基础 213 

442 朴素贝叶斯假设 218 

45 贝叶斯网络 227 

451 图表示 227 

452 推理与学习 233 

453 贝叶斯网络的特点 242 

46 logistic回归 243 

461 logistic回归用作广义线性模型 244 

462 学习模型参数 245 

463 logistic回归模型的特点 248 

47 人工神经网络 249 

471 感知机 250 

472 多层神经网络 254 

473 人工神经网络的特点 261 

48 深度学习 262 

481 使用协同损失函数 263 

482 使用响应激活函数 266 

483 正则化 268 

484 模型参数的初始化 271 

485 深度学习的特点 275 

49 支持向量机 276 

491 分离超平面的边缘 276 

492 线性SVM 278 

493 软边缘SVM 284 

494 非线性SVM 290 

495 SVM的特点 294 

410 组合方法 296 

4101 组合方法的基本原理 297 

4102 构建组合分类器的方法 297 

4103 偏置–方差分解 300 

4104 装袋 302 

4105 提升 305 

4106 随机森林 310 

4107 组合方法的实验比较 312 

411 类不平衡问题 313 

4111 类不平衡的分类器构建 314 

4112 带类不平衡的性能评估 318 

4113 寻找最优的评分阈值 322 

4114 综合评估性能 323 

412 多类问题 330 

413 文献注释 333 

414 习题 345 

第5章 关联分析:基本概念和算法 357 

51 预备知识 358 

52 频繁项集的产生 362 

521 先验原理 363 

522 Apriori算法的频繁项集产生 364 

523 候选项集的产生与剪枝 368 

524 支持度计数 373 

525 计算复杂度 377 

53 规则的产生 380 

531 基于置信度的剪枝 380 

532 Apriori算法中规则的产生 381 

533 示例:美国国会投票记录 382 

54 频繁项集的紧凑表示 384 

541 极大频繁项集 384 

542 闭项集 386 

*55 其他产生频繁项集的方法 389 

*56 FP增长算法 393 

561 FP树表示法 394 

562 FP增长算法的频繁项集产生 397 

57 关联模式的评估 401 

571 兴趣度的客观度量 402 

572 多个二元变量的度量 414 

573 辛普森悖论 416 

58 倾斜支持度分布的影响 418 

59 文献注释 424 

510 习题 438 

第6章 关联分析:高级概念 451 

61 处理分类属性 451 

62 处理连续属性 454 

621 基于离散化的方法 454 

622 基于统计学的方法 458 

623 非离散化方法 460 

63 处理概念分层 462 

64 序列模式 464 

641 预备知识 465 

642 序列模式发现 468 

* 643 时限约束 473 

* 644 可选计数方案 477 

65 子图模式 479 

651 预备知识 480 

652 频繁子图挖掘 483 

653 候选生成 487 

654 候选剪枝 493 

655 支持度计数 493 

*66 非频繁模式 493 

661 负模式 494 

662 负相关模式 495 

663 非频繁模式、负模式和负相关模式比较 496 

664 挖掘有趣的非频繁模式的技术 498 

665 基于挖掘负模式的技术 499 

666 基于支持度期望的技术 501 

67 文献注释 505 

68 习题 510 

第7章 聚类分析:基本概念和算法 525 

71 概述 528 

711 什么是聚类分析 528 

712 聚类的不同类型 529 

713 簇的不同类型 531 

72 K均值 534 

721 K均值算法 535 

722 K均值:附加的问题 544 

723 二分K均值 547 

724 K均值和不同的簇类型 548 

725 优点与缺点 549 

726 K均值作为优化问题 549 

73 凝聚层次聚类 554 

731 基本凝聚层次聚类算法 555 

732 特殊技术 557 

733 簇邻近度的Lance-Williams公式 562 

734 层次聚类的主要问题 563 

735 离群点 564 

736 优点与缺点 565 

74 DBSCAN 565 

741 传统的密度:基于中心的方法 565 

742 DBSCAN算法 567 

743 优点与缺点 569 

75 簇评估 571 

751 概述 571 

752 无监督簇评估:使用凝聚度和分离度 574 

753 无监督簇评估:使用邻近度矩阵 582 

754 层次聚类的无监督评估 585 

755 确定正确的簇个数 587 

756 聚类趋势 588 

757 簇有效性的监督度量 589 

758 评估簇有效性度量的显著性 594 

759 簇有效性度量的选择 596 

76 文献注释 597 

77 习题 603 

第8章 聚类分析:其他问题与算法 613 

81 数据、簇和聚类算法的特性 614 

811 示例:比较K均值和DBSCAN 614 

812 数据特性 615 

813 簇特性 617 

814 聚类算法的一般特性 619 

82 基于原型的聚类 621 

821 模糊聚类 621 

822 使用混合模型的聚类 627 

823 自组织映射 637 

83 基于密度的聚类 644 

831 基于网格的聚类 644 

832 子空间聚类 648 

833 DENCLUE:基于密度聚类的一种基于核的方案 652 

84 基于图的聚类 656 

841 稀疏化 657 

842 最小生成树聚类 658 

843 OPOSSUM:使用METIS的稀疏相似度最优划分 659 

844 Chameleon:使用动态建模的层次聚类 660 

845 谱聚类 666 

846 共享最近邻相似度 673 

847 Jarvis-Patrick聚类算法 676 

848 SNN密度 678 

849 基于SNN密度的聚类 679 

85 可伸缩的聚类算法 681 

851 可伸缩:一般问题和方法 681 

852 BIRCH 684 

853 CURE 686 

86 使用哪种聚类算法 690 

87 文献注释 693 

88 习题 699 

第9章 异常检测 703 

91 异常检测问题的特性 705 

911 异常的定义 705 

912 数据的性质 706 

913 如何使用异常检测 707 

92 异常检测方法的特性 708 

93 统计方法 710 

931 使用参数模型 710 

932 使用非参数模型 714 

933 对正常类和异常类建模 715 

934 评估统计意义 717 

935 优点与缺点 718 

94 基于邻近度的方法 719 

941 基于距离的异常分数 719 

942 基于密度的异常分数 720 

943 基于相对密度的异常分数 722 

944 优点与缺点 723 

95 基于聚类的方法 724 

951 发现异常簇 724 

952 发现异常实例 725 

953 优点与缺点 728 

96 基于重构的方法 728 

97 单类分类 732 

971 核函数的使用 733 

972 原点技巧 734 

973 优点与缺点 738 

98 信息论方法 738 

99 异常检测评估 740 

910 文献注释 742 

911 习题 749 

第10章 避免错误发现 755 

101 预备知识:统计检验 756 

1011 显著性检验 756 

1012 假设检验 761 

1013 多重假设检验 767 

1014 统计检验中的陷阱 776 

102 对零分布和替代分布建模 778 

1021 生成合成数据集 781 

1022 随机化类标 782 

1023 实例重采样 782 

1024 对检验统计量的分布建模 783 

103 分类问题的统计检验 783 

1031 评估分类性能 783 

1032 以多重假设检 验处理二分类问题 785 

1033 模型选择中的多重假设检验 786 

104 关联分析的统计检验 787 

1041 使用统计模型 788 

1042 使用随机化方法 794 

105 聚类分析的统计检验 795 

1051 为内部指标生成零分布 796 

1052 为外部指标生成零分布 798 

1053 富集 798 

106 异常检测的统计检验 800 

107 文献注释 803 

108 习题 808 

Contents 

1 Introduction 1 

11 What Is Data Mining? 4 

12 Motivating Challenges 5 

13 The Origins of Data Mining 7 

14 Data Mining Tasks 9 

15 Scope and Organization of the Book 13 

16 Bibliographic Notes 15 

17 Exercises 21 

2 Data 23 

21 Types of Data 26 

211 Attributes and Measurement 27 

212 Types of Data Sets 34 

22 Data Quality 42 

221 Measurement and Data Collection Issues 42 

222 Issues Related to Applications 49 

23 Data Preprocessing 50 

231 Aggregation 51 

232 Sampling 52 

233 Dimensionality Reduction 56
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP