消息首页搜索举报

数据挖掘导论（英文版·原书第2版）

正版内页干净

30 1.5折 199 九品

仅1件

河南商丘

认证卖家担保交易快速发货售后保障

作者[美]陈封能（Pang-Ning Tan）、迈克尔·斯坦巴赫(Michael、Stein 著

出版社机械工业出版社

出版时间2019-11

版次1

装帧平装

货号F—19

上书时间2024-06-19

彦彦书城

六年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 12小时
好评率暂无

最新上架

斯尔教育2021年注册会计师备考全攻略·审计《只做好题》 2021CPA教材 cpa ¥5.00

她们（国内高人气治愈系插画师你好好好菌个人画集；随书附赠：精美海报*1、珠光明信片*3、“食物女孩”贴纸*1） ¥20.00

中日图解山海经（详解日本彩卷76种山精海怪的神秘渊源，汇集明清800幅山海异兽神怪古图。一册神话、两国图解，重现中日两国对山海经的古典幻想） ¥20.00

山海经：百绘卷（130幅全新绝美板绘《山海经》震撼来袭！北大文学硕士精心译注！） ¥32.60

凤凰藏书票集:名家·名著·名票:2019—2021 ¥129.00

凤凰藏书票集:名家·名著·名票:2019—2021 ¥118.00

日本漆文化史 ¥25.00

借势 ¥10.00

图画书小史 ¥25.00

商品详情

品相描述：九品

图书标准信息

作者 [美]陈封能（Pang-Ning Tan）、迈克尔·斯坦巴赫(Michael、Stein 著
出版社机械工业出版社
出版时间 2019-11
版次 1
ISBN 9787111637882
定价 199.00元
装帧平装
开本 16开
纸张胶版纸
页数 836页

【内容简介】: 本书从算法的角度介绍数据挖掘所使用的主要原理与技术。为了更好地理解数据挖掘技术如何用于各种类型的数据，研究这些原理与技术是至关重要的。

本书所涵盖的主题包括：数据预处理、预测建模、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法，为读者提供将数据挖掘应用于实际问题所需的必要背景以及使用方法。
【作者简介】: 陈封能（Pang-Ning Tan）密歇根州立大学计算机科学与工程系教授，主要研究方向是数据挖掘、数据库系统、网络空间安全、网络分析等。
【目录】: 第1章　绪论 1

11　什么是数据挖掘 4

12　数据挖掘要解决的问题 5

13　数据挖掘的起源 7

14　数据挖掘任务 9

15　本书组织结构 13

16　文献注释 15

17　习题 21

第2章　数据 23

21　数据类型 26

211　属性与度量 27

212　数据集的类型 34

22　数据质量 42

221　测量和数据收集问题 42

222　关于应用的问题 49

23　数据预处理 50

231　聚集 51

232　抽样 52

233　维归约 56

234　特征子集选择 58

235　特征创建 61

236　离散化和二元化 63

237　变量变换 69

24　相似性和相异性的度量 71

241　基础 72

242　简单属性之间的相似度和相异度 74

243　数据对象之间的相异度 76

244　数据对象之间的相似度 78

245　邻近度度量的例子 79

246　互信息 88

* 247　核函数 90

* 248　Bregman散度 94

249　邻近度计算问题 96

2410　选择正确的邻近度度量 98

25　文献注释 100

26　习题 105

第3章　分类：基本概念和技术 113

31　基本概念 114

32　一般的分类框架 117

33　决策树分类器 119

331　构建决策树的基本算法 121

332　表示属性测试条件的方法 124

333　选择属性测试条件的方法 127

334　决策树归纳算法 136

335　示例：Web机器人检测 138

336　决策树分类器的特征 140

34　模型的过拟 147

35　模型选择 156

351　验证集应用 156

352　模型复杂度合并 157

353　统计范围估计 162

354　决策树的模型选择 162

36　模型评估 164

361　保持方法 165

362　交叉验证 165

37　超参数的使用 168

371　超参数选择 168

372　嵌套交叉验证 170

38　模型选择和评估中的陷阱 172

381　训练集和测试集之间的重叠 172

382　使用验证错误率作为泛化错误率

*39　模型比较 173

391　估计准确率的置信区间 174

392　比较两个模型的性能 175

310　文献注释 176

311　习题 185

第4章　分类：其他技术 193

41　分类器的种类 193

42　基于规则的分类器 195

421　基于规则的分类器原理 197

422　规则集的属性 198

423　规则提取的直接方法 199

424　规则提取的间接方法 204

425　基于规则的分类器的特点 206

43　最近邻分类器 208

431　算法 209

432　最近邻分类器的特点 210

44　朴素贝叶斯分类器 212

441　概率论基础 213

442　朴素贝叶斯假设 218

45　贝叶斯网络 227

451　图表示 227

452　推理与学习 233

453　贝叶斯网络的特点 242

46　logistic回归 243

461　logistic回归用作广义线性模型 244

462　学习模型参数 245

463　logistic回归模型的特点 248

47　人工神经网络 249

471　感知机 250

472　多层神经网络 254

473　人工神经网络的特点 261

48　深度学习 262

481　使用协同损失函数 263

482　使用响应激活函数 266

483　正则化 268

484　模型参数的初始化 271

485　深度学习的特点 275

49　支持向量机 276

491　分离超平面的边缘 276

492　线性SVM 278

493　软边缘SVM 284

494　非线性SVM 290

495　SVM的特点 294

410　组合方法 296

4101　组合方法的基本原理 297

4102　构建组合分类器的方法 297

4103　偏置–方差分解 300

4104　装袋 302

4105　提升 305

4106　随机森林 310

4107　组合方法的实验比较 312

411　类不平衡问题 313

4111　类不平衡的分类器构建 314

4112　带类不平衡的性能评估 318

4113　寻找最优的评分阈值 322

4114　综合评估性能 323

412　多类问题 330

413　文献注释 333

414　习题 345

第5章　关联分析：基本概念和算法 357

51　预备知识 358

52　频繁项集的产生 362

521　先验原理 363

522　Apriori算法的频繁项集产生 364

523　候选项集的产生与剪枝 368

524　支持度计数 373

525　计算复杂度 377

53　规则的产生 380

531　基于置信度的剪枝 380

532　Apriori算法中规则的产生 381

533　示例：美国国会投票记录 382

54　频繁项集的紧凑表示 384

541　极大频繁项集 384

542　闭项集 386

*55　其他产生频繁项集的方法 389

*56　FP增长算法 393

561　FP树表示法 394

562　FP增长算法的频繁项集产生 397

57　关联模式的评估 401

571　兴趣度的客观度量 402

572　多个二元变量的度量 414

573　辛普森悖论 416

58　倾斜支持度分布的影响 418

59　文献注释 424

510　习题 438

第6章　关联分析：高级概念 451

61　处理分类属性 451

62　处理连续属性 454

621　基于离散化的方法 454

622　基于统计学的方法 458

623　非离散化方法 460

63　处理概念分层 462

64　序列模式 464

641　预备知识 465

642　序列模式发现 468

* 643　时限约束 473

* 644　可选计数方案 477

65　子图模式 479

651　预备知识 480

652　频繁子图挖掘 483

653　候选生成 487

654　候选剪枝 493

655　支持度计数 493

*66　非频繁模式 493

661　负模式 494

662　负相关模式 495

663　非频繁模式、负模式和负相关模式比较 496

664　挖掘有趣的非频繁模式的技术 498

665　基于挖掘负模式的技术 499

666　基于支持度期望的技术 501

67　文献注释 505

68　习题 510

第7章　聚类分析：基本概念和算法 525

71　概述 528

711　什么是聚类分析 528

712　聚类的不同类型 529

713　簇的不同类型 531

72　K均值 534

721　K均值算法 535

722　K均值：附加的问题 544

723　二分K均值 547

724　K均值和不同的簇类型 548

725　优点与缺点 549

726　K均值作为优化问题 549

73　凝聚层次聚类 554

731　基本凝聚层次聚类算法 555

732　特殊技术 557

733　簇邻近度的Lance-Williams公式 562

734　层次聚类的主要问题 563

735　离群点 564

736　优点与缺点 565

74　DBSCAN 565

741　传统的密度：基于中心的方法 565

742　DBSCAN算法 567

743　优点与缺点 569

75　簇评估 571

751　概述 571

752　无监督簇评估：使用凝聚度和分离度 574

753　无监督簇评估：使用邻近度矩阵 582

754　层次聚类的无监督评估 585

755　确定正确的簇个数 587

756　聚类趋势 588

757　簇有效性的监督度量 589

758　评估簇有效性度量的显著性 594

759　簇有效性度量的选择 596

76　文献注释 597

77　习题 603

第8章　聚类分析：其他问题与算法 613

81　数据、簇和聚类算法的特性 614

811　示例：比较K均值和DBSCAN 614

812　数据特性 615

813　簇特性 617

814　聚类算法的一般特性 619

82　基于原型的聚类 621

821　模糊聚类 621

822　使用混合模型的聚类 627

823　自组织映射 637

83　基于密度的聚类 644

831　基于网格的聚类 644

832　子空间聚类 648

833　DENCLUE：基于密度聚类的一种基于核的方案 652

84　基于图的聚类 656

841　稀疏化 657

842　最小生成树聚类 658

843　OPOSSUM：使用METIS的稀疏相似度最优划分 659

844　Chameleon：使用动态建模的层次聚类 660

845　谱聚类 666

846　共享最近邻相似度 673

847　Jarvis-Patrick聚类算法 676

848　SNN密度 678

849　基于SNN密度的聚类 679

85　可伸缩的聚类算法 681

851　可伸缩：一般问题和方法 681

852　BIRCH 684

853　CURE 686

86　使用哪种聚类算法 690

87　文献注释 693

88　习题 699

第9章　异常检测 703

91　异常检测问题的特性 705

911　异常的定义 705

912　数据的性质 706

913　如何使用异常检测 707

92　异常检测方法的特性 708

93　统计方法 710

931　使用参数模型 710

932　使用非参数模型 714

933　对正常类和异常类建模 715

934　评估统计意义 717

935　优点与缺点 718

94　基于邻近度的方法 719

941　基于距离的异常分数 719

942　基于密度的异常分数 720

943　基于相对密度的异常分数 722

944　优点与缺点 723

95　基于聚类的方法 724

951　发现异常簇 724

952　发现异常实例 725

953　优点与缺点 728

96　基于重构的方法 728

97　单类分类 732

971　核函数的使用 733

972　原点技巧 734

973　优点与缺点 738

98　信息论方法 738

99　异常检测评估 740

910　文献注释 742

911　习题 749

第10章　避免错误发现 755

101　预备知识：统计检验 756

1011　显著性检验 756

1012　假设检验 761

1013　多重假设检验 767

1014　统计检验中的陷阱 776

102　对零分布和替代分布建模 778

1021　生成合成数据集 781

1022　随机化类标 782

1023　实例重采样 782

1024　对检验统计量的分布建模 783

103　分类问题的统计检验 783

1031　评估分类性能 783

1032　以多重假设检验处理二分类问题 785

1033　模型选择中的多重假设检验 786

104　关联分析的统计检验 787

1041　使用统计模型 788

1042　使用随机化方法 794

105　聚类分析的统计检验 795

1051　为内部指标生成零分布 796

1052　为外部指标生成零分布 798

1053　富集 798

106　异常检测的统计检验 800

107　文献注释 803

108　习题 808

Contents

1 Introduction 1

11 What Is Data Mining? 4

12 Motivating Challenges 5

13 The Origins of Data Mining 7

14 Data Mining Tasks 9

15 Scope and Organization of the Book 13

16 Bibliographic Notes 15

17 Exercises 21

2 Data 23

21 Types of Data 26

211 Attributes and Measurement 27

212 Types of Data Sets 34

22 Data Quality 42

221 Measurement and Data Collection Issues 42

222 Issues Related to Applications 49

23 Data Preprocessing 50

231 Aggregation 51

232 Sampling 52

233 Dimensionality Reduction 56

点击展开点击收起

— 没有更多了 —