消息首页搜索举报

图书条目标准图

数据挖掘导论全面介绍了数据挖掘的理论和方法，旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论（完整版）》涵盖五个主题：数据、分类、关联分析、聚类和异常检测。除异常检测外，每个主题都包含两章：前面一章讲述基本概念、代表性算法和评估技术，后面一章较深入地讨论高级概念和算法。目的是使读者在透彻地理解数据挖掘基础的同时，还能了解更多重要的高级主题。此外，书中还提供了大量示例、图表和习题

《数据挖掘导论（完整版）》适合作为相关专业高年级本科生和研究生数据挖掘课程的教材，同时也可作为数据挖掘研究和应用开发人员的参考书。

68 9.9折 69 八五品

库存3件

山东青岛

认证卖家担保交易快速发货售后保障

作者陈封能、斯坦巴赫、库玛尔著；范明、范宏建译

出版社人民邮电出版社

出版时间2011-01

版次2

装帧平装

上书时间2021-09-27

文友旧书店

十七年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 14小时
好评率暂无

店主推荐
最新上架

尔雅新义【三册全】（宋）陆佃/撰丛书集成初编//据粤雅堂从书本影印..民国26年6月初版 ¥580.00

《铸雪斋抄本聊斋志异》【据木刻本影印】上中下全 ¥388.00

中医：修圆医书四十八种云素集注节（卷.五.六.七.八.九.十.十一.十二卷）线装本 ¥680.00

<初学论说指南>全四卷有精美木刻版画民国6年订正上海广益书局木版写刻本 ¥980.00

四部丛刊续编子部：桯史【线装全三册】元刊本影印民国影印 ¥1880.00

毛泽东思想胜利万岁英汉对照 663页 ¥888.00

INTERMEDIATE COMPOSITION 清朝英语作文教科书：华英翻译捷诀（清）文科进士邝富灼编纂清宣统2年12月初版 ¥1800.00

线装石刻丛书《宝刻类编》[宋]佚名撰 4册8卷全 ¥4580.00

线装石刻丛书《石墨镌华》（明）赵崡撰 8卷两册全 ¥3000.00

南京大屠杀1937年12月13日，日本侵略者攻破南京，制造了惨绝人寰的大屠杀。进城的日军，以其占领者的优越感，在随后的几个星期里，残暴地屠杀了已经放下武器的中国守城官兵和普通市民达30余万人，在中国人心头和中华民族史上留下了一段永远难以愈合的伤痛…… 作者饱蘸国人的血泪，文笔大气磅礴，以详尽的事实和一手资料以及诸多不为人知的历史真相震撼着读者，以犀利的拷问促使今天的读者深刻反思南京大屠杀的历史， ¥98.00

道教神仙信仰/全国道教学院统编教材道教神仙信仰是中国信仰文化中较为独特的一支，信仰神仙是道教的根本，也是道教的核心内容，由此衍生了道教的基本信仰和教义。这一信仰根植于中华大地的土壤，与中国传统的神仙信仰息息相关，彼此推演前进，相互丰富内涵，共同促进了道教的生存与发展。因此要了解道教的神仙信仰，还得从中国传统的神仙信仰谈起，也就是要看到道教神仙信仰的活水源头。 ¥198.00

(ZZ)道璨全集校注《道璨全集校注》主要内容包括：徐竹堂园亭三题、仙巢海棠洞、野水横舟、月窟、迎汤先生晦静、寄知侍者无阗、题善住阁、湘南渊上人求雪坡诗、和金山昙书记韵寄仟弁山、送黄提干松冈、潜上人求菊山、题水墨草虫、过桃花寺怀东叟等。 ¥180.00

影响中国历史100事件:珍藏版本书精选出并详细解读与深入剖析影响中国历史的一百个事件，以让读者通过故事从历史的玄机中找到思考的方法和生存的智慧。 ¥58.00

珍本医籍丛刊：喻选古方试验一书为清道光十八年戊戌喻嘉言选辑，王光杏录。刊于1838年，是作者选录《本草纲目》中的附方，预以分类编辑而成，是一部综合性医学方药著作。全书共分四卷。卷一合药分剂法则、服药、宜忌及通治方。后三卷每卷之下又分门别类，囊括了内、外、儿、妇产、男科、耳、鼻、咽、喉、口腔、皮、骨伤、痘疹、传染病、虫兽伤、中毒、炼服等各科主治与方剂。选方既有传统古方，又有大量民间单方、验方、偏方等 ¥98.00

文学双月刊柳泉1983.6报告文学：追春王寿成中篇小说：品字小院高禄堂小河上的灯影尹世林古战场上的珍奇小说：逝去的年代安林金妹李德芹奇人趣事符加雷关于当前文艺形势的一些思考冯牧 ¥45.00

心经诀隐：总集：佛法修证心要丛书本书集中对修证方法，悟心要领，特别对悟后用功，保任、除习，都有详尽开示，体现了老人慈悲恳切的作风与广利有情的悲愿。此书的出版，可称为《佛法修证心要》的姊妹篇。老人所说，都是对机施教，应病与药，善巧方便，指示学人。希望读此书的人勿执文字，勿落言诠，举一反三解粘去缚，直趋菩提。 ¥198.00

花样年画－三山会馆年画藏品鉴赏与研究序年画与上海的历史渊源三山会馆与年画馆藏年画欣赏附录年画的种类与体裁 ¥98.00

历代小楷精选《历代小楷精选》讲述了楷书在我国书法史上占有十分重要的地位，不仅关系着书法艺术的发展过程，同时还承载着延续中国文明的功能。小楷是相对于中楷、大楷而言的，是楷书艺术中一种既独立存在，又与其他书体紧密相联的艺术表现形式。 ¥58.00

商品详情

品相描述：八五品

图书标准信息

作者陈封能、斯坦巴赫、库玛尔著；范明、范宏建译
出版社人民邮电出版社
出版时间 2011-01
版次 2
ISBN 9787115241009
定价 69.00元
装帧平装
开本 16开
纸张胶版纸
页数 463页
字数 787千字
正文语种简体中文
原版书名 Introduction to Data Mining
丛书图灵计算机科学丛书

【内容简介】

　　《数据挖掘导论（完整版）》全面介绍了数据挖掘的理论和方法，旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论（完整版）》涵盖五个主题：数据、分类、关联分析、聚类和异常检测。除异常检测外，每个主题都包含两章：前面一章讲述基本概念、代表性算法和评估技术，后面一章较深入地讨论高级概念和算法。目的是使读者在透彻地理解数据挖掘基础的同时，还能了解更多重要的高级主题。此外，书中还提供了大量示例、图表和习题。

　　《数据挖掘导论（完整版）》适合作为相关专业高年级本科生和研究生数据挖掘课程的教材，同时也可作为数据挖掘研究和应用开发人员的参考书。

【作者简介】

陈封能（Pang-NingTan）现为密歇根州立大学计算机与工程系助理教授，主要教授数据挖掘、数据库系统等课程。此前，他曾是明尼苏达大学美国陆军高性能计算研究中心副研究员（2002-2003）。　　斯坦巴赫（MichaelSteinbach）明尼苏达大学计算机与工程系研究员，在读博士。　　库玛尔（VipinKumar）明尼苏达大学计算机科学与工程系主任，曾任美国陆军高性能计算研究中心主任。他拥有马里兰大学博士学位，是数据挖掘和高性能计算方面的专家，IEEE会士。

范明，郑州大学信息工程学院教授，中国计算机学会数据库专业委员会委员、人工智能与模式识别专业委员会委员，长期从事计算机软件与理论教学和研究。先后发表论史40余篇。　　范宏建澳大利亚墨尔本大学计算机科学博士。先后在WWW、PAKDD、RSFDGrC、IEEEGrC和AustralianAI等国际学术会议和IEEETransactionsonKnowledgeandDataEngineering发表论文10余篇。目前是澳大利亚AUSTRAC的高级分析师。

【目录】

第1章　绪论　1

1.1　什么是数据挖掘　2

1.2　数据挖掘要解决的问题　2

1.3　数据挖掘的起源　3

1.4　数据挖掘任务　4

1.5　本书的内容与组织　7

文献注释　7

参考文献　8

习题　10

第2章　数据　13

2.1　数据类型　14

2.1.1　属性与度量　15

2.1.2　数据集的类型　18

2.2　数据质量　22

2.2.1　测量和数据收集问题　22

2.2.2　关于应用的问题　26

2.3　数据预处理　27

2.3.1　聚集　27

2.3.2　抽样　28

2.3.3　维归约　30

2.3.4　特征子集选择　31

2.3.5　特征创建　33

2.3.6　离散化和二元化　34

2.3.7　变量变换　38

2.4　相似性和相异性的度量　38

2.4.1　基础　39

2.4.2　简单属性之间的相似度和相异度　40

2.4.3　数据对象之间的相异度　41

2.4.4　数据对象之间的相似度　43

2.4.5　邻近性度量的例子　43

2.4.6　邻近度计算问题　48

2.4.7　选取正确的邻近性度量　50

文献注释　50

参考文献　52

习题　53

第3章　探索数据　59

3.1　鸢尾花数据集　59

3.2　汇总统计　60

3.2.1　频率和众数　60

3.2.2　百分位数　61

3.2.3　位置度量：均值和中位数　61

3.2.4　散布度量：极差和方差　62

3.2.5　多元汇总统计　63

3.2.6　汇总数据的其他方法　64

3.3　可视化　64

3.3.1　可视化的动机　64

3.3.2　一般概念　65

3.3.3　技术　67

3.3.4　可视化高维数据　75

3.3.5　注意事项　79

3.4　OLAP和多维数据分析　79

3.4.1　用多维数组表示鸢尾花数据　80

3.4.2　多维数据：一般情况　81

3.4.3　分析多维数据　82

3.4.4　关于多维数据分析的最后评述　84

文献注释　84

参考文献　85

习题　86

第4章　分类：基本概念、决策树与模型评估　89

4.1　预备知识　89

4.2　解决分类问题的一般方法　90

4.3　决策树归纳　92

4.3.1　决策树的工作原理　92

4.3.2　如何建立决策树　93

4.3.3　表示属性测试条件的方法　95

4.3.4　选择最佳划分的度量　96

4.3.5　决策树归纳算法　101

4.3.6　例子：Web机器人检测　102

4.3.7　决策树归纳的特点　103

4.4　模型的过分拟合　106

4.4.1　噪声导致的过分拟合　107

4.4.2　缺乏代表性样本导致的过分拟合　109

4.4.3　过分拟合与多重比较过程　109

4.4.4　泛化误差估计　110

4.4.5　处理决策树归纳中的过分拟合　113

4.5　评估分类器的性能　114

4.5.1　保持方法　114

4.5.2　随机二次抽样　115

4.5.3　交叉验证　115

4.5.4　自助法　115

4.6　比较分类器的方法　116

4.6.1　估计准确度的置信区间　116

4.6.2　比较两个模型的性能　117

4.6.3　比较两种分类法的性能　118

文献注释　118

参考文献　120

习题　122

第5章　分类：其他技术　127

5.1　基于规则的分类器　127

5.1.1　基于规则的分类器的工作原理　128

5.1.2　规则的排序方案　129

5.1.3　如何建立基于规则的分类器　130

5.1.4　规则提取的直接方法　130

5.1.5　规则提取的间接方法　135

5.1.6　基于规则的分类器的特征　136

5.2　最近邻分类器　137

5.2.1　算法　138

5.2.2　最近邻分类器的特征　138

5.3　贝叶斯分类器　139

5.3.1　贝叶斯定理　139

5.3.2　贝叶斯定理在分类中的应用　140

5.3.3　朴素贝叶斯分类器　141

5.3.4　贝叶斯误差率　145

5.3.5　贝叶斯信念网络　147

5.4　人工神经网络　150

5.4.1　感知器　151

5.4.2　多层人工神经网络　153

5.4.3　人工神经网络的特点　155

5.5　支持向量机　156

5.5.1　最大边缘超平面　156

5.5.2　线性支持向量机：可分情况　157

5.5.3　线性支持向量机：不可分情况　162

5.5.4　非线性支持向量机　164

5.5.5　支持向量机的特征　168

5.6　组合方法　168

5.6.1　组合方法的基本原理　168

5.6.2　构建组合分类器的方法　169

5.6.3　偏倚-方差分解　171

5.6.4　装袋　173

5.6.5　提升　175

5.6.6　随机森林　178

5.6.7　组合方法的实验比较　179

5.7　不平衡类问题　180

5.7.1　可选度量　180

5.7.2　接受者操作特征曲线　182

5.7.3　代价敏感学习　184

5.7.4　基于抽样的方法　186

5.8　多类问题　187

文献注释　189

参考文献　190

习题　193

第6章　关联分析：基本概念和算法　201

6.1　问题定义　202

6.2　频繁项集的产生　204

6.2.1　先验原理　205

6.2.2　Apriori算法的频繁项集产生　206

6.2.3　候选的产生与剪枝　208

6.2.4　支持度计数　210

6.2.5　计算复杂度　213

6.3　规则产生　215

6.3.1　基于置信度的剪枝　215

6.3.2　Apriori算法中规则的产生　215

6.3.3　例：美国国会投票记录　217

6.4　频繁项集的紧凑表示　217

6.4.1　极大频繁项集　217

6.4.2　闭频繁项集　219

6.5　产生频繁项集的其他方法　221

6.6　FP增长算法　223

6.6.1　FP树表示法　224

6.6.2　FP增长算法的频繁项集产生　225

6.7　关联模式的评估　228

6.7.1　兴趣度的客观度量　228

6.7.2　多个二元变量的度量　235

6.7.3　辛普森悖论　236

6.8　倾斜支持度分布的影响　237

文献注释　240

参考文献　244

习题　250

第7章　关联分析：高级概念　259

7.1　处理分类属性　259

7.2　处理连续属性　261

7.2.1　基于离散化的方法　261

7.2.2　基于统计学的方法　263

7.2.3　非离散化方法　265

7.3　处理概念分层　266

7.4　序列模式　267

7.4.1　问题描述　267

7.4.2　序列模式发现　269

7.4.3　时限约束　271

7.4.4　可选计数方案　274

7.5　子图模式　275

7.5.1　图与子图　276

7.5.2　频繁子图挖掘　277

7.5.3　类Apriori方法　278

7.5.4　候选产生　279

7.5.5　候选剪枝　282

7.5.6　支持度计数　285

7.6　非频繁模式　285

7.6.1　负模式　285

7.6.2　负相关模式　286

7.6.3　非频繁模式、负模式和负相关模式比较　287

7.6.4　挖掘有趣的非频繁模式的技术　288

7.6.5　基于挖掘负模式的技术　288

7.6.6　基于支持度期望的技术　290

文献注释　292

参考文献　293

习题　295

第8章　聚类分析：基本概念和算法　305

8.1　概述　306

8.1.1　什么是聚类分析　306

8.1.2　不同的聚类类型　307

8.1.3　不同的簇类型　308

8.2　K均值　310

8.2.1　基本K均值算法　310

8.2.2　K均值：附加的问题　315

8.2.3　二分K均值　316

8.2.4　K均值和不同的簇类型　317

8.2.5　优点与缺点　318

8.2.6　K均值作为优化问题　319

8.3　凝聚层次聚类　320

8.3.1　基本凝聚层次聚类算法　321

8.3.2　特殊技术　322

8.3.3　簇邻近度的Lance-Williams公式　325

8.3.4　层次聚类的主要问题　326

8.3.5　优点与缺点　327

8.4　DBSCAN　327

8.4.1　传统的密度：基于中心的方法　327

8.4.2　DBSCAN算法　328

8.4.3　优点与缺点　329

8.5　簇评估　330

8.5.1　概述　332

8.5.2　非监督簇评估：使用凝聚度和分离度　332

8.5.3　非监督簇评估：使用邻近度矩阵　336

8.5.4　层次聚类的非监督评估　338

8.5.5　确定正确的簇个数　339

8.5.6　聚类趋势　339

8.5.7　簇有效性的监督度量　340

8.5.8　评估簇有效性度量的显著性　343

文献注释　344

参考文献　345

习题　347

第9章　聚类分析：其他问题与算法　355

9.1　数据、簇和聚类算法的特性　355

9.1.1　例子：比较K均值和DBSCAN　355

9.1.2　数据特性　356

9.1.3　簇特性　357

9.1.4　聚类算法的一般特性　358

9.2　基于原型的聚类　359

9.2.1　模糊聚类　359

9.2.2　使用混合模型的聚类　362

9.2.3　自组织映射　369

9.3　基于密度的聚类　372

9.3.1　基于网格的聚类　372

9.3.2　子空间聚类　374

9.3.3　DENCLUE：基于密度聚类的一种基于核的方案　377

9.4　基于图的聚类　379

9.4.1　稀疏化　379

9.4.2　最小生成树聚类　380

9.4.3　OPOSSUM：使用METIS的稀疏相似度最优划分　381

9.4.4　Chameleon：使用动态建模的层次聚类　381

9.4.5　共享最近邻相似度　385

9.4.6　Jarvis-Patrick聚类算法　387

9.4.7　SNN密度　388

9.4.8　基于SNN密度的聚类　389

9.5　可伸缩的聚类算法　390

9.5.1　可伸缩：一般问题和方法　391

9.5.2　BIRCH　392

9.5.3　CURE　393

9.6　使用哪种聚类算法　395

文献注释　397

参考文献　398

习题　400

第10章　异常检测　403

10.1　预备知识　404

10.1.1　异常的成因　404

10.1.2　异常检测方法　404

10.1.3　类标号的使用　405

10.1.4　问题　405

10.2　统计方法　406

10.2.1　检测一元正态分布中的离群点　407

10.2.2　多元正态分布的离群点　408

10.2.3　异常检测的混合模型方法　410

10.2.4　优点与缺点　411

10.3　基于邻近度的离群点检测　411

10.4　基于密度的离群点检测　412

10.4.1　使用相对密度的离群点检测　413

10.4.2　优点与缺点　414

10.5　基于聚类的技术　414

10.5.1　评估对象属于簇的程度　415

10.5.2　离群点对初始聚类的影响　416

10.5.3　使用簇的个数　416

10.5.4　优点与缺点　416

文献注释　417

参考文献　418

习题　420

附录A　线性代数　423

附录B　维归约　433

附录C　概率统计　445

附录D　回归　451

附录E　优化　457

点击展开点击收起

— 没有更多了 —

文友旧书店

商品详情

图书标准信息

相关推荐