• 大数据挖掘及应用(第2版)(大数据系列丛书)
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

大数据挖掘及应用(第2版)(大数据系列丛书)

23.52 3.4折 69.8 九品

仅1件

北京昌平
认证卖家担保交易快速发货售后保障

作者王国胤、刘群、于洪、曾宪华、吴思远 著

出版社清华大学出版社

出版时间2021-11

版次1

装帧平装

货号A5

上书时间2024-11-19

旧书香书城

十年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 王国胤、刘群、于洪、曾宪华、吴思远 著
  • 出版社 清华大学出版社
  • 出版时间 2021-11
  • 版次 1
  • ISBN 9787302585701
  • 定价 69.80元
  • 装帧 平装
  • 开本 16开
  • 页数 404页
【内容简介】

本书围绕大数据背景下的数据挖掘及应用技术,从大数据挖掘的基本概念入手,由浅入深、循序渐进地介绍大数据挖掘分析过程中的数据认知与预处理、数据可视化技术、数据挖掘的基本方法、Hadoop大数据分布式处理生态系统及分析应用等内容。其中数据挖掘的基本方法不仅包括数据关联分析、数据分类分析及数据聚类分析,还包括深度学习等重要的数据挖掘研究和发展主题。作者对每一章的内容都尽量从不同的角度进行深入剖析,案例均采用Python语言编程。

 

本书既可以面向计算机科学与技术、数据科学与技术、人工智能、智能科学与技术等信息类专业的本科生和研究生,也可以面向广大的IT从业人员。全书不仅提供了全部案例的Python源代码,还提供了丰富的习题和参考文献,对读者掌握大数据挖掘及应用领域的基本知识和进一步研究都具有参考价值。

 


【作者简介】

王国胤,主编,主讲本科生及研究生课程多门。出版专著4部,主编教材1部。发表计算机教育教学论文7篇、科学研究论文300多篇。主持1项重庆市重大教改项目、1项国家自然科学基金重点项目、1项科技部重点研发计划和多项国家自然科学家基金面上项目

【目录】

目录

 


 


 

第1章大数据挖掘及应用概论1

 

1.1大数据挖掘及应用的背景1

 

1.1.1从“小”到“大”的数据分析处理1

 

1.1.2大数据的智能分析与挖掘2

 

1.1.3大数据4

 

1.1.4云计算5

 

1.2大数据挖掘的发展及挑战7

 

1.2.1大数据的发展催生三元空间世界7

 

1.2.2大数据挖掘分析处理面临的挑战9

 

1.3数据挖掘概述11

 

1.3.1数据挖掘的概念11

 

1.3.2数据挖掘的功能11

 

1.3.3数据挖掘运用的技术13

 

1.3.4大数据挖掘与传统数据挖掘的关系13

 

1.3.5数据分析过程的5个原则14

 

1.4大数据挖掘分析处理框架15

 

1.4.1大数据挖掘计算平台框架16

 

1.4.2大数据挖掘处理流程20

 

1.5小结22

 

1.6习题23

 

1.7参考文献24

 

第2章数据认知与预处理25

 

2.1数据挖掘的定义和流程26

 

2.1.1如何理解和描述数据挖掘的问题26

 

2.1.2数据获取与准备27

 

2.1.3数据质量评估28

 

2.2数据类型28

 

2.2.1属性的定义29

 


 


 


 


 


 


 


 


 


 


 


 


 


 


 

2.2.2标称属性29

 

2.2.3二元属性30

 

2.2.4序值属性30

 

2.2.5数值属性30

 

2.3数据的统计描述方法30

 

2.3.1数据的中心趋势度量30

 

2.3.2数据的离散趋势度量32

 

2.4数据对象关系的计算方法35

 

2.4.1对象相似性计算方法35

 

2.4.2数据相关性计算方法42

 

2.5数据准备44

 

2.5.1数据清洗与集成44

 

2.5.2数据归约技术48

 

2.5.3数据转换56

 

2.6数据统计分析常用工具介绍59

 

2.6.1Pandas统计分析工具59

 

2.6.2SPSS统计分析工具59

 

2.6.3SAS统计分析工具61

 

2.6.4R语言统计分析工具62

 

2.7Pandas案例分析65

 

2.7.1数据准备65

 

2.7.2数据录入与编辑65

 

2.7.3数据清洗与转换66

 

2.7.4数据方差分析68

 

2.7.5数据相关性分析69

 

2.7.6数据间距离分析71

 

2.8小结71

 

2.9习题72

 

2.10参考文献73

 

第3章数据可视化技术74

 

3.1可视化简介74

 

3.2高维数据可视化75

 

3.2.1降维方法76

 

3.2.2非降维方法78

 

3.3网络数据可视化84

 

3.3.1结点擦唇臃84

 

3.3.2相邻矩阵布局89

 

3.3.3混合布局91

 

3.4可视化案例分析92

 

3.4.1案例一: China VIS 2015 竞赛题92

 

3.4.2案例二: VAST Challenge 2016竞赛题99

 

3.5小结112

 

3.6习题113

 

3.7参考文献113

 

第4章数据关联分析方法114

 

4.1问题引入114

 

4.2基本概念116

 

4.2.1频繁项集和关联规则117

 

4.2.2闭频繁项集和极大频繁项集119

 

4.2.3稀有模式和负模式120

 

4.3APriori算法121

 

4.3.1APriori算法的核心思想122

 

4.3.2APriori算法描述123

 

4.3.3改进的APriori算法124

 

4.4FPGrowth算法130

 

4.4.1FPGrowth算法的核心思想130

 

4.4.2FPGrowth算法描述131

 

4.5关联规则有效性的评估方法134

 

4.5.1关联规则兴趣度评估135

 

4.5.2关联规则相关度评估135

 

4.5.3其他的评估度量方法136

 

4.6多维关联规则的挖掘139

 

4.7多层关联规则挖掘142

 

4.8案例分析(Python)146

 

4.8.1APriori算法146

 

4.8.2FPGrowth算法149

 

4.9小结154

 

4.10习题155

 

4.11参考文献156

 

第5章数据分类分析方法158

 

5.1基本概念和术语158

 

5.1.1什么是分类158

 

5.1.2解决分类问题的一般方法160

 

5.2决策树算法161

 

5.2.1决策树归纳161

 

5.2.2如何建立决策树162

 

5.2.3表示属性测试条件的方法165

 

5.2.4选择最佳划分的度量166

 

5.2.5决策树归纳算法170

 

5.2.6树剪枝171

 

5.2.7决策树归纳的特点173

 

5.3贝叶斯分类算法175

 

5.3.1贝叶斯定理176

 

5.3.2朴素贝叶斯分类177

 

5.3.3贝叶斯信念网络179

 

5.4支持向量机算法180

 

5.4.1数据线性可分的情况181

 

5.4.2数据非线性可分的情况184

 

5.5粗糙集分类算法185

 

5.6分类器评估方法186

 

5.6.1评估分类器性能的度量187

 

5.6.2保持方法和随机二次抽样190

 

5.6.3交叉验证190

 

5.6.4自助法191

 

5.6.5使用统计显著性检验选择模型191

 

5.7组合分类器技术193

 

5.7.1组合分类方法简介193

 

5.7.2装袋193

 

5.7.3提升和Adaboost194

 

5.7.4随机森林195

 

5.7.5提高类不平衡数据的分类准确率196

 

5.8惰性学习法(k最近邻分类)197

 

5.9案例分析198

 

5.9.1SVM案例分析198

 

5.9.2决策树案例分析206

 

5.10小结213

 

5.11习题213

 

5.12参考文献215

 

第6章数据聚类分析方法218

 

6.1基本概念和术语218

 

6.1.1什么是聚类分析219

 

6.1.2对聚类的基本要求219

 

6.1.3不同的聚类方法220

 

6.2划分方法222

 

6.2.1kmeans算法222

 

6.2.2k中心点算法226

 

6.3层次方法228

 

6.3.1凝聚的与分裂的层次聚类228

 

6.3.2算法方法的距离度量230

 

6.4基于密度的方法 233

 

6.4.1传统的密度: 基于中心的方法234

 

6.4.2DBSCAN算法236

 

6.5概率模型的聚类方法237

 

6.5.1模糊聚类237

 

6.5.2基于概率模型的聚类239

 

6.5.3期望最大化算法241

 

6.6聚类评估243

 

6.6.1估计聚类趋势243

 

6.6.2确定正确的簇个数245

 

6.6.3测定聚类质量246

 

6.7案例分析248

 

6.7.1使用kmeans算法进行西瓜品类分析248

 

6.7.2使用层次聚类算法进行股票分析252

 

6.8小结259

 

6.9习题259

 

6.10参考文献260

 

第7章深度学习262

 

7.1引言262

 

7.2前馈神经网络(BP网络)263

 

7.3基本深度神经网络比较267

 

7.4深信网268

 

7.4.1玻尔兹曼机269

 

7.4.2受限玻尔兹曼机269

 

7.4.3深信网271

 

7.5深度玻尔兹曼机275

 

7.6栈式自动编码器277

 

7.6.1自动编码器277

 

7.6.2栈式自动编码器278

 

7.7卷积神经网络280

 

7.7.1卷积281

 

7.7.2池化282

 

7.7.3CNN训练过程283

 

7.7.4CNN网络构造的案例分析287

 

7.8深度学习开源框架288

 

7.8.1开源框架简介288

 

7.8.2开源案例分析289

 

7.9深度学习应用技巧294

 

7.10小结295

 

7.11习题296

 

7.12参考文献296

 

第8章Hadoop大数据分布式处理生态系统299

 

8.1Hadoop集群基础299

 

8.1.1Hadoop安装300

 

8.1.2Hadoop配置301

 

8.2HDFS基础操作309

 

8.3MapReduce并行计算框架316

 

8.3.1MapReduce程序实例: WordCount317

 

8.3.2Hadoop Streaming320

 

8.4基于Storm的分布式实时计算321

 

8.4.1Storm简介321

 

8.4.2Storm基本概念321

 

8.4.3Storm编程325

 

8.5基于Spark Streaming的分布式实时计算333

 

8.5.1Spark内存计算框架334

 

8.5.2Spark Streaming简介335

 

8.5.3Spark Streaming 编程337

 

8.6小结341

 

8.7习题342

 

8.8参考文献342

 

第9章Hadoop大数据分析应用344

 

9.1典型数据挖掘算法并行化案例344

 

9.1.1MR kmeans算法分析344

 

9.1.2Mahout聚类算法案例347

 

9.1.3Spark MLlib聚类算法案例352

 

9.2大数据分析应用案例354

 

9.2.1搜索引擎日志数据分析354

 

9.2.2出租车轨迹数据分析357

 

9.2.3新闻组数据分析359

 

9.3小结366

 

9.4习题366

 

9.5参考文献366

 

第10章大数据挖掘及应用展望368

 

10.1大数据挖掘的新数据368

 

10.2大数据挖掘的新方法370

 

10.2.1深度学习371

 

10.2.2知识图谱373

 

10.2.3迁移学习374

 

10.2.4强化学习376

 

10.2.5社会计算377

 

10.2.6特异群组挖掘377

 

10.3互联网时代的大数据挖掘应用378

 

10.4大数据时代面临的挑战380

 

10.4.1用户隐私和安全问题380

 

10.4.2数据分析算法的可解释性问题382

 

10.4.3人工智能的伦理问题383

 

10.5小结384

 

10.6参考文献385

 


点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP