消息首页搜索举报

大数据、数据挖掘理论与应用实践

全新正版假一赔十可开发票

49.96 7.2折 69 全新

库存2件

北京东城

认证卖家担保交易快速发货售后保障

作者李文书等

出版社北京大学出版社

ISBN9787301318997

出版时间2020-12

装帧平装

开本16开

定价69元

货号1202329296

上书时间2024-09-10

轻阅书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 9小时
好评率暂无

最新上架

小人书系列成语故事第3辑(6册) ¥12.08

文字起源图典 ¥194.53

汉画总录 52 沛县 ¥243.81

女性的战争 ¥35.46

王进喜我为祖国献石油 ¥14.52

编译方法导论(高等学校计算机专业系列教材) ¥37.62

中国抗生素发展纪事——60年的实践与见证 ¥68.84

CAXA CAM数控车削加工自动编程经典实例 ¥33.22

原来如此 85个科学问题 ¥45.49

商品详情

品相描述：全新

商品描述: 目录
第一部分大数据篇

第1章绪论 3

1.1 什么是大数据 4

1.1.1 大数据的来源 4

1.1.2 大数据的表现形式 5

1.1.3 大数据的特征 7

1.2 什么是商业智能 8

1.3 大数据生命周期 9

1.4 数据科学研究的主要问题 11

1.5 数据科学的模型方法 14

1.5.1 有监督学习 14

1.5.2 无监督学习 15

1.5.3 半监督学习 15

1.6 大数据方向 16

1.6.1 大数据架构方向 16

1.6.2 大数据分析方向 16

1.6.3 大数据开发方向 17

本章小结 17

习题 17

第2章数据预处理 19

2.1 统计分析 20

2.1.1 统计描述 21

2.1.2 统计分析中的基本概念 25

2.1.3 参数估计和假设检验 27

2.1.4 区间估计和检验 28

2.1.5 方差分析 31

2.2 数据预处理 41

2.2.1 数据清洗 42

2.2.2 数据集成 45

2.2.3 数据变换 46

2.2.4 数据归约 47

本章小结 60

习题 61

第3章大数据可视化 63

3.1 数据可视化的发展历程 64

3.1.1 萌芽时期 66

3.1.2 拉开帷幕 68

3.1.3 初露锋芒 69

3.1.4 黄金时代 70

3.1.5 稳步发展 72

3.1.6 日新月异 73

3.2 数据可视化的分类 74

3.2.1 依据数据类型分类 74

3.2.2 依据展示方式分类 77

3.2.3 依据应用场景分类 77

3.3 数据可视化设计的原则 78

3.3.1 亲密性(分组) 78

3.3.2 对齐 78

3.3.3 重复/统一 79

3.3.4 对比/强调 79

3.3.5 力求表达准确、到位、简洁、易懂 80

3.4 数据可视化的流程 80

3.4.1 了解需求 80

3.4.2 可视化设计 82

3.5 应用实践 82

3.5.1 折线图 83

3.5.2 散点图 84

3.5.3 柱状图 85

3.5.4 词云图 86

3.5.5 雷达图 88

本章小结 89

习题 89

第4章大数据安全 91

4.1 大数据安全概述 92

4.1.1 保密性 92

4.1.2 完整性 93

4.1.3 可用性 93

4.2 基本的密码技术 93

4.2.1 加密技术 93

4.2.2 数字签名技术 94

4.2.3 Hash函数和MAC算法 95

4.3 全同态加密技术 95

4.3.1 基本定义 95

4.3.2 全同态加密技术原理 96

4.3.3 全同态加密技术的应用 98

4.4 安全多方计算 100

4.4.1 基本定义 100

4.4.2 安全多方计算原理 100

4.4.3 安全多方计算的应用 102

4.5 差分隐私 103

4.5.1 基本定义 104

4.5.2 差分隐私原理 105

4.5.3 差分隐私的应用 107

4.6 区块链 109

4.6.1 基本定义 110

4.6.2 区块链技术原理 111

4.6.3 区块链技术的应用 112

本章小结 114

习题 114

第二部分数据挖掘认知篇

第5章线性回归分析 119

5.1 一元线性回归 120

5.1.1 一元线性回归概述 120

5.1.2 一元线性回归的参数估计 123

5.1.3 一元线性回归模型的检验 125

5.1.4 一元线性回归的预测 127

5.2 多元线性回归分析 128

5.2.1 多元线性回归模型及假定 129

5.2.2 参数估计 129

5.2.3 模型检验 130

5.2.4 预测 131

5.3 应用实践 133

5.3.1 基于Lasso回归的波士顿房价预测 133

5.3.2 基于线性回归的降雨量预测 136

本章小结 140

习题 140

第6章聚类分析 142

6.1 聚类概述 143

6.2 几种常用的度量方法 143

6.2.1 欧几里得距离(Euclidean distance) 144

6.2.2 曼哈顿距离(Manhattan distance) 144

6.2.3 切比雪夫距离(Chebyshev distance) 145

6.2.4 幂距离(Power distance) 145

6.2.5 马氏距离(Mahalanobis distance) 146

6.2.6 余弦相似度(Cosine similarity) 148

6.2.7 Pearson相关系数(Pearson correlation coefficient) 148

6.2.8 Jaccard相似系数(Jaccard similarity coefficient) 148

6.3 聚类的方法 150

6.3.1 层次聚类 150

6.3.2 密度聚类 151

6.3.3 分割聚类 152

6.4 应用实践 154

6.4.1 基于DBSCAN密度聚类的鸢尾花品种分类 154

6.4.2 基于聚类和可视化的世界国家幸福指数分析 157

本章小结 161

习题 162

第7章关联规则分析 164

7.1 关联规则分析概述 165

7.2 关联规则分析常用的基本概念 166

7.3 基于Apriori算法的关联规则分析 168

7.3.1 连接(linking)步骤 168

7.3.2 剪枝(pruning)步骤 169

7.3.3 Apriori算法处理流程 169

7.3.4 Apriori算法实例 170

7.3.5 由频繁项集生成关联规则 172

7.4 改进的Apriori算法 172

7.4.1 基于划分的方法 172

7.4.2 基于抽样的方法 173

7.4.3 增量更新的方法 173

7.4.4 概念层次的方法 174

7.4.5 基于散列和压缩技术的方法 174

7.5 基于FP-Growth算法的关联规则分析 175

7.6 多维和多层关联规则 177

7.6.1 多维关联规则挖掘 177

7.6.2 多层关联规则挖掘 178

7.7 应用实践 179

7.7.1 基于Apriori算法的用户购物关联度分析 179

7.7.2 基于FP-Growth算法的用户购物关联度分析 183

本章小结 193

习题 193

第8章分类与预测 195

8.1 分类问题评价准则 196

8.2 线性分类 198

8.2.1 Logistic模型 199

8.2.2 判别分析 202

8.3 决策树 206

8.3.1 决策树的概念及基本算法 206

8.3.2 基于信息熵的决策树归纳算法 208

8.3.3 决策树修剪 212

8.3.4 提取决策规则 212

8.3.5 决策树的改进 213

8.4 AdaBoost算法 215

8.5 随机森林算法 217

8.5.1 设计随机森林分类器 217

8.5.2 构建随机森林 218

8.6 应用实践 223

8.6.1 基于随机森林算法预测是否被录取 223

8.6.2 基于决策树算法预测是否被录取 227

本章小结 229

习题 229

第9章时间序列分析 231

9.1 时间序列分析概述 232

9.2 ARIMA模型 233

9.2.1 ARIMA模型的基本概念 233

9.2.2 ARIMA模型预测步骤 234

9.2.3 预测实例 234

9.3 HMM 241

9.3.1 HMM的基本概念 241

9.3.2 HMM的基本问题 243

9.3.3 HMM基本问题的解法 244

9.4 动态贝叶斯网络 248

9.4.1 动态贝叶斯网络的基本概念 248

9.4.2 动态贝叶斯网络的学习 250

9.4.3 动态贝叶斯网络的推理 252

9.5 应用实践 252

9.5.1 基于ARIMA模型的二氧化碳浓度预测 252

9.5.2 基于HMM的比特币投资预测 258

本章小结 265

习题 266

第三部分数据实践篇

第10章大数据工具 271

10.1 分布式系统概述 272

10.2 Hadoop概述 273

10.3 Hadoop伪分布式的安装和配置 273

10.3.1 安装前准备 273

10.3.2 安装Hadoop 275

10.3.3 伪分布式配置 275

10.4 MapReduce 277

10.4.1 MapReduce任务的工作流程 278

10.4.2 MapReduce编程 280

10.5 利用MapReduce中的矩阵相乘 281

10.5.1 数据准备 281

10.5.2 矩阵的存储方式 282

10.6 Hive 286

10.6.1 Hive简介 286

10.6.2 数据存储 287

10.6.3 用Python执行HQL命令 288

10.6.4 必知的HQL知识 289

10.6.5 HQL实例 294

10.7 HBase 295

10.7.1 数据模型 296

10.7.2 HBase的特点 297

10.7.3 获取数据 297

10.7.4 存储数据 298

本章小结 299

习题 299

第11章基于卷积神经网络和深度

哈希编码的图像检索方法 301

11.1 图像检索方法的发展历程 302

11.2 卷积深度哈希网络的基本框架 303

11.2.1 卷积子网络 303

11.2.2 损失函数 304

11.2.3 哈希层 304

11.3 实验结果与性能分析 305

11.3.1 神经网络参数 305

11.3.2 数据库和评价指标 305

11.3.3 实验结果分析 306

本章小结 309

习题 309

……

第12章蛋白质作用网络模型 310

第13章基于改进的长短期记忆网络的道路交通事故预测模型 322

第14章大数据工作流的性能建模和预测 364

附录数学基础知识 379

参考文献 386

内容摘要
本书从大数据、数据挖掘、实际案例三个方面深入浅出地介绍了大数据领域的知识。全书分为三个部分：第一部分是大数据篇，主要从数据起源、生态系统、生命周期以及行业应用来分析大数据的研究方向和趋势，并对数据预处理、可视化、安全等大数据技术进行了详细的阐述；第二部分是数据挖掘认知篇，主要从线性回归、聚类、关联规则、分类与预测、时间序列等方面剖析数据挖掘技术；第三部分是数据实践篇，主要从业务和技术角度阐述巳有的科研成果，使读者在从理论到实践的过程中深刻理解大数据的用途及技术的本质。本书可作为大学本科学生的教材，也可作为从事智能信息处理、大数据、云服务等领域的科研工作者和广大工程技术人员的参考书，以及对大数据感兴趣的读者的自学用书。

主编推荐
本书包括了大数据分析相关技术的基本内容，同时又具有一定的深度和广度。希望通过本书的讲解，使读者既能了解大数据的概貌，又能把握大数据技术的靠前动态和发展趋势。

— 没有更多了 —