大数据分析原理与实践
全新正版 极速发货
¥
43.51
5.5折
¥
79
全新
库存3件
作者王宏志 编著
出版社机械工业出版社
ISBN9787111569435
出版时间2017-07
装帧平装
开本16开
定价79元
货号1201538813
上书时间2024-06-18
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
王宏志,哈尔滨工业大学计算机科学与技术学院副教授、博士生导师。研究方向包括大数据管理、数据质量、图数据管理。发表学术论文140余篇,出版学术专著两本,参与翻译《算法导论(第3版)》。在爱课程网、学堂在线、好大学在线上抢先发售开设“大数据算法”在线课程,出版《大数据算法》教材。
目录
序
前言
教学建议
第1章绪论1
1.1什么是大数据1
1.2哪里有大数据3
1.3什么是大数据分析4
1.4大数据分析的过程、技术与难点5
1.5全书概览8
小结10
习题10
第2章大数据分析模型11
2.1大数据分析模型建立方法11
2.2基本统计量13
2.2.1全表统计量14
2.2.2皮尔森相关系数15
2.3推断统计16
2.3.1参数估计16
2.3.2假设检验20
2.3.3假设检验的阿里云实现23
小结28
习题28
第3章关联分析模型30
3.1回归分析31
3.1.1回归分析概述31
3.1.2回归模型的拓展35
3.1.3回归的阿里云实现43
3.2关联规则分析52
3.3相关分析54
小结57
习题58
第4章分类分析模型60
4.1分类分析的定义60
4.2判别分析的原理和方法61
4.2.1距离判别法61
4.2.2Fisher判别法64
4.2.3贝叶斯判别法67
4.3基于机器学习分类的模型71
4.3.1支持向量机72
4.3.2逻辑回归74
4.3.3决策树与回归树75
4.3.4k近邻78
4.3.5随机森林78
4.3.6朴素贝叶斯81
4.4分类分析实例82
4.4.1二分类实例82
4.4.2多分类实例94
小结101
习题102
第5章聚类分析模型105
5.1聚类分析的定义105
5.1.1基于距离的亲疏关系度量105
5.1.2基于相似系数的相似性度量108
5.1.3个体与类以及类间的亲疏关系度量110
5.1.4变量的选择与处理111
5.2聚类分析的分类111
5.3聚类有效性的评价112
5.4聚类分析方法概述112
5.5聚类分析的应用113
5.6聚类分析的阿里云实现114
小结119
习题119
第6章结构分析模型122
6.1短路径122
6.2链接排名123
6.3结构计数125
6.4结构聚类126
6.5社团发现128
6.5.1社团的定义128
6.5.2社团的分类128
6.5.3社团的用途128
6.5.4社团的数学定义128
6.5.5基于阿里云的社团发现130
小结132
习题133
第7章文本分析模型135
7.1文本分析模型概述135
7.2文本分析方法概述136
7.2.1SplitWord136
7.2.2词频统计137
7.2.3TF—IDF138
7.2.4PLDA140
7.2.5Word2Vec147
小结148
习题149
第8章大数据分析的数据预处理150
8.1数据抽样和过滤150
8.1.1数据抽样150
8.1.2数据过滤154
8.1.3基于阿里云的抽样和过滤实现154
8.2数据标准化与归一化157
8.3数据清洗159
8.3.1数据质量概述159
8.3.2缺失值填充160
8.3.3实体识别与真值发现162
8.3.4错误发现与修复169
小结171
习题171
第9章降维173
9.1特征工程173
9.1.1特征工程概述173
9.1.2特征变换175
9.1.3特征选择178
9.1.4特征重要性评估183
9.2主成分分析191
9.2.1什么是主成分分析191
9.2.2主成分分析的计算过程192
9.2.3基于阿里云的主成分分析194
9.2.4主成分的表现度量195
9.3因子分析196
9.3.1因子分析概述196
9.3.2因子分析的主要分析指标196
9.3.3因子分析的计算方法197
9.4压缩感知203
9.4.1什么是压缩感知203
9.4.2压缩感知的具体模型204
9.5面向神经网络的降维205
9.5.1面向神经网络的降维方法概述205
9.5.2如何利用神经网络降维206
9.6基于特征散列的维度缩减207
9.6.1特征散列方法概述207
9.6.2特征散列算法207
9.7基于Lasso算法的降维208
9.7.1Lasso方法简介208
9.7.2Lasso方法209
9.7.3Lasso算法的适用情景211
小结211
习题212
第10章面向大数据的数据仓库系统214
10.1数据仓库概述214
10.1.1数据仓库的基本概念214
10.1.2数据仓库的内涵215
10.1.3数据仓库的基本组成215
10.1.4数据仓库系统的体系结构216
10.1.5数据仓库的建立217
10.2分布式数据仓库系统221
10.2.1基于Hadoop的数据仓库系统221
10.2.2Shark:基于Spark的数据仓库系统227
10.2.3Mesa228
10.3内存数据仓库系统231
10.3.1SAPHANA231
10.3.2HyPer234
10.4阿里云数据仓库简介236
小结238
习题239
第11章大数据分析算法240
11.1大数据分析算法概述240
11.2回归算法242
11.3关联规则挖掘算法248
11.4分类算法255
11.4.1二分类算法256
11.4.2多分类算法273
11.5聚类算法283
11.5.1k—means算法283
11.5.2CLARANS算法291
小结293
习题293
第12章大数据计算平台295
12.1Spark295
12.1.1Spark简介295
12.1.2基于Spark的大数据分析实例296
12.2Hyracks299
12.2.1Hyracks简介299
12.2.2基于Hyracks的大数据分析实例299
12.3DPark305
12.3.1DPark简介305
12.3.2基于DPark的大数据分析实例306
12.4HaLoop308
12.4.1HaLoop简介308
12.4.2基于HaLoop的大数据分析实例308
12.5MaxCompute309
12.5.1MaxCompute简介309
12.5.2MaxCompute实战案例介绍310
12.5.3基于MaxCompute的大数据分析实例316
12.5.4MaxCompute的现状及前景320
小结321
习题321
第13章流式计算平台322
13.1流式计算概述322
13.1.1流式计算的定义322
13.1.2流式计算的应用322
13.1.3流式计算平台的发展324
13.2Storm324
13.2.1Storm简介324
13.2.2Storm的结构325
13.2.3基于Storm的大数据分析实例326
13.3分布式流处理系统Samza331
13.3.1Samza简介331
13.3.2Samza的原理332
13.3.3基于Samza的大数据分析实例334
13.4CloudDataflow339
13.4.1CloudDataflow简介339
13.4.2CloudDataflow开发模型340
13.4.3CloudDataflow的应用实例340
13.5阿里云StreamCompute341
13.5.1阿里云StreamCompute的原理341
13.5.2基于StreamCompute的实时数据统计342
13.5.3订单统计实例347
小结348
习题349
第14章大图计算平台350
14.1大图计算框架概述350
14.2GraphLab350
14.2.1GraphLab的计算模型350
14.2.2基于GraphLab的大图分析实例351
14.3Giraph353
14.3.1Giraph简介353
14.3.2Giraph的原理353
14.3.3Giraph的应用354
14.3.4基于Giraph的大图分析实例354
14.4Neo4j358
14.4.1Neo4j简介358
14.4.2基于Noe4j的大图分析实例359
14.5ApacheHama360
14.5.1ApacheHama简介360
14.5.2ApacheHama的结构361
14.5.3ApacheHama的工作原理362
14.6MaxComputeGraph363
14.6.1MaxComputeGraph的原理363
14.6.2MaxComputeGraph的使用与配置方法364
14.5.3基于MaxComputeGraph的大图分析实例371
小结376
习题377
第15章社交网络378
15.1为社交网络建模378
15.1.1社交网络概述378
15.1.2社交图378
15.2社交网络的结构379
15.2.1社交网络的统计学构成379
15.2.2社交网络的群体形成381
15.3基于社交网络语义分析的利益冲突发现382
15.4社交网络中的社区发现384
15.4.1动态社交网络中的社区识别框架384
15.4.2基于经验比对算法的网络社区检测387
15.5社交网络中的关联分析388
15.5.1社交网络中的关系强度模型388
15.5.2社交网络中“正向链接”与“负向链接”的预测391
15.6社交网络中的影响力预测393
15.7基于阿里云的社团发现实例396
小结403
习题403
第16章推荐系统405
16.1推荐系统概述405
16.2协同过滤408
16.2.1协同过滤简介408
16.2.2面向物品的协同过滤算法408
16.2.3改进的近邻法410
16.2.4集成协同过滤方法412
16.3基于用户评价的推荐413
16.4基于人的推荐415
16.4.1基于用户偏好学习的在线推荐415
16.4.2混合推荐系统418
16.5基于标记的推荐422
16.6社交网络中的推荐423
16.6.1基于信号的社交网络推荐423
16.6.2基于在线主题的社交网络推荐425
16.7基于阿里云的个性推荐系统搭建427
小结439
习题439
参考文献441
附录
内容摘要
本书介绍了大数据分析的多种模型、所涉及的算法和技术、实现大数据分析系统所需的工具以及大数据分析的具体应用。本书共16章。靠前章为绪论,就大数据、大数据分析等概念进行了阐释,并对本书内容进行了概述;第2~7章介绍了关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型;第8章介绍大数据分析的数据预处理问题;第9章介绍降维方法;靠前0章介绍了数据仓库的概念、内涵、组成、体系结构和建立方法,还介绍了分布式数据仓库系统和内存数据仓库系统。靠前1章介绍大数据分析算法中的回归算法、关联规则挖掘算法、分类算法以及聚类算法的实现。靠前2~14章介绍了三种用于实现大数据分析算法的平台,即并行计算平台、流式计算平台和大图分析平台。靠前5章和靠前6章介绍两类大数据分析的具体应用,分别讲述了社会网络分析和推荐系统。本书可作为高等院校大数据相关专业的教学用书,也可以作为从事大数据相关工作的工程技术人员的参考用书。
— 没有更多了 —
以下为对购买帮助不大的评价