大数据处理技术与应用
全新正版 极速发货
¥
28.98
5.9折
¥
49
全新
仅1件
作者彭进香,张莉
出版社清华大学出版社
ISBN9787302553731
出版时间2020-08
装帧平装
开本16开
定价49元
货号1202123147
上书时间2024-10-01
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
彭进香,湖南应用技术学院信息工程学院院长,副教授,市级很好教师,“十三五”校级首批重点建设学科——计算机应用技术学科建设负责人。近年来主持和参与省、市级教研、科研项目20多项,指导省大学生研究性学习和创新性实验计划项目2项,发表研究论文20多篇,主编和参编教材6部,1项,软件著作权2项。对互联网企业从事数据挖掘有较深的研究,在大数据挖掘、分析及实战场景应用方面具有深厚经验。
目录
章互联网大数据概述1
1.1认识大数据1
1.1.1大数据的定义1
1.1.2大数据的特征2
1.1.3未来十年大数据分析的发展趋势3
1.2常用大数据处理、分析工具介绍4
1.2.1大数据的存储工具4
1.2.2大数据的软件开发工具6
1.2.3大数据的挖掘工具7
1.2.4大数据的可视化工具9
小结11
第2章互联网大数据采集与获取实战要领12
2.1互联网大数据采集与处理技术概述12
2.1.1数据采集的基本流程与关键技术12
2.1.2数据处理的基本流程与关键技术14
2.2Web页面数据获取实战方法15
2.2.1Jsoup技术与页面数据获取15
2.2.2应对特定领域的DeepWeb数据获取技术20
2.3利用爬虫抓取互联网大数据实战技巧22
2.3.1Python爬虫工作原理22
2.3.2利用HtmlParser实现网页链接的提取实战25
小结31
第3章做好数据预处理的实战方法33
3.1数据预处理概述33
3.1.1数据预处理的目的33
3.1.2数据预处理的方法33
3.2从问题分析到数据清洗实战策略35
3.2.1数据清洗的步骤36
3.2.2缺失值的识别与处理技巧38
3.2.3异常值的判断、检验与处理40
3.3数据集成与数据转换实战方法44
3.3.1数据集成常见方法44
3.3.2数据转换过程中的离散化47
3.4数据的特征选择49
3.4.1常用数据特征选择方法49
3.4.2Relief算法与费希尔判别法的应用57
3.5数据预处理实战案例分析60
小结69
第4章数据相关性分析与回归分析的黄金法则70
4.1什么是数据集70
4.1.1数据集的概念与常见类型70
4.1.2高效进行数据度量的实战技巧72
4.2做好数据相关性分析75
4.2.1进行数据相关性分析的作用75
4.2.2常用的数据相关分析方法75
4.3做好数据回归分析实战要领82
4.3.1数据回归分析方法概述83
4.3.2数据回归分析所能解决的实际问题85
小结90
第5章如何利用关联规则进行大数据挖掘91
5.1关联规则91
5.1.1什么是关联规则91
5.1.2关联规则挖掘的应用场景91
5.2关联规则挖掘实战流程分析94
5.2.1关联规则常见分类与四个基本属性94
5.2.2快速找出优选高频项目组的实战技巧95
5.3关联规则发掘中重要的Apriori算法97
5.3.1Apriori算法的基本原理97
5.3.2Apriori算法运行的基本流程99
5.4针对Apriori算法缺点的其他关联规则挖掘算法101
5.4.1Apriori算法的两大缺点101
5.4.2基于划分规则的算法101
5.4.3FP-Growth算法102
小结118
第6章大数据分析中的四种常见分类算法119
6.1分类算法概述119
6.1.1有关分类算法的基本概念119
6.1.2分类算法的常见应用场景120
6.2KNN算法124
6.2.1KNN算法的工作原理与特点124
6.2.2快速找到最优k值的实用策略125
6.3决策树与随机森林算法127
6.3.1决策树算法127
6.3.2Bagging与Boosting的区别134
6.3.3随机森林分类算法的优势与应用场景135
6.4朴素贝叶斯分类算法141
6.4.1朴素贝叶斯分类算法运行原理分析141
6.4.2贝叶斯网络144
6.4.3贝叶斯决策理论148
6.5支持向量机153
6.5.1支持向量机的基本思想与特点153
6.5.2最优分类面和广义最优分类面154
6.5.3非线性支持向量机与核函数157
小结159
第7章大数据分析中的四种常见聚类算法160
7.1大数据分析聚类算法概述160
7.1.1聚类分析的相关概念及应用场景160
7.1.2聚类算法运行基础:簇与距离度量162
7.2K均值聚类算法167
7.2.1基于划分的K均值聚类算法167
7.2.2二分K均值聚类算法运行原理168
7.3基于密度的DBSCAN聚类方法170
7.3.1DBSCAN算法原理解析170
7.3.2DBSCAN算法的基本运行流程171
7.4高斯混合模型聚类算法173
7.4.1GMM算法原理分析174
7.4.2GMM的优选期望算法176
7.5层次聚类算法179
7.5.1层次聚类算法的算法思想179
7.5.2层次聚类算法的运行原理179
小结182
第8章自组织神经网络算法与人工神经网络算法183
8.1自组织神经网络算法183
8.1.1什么是自组织神经网络183
8.1.2自组织映射算法运行原理183
8.1.3进行SOM网络拓扑的实战方法184
8.2人工神经网络算法187
8.2.1神经元与人工神经网络187
8.2.2BP算法的网络结构与反向传播189
小结192
第9章互联网大数据分析应用——产品个性化推荐系统193
9.1推荐算法基本逻辑与常用推荐算法类型193
9.1.1推荐算法的基本运行逻辑193
9.1.2五种常用的推荐算法196
9.2打造互联网产品个性化推荐引擎实战攻略198
9.2.1基于内容关联的个性化推荐系统打造方法198
9.2.2基于用户行为的协同过滤算法实战流程200
9.2.3协同过滤推荐算法在电商个性化推荐系统中的应用法则205
9.3经典互联网产品个性化推荐系统案例分析208
9.3.1网易云音乐推荐算法机制分析208
9.3.2今日头条推荐算法原理深度解析212
小结218
0章大数据分析在具体行业中的应用219
10.1大数据分析在商业银行领域的应用219
10.1.1利用大数据分析显著提升银行精准营销效率实战方法219
10.1.2如何利用大数据分析提升金融风控安全性222
10.1.3利用大数据分析降低信用卡套现概率实战技巧225
10.2大数据分析在交通领域的应用230
10.2.1公共交通利用出行数据分析合理分配运力实战策略230
10.2.2大数据分析实现城市的智能交通233
10.3大数据分析在安防领域的应用234
10.3.1大数据分析对实现快速安检过闸的提升作用234
10.3.2家庭安防系统中的大数据挖掘应用235
小结236
参考文献237
内容摘要
《大数据处理技术与应用》对大数据的概念、挖掘、应用进行了系统的介绍,并且配备了相关的案例以及实际操作过程。这种理论与实践相结合的方式能够极大地帮助读者掌握大数据领域的相关理论知识。《大数据处理技术与应用》共分为10章,主要内容包含互联网大数据概述、互联网大数据采集与获取实战要领、做好数据预处理的实战方法、数据相关性分析与回归分析的黄金法则、如何利用关联规则进行大数据挖掘、大数据分析中的四种常见分类算法、大数据分析中的四种常见聚类算法,以及自组织神经网络算法与人工神经网络算法、互联网大数据分析应用——产品个性化推荐系统、大数据分析在具体行业中的应用等。
《大数据处理技术与应用》知识体系完善且适用,可作为高等院校大数据、人工智能等相关专业课程的教材,也可作为从事数据挖掘、机器学习工作以及其他相关工程技术工作人员的参考书。
主编推荐
"结构清晰、内容新颖。内容以大数据理论基础、大数据处理的实践技术方法和大数据技术的具体应用为主线,吸纳互联网大数据处理技术相关较新研究成果。
理论与实践结合。书中对大数据的概念、挖掘应用进行了系统的介绍,并且配备了相关的案例以及实际操作过程。
案例时效性强。《大数据处理技术与应用》致力于通过理论及案例讲解帮助读者理顺大数据处理及应用等方面的实战方法,以达到“真正掌握互联网大数据处理及应用实战方法”的效果。
"
— 没有更多了 —
以下为对购买帮助不大的评价