消息首页搜索举报

大数据分析原理和应用

15 2.5折 59 九五品

仅1件

江西新余

认证卖家担保交易快速发货售后保障

作者海沫

出版社电子工业出版社

出版时间2023-04

版次1

装帧其他

货号7A

上书时间2024-07-04

何兵13879077312的书店

四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 13小时
好评率暂无

最新上架

漫画版-趣味百科规矩礼仪启蒙书＋社交力启蒙书 ¥15.00

斯太尔王系列载重汽车使用维修指南 ¥30.00

关于莉莉周的一切 ¥15.00

陈阅增普通生物学（第4版）同步辅导与习题集（含生物考研真题） ¥10.00

心理学研究方法 ¥7.00

热工开关量控制系统 ¥25.00

JaⅤaEE企业级应用开发案例教程 ¥15.00

最好的通俗中医公开课：中药学概论 ¥8.00

历史的教训 ¥7.00

商品详情

品相描述：九五品

图书标准信息

作者海沫
出版社电子工业出版社
出版时间 2023-04
版次 1
ISBN 9787121453113
定价 59.00元
装帧其他
页数 248页

【内容简介】: 本书从大数据分析的原理、技术和应用的角度，围绕着大数据分析的基础知识、大数据分析平台的核心原理、大数据分析的关键技术、大数据分析的应用四个方面进行讲述，使学生能掌握大数据分析的基本原理和核心技术，同时通过大数据分析在上市公司信用风险预测研究中的应用案例使学生熟悉大数据分析的原理和技术的实际应用，并能搭建大数据分析平台分析大规模数据集。其中，大数据分析的基础知识包括：大数据产生的背景、大数据的概念、特点、价值、大数据带来的思维变革；大数据分析平台的核心原理包括：两种常用开源大数据分析平台——Hadoop和Spark的起源、发展及应用现状，理解两种平台各自的体系架构、基本运行机制及适用范围，掌握其安装部署过程及基本使用方法，为大数据分析的应用打下基础；大数据分析的关键技术包括：Hadoop分布式文件系统、MapReduce并行编程模型、Hadoop 2.0的资源管理调度框架——YARN、大数据的获取和预处理、大数据的聚类和分类算法。
【作者简介】: 海沫，博士。中央财经大学信息学院副教授，硕士生导师，校级精品慕课《大数据分析原理与应用》负责人，CCF高级会员。2008年7月毕业于中科院计算所，获工学博士学位。2013年获北京市青年英才计划资助。2017年9月至2018年9月在美国加州大学尔湾分校Donald Bren School of Information and Computer Science访学。主要从事对等网络、分布式算法、大数据处理、社交网络分析、区块链网络和机器学习等领域的研究，在国内外核心期刊和国际会议上发表学术论文60余篇。近年来积极探索教学改革，主持或参与教改项目5项，发表教改论文5篇，参编教材3部。
【目录】: 第4章  MapReduce并行编程模型83

4.1  MapReduce的概述83

4.1.1  分布式并行编程83

4.1.2  MapReduce的简介84

4.1.3  Map函数和Reduce函数86

4.2  MapReduce的体系结构87

4.2.1  MapReduce 1.0体系结构的总体框架87

4.2.2  Hadoop 2.0的体系结构88

4.2.3  MapReduce的容错性89

4.3  MapReduce的工作流程89

4.3.1  MapReduce工作流程的概述89

4.3.2  MapReduce的执行过程90

4.3.3  Shuffle过程详解93

4.4  MapReduce的实例分析99

4.4.1  WordCount99

4.4.2  倒排索引102

4.4.3  Top-K106

4.5  MapReduce的编程实践107

4.5.1  任务要求107

4.5.2  编写Map处理逻辑107

4.5.3  编写Reduce处理逻辑108

4.5.4  编写main方法109

4.5.5  实验过程109

4.6  MapReduce的优缺点分析113

4.6.1  MapReduce的优点113

4.6.2  MapReduce的缺点113

4.7  本章小结114

4.8  本章习题114

第5章  Hadoop 2.0的资源管理调度框架——YARN117

5.1  YARN的产生背景117

5.1.1  MapReduce 1.0中存在的问题117

5.1.2  YARN的产生118

5.2  YARN的设计思路119

5.3  YARN的体系结构120

5.3.1  YARN的体系结构总体框架120

5.3.2  YARN各组件功能的介绍121

5.3.3  YARN的容错性122

5.4  YARN的工作流程123

5.5  YARN的优缺点分析124

5.5.1  YARN的优点124

5.5.2  YARN的缺点126

5.6  本章小结126

5.7  本章习题127

第6章  大数据的获取和预处理130

6.1  大数据的获取130

6.1.1  爬虫的基础知识130

6.1.2  Scrapy爬虫的原理与流程139

6.1.3  Scrapy的爬虫实例141

6.2  数据清洗146

6.2.1  数据清洗的概述146

6.2.2  数据清洗的原理146

6.2.3  数据清洗的流程147

6.2.4  Pandas数据清洗的实例148

6.3  数据归约153

6.3.1  维归约154

6.3.2  属性选择154

6.3.3  离散化方法155

6.3.4  PCA的实例155

6.4  数据标准化158

6.4.1  数据标准化的概念158

6.4.2  数据标准化的方法158

6.4.3  数据标准化的实例159

6.5  本章小结161

6.6  习题162

第7章  大数据分析算法163

7.1  聚类算法163

7.1.1  经典聚类算法163

7.1.2  大数据聚类算法的应用184

7.2  分类算法188

7.2.1  经典分类算法188

7.2.2  大数据分类算法的应用215

7.3  本章小结219

7.4  习题220

第8章  大数据分析的应用案例221

8.1  案例背景221

8.2  数据获取和预处理222

8.2.1  获取来源222

8.2.2  数据说明222

8.2.3  数据预处理223

8.3  评价指标说明226

8.4  基于Python的实现227

8.4.1  基于Python的逻辑回归227

8.4.2  基于Python的SVM229

8.4.3  基于Python的朴素贝叶斯231

8.4.4  基于Python的决策树232

8.4.5  基于Python的随机森林234

8.5  基于Spark的实现236

8.5.1  基于Spark的逻辑回归236

8.5.2  基于Spark的SVM237

8.6  实验结果分析238

8.7  本章小结239

8.8  习题239

点击展开点击收起

— 没有更多了 —