• 大数据分析师权威教程
21年品牌 40万+商家 超1.5亿件商品

大数据分析师权威教程

全新正版 极速发货

67.3 6.2折 108 全新

仅1件

广东广州
认证卖家担保交易快速发货售后保障

作者Wrox国际IT认证项目组 编;姚军 译

出版社人民邮电出版社

ISBN9787115463661

出版时间2017-11

装帧平装

开本16开

定价108元

货号1201596677

上书时间2024-08-05

谢岳书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
Wrox靠前IT认证项目组,靠前知名IT培训机构中的多名大牛讲师,通过对技术、IT市场需求以及当今就业培训方面的优选行业标准进行了广泛并严格的调研之后,开发而成。

目录
模块1大数据入门
1讲大数据简介3
1.1什么是大数据4
1.1.1大数据的优势5
1.1.2挖掘各种大数据源6
1.2数据管理的历史——大数据的演化7
1.3大数据的结构化9
1.4大数据要素13
1.4.1数据量13
1.4.2速度14
1.4.3多样性14
1.5大数据在商务环境中的应用14
1.6大数据行业中的职业机会16
1.6.1职业机会17
1.6.2所需技能17
1.6.3大数据的未来19
练习20
备忘单22
第2讲大数据在商业上的应用23
2.1社交网络数据的重要性24
2.2金融欺诈和大数据30
2.3保险业的欺诈检测32
2.4在零售业中应用大数据36
练习40
备忘单42
第3讲处理大数据的技术43
3.1大数据的分布式和并行计算44
3.1.1并行计算技术46
3.1.2虚拟化及其对大数据的重要性47
3.2Hadoop简介47
3.3云计算和大数据50
3.3.1大数据计算的特性50
3.3.2云部署模型51
3.3.3云交付模型52
3.3.4大数据云52
3.3.5大数据云市场中的供应商53
3.3.6使用云服务所存在的问题54
3.4大数据内存计算技术54
练习56
备忘单58
第4讲了解Hadoop生态系统59
4.1Hadoop生态系统60
4.2用HDFS存储数据61
4.2.1HDFS架构62
4.2.2HDFS的一些特殊功能65
4.3利用HadoopMapReduce处理数据65
4.3.1MapReduce是如何工作的66
4.3.2MapReduce的优点和缺点66
4.3.3利用HadoopYARN管理资源和应用67
4.4利用HBase存储数据68
4.5使用Hive查询大型数据库69
4.6与Hadoop生态系统的交互70
4.6.1Pig和PigLatin70
4.6.2Sqoop71
4.6.3Zookeeper72
4.6.4Flume72
4.6.5Oozie73
练习74
备忘单76
第5讲MapReduce基础77
5.1MapReduce的起源78
5.2MapReduce是如何工作的79
5.3MapReduce作业的优化技术85
5.3.1硬件/网络拓扑85
5.3.2同步86
5.3.3文件系统86
5.4MapReduce的应用86
5.5HBase在大数据处理中的角色87
5.6利用Hive挖掘大数据89
练习91
备忘单94
模块2分析和R编程入门
1讲理解分析97
1.1分析与报告的对比98
1.1.1报告99
1.1.2分析100
1.2基本和gaoji分析102
1.3进行分析——需要考虑的事项105
1.3.1正确限定问题的范围105
1.3.2统计显著性还是业务重要性105
1.3.3样本与总体107
1.3.4推理与计算统计数字的对比109
1.4构建分析团队110
1.4.1成为分析师的bibei技能110
1.4.2IT与分析的融合111
练习113
备忘单115
第2讲分析方法与工具116
2.1分析方法的演变117
2.1.1集成方法117
2.1.2商品化模型118
2.1.3文本分析120
2.1.4文本分析的挑战121
2.2分析工具的演变122
2.3分析工具分类123
2.3.1图形用户界面的兴起123
2.3.2点解决方案的大爆发123
2.3.3数据可视化工具125
2.4一些流行的分析工具127
2.4.1用于统计计算的R项目127
2.4.2IBMSPSS128
2.4.3SAS130
2.5分析工具之间的对比131
练习133
备忘单135
第3讲探索R136
3.1安装R137
3.2使用脚本工作138
3.2.1RGui138
3.2.2RStudio140
3.2.3“Helloworld!”141
3.2.4简单数学运算141
3.2.5R中的数学运算142
3.2.6使用向量143
3.2.7保存和计算数值144
3.2.8回应用户146
3.3浏览工作区149
3.3.1操纵工作区内容149
3.3.2保存工作150
3.3.3检索工作150
练习151
备忘单153
第4讲将数据集读入R,从R导出数据154
4.1使用c()命令创建数据155
4.1.1输入数值项作为数据155
4.1.2输入文本项作为数据156
4.2在R中使用scan()命令获取数据157
4.2.1输入文本作为数据158
4.2.2使用剪贴板制作数据158
4.2.3从磁盘读取数据文件160
4.3读取更大的数据文件162
4.3.1read.csv()命令163
4.3.2在R中读取数据的其他命令164
4.3.3数据文件中的缺失值167
4.4从R导出数据169
4.5在R中保存你的工作169
4.5.1将数据文件保存到磁盘170
4.5.2保存命名对象170
4.5.3保存所有操作170
4.5.4以文本文件形式保存数据到磁盘171
4.5.5将向量对象写入磁盘171
4.5.6将矩阵和数据帧对象写入磁盘172
4.5.7将列表对象写入磁盘172
练习174
备忘单176
第5讲在R中操纵和处理数据177
5.1确定zui合适的数据结构178
5.2创建数据的子集179
5.2.1指定子集179
5.2.2构造数据帧的子集180
5.2.3从数据中取得样本180
5.2.4数据子集的应用182
5.3在数据中添加计算得到的字段184
5.3.1在数据帧列上执行算术运算184
5.3.2创建数据子组或者bin184
5.4在R中组合和合并数据集186
5.4.1创建样本数据以说明合并的方法187
5.4.2使用merge()函数188
5.4.3合并类型189
5.4.4使用查找表190
5.5分类和排序数据190
5.5.1向量的排序191
5.5.2数据帧的排序191
5.5.3用apply()函数遍历数据193
5.6公式接口简介196
5.7数据整形196
5.7.1理解长格式和宽格式数据197
5.7.2从reshape2程序包入手198
5.7.3将数据“熔化”为长格式199
练习202
备忘单204
模块3使用R进行数据分析
1讲使用R中的函数和包207
1.1从脚本到函数209
1.1.1创建脚本209
1.1.2将脚本转变为函数210
1.1.3使用函数211
1.1.4减少行数212
1.2巧妙地使用参数214
1.2.1增加更多参数214
1.2.2使用点参数216
1.2.3使用函数作为参数218
1.3函数作用域219
1.3.1外部函数219
1.3.2使用内部函数221
1.4指派方法222
1.4.1寻找函数背后的方法223
1.4.2以UseMethod()函数使用方法223
1.5程序包225
1.5.1为Windows安装程序包225
1.5.2为Linux安装程序包225
1.6程序包的使用227
1.6.1加载程序包227
1.6.2卸载程序包227
练习228
备忘单230
第2讲R中的描述性统计231
2.1汇总命令232
2.2名称命令234
2.3汇总样本235
2.4累积统计信息239
2.4.1简单累计命令239
2.4.2复杂累积命令241
2.5数据帧的汇总统计242
2.5.1数据帧的通用汇总命令242
2.5.2专用的行和列汇总命令243
2.5.3用于行/列汇总的apply()命令243
2.6矩阵对象的汇总统计244
2.7列表的汇总统计246
2.8列联表247
2.8.1建立列联表247
2.8.2选择表对象的各个部分253
2.8.3测试表对象255
2.8.4复杂(扁平)表256
2.8.5测试“扁平”表对象260
2.8.6表的汇总命令260
2.9交叉表262
练习267
备忘单269
3讲用函数、循环和数据帧分析数据270
3.1矩阵、列表和数据帧271
3.1.1矩阵271
3.1.2列表272
3.1.3数据帧——数据集273
3.2向量、矩阵和列表的索引273
3.2.1向量的索引273
3.2.2矩阵的索引274
3.2.3列表的索引275
3.3R编程276
3.3.1表达式、赋值和算术运算符276
3.3.2成组的表达式277
3.3.3条件执行——if和ifelse278
3.3.4重复执行——循环278
3.4RHadoop280
3.4.1安装RHadoop281
3.4.2创建用户定义函数281
练习283
备忘单285
第4讲R中的图形分析286
4.1为单变量绘图287
4.1.1直方图288
4.1.2索引图292
4.1.3时间序列图293
4.1.4饼图294
4.1.5stripchart函数294
4.2绘制双变量图表295
4.2.1根据两个连续解释变量绘制图表:散点图296
4.2.2使用分类解释变量绘图309
4.3多重比较图表312
4.4绘制多变量图表315
4.4.1pairs函数315
4.4.2coplot函数316
4.4.3相互作用图表316
4.5特殊图表317
4.5.1设计图318
4.5.2气泡图318
4.5.3有许多相同值的图表319
4.6将图形保存到外部文件320
练习322
备忘单324
第5讲R中的假设检验325
5.1统计假设简介326
5.1.1假设检验327
5.1.2决策错误327
5.2使用学生t检验327
5.2.1使用不相等方差的双样本t检验328
5.2.2使用相等方差的双样本t检验328
5.2.3单样本t检验328
5.2.4t检验中的公式语法和样本子集构建329
5.3u检验333
5.3.1双样本u检验333
5.3.2单样本u检验334
5.3.3u检验中的公式语法和样本子集构建335
5.4配对t检验和u检验338
5.4.1相关和协方差340
5.4.2协方差342
5.4.3相关检验中的显著性检验343
5.4.4公式语法343
5.5关联分析检验346
5.6拟合优度检验348
练习352
备忘单354
模块4使用R进行gaoji分析
1讲R中的线性回归357
1.1线性回归分析基础知识358
1.1.1简单线性回归358
1.1.2多重线性回归359
1.1.3zui小二乘估计360
1.1.4检查模型适当性361
1.1.5回归输出的解读363
1.1.6回归假设364
1.1.7多重共线性365
1.1.8检测多重共线性365
1.2使用线性回归进行工作367
1.2.1确定x和y变量367
1.2.2检查条件368
1.2.3回归线的计算368
1.2.4求取斜率369
1.2.5求取y截距369
1.2.6回归线的解读369
1.2.7做出正确的预测371
1.3R中的简单线性回归371
1.3.1R的5个zhuming函数371
1.3.2校正的平方和及乘积和372
1.3.3分散度372
1.3.4回归中的方差分析373
1.3.5AIC373
1.3.6参数不可靠性的估算373
1.3.7用拟合模型预测374
1.3.8检查模型374
1.4线性模型结果对象375
1.4.1系数377
1.4.2拟合值377
1.4.3残差378
1.4.4公式378
1.4.5zuijia拟合线378
1.5模型的构建379
1.5.1用前向逐步回归增加项380
1.5.2用后向删除方法删除项382
1.5.3模型的比较383
1.6曲线回归384
练习386
备忘单389
第2讲非线性回归390
2.1非线性回归分析简介391
2.2非线性回归和广义线性模型391
2.3逻辑回归392
2.3.1解读逻辑回归中的β系数394
2.3.2计算β系数395
2.3.3具有交互变量的逻辑回归395
2.3.4具有指示变量的逻辑回归396
2.3.5逻辑回归模型适当性检查396
2.3.6使用逻辑回归线进行预测397
2.4用MLE进行线估算400
2.5将非线性模型转化为线性模型401
2.6其他非线性回归模型402
2.7广义加性模型406
2.8自启动函数407
2.8.1自启动Michaelis-Menten模型407
2.8.2自启动渐近指数模型408
2.8.3轮廓似然409
2.8.4自启动逻辑409
2.8.5自启动四参数逻辑409
2.8.6自启动Weibull增长函数410
2.8.7自启动一阶房室函数411
2.9用拔靴法建立一个非线性回归家族411
2.10逻辑回归的应用413
2.10.1贷款接纳414
2.10.2德国信用数据414
2.10.3延误的航班415
练习416
备忘单418
第3讲聚类分析419
3.1聚类简介421
3.1.1聚类的应用421
3.1.2聚类的复杂性422
3.1.3距离计量422
3.1.4簇内和簇间平方和423
3.1.5高效聚类的属性424
3.2凝聚层次聚类425
3.2.1主要距离426
3.2.2密度估算方法427
3.3相似性聚合聚类428
3.3.1相似性聚合的原理428
3.3.2相似性聚合聚类的实施428
3.4Ramap包的用法429
3.5k均值聚类431
3.6R聚类示例:欧洲人的蛋白质摄入431
3.7R聚类示例:美国月度失业率434
3.8在R中实施层次聚类435
3.8.1例1:重温欧洲人蛋白质摄入435
3.8.2例2:重温美国月度失业率436
练习437
备忘单439
第4讲决策树440
4.1决策树的应用441
4.2决策树原理444
4.2.1选择变量——创建树的di1步444
4.2.2拆分标准445
4.2.3为节点分配数据——创建树的第2步447
4.2.4修剪——创建树的第3步447
4.3构建决策树448
4.3.1决策树如何确定纯度?449
4.3.2使用决策树时的实际考虑因素450
4.3.3决策树选项451
4.4CART、C5.0和CHAID树451
4.4.1CART452
4.4.2C5.0454
4.4.3CHAID455
4.4.4决策树对比456
4.5用决策树预测457
4.6决策树的优缺点458
4.6.1决策树的优点458
4.6.2决策树的缺点458
4.7在R中构建决策树459
练习462
备忘单464
第5讲R和Hadoop的集成及Hive介绍465
5.1Hadoop466
5.1.1HDFS467
5.1.2MapReduce468
5.1.3Hadoop的应用468
5.2集成R和Hadoop——RHadoop469
5.2.1安装RHadoop470
5.2.2在R中使用RHadoop472
5.3通过文本挖掘得到有用信息474
5.4Hive简介477
5.4.1元存储477
5.4.2数据库477
5.4.3数据类型477
5.4.4查询语言478
5.4.5Hive命令478
5.4.6Hive交互和非交互模式479
练习480
备忘单482
附录A在R中可以完成的10件MicrosoftExcel工作484

内容摘要
本书为靠前卷,首先提供大数据的概览,介绍大数据概念及其在商业中的应用、处理大数据的技术、Hadoop生态系统和MapReduce的相关内容,然后介绍如何理解分析、分析方法与工具,重点讲解流行分析工具R,介绍如何将数据集导入R和从R导出数据、在R中如何操纵和处理数据,很后详细介绍R中的函数和包、R的描述性统计、R中的图形分析、R中的假设检验、R中的线性回归、非线性回归、聚类分析、决策树、R和Hadoop的集成及Hive,通过这些实战内容,使读者掌握R语言在数据分析中的全面应用。通过本书,读者能对大数据概念、重要性及其应用有全面的了解,熟悉各种大数据分析工具。本书适用于想成为大数据分析师的人员以及所有对大数据分析感兴趣的技术人员和决策者阅读。

主编推荐

大数据是当今科技行业中受欢迎的流行语之一。全世界的企业都已经意识到了可用的大量数据的价值,并努力管理和分析数据、发挥其作用,以建立战略和发展竞争优势。与此同时,这项技术的出现,导致了各种新的和增强的工作角色的演变。
《大数据分析师权v教程》系列的目标是培养新一代的guoji化大数据分析师,使他们精通数据挖掘、数据操纵和数据分析方面的基本及高-级分析技术,熟悉大数据平台以及业务和行业需求,能够高效地参与大数据分析项目。
本系列旨在使参与者熟悉整个数据分析生命期,通过众多案例分析,使参与者熟悉大数据在不同相关行业中的角色和用途,提供基本及高-级大数据分析以及可视化技术的完整技术诀窍,帮助他们分析数据、创建统计模型和提供业务洞察力。
本系列共两卷,卷1“大数据分析与预测建模”包含4个模块,涉及大数据入门,分析和R编程入门,使用R语言进行数据分析,用R语言进行高-级分析;第2卷“机器学习、大数据分析和可视化”包含3个模块,涉及机器学习的概念,社交媒体、移动分析和可视化,大数据分析的行业应用。



   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP