大数据分析——基于R语言

55.54 6.2折 89 九五品

仅1件

河北廊坊

认证卖家担保交易快速发货售后保障

作者[印]塞玛·阿查亚（Seema Acharya）；李媚

出版社清华大学出版社

出版时间2020-08

版次1

装帧其他

货号A16

上书时间2024-12-10

简简单单-书店的书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 13小时
好评率暂无

最新上架

局之道：官场商场成功全览，成就大事业的智慧 ¥22.17

成功之道 ¥52.42

格局决定人生成败 ¥18.81

哈利·波特终极典藏 ¥24.61

真的！日语1个人学就够了 ¥18.82

吸血鬼日记终极典藏 ¥32.98

欧美经典流行歌曲吉他弹唱 ¥24.03

名侦探柯南珍藏特辑 ¥20.00

跟徐湛学国画 ¥29.26

商品详情

品相描述：九五品

图书标准信息

作者 [印]塞玛·阿查亚（Seema Acharya）；李媚
出版社清华大学出版社
出版时间 2020-08
版次 1
ISBN 9787302557326
定价 89.00元
装帧其他
开本 16开
纸张胶版纸
页数 471页
字数 744千字

【内容简介】: 这本书主要面向计算机科学和工程专业的本科生。同时，这本书也可供IT专业数据分析师、企业决策人员和业务分析人员参考。本书由Acharya编著，介绍了R语言作为非稳态数据分析和可视化工具的强大功能，并向学习者介绍了几种数据挖掘算法和可视化方法。
【作者简介】: Seema Acharya是Infosys有限公司教育、培训和评估部的高级校长。她是一位技术传道者、学习战略家，也是一位拥有超过15年的信息技术行业学习/教育服务经验的作者。她在全球范围内设计和实施了几个大规模的能力发展项目，包括组织能力需求分析、概念化、设计、开发和部署能力发展项目。她的兴趣和专长主要包括商业智能和大数据，以及分析技术，如数据仓库、数据挖掘、数据分析、文本挖掘和数据可视化
【目录】: 第1章R概述\\1

1.1概述1

1.1.1R是什么1

1.1.2为什么是R1

1.1.3R相对于其他编程语言的优势3

1.2下载并安装R4

1.2.1下载R4

1.2.2安装R6

1.2.3R的主要文件类型7

1.3集成开发环境和文本编辑器8

1.3.1R Studio8

1.3.2具有StatET插件的Eclipse9

1.4R中软件包的处理10

1.4.1R软件包的安装11

1.4.2准备开始的一些函数12

本章小结17

关键术语18

巩固练习18

单项选择题参考答案19

第2章开始使用R\\20

2.1概述20

2.2处理目录20

2.2.1getwd()命令20

2.2.2setwd()命令21

2.2.3dir()函数21

2.3R中的数据类型23

2.3.1强制类型转换26

2.3.2引入变量和ls()函数26

2.4数据探索的一些命令27

2.4.1加载内部数据集27

本章小结38

关键术语38

实战练习38

大数据分析——基于R语言目录

第3章在R中加载及处理数据\\40

3.1概述40

3.2分析数据处理的挑战40

3.2.1数据格式41

3.2.2数据质量41

3.2.3项目范围41

3.2.4利益方期望的输出结果的管理41

3.3表达式、变量和函数42

3.3.1表达式42

3.3.2逻辑值42

3.3.3日期43

3.3.4变量45

3.3.5函数45

3.3.6处理数据中的文本48

3.4R中缺失值的处理50

3.5利用as操作符改变数据的结构51

3.6向量53

3.6.1顺序向量54

3.6.2rep()函数54

3.6.3向量访问55

3.6.4向量名56

3.6.5向量的算术运算57

3.6.6向量循环58

3.7矩阵60

3.7.1矩阵访问61

3.8因子65

3.8.1创建因子65

3.9列表67

3.9.1列表标签和值68

3.9.2从列表中添加和删除元素69

3.9.3列表的大小70

3.10一些常见的分析任务72

3.10.1探索数据集72

3.10.2数据集的条件操作72

3.10.3合并数据75

3.11变量的聚合和分组处理76

3.11.1aggregate()函数76

3.11.2tapply()函数76

3.12使用R进行简单分析78

3.12.1输入78

3.12.2描述数据结构78

3.12.3描述变量结构79

3.12.4输出82

3.13读取数据的方法83

3.13.1CSV和电子表格83

3.13.2从包中读取数据86

3.13.3从Web/API中读取数据86

3.13.4读取一个JSON(JavaScript Object Notation)文档88

3.13.5读取XML文件89

3.14数据输入的R GUI的比较92

3.15使用R连接数据库及商务智能系统94

3.15.1RODBC95

3.15.2使用MySQL和R96

3.15.3使用PostgreSQL和R96

3.15.4使用SQLite和R97

3.15.5使用JasperDB和R97

3.15.6使用Pentaho和R98

3.16案例研究: 日志分析99

本章小结101

关键术语103

巩固练习103

单项选择题参考答案106

第4章在R中探索数据\\107

4.1概述107

4.2数据框107

4.2.1数据框访问108

4.2.2数据框排序110

4.3用于理解数据框中数据的R函数111

4.3.1dim()函数111

4.3.2str()函数111

4.3.3summary()函数112

4.3.4names()函数112

4.3.5head()函数112

4.3.6tail()函数113

4.3.7edit()函数113

4.4加载数据框114

4.4.1从CSV文件中读取数据114

4.4.2获取数据框子集115

4.4.3从TSV文件中读取数据115

4.4.4从表格读取数据116

4.4.5合并数据框117

4.5探索数据117

4.6数据汇总118

4.7查找缺失值122

4.8无效值和异常值124

4.9描述性统计126

4.9.1数据全距126

4.9.2频数126

4.9.3均值和中值127

4.9.4标准差131

4.9.5众数132

4.10利用可视化发现数据中的问题134

4.10.1对单变量的分布进行可视化检查135

4.10.2直方图136

4.10.3密度图138

4.10.4柱状图140

本章小结144

关键术语145

巩固练习145

单项选择题参考答案147

第5章线性回归——使用R\\148

5.1概述148

5.2模型拟合148

5.3线性回归149

5.3.1R中的lm()函数149

5.4线性回归的假设161

5.5验证线性假设162

5.5.1使用散点图162

5.5.2使用残差与拟合图162

5.5.3使用正态QQ图162

5.5.4使用位置尺度图163

5.5.5使用残差与杠杆图164

案例研究: 推荐引擎169

本章小结170

关键术语171

巩固练习171

实战练习172

单项选择题参考答案172

第6章逻辑回归\\173

6.1概述173

6.2什么是回归174

6.2.1为什么要使用逻辑回归175

6.2.2为什么不能使用线性回归176

6.2.3逻辑回归的假设176

6.3广义线性模型概述177

6.4什么是逻辑回归179

6.4.1逻辑回归的使用179

6.4.2二项逻辑回归179

6.4.3Logistic函数179

6.4.4Logit函数180

6.4.5似然函数181

6.4.6极大似然估计183

6.5二元逻辑回归185

6.5.1二元逻辑回归概述185

6.5.2具有单分类预测变量的二元逻辑回归186

6.5.3三维列联表和k维列联表的二元逻辑回归191

6.5.4具有连续协变量的二元逻辑回归191

6.6诊断逻辑回归195

6.6.1残差195

6.6.2拟合性能测试196

6.6.3受试者工作特征曲线196

6.7多元逻辑回归模型197

案例研究: 受众/顾客洞察分析204

本章小结206

关键术语207

巩固练习208

单项选择题参考答案210

第7章决策树\\211

7.1概述211

7.2什么是决策树211

7.3决策树在R中的表示216

7.3.1使用party包进行表示216

7.3.2使用rpart包进行表示226

7.4决策树学习中的问题解决方案228

7.4.1由属性值对表示的实例228

7.4.2目标函数具有离散输出值229

7.4.3析取描述229

7.4.4训练数据可能包含错误或缺失属性值229

7.5基本决策树学习算法230

7.5.1ID3算法231

7.5.2哪个属性是最好的分类器232

7.6度量特征233

7.6.1熵度量同质性233

7.6.2信息增益——度量熵的期望约简234

7.7决策树学习中的假设空间搜索236

7.8决策树学习中的归纳偏差237

7.8.1优选偏差与限定偏差237

7.9为什么首选短假设238

7.9.1选择短假设的原因238

7.9.2争论的问题238

7.10决策树学习中的问题238

7.10.1过拟合238

7.10.2合并连续值属性241

7.10.3选择属性的其他方法241

7.10.4处理具有缺失属性值的训练样本242

7.10.5处理具有不同成本的属性242

案例研究: 帮助零售商预测店内客流243

本章小结244

关键术语245

巩固练习246

实战练习247

单项选择题参考答案248

第8章R中的时间序列\\249

8.1概述249

8.2时间序列数据250

8.2.1数据可视化的基本R函数250

8.2.2用于数据操作的基本R函数259

8.2.3时间序列线性滤波267

8.3读取时间序列数据269

8.3.1scan()函数269

8.3.2ts()函数269

8.4绘制时间序列数据271

8.5分解时间序列数据272

8.5.1分解非季节性数据272

8.5.2分解季节性数据274

8.5.3季节性调整277

8.5.4回归分析278

8.6使用指数平滑进行预测279

8.6.1简单指数平滑279

8.6.2Holts指数平滑279

8.6.3HoltWinters指数平滑280

8.7ARIMA模型281

8.7.1差分时间序列282

8.7.2选择一个候选ARIMA模型282

8.7.3使用ARIMA模型进行预测284

8.7.4自相关性和偏自相关性分析284

8.7.5诊断检验285

实践任务286

案例研究: 保险欺诈检测292

本章小结293

关键术语295

巩固练习295

单项选择题参考答案299

第9章聚类\\300

9.1概述300

9.2什么是聚类300

9.3聚类中的基本概念301

9.3.1点、空间和距离302

9.3.2聚类策略305

9.3.3维数灾难306

9.3.4向量之间的夹角307

9.4分层聚类308

9.4.1欧氏空间中的分层聚类308

9.4.2分层聚类的效率312

9.4.3控制分层聚类的其他规则313

9.4.4非欧氏空间的分层聚类314

9.5kmeans算法314

9.5.1kmeans基本原理314

9.5.2初始化kmeans集群319

9.5.3选择k的正确值319

9.5.4Bradley、Fayyad和Reina算法319

9.5.5使用BFR算法处理数据320

9.6CURE算法321

9.6.1CURE中的初始化321

9.6.2实现CURE算法321

9.7非欧氏空间中的聚类322

9.7.1在GRGPF算法中表示集群323

9.7.2初始化聚类树323

9.7.3在GRGPF算法中增加点323

9.7.4拆分和合并集群324

9.8流和并行数据的聚类325

9.8.1流计算模型325

9.8.2流聚类算法326

9.8.3并行环境中的聚类328

案例研究: 个性化产品推荐329

本章小结330

关键术语331

巩固练习332

实战练习333

单项选择题参考答案339

第10章关联规则\\340

10.1概述340

10.2频繁项集341

10.2.1关联规则341

10.2.2规则评估度量标准342

10.2.3蛮力法344

10.2.4两步法344

10.2.5Apiori算法346

10.3数据结构概述350

10.3.1表示项集的集合351

10.3.2事务数据354

10.3.3关联: 项集和规则项356

10.4挖掘算法接口358

10.4.1apriori()函数358

10.4.2eclat()函数371

10.5辅助函数372

10.5.1计算项集的支持度372

10.5.2规则推导372

10.6事务抽样374

10.7生成人工事务数据375

10.7.1子项集、超项集、最大项集和闭项集375

10.8兴趣度的其他度量378

10.9基于距离聚类事务和关联379

案例研究: 使用户生成的内容变得有价值381

本章小结382

关键术语383

巩固练习384

实战练习386

单项选择题参考答案393

第11章文本挖掘\\394

11.1概述394

11.2文本挖掘的定义395

11.2.1文档集395

11.2.2文档395

11.2.3文档特征395

11.2.4领域和背景知识396

11.3文本挖掘中的一些挑战396

11.4文本挖掘和数据挖掘396

11.5R中的文本挖掘396

11.6文本挖掘的总体架构406

11.6.1预处理任务406

11.6.2核心挖掘操作407

11.6.3表示层成分与浏览功能407

11.6.4精简技术407

11.7R中文档的预处理407

11.8核心文本挖掘操作409

11.8.1分布(比例)410

11.8.2频繁概念集410

11.8.3近频繁概念集410

11.8.4关联411

11.9文本挖掘的背景知识413

11.10文本挖掘查询语言413

11.11挖掘频繁模式、关联和相关性的基本概念和方法413

11.11.1基本概念414

11.11.2购物篮分析414

11.11.3关联规则415

11.12频繁项集、闭项集和关联规则416

11.12.1频繁项集416

11.12.2闭项集416

11.12.3关联规则挖掘416

11.13频繁项集的挖掘方法417

11.13.1Apriori算法: 发现频繁项集417

11.13.2从频繁项集生成关联规则419

11.13.3提高Apriori算法的效率421

11.13.4挖掘频繁项集的模式生长方法422

11.13.5使用垂直数据格式挖掘频繁项集422

11.13.6挖掘闭模式和最大模式423

11.14模式评估方法424

11.14.1强规则并不一定有趣425

11.14.2从关联分析到相关性分析425

11.14.3模式评估度量的比较426

11.15情感分析427

11.15.1情感分析的目的427

11.15.2情感分析要用到的知识427

11.15.3情感分析的输入428

11.15.4情感分析的工作方式428

案例研究: 客户群体的信用卡消费可以通过商业需求进行识别428

本章小结429

关键术语431

巩固练习432

实战练习434

单项选择题参考答案436

第12章使用R实现并行计算\\437

12.1概述437

12.2R工具库概述438

12.2.1在R中使用高性能计算的动机438

12.3HPC中使用R的时机439

12.3.1单节点中的并行计算440

12.3.2多节点的并行化支持440

12.4R对并行化的支持443

12.4.1R中对单节点并行化执行的支持443

12.4.2使用消息传递接口对多个节点上的并行执行提供支持450

12.4.3使用其他分布式系统的包454

12.5R中并行包的比较461

案例研究: 销售预测462

本章小节464

关键术语465

巩固练习466

实战练习468

单项选择题参考答案471