R数据挖掘实战
全新正版 极速发货
¥
61.68
6.2折
¥
99.8
全新
库存3件
作者(意)安德烈亚·奇里洛
出版社人民邮电出版社
ISBN9787115616456
出版时间2024-05
装帧平装
开本16开
定价99.8元
货号1203252918
上书时间2024-07-02
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
[意]安德烈亚·奇里洛(Andrea Cirillo):目前就职于意大利联合圣保罗银行(Intesa Sanpaolo Banking Group),担任审计量化分析师一职。在此之前,他曾在德勤会计师事务所(Deloitte Touche Tohmatsu)从事财务和外部审计相关工作,以及在 FNM(一家意大利上市公司)从事内部审计相关工作。他目前的主要工作职责涉及信用风险管理模型的评估及改进—主要围绕巴塞尔协议Ⅲ这一领域。他与弗朗西丝卡(Francesca)结婚,并共同养育四个子女,他们的名字名别是:托马索(Tommaso)、吉安娜(Gianna)、扎卡里亚(Zaccaria)和菲利波(Filippo)。安德里亚(Andrea)曾编写并供稿一些有用的 R语言软件包,包括 updateR、ramazon 和 paletteR,此外,他会定期地分享一些关于 R 语言编程的深刻见解和教程。他的研究工作主要聚焦于通过建模定制算法以及开发交互式应用程序,实现 R 语言在风险管理和欺诈检测领域中的应用。
目录
第1章为何选择R语言1
1.1什么是R语言1
1.2R语言的发展历史2
1.3R语言的优势2
1.3.1开源3
1.3.2插件就绪3
1.3.3数据可视化友好4
1.4安装R语言、编写R语言代码5
1.4.1下载R语言软件包5
1.4.2应用于Windows平台和MacOS平台的R语言软件包5
1.4.3应用于Linux平台的R语言软件包6
1.4.4基础版本R语言包安装的主要组件6
1.4.5编写R语言及运行R语言代码的替代平台8
1.5R语言的基本概念11
1.5.1R语言初级入门11
1.5.2向量(Vector)14
1.5.3列表(Lists)15
1.5.4数据帧(Dataframes)17
1.5.5函数(Functions)18
1.6R语言的劣势以及如何克服这些劣势20
1.6.1高效学习R语言,最小化精力投入21
1.6.2通过R语言操作大型数据集24
1.7更多参考25
1.8小结25
第2章数据挖掘入门-读者银行账户数据分析26
2.1获取并准备银行数据26
2.1.1数据模型27
2.2使用数据透视表汇总数据27
2.2.1管道操作符简介29
2.2.2dplyr程序包简介30
2.2.3安装必要程序包并将个人数据加载到R语言环境中31
2.2.4确定每月和每天的费用总额32
2.4使用ggplot2程序包对数据进行可视化处理36
2.4.1数据可视化基本原理36
2.4.2使用ggplot程序包来进行数据可视化42
2.5更多参考47
2.6小结47
第3章数据挖掘进阶-数据挖掘标准流程(CRISP-DM)方法论49
3.1数据挖掘标准流程(CRISP-DM)方法论之数据挖掘周期50
3.2业务理解51
3.3数据理解51
3.3.1数据收集52
3.3.2数据描述52
3.3.3数据探索53
3.4数据准备57
3.5建模57
3.5.1定义数据建模策略58
3.6评估59
3.6.1聚类评估59
3.6.2分类评估60
3.6.3回归评估60
3.6.4如何判断模型性能的充分性61
3.7部署62
3.7.1部署计划开发62
3.7.2维护计划开发63
3.8小结64
第4章保持室内整洁-数据挖掘架构65
4.1概述65
4.2数据源67
4.2.1数据源类型68
4.3数据库和数据仓库69
4.3.1中间层-数据集市70
4.3.2单层架构的数据仓库70
4.3.3双层架构的数据仓库71
4.3.4三层架构的数据仓库71
4.3.5实际应用的技术72
4.4数据挖掘引擎73
4.4.1解释器74
4.4.2引擎和数据仓库之间的接口74
4.4.3数据挖掘算法74
4.5用户界面75
4.5.1清晰性原则76
4.6如何使用R语言来创建数据挖掘架构79
4.6.1数据源79
4.6.2数据仓库80
4.6.3数据挖掘引擎80
4.6.4用户界面81
4.7更多参考82
4.8小结82
第5章如何解决数据挖掘问题-数据清洗和验证83
5.1安静祥和的一天83
5.2数据清洗85
5.2.1Tidydata框架85
5.2.2分析数据的结构87
5.2.3数据整理93
5.2.4验证数据99
5.2.5数据合并109
5.3更多参考111
5.4小结111
第6章观察数据-探索性数据分析113
6.1汇总EDA介绍113
6.1.1描述总体分布114
6.1.2测定变量之间的相关性124
6.2图形化EDA130
6.2.1变量分布可视化131
6.2.2变量关系可视化136
6.2.3更多参考141
6.3小结141
第7章最初的猜想-线性回归142
7.1定义数据建模策略143
7.1.1数据建模相关概念146
7.2应用线性回归148
7.2.1线性回归的直观解释149
7.2.2线性回归的数学原理150
7.2.3如何在R语言中使用线性回归152
7.3更多参考161
7.4小结161
第8章浅谈模型性能评估163
8.1定义模型性能163
8.1.1模型的拟合度与模型的可解释性164
8.1.2使用模型进行预测165
8.2测量回归模型的性能167
8.2.1均方误差167
8.2.2R平方172
8.3衡量分类问题模型的性能177
8.3.1混淆矩阵178
8.3.2准确度180
8.3.3灵敏度182
8.3.4特异性182
8.3.5如何选择合适的性能统计指标183
8.4区分训练数据集与测试数据集184
8.5更多参考185
8.6小结185
第9章不要放弃-继续学习包括多元变量的回归187
9.1从简单线性回归到多元线性回归188
9.1.1符号188
9.1.2假设188
9.2降维191
9.2.1逐步回归192
9.2.2主成分回归196
9.3使用R语言拟合多元线性模型197
9.3.1模型拟合197
9.3.2变量的假设验证200
9.3.3残差假设验证201
9.3.4降维202
9.4更多参考208
9.5小结208
第10章关于分类模型问题的不同展望209
10.1分类模型是什么?读者为什么需要分类模型209
10.1.1线性回归应用于分类变量的局限性210
10.1.2常用的分类算法和模型211
10.2逻辑回归213
10.2.1逻辑回归的原理213
10.2.2逻辑回归的数学原理215
10.2.3如何在R中应用逻辑回归218
10.2.4逻辑回归结果的可视化与解释224
10.3支持向量机(SVM)228
10.3.1支持向量机的原支理229
10.3.2在原R语言中应用支持向量机234
10.3.3理解支持向量机的结果235
10.4更多参考238
10.5小结238
第11章最后冲刺-随机森林和集成学习239
11.1随机森林239
11.1.1随机森林的构建模块-决策树简介240
11.1.2随机森林的原理243
11.1.3在R语言中应用随机森林243
11.1.4评估模型的结果244
11.2集成学习249
11.2.1基础的集成学习技术250
11.2.2采用R语言对数据进行集成学习250
11.3在新数据上应用估计模型256
11.3.1将predict.glm()函数用于逻辑模型的预测257
11.3.2将predict.randomforest()用于随机森林的预测258
11.3.3将predict.svm()函数应用于支持向量机的预测258
11.4结构化更加良好的预测分析方法258
11.5对预测数据应用集成学习中的多数投票技术259
11.6更多参考260
11.7小结260
第12章寻找罪魁祸首-用R语言执行文本数据挖掘262
12.1提取PDF文件中的数据262
12.1.1获取文档列表263
12.1.2通过pdf_text()函数将PDF文件读取到R语言环境264
12.1.3使用for循环迭代提取文本266
12.2文本情感分析269
12.3开发词云272
12.4N元组模型(n-grams)分析274
12.5网络分析275
12.5.1从数据帧中获取边列表279
12.5.2使用ggraph程序包可视化网络279
12.6更多参考283
12.7小结283
第13章借助RMarkdown与股东分享公司现状284
13.1富有说服力的数据挖掘报告之原则284
13.1.1清晰阐明目标284
13.1.2明确陈述假设285
13.1.3数据处理过程清晰明了285
13.1.4数据一致性286
13.1.5提供数据谱系286
13.2编制RMarkDown报告287
13.3在RStudio中编制RMarkdown报告文档288
13.3.1Markdown简介288
13.3.2插入代码块289
13.3.3通过内联R语言代码,在文本中重现代码的输出292
13.3.4Shiny简介以及reactivity框架293
13.3.5添加交互式数据族谱模块297
13.4渲染和分享RMarkdown报告301
13.4.1渲染RMarkdown报告301
13.4.2分享RMarkdown报告301
13.5更多参考304
13.6小结304
第14章结语306
附录A处理日期、相对路径和函数309
A.1使用R语言处理日期309
A.2R语言中的工作目录和相对路径309
A.3条件声明310
内容摘要
作为通用的数据挖掘和统计分析工具,R语言被广泛应用于各大领域,包括金融、医药、科学研究等。通过阅读本书内容,读者可创建和展示令人印象深刻的数据分析。
本书通过沉浸式体验一个虚拟的数据挖掘刑事案例,让读者借助基础和优选的数据挖掘技术来解决这个影响商业公司运营的欺诈案件,从而让读者掌握这些强大的技能。
通过本书,读者将高效地学习针对数据挖掘任务通常采用的各种R语言软件包,并将其应用于现实数据中。此外,读者还将了解如何应用各种数据挖掘模型和算法(从基础的多元线性回归到最优选的支持向量机),以及这些模型背后的原理。
完成本书的学习,读者将能够解决数据挖掘相关的实际问题,并优选化利用好自己的数据。
主编推荐
通过本书的学习,读者能够:
·掌握数据挖掘的相关软件包,如dplyr、ggplot2等。
·学会如何通过数据挖掘标准流程(CRISP-DM)来有效地组织数据挖掘项目。
·对数据执行数据清理和数据验证操作—为数据挖掘活动准备数据。
·以数值方式和图形方式分别执行探索性数据分析。
·开发简单线性回归模型、多元线性回归模型以及逻辑回归模型。
·应用基本的集成学习技术整合不同数据挖掘模型的结果。
·对非结构化的PDF文件和文本数据执行文本挖掘及分析。
·编制有效传达数据分析目标、方法和洞察的报告。
— 没有更多了 —
以下为对购买帮助不大的评价