• r数据挖掘实战 编程语言 (意)安德烈亚·奇里洛
21年品牌 40万+商家 超1.5亿件商品

r数据挖掘实战 编程语言 (意)安德烈亚·奇里洛

通过实际用例和现实数据集来实施数据挖掘技术,深入数据挖掘,掌握r语言精髓,开启数据分析新境界!

45.2 4.5折 99.8 全新

库存5件

河北保定
认证卖家担保交易快速发货售后保障

作者(意)安德烈亚·奇里洛

出版社人民邮电出版社

ISBN9787115616456

出版时间2024-05

版次1

装帧平装

开本16

页数324页

字数392千字

定价99.8元

货号115_9787115616456

上书时间2024-11-26

问问熊书店

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

通过本书的学,读者能够:
掌握数据挖掘的相关软件包,如dplyr、ggplot2等。
学会如何通过数据挖掘标准流程(cripdm)来有效地组织数据挖掘项目。
对数据执行数据清理和数据验证作—为数据挖掘活动准备数据。
以数值方式和图形方式分别执行探索数据分析。
开发简单线回归模型、多元线回归模型以及逻辑回归模型。
应用基本的集成学技术整合不同数据挖掘模型的结果。
对非结构化的pdf文件和文本数据执行文本挖掘及分析。
编制有效传达数据分析目标、方法和洞察的报告。

目录:

章为何选择r语言1

1.1什么是r语言1

1.2r语言的发展历史2

1.3r语言的优势2

1.3.1开源3

1.3.2插件绪3

1.3.3数据可视化友好4

1.4安装r语言、编写r语言代码5

1.4.1下载r语言软件包5

1.4.2应用于windows台和macos台的r语言软件包5

1.4.3应用于linu台的r语言软件包6

1.4.4基础版本r语言包安装的主要组件6

1.4.5编写r语言及运行r语言代码的替代台8

1.5r语言的基本概念11

1.5.1r语言初级入门11

1.5.2向量(vector)14

1.5.3列表(lists)15

1.5.4数据帧(dataframes)17

1.5.5函数(functions)18

1.6r语言的劣势以及如何克服这些劣势20

1.6.1高效学r语言,小化精力投入21

1.6.2通过r语言作大型数据集24

1.7更多参25

1.8小结25

第2章数据挖掘入门-读者银行账户数据分析26

2.1获取并准备银行数据26

2.1.1数据模型27

2.2使用数据透视表汇数据27

2.2.1管道作符简介29

2.2.2dplyr程序包简介30

2.2.3安装必要程序包并将个人数据加载到r语言环境中31

2.2.4确定每月和每天的费用额32

2.4使用ggplot2程序包对数据进行可视化处理36

2.4.1数据可视化基本36

2.4.2使用ggplot程序包来进行数据可视化42

2.5更多参47

2.6小结47

第3章数据挖掘-数据挖掘标准流程(crisp-dm)方49

3.1数据挖掘标准流程(crisp-dm)方之数据挖掘周期50

3.2业务理解51

3.3数据理解51

3.3.1数据收集52

3.3.2数据描述52

3.3.3数据探索53

3.4数据准备57

3.5建模57

3.5.1定义数据建模策略58

3.6评估59

3.6.1聚类评估59

3.6.2分类评估60

3.6.3回归评估60

3.6.4如何判断模型能的充分61

3.7部署62

3.7.1部署计划开发62

3.7.2维护计划开发63

3.8小结64

第4章保持室内整洁-数据挖掘架构65

4.1概述65

4.2数据源67

4.2.1数据源类型68

4.3数据库和数据仓库69

4.3.1中间层-数据集市70

4.3.2单层架构的数据仓库70

4.3.3双层架构的数据仓库71

4.3.4三层架构的数据仓库71

4.3.5实际应用的技术72

4.4数据挖掘引擎73

4.4.1解释器74

4.4.2引擎和数据仓库之间的接74

4.4.3数据挖掘算法74

4.5用户界面75

4.5.1清晰原则76

4.6如何使用r语言来创建数据挖掘架构79

4.6.1数据源79

4.6.2数据仓库80

4.6.3数据挖掘引擎80

4.6.4用户界面81

4.7更多参82

4.8小结82

第5章如何解决数据挖掘问题-数据清洗和验证83

5.1安静祥和的83

5.2数据清洗85

5.2.1tidydata框架85

5.2.2分析数据的结构87

5.2.3数据整理93

5.2.4验证数据99

5.2.5数据合并109

5.3更多参111

5.4小结111

第6章观察数据-探索数据分析113

6.1汇eda介绍113

6.1.1描述体分布114

6.1.2测定变量之间的相关124

6.2图形化eda130

6.2.1变量分布可视化131

6.2.2变量关系可视化136

6.2.3更多参141

6.3小结141

第7章初的猜想-线回归142

7.1定义数据建模策略143

7.1.1数据建模相关概念146

7.2应用线回归148

7.2.1线回归的直观解释149

7.2.2线回归的数学150

7.2.3如何在r语言中使用线回归152

7.3更多参161

7.4小结161

第8章浅谈模型能评估163

8.1定义模型能163

8.1.1模型的拟合度与模型的可解释164

8.1.2使用模型进行预测165

8.2测量回归模型的能167

8.2.1均方误差167

8.2.2r方172

8.3衡量分类问题模型的能177

8.3.1混淆矩阵178

8.3.2准确度180

8.3.3灵敏度182

8.3.4特异182

8.3.5如何选择合适的能统计指标183

8.4区分训练数据集与测试数据集184

8.5更多参185

8.6小结185

第9章不要放弃-继续学包括多元变量的回归187

9.1从简单线回归到多元线回归188

9.1.1符号188

9.1.2设188

9.2降维191

9.2.1逐步回归192

9.2.2主成分回归196

9.3使用r语言拟合多元线模型197

9.3.1模型拟合197

9.3.2变量的设验证200

9.3.3残差设验证201

9.3.4降维202

9.4更多参208

9.5小结208

0章关于分类模型问题的不同展望209

10.1分类模型是什么?读者为什么需要分类模型209

10.1.1线回归应用于分类变量的局限210

10.1.2常用的分类算法和模型211

10.2逻辑回归213

10.2.1逻辑回归的213

10.2.2逻辑回归的数学215

10.2.3如何在r中应用逻辑回归218

10.2.4逻辑回归结果的可视化与解释224

10.3支持向量机(svm)228

10.3.1支持向量机的原支理229

10.3.2在原r语言中应用支持向量机234

10.3.3理解支持向量机的结果235

10.4更多参238

10.5小结238

1章后冲刺-森林和集成学239

11.1森林239

11.1.1森林的构建模块-决策树简介240

11.1.2森林的243

11.1.3在r语言中应用森林243

11.1.4评估模型的结果244

11.2集成学249

11.2.1基础的集成学技术250

11.2.2采用r语言对数据进行集成学250

11.3在新数据上应用估计模型256

11.3.1将predict.glm()函数用于逻辑模型的预测257

11.3.2将predict.randomforest()用于森林的预测258

11.3.3将predict.svm()函数应用于支持向量机的预测258

11.4结构化更加良好的预测分析方法258

11.5对预测数据应用集成学中的多数投票技术259

11.6更多参260

11.7小结260

2章寻找罪魁祸首-用r语言执行文本数据挖掘262

12.1提取pdf文件中的数据262

12.1.1获取文档列表263

12.1.2通过pdf_text()函数将pdf文件读取到r语言环境264

12.1.3使用for循环迭代提取文本266

12.2文本情感分析269

12.3开发词云272

12.4n元组模型(n-grams)分析274

12.5网络分析275

12.5.1从数据帧中获取边列表279

12.5.2使用ggraph程序包可视化网络279

12.6更多参283

12.7小结283

3章借助rmarkdown与股东分享公司现状284

13.1富有说服力的数据挖掘报告之原则284

13.1.1清晰阐明目标284

13.1.2明确陈述设285

13.1.3数据处理过程清晰明了285

13.1.4数据一致286

13.1.5提供数据谱系286

13.2编制rmarkdown报告287

13.3在rstudio中编制rmarkdown报告文档288

13.3.1markdown简介288

13.3.2插入代码块289

13.3.3通过内联r语言代码,在文本中重现代码的输出292

13.3.4shiny简介以及reactivity框架293

13.3.5添加交互式数据族谱模块297

13.4渲染和分享rmarkdown报告301

13.4.1渲染rmarkdown报告301

13.4.2分享rmarkdown报告301

13.5更多参304

13.6小结304

4章结语306

附录a处理期、相对路径和函数309

a.1使用r语言处理期309

a.2r语言中的工作目录和相对路径309

a.3条件声明310

内容简介:

作为通用的数据挖掘和统计分析工具,r语言被广泛应用于各大领域,包括金融、医药、科学研究等。通过阅读本书内容,读者可创建和展示令人印象深刻的数据分析。
本书通过沉浸式体验一个虚拟的数据挖掘刑事案例,让读者借助基础和的数据挖掘技术来解决这个影响商业公司运营的欺诈案件,从而让读者掌握这些强大的技能。
通过本书,读者将高效地学针对数据挖掘任务通常采用的各种r语言软件包,并将其应用于现实数据中。此外,读者还将了解如何应用各种数据挖掘模型和算法(从基础的多元线回归到的支持向量机),以及这些模型背后的。
完成本书的学,读者将能够解决数据挖掘相关的实际问题,并大化利用好自己的数据。

作者简介:

[意]安德烈亚奇里洛(andrea cirillo):目前职于意大利联合圣保罗银行(intea anpaolo banking group),担任审计量化分析师一职。在此之前,他曾在德勤师事务所(deloitte touche tohmatu)从事财务和外部审计相关工作,以及在 fnm(一家意大利上市公司)从事审计相关工作。他目前的主要工作职责涉及信用风险管理模型的评估及改进—主要围绕巴塞尔协议ⅲ这一领域。他与弗朗西丝卡(franceca)结婚,并共同养育四个子女,他们的名字名别是:托马索(tommao)、吉安娜(gianna)、扎卡里亚(zaccaria)和菲利波(filippo)。安德里亚(andrea)曾编写并供稿一些有用的 r语言软件包,包括 updater、r 和 paletter,此外,他会定期地分享一些关于 r 语言编程的深刻见解和教程。他的研究工作主要聚焦于通过建模定制算法以及开发交互式应用程序,实现 r 语言在风险管理和欺诈检测领域中的应用。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP