前言
R语言由统计学家设计,专门用于统计计算。随着技术的进步,数据公司或研究机构的数据收集工作变得越来越复杂,许多人已经采用R语言作为分析数据的*语言。R语言非常适合机器学习、数据可视化、数据分析及科学计算。R语言因其特定主题的软件包及其通信基础设施的深入而非常适合业务。R语言包含主题广泛的软件包,如计量经济学、金融学和时间序列;拥有一流的可视化、报告和交互性工具,这些工具在科学计算领域同样重要。因此,R语言非常适合科学家、工程师和商业专业人士使用。
随着数据分析在帮助企业了解客户、提升运营效率等方面越来越重要,R语言也变得越来越重要。
正如R语言分析师们在一篇文章中讲到,R语言是Microsoft数据科学家的*工具,他们将机器学习应用于Bing、Azure、Office及销售、营销和财务部门的数据。除Google、Facebook和Microsoft等科技巨头外,R语言还广泛应用于包括美国银行、福特、TechCrunch、Uber和Trulia在内的其他公司。
R语言不仅仅是工业工具,它在学术科学家和研究人员中也非常受欢迎。R语言在学术界的受欢迎程度非常高,因为它创造了一个为行业提供支持的人才库。换句话说,如果*秀和*聪明的人在大学接受过R语言培训,那么这将增加R语言在工业中的重要性。离开学术界进行商业活动的学者、博士和研究人员将吸引更多的人使用R语言进行数据科学研究。
笔者的使用体会
笔者以R语言为工具进行数据分析、统计建模、机器学习等数据科学的工作已经很多年了,对R语言的原理、应用等各个方面有着比较全面的认识。R语言有着非常突出的优点。
*,R语言是开源的,可以完成SAS所能完成的几乎所有的工作,SAS非常昂贵,但是R语言完全免费。个人或者公司可以自由地安装、使用、更新、修改R语言程序,或者转售R 语言程序,这是一个巨大的优势。
第二,R 语言是跨平台的,可以在Windows 、Mac OS 和Linux 上运行,可以从各种数据源导入数据。
第三,R 语言有着非常强大的社区,其提供了非常丰富的数据科学、统计相关的资源, 可以使得每一个R 语言用户受益。正是这些资源,可以让一个非常复杂的问题得到快速解决。
第四,R 语言提供了强大的数据可视化功能,可以生成高质量的图形,如条形图、直方图、散点图、动态图形、数学符号,甚至是自己设计的全新图形,通常只需很少的代码。
第五,R 语言的文档资源相当丰富,并且质量非常高,这对于学习R 语言及在工作中使用R 语言有着非常大的帮助。因为R 语言涉及很多领域的应用,从生物、金融到贝叶斯统计、网络分析,可以沿着R 语言资源的脉络了解其他领域的知识。
第六,R 语言同样可以用来处理PB 级别的业务数据。使用R 语言处理大量数据时, 系统可能会耗尽内存,但有几种商业版本的R 语言可以轻松处理大量业务数据,而不会有任何麻烦。
使用R 语言存在一些挑战。R 语言的学习曲线比较陡峭,虽然R 语言的语法比较简单, 入门比较快;R 语言的强大在于其丰富的资源,掌握这些资源并加以利用并不是一件容易的事情;另外,解决数据分析、数据科学方面的问题,仅仅了解R 语言是远远不够的,统计理论、机器学习方面的知识同样是解决问题的门槛;并且,更重要的是掌握数据科学、数据分析问题的思维方式及流程,而这些也不是短时间内就能掌握的。
但是,只要坚持学习下来,就会发现,R 语言提供的大量地应用于数据科学、数据分析方面的资源都能够为我们所用,而我们也能游刃有余地解决数据分析相关的问题。
本书的特色
■ 本书不需要太多的预备知识,只需要很少的数学统计知识。
■ 本书含有大量的图表,通过示例讲解数据分析,不拘泥于理论,能够帮助读者快速掌握数据分析方法。
■ 本书案例丰富,很好地平衡了理论与应用,有着非常高的理论与实用价值,是学习R 语言与数据分析不可多得的书籍。
■ 本书将重点放在如何用实现数据分析方法及数据分析方法的应用方面,这也是本书与许多其他同类图书的不同之处。
本书的主要内容
读 者 对 象
■ 数据分析的从业人员;
■ 统计、数学、经济学、计算机、财经等学科的本科生、研究生;
■ 互联网从业人员,如产品经理;
■ R 语言、数据分析新手;
■ 有一定R 语言经验的人;
■ 转行进入数据分析行业的人;
商品简介
本书首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。本书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。 本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及关于R语言数据分析的两个延伸内容:H2O机器学习和R语言爬虫。 本书内容通俗易懂,案例丰富,实用性强,特别适合R语言的入门读者和进阶读者阅读,也适合数据分析人员、数据挖掘人员等其他数据科学从业者。另外,本书也适用于统计学、计算机、机器学习、数学等相关专业的本科生、研究生使用。
作者简介
米霖,毕业于华中农业大学,本科数学专业,研究生统计学专业,8年R语言项目经验,擅长机器学习、统计模型。曾开发了多门R语言相关课程,课程包括《Shiny 初级教程》《R包开发》《H2O机器学习模型》《信用评分模型开发》《R语言文本挖掘》等,学员累计超过5000人。完成过很多数据分析项目,例如广告虚假流量识别项目(通过虚假流量数据的挖掘帮助企业节省了上百万元的营销成本),信贷中的信用评分项目,电商风控项目等。
目录
第1章 数据分析项目的流程
1.1 数据分析项目中的角色
1.2 数据分析项目的阶段
1.2.1 制定目标
1.2.2 收集数据
1.2.3 数据处理和分析
1.2.4 构建模型
1.2.5 评估模型
1.2.6 展示结果
1.2.7 部署与维护模型
1.3 总结
第2章 数据的读取
2.1 RData数据
2.2 readr高效读取数据
2.3 读取Excel数据
2.4 读取SPSS、SAS、STATA数据
2.5 R语言操作数据库
2.6 总结
第3章 数据探索
3.1 缺失值的识别与处理
3.1.1 缺失值的识别与描述性统计
3.1.2 缺失值的可视化展示
3.1.3 缺失值的处理方法
3.2 异常值
3.3 dlookr数据处理包
3.3.1 所有变量的一般性诊断
3.3.2 数值型变量的诊断
3.3.3 分类变量的诊断
3.3.4 异常值的诊断
3.3.5 创建诊断报告
3.3.6 数据处理
3.3.7 缺失值处理
3.3.8 异常值处理
3.3.9 数据转换
3.3.10 数据分箱
3.3.11 创建数据转换报告
3.4 数据相关性
3.5 自动化创建数据探索报告
3.6 总结
第4章 生存分析
4.1 生存分析的基本内容
4.2 使用R语言进行生存分析
4.3 非参数模型
4.3.1 使用Kaplan-Meier方法拟合数据
4.3.2 Kaplan-Meier方法的可视化
4.4 半参数模型生存分析方法
4.4.1 构建Cox模型
4.4.2 检查假设
4.4.3 Coxph模型可视化
4.4.4 预测
4.4.5 分层
4.5 参数模型
4.6 随机生存森林模型
4.7 总结
第5章 主成分分析
5.1 概述
5.1.1 维度相关的问题
5.1.2 检测多重共线性
5.1.3 方差膨胀因子
5.2 主成分分析详解
5.2.1 主成分分析的定义
5.2.2 主成分分析的简单原理
5.2.3 主成分分析的算法
5.3 使用R语言进行主成分分析
5.3.1 主成分分析的实现
5.3.2 主成分分析案例
5.4 总结
第6章 多维缩放
6.1 MDS的工作原理
6.3 MDS的优点
6.2 在R语言中实现MDS
6.4 总结
第7章 线性回归模型
7.1 线性回归模型概述
7.2 在R语言中实现回归模型
7.2.1 图形分析
7.2.2 建立线性模型
7.2.3 回归模型的图形诊断
7.2.4 预测模型
7.2.5 抽样方法
7.3 总结
第8章 逻辑回归模型
8.1 逻辑回归的原理
8.2 在R语言中实现逻辑回归模型
8.2.1 数据探索
8.2.2 构建逻辑回归模型
8.2.3 逻辑回归预测
8.2.4 逻辑回归模型评估
8.3 总结
第9章 聚类模型
9.1 概述
9.1.1 聚类算法
9.1.2 K均值聚类的原理
9.2 在R语言中实现聚类模型
9.2.1 K均值聚类
9.2.2 层次聚类
9.2.3 Medoids聚类(PAM)
9.3 总结
第10章 关联规则
10.1 关联规则概述
10.2 关联规则的基本概念
10.3 在R语言中实现关联规划
10.3.1 训练模型
10.3.2 模型的评估
10.3.3 提升关联规则的效果
10.3.4 关联规则的可视化
10.4 总结
第11章 随机森林
11.1 随机森林的基本概念
11.3 总结
11.2 在R语言中实现随机森林
第12章 支持向量机
12.1 概述
12.3 总结
12.2 在R语言中实现支持向量机
第13章 神经网络
13.2.2 评估模型效果
13.1 概述
13.2 在R语言中实现神经网络
13.3 总结
13.2.1 构建神经网络模型
第14章 文本挖掘
14.1 概述
14.2 text2vec背景及其基本原理
14.3 DTM与TFIDF的原理和实现
14.3.1 DTM和TFIDF的原理
14.3.2 DTM的实现
14.3.3 TFIDF的实现
14.4 情感分析
14.5 LDA主题模型及其实现
14.6 构建自动问答系统
14.7 总结
第15章 社交网络分析
15.1 社交网络概述
15.2 igraph简介
15.2.1 准备工作
15.2.2 图的指标计算
15.3 社交网络的常见结构
15.4 社交网络分析算法
IX
15.4.1 Girvan-Newman
15.4.2 基于传播标签的社区检测
15.4.3 基于贪婪优化模块的社区检测
15.4.4 自旋转玻璃社群
15.5 微博社交群体分析
15.5.1 自旋转玻璃社群
15.5.2 社群检测
15.6 总结
第16章 H2O机器学习
16.1 H2O机器学习平台
16.2 在R语言中使用H2O
16.2.1 H2O的安装
16.2.2 案例应用
16.2.3 H2O常用API
16.2.4 模型的通用参数
16.2.5 参数调整
16.3 H2OFlow
16.3.1 H2OFlow的安装
16.3.2 H2OFlow的基本使用方法
16.4 总结
第17章 R语言爬虫
17.1 快速爬取网页数据
17.2 rvest简介
17.2.1 rvestAPI
17.2.2 rvestAPI详解
17.3 爬取BOSS直聘数据
17.4 模拟登录
内容摘要
本书首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。本书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及关于R语言数据分析的延伸内容:H2O机器学习和R语言爬虫。本书内容通俗易懂,案例丰富,实用性强,特别适合R语言的入门读者和进阶读者阅读,也适合数据分析人员、数据挖掘人员等其他数据科学从业者。另外,本书也适用于统计学、计算机、机器学习、数学等相关专业的本科生、研究生使用。
主编推荐
8年实战经验,带你搞定R语言数据分析,有理论,有应用,有技巧 系统:从数据读取、网络爬虫,到数据分析方法,应有尽有 全面:介绍了*常用的12种数据分析方法 实战:针对每种方法,都给出了实现代码,拿来就用 图解:提供了59张数据分析图,方便读者学习 免费提供配套学习视频 源程序
精彩内容
本书首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。本书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。
本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及H20机器学习和R语言爬虫这两个关于R语言数据分析的两个延伸内容。 、
本书内容通俗易懂,案例丰富,实用性强,特别适合R语言的入门读者和进阶读者阅读,也适合数据分析人员、数据挖掘人员等其他数据科学从业者。另外,本书也适合统计学、计算机、机器学习、数学等相关专业的本科生、研究生使用。
以下为对购买帮助不大的评价