• 深入浅出R语言数据分析
  • 深入浅出R语言数据分析
  • 深入浅出R语言数据分析
  • 深入浅出R语言数据分析
  • 深入浅出R语言数据分析
  • 深入浅出R语言数据分析
  • 深入浅出R语言数据分析
  • 深入浅出R语言数据分析
  • 深入浅出R语言数据分析
21年品牌 40万+商家 超1.5亿件商品

深入浅出R语言数据分析

正版保障 假一赔十 可开发票

38.2 5.5折 69 全新

库存28件

广东广州
认证卖家担保交易快速发货售后保障

作者米霖

出版社清华大学出版社

ISBN9787302543886

出版时间2020-09

装帧平装

开本16开

定价69元

货号29123091

上书时间2024-10-30

兴文书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言

R语言由统计学家设计,专门用于统计计算。随着技术的进步,数据公司或研究机构的数据收集工作变得越来越复杂,许多人已经采用R语言作为分析数据的语言。R语言非常适合机器学习、数据可视化、数据分析及科学计算。R语言因其特定主题的软件包及其通信基础设施的深入而非常适合业务。R语言包含主题广泛的软件包,如计量经济学、金融学和时间序列;拥有一流的可视化、报告和交互性工具,这些工具在科学计算领域同样重要。因此,R语言非常适合科学家、工程师和商业专业人士使用。

随着数据分析在帮助企业了解客户、提升运营效率等方面越来越重要,R语言也变得越来越重要。

正如R语言分析师们在一篇文章中讲到,R语言是Microsoft数据科学家的工具,他们将机器学习应用于Bing、Azure、Office及销售、营销和财务部门的数据。除Google、Facebook和Microsoft等科技巨头外,R语言还广泛应用于包括美国银行、福特、TechCrunch、Uber和Trulia在内的其他公司。

R语言不仅仅是工业工具,它在学术科学家和研究人员中也非常受欢迎。R语言在学术界的受欢迎程度非常高,因为它创造了一个为行业提供支持的人才库。换句话说,如果秀和聪明的人在大学接受过R语言培训,那么这将增加R语言在工业中的重要性。离开学术界进行商业活动的学者、博士和研究人员将吸引更多的人使用R语言进行数据科学研究。

笔者的使用体会

笔者以R语言为工具进行数据分析、统计建模、机器学习等数据科学的工作已经很多年了,对R语言的原理、应用等各个方面有着比较全面的认识。R语言有着非常突出的优点。

,R语言是开源的,可以完成SAS所能完成的几乎所有的工作,SAS非常昂贵,但是R语言完全免费。个人或者公司可以自由地安装、使用、更新、修改R语言程序,或者转售R 语言程序,这是一个巨大的优势。

第二,R 语言是跨平台的,可以在Windows 、Mac OS 和Linux 上运行,可以从各种数据源导入数据。

第三,R 语言有着非常强大的社区,其提供了非常丰富的数据科学、统计相关的资源, 可以使得每一个R 语言用户受益。正是这些资源,可以让一个非常复杂的问题得到快速解决。

第四,R 语言提供了强大的数据可视化功能,可以生成高质量的图形,如条形图、直方图、散点图、动态图形、数学符号,甚至是自己设计的全新图形,通常只需很少的代码。

第五,R 语言的文档资源相当丰富,并且质量非常高,这对于学习R 语言及在工作中使用R 语言有着非常大的帮助。因为R 语言涉及很多领域的应用,从生物、金融到贝叶斯统计、网络分析,可以沿着R 语言资源的脉络了解其他领域的知识。

第六,R 语言同样可以用来处理PB 级别的业务数据。使用R 语言处理大量数据时, 系统可能会耗尽内存,但有几种商业版本的R 语言可以轻松处理大量业务数据,而不会有任何麻烦。

使用R 语言存在一些挑战。R 语言的学习曲线比较陡峭,虽然R 语言的语法比较简单, 入门比较快;R 语言的强大在于其丰富的资源,掌握这些资源并加以利用并不是一件容易的事情;另外,解决数据分析、数据科学方面的问题,仅仅了解R 语言是远远不够的,统计理论、机器学习方面的知识同样是解决问题的门槛;并且,更重要的是掌握数据科学、数据分析问题的思维方式及流程,而这些也不是短时间内就能掌握的。

但是,只要坚持学习下来,就会发现,R 语言提供的大量地应用于数据科学、数据分析方面的资源都能够为我们所用,而我们也能游刃有余地解决数据分析相关的问题。

本书的特色

■ 本书不需要太多的预备知识,只需要很少的数学统计知识。
■ 本书含有大量的图表,通过示例讲解数据分析,不拘泥于理论,能够帮助读者快速掌握数据分析方法。
■ 本书案例丰富,很好地平衡了理论与应用,有着非常高的理论与实用价值,是学习R 语言与数据分析不可多得的书籍。
■ 本书将重点放在如何用实现数据分析方法及数据分析方法的应用方面,这也是本书与许多其他同类图书的不同之处。
 
本书的主要内容

读 者 对 象

■  数据分析的从业人员; 
■  统计、数学、经济学、计算机、财经等学科的本科生、研究生; 
■  互联网从业人员,如产品经理; 
■  R 语言、数据分析新手; 
■  有一定R 语言经验的人; 
■  转行进入数据分析行业的人; 



导语摘要

本书首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。本书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。 本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及关于R语言数据分析的两个延伸内容:H2O机器学习和R语言爬虫。 本书内容通俗易懂,案例丰富,实用性强,特别适合R语言的入门读者和进阶读者阅读,也适合数据分析人员、数据挖掘人员等其他数据科学从业者。另外,本书也适用于统计学、计算机、机器学习、数学等相关专业的本科生、研究生使用。



商品简介

本书首先介绍数据分析的方法论,然后介绍数据分析的相关模型方法,并进一步通过数据分析案例,讲解数据分析的思维、方法及模型实现过程。本书重点介绍R语言在数据分析方面的应用,让读者能够快速地使用R语言进行数据分析、构建模型。 本书分为17章,内容包括:使用R语言获取数据、数据分析中的数据处理与数据探索、生存分析、主成分分析、多维缩放、线性回归模型、逻辑回归模型、聚类模型、关联规则、随机森林、支持向量机、神经网络、文本挖掘、社交网络分析,以及关于R语言数据分析的两个延伸内容:H2O机器学习和R语言爬虫。 本书内容通俗易懂,案例丰富,实用性强,特别适合R语言的入门读者和进阶读者阅读,也适合数据分析人员、数据挖掘人员等其他数据科学从业者。另外,本书也适用于统计学、计算机、机器学习、数学等相关专业的本科生、研究生使用。



作者简介

米霖,毕业于华中农业大学,本科数学专业,研究生统计学专业,8年R语言项目经验,擅长机器学习、统计模型。曾开发了多门R语言相关课程,课程包括《Shiny 初级教程》《R包开发》《H2O机器学习模型》《信用评分模型开发》《R语言文本挖掘》等,学员累计超过5000人。完成过很多数据分析项目,例如广告虚假流量识别项目(通过虚假流量数据的挖掘帮助企业节省了上百万元的营销成本),信贷中的信用评分项目,电商风控项目等。



目录

第1章 数据分析项目的流程


1.1 数据分析项目中的角色·····1


1.2 数据分析项目的阶段········2


1.2.1 制定目标··················3


1.2.2 收集数据··············3


1.2.3 数据处理和分析············4


1.2.4 构建模型··········7


1.2.5 评估模型··········8


1.2.6 展示结果·········9


1.2.7 部署与维护模型···········10


1.3 总结··················10


第2章 数据的读取


2.1 RData数据 ·················11


2.2 readr高效读取数据 ·········13


2.3 读取Excel数据 ········16


2.4 读取SPSS、SAS、STATA数据 ·······17


2.5 R语言操作数据库 ·······19


2.6 总结·····················23


第3章 数 据 探 索


3.1 缺失值的识别与处理···········24


3.1.1 缺失值的识别与描述性统计····25


3.1.2 缺失值的可视化展示················26


3.1.3 缺失值的处理方法····················28


3.2 异常值············33


3.3 dlookr数据处理包 ···············38


3.3.1 所有变量的一般性诊断····38


3.3.2 数值型变量的诊断············39


3.3.3 分类变量的诊断····39


3.3.4 异常值的诊断········40


3.3.5 创建诊断报告········41


3.3.6 数据处理················42


3.3.7 缺失值处理············43


3.3.8 异常值处理············44


3.3.9 数据转换················46


3.3.10 数据分箱··············49


3.3.11 创建数据转换报告··········52


3.4 数据相关性··················53


3.5 自动化创建数据探索报告·····57


3.6 总结··········60


第4 章生存分析


4.1 生存分析的基本内容·········61


4.2 使用R 语言进行生存分析·······64


4.3 非参数模型······66


4.3.1 使用Kaplan-Meier 方法拟合数据 ··········66


4.3.2 Kaplan-Meier 方法的可视化 ······68


4.4 半参数模型生存分析方法·······70


4.4.1 构建Cox 模型···········70


4.4.2 检查假设·············71


4.4.3 Coxph 模型可视化········73


4.4.4 预测··················74


4.4.5 分层·············75


4.5 参数模型···················77


4.6 随机生存森林模型···80


4.7 总结·············82


第5 章主成分分析


5.1 概述······························83


5.1.1 维度相关的问题···············83


5.1.2 检测多重共线性···············84


5.1.3 方差膨胀因子···················84


5.2 主成分分析详解··········85


5.2.1 主成分分析的定义···········85


5.2.2 主成分分析的简单原理···86


5.2.3 主成分分析的算法········&middo

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP