• R语言(第2版)
  • R语言(第2版)
  • R语言(第2版)
  • R语言(第2版)
  • R语言(第2版)
  • R语言(第2版)
  • R语言(第2版)
  • R语言(第2版)
21年品牌 40万+商家 超1.5亿件商品

R语言(第2版)

全新正版 急速发货

50.3 8.5折 59 全新

库存7件

天津武清
认证卖家担保交易快速发货售后保障

作者刘鹏、程显毅、孙丽丽、林道荣

出版社清华大学出版社

ISBN9787302610229

出版时间2022-07

装帧平装

开本16开

定价59元

货号29445743

上书时间2024-11-23

当科图书专营店

五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言

由于大数据、物联网、云计算推动了人工智能技术的落地实施,机器学习逐渐显现其重要性,成为人工智能的核心技术。

从理论的角度,大部分人都清楚的知道,研究机器学习不会遇到要学习底层理论的情况,通常只是应用程序接口(Application Programming Interface,API)的调用。所以基本上绝大多数研究者都把注意精力集中到数据处理上;由此可见,数据处理非常重要。数据处理得好,数据特征质量就会比较高,机器学习也就相对比较容易。

从模型评估角度,需要将预测的结果和真实的结果比较,但模型的输出是类别还是类别的概率,需要处理,才能使用评价函数。所以说,还是要将重点放在数据处理上,如何将概率转换为类别?如何计算auC.roc 之类的?其实本质上都是一样的:把数据处理成特征明显的、格式符合这些函数(不管是模型函数还是评估函数)的,就会出现没有问题的结果。所以,对于大多数程序员来说,机器学习到后还是数据处理(也就是数据转换之类的任务)。

从模型训练角度,模型调参是靠经验的,刚开始可能是手动调整,那么能不能自己写一个交叉验证?写个网格搜索(用for 循环就可以实现)?把每一次调用的参数、结果都保存起来?这些问题不都是数据处理吗?是更改了底层机器学习的原理了吗?并没有!虽然不更改底层的模型代码,但是会数据处理;这样就可以玩机器学习,并初步接触到人工智能了。所以还是要数据处理,由此再次可见数据处理非常重要!

从商业角度,还是要回答一个不能回避的问题,数据处理引擎用R 语言还是用Python?R 语言在国外用得很火,但是国外会R 语言的有几个不会Python?在国内Python 确实比R 语言流行,说明Python 生态优于R 语言的生态。就数据处理而言,R 语言有其独到之处(动态数据类型、向量化运算、数据框、因子变量等),对初次学习数据处理要求更低,并且R语言和Python 是无缝对接的,互操作非常自然,如果是非计算机专业的爱

好者,R 语言是学习数据处理的上佳选择。

第2 版对第1 版的内容和结构都做了较大的调整。

(1)去掉了数据分析师素养等宏观内容,而更加注重实操和解决实际问题。

(2)全书的实验数据以Titanic 项目为切入点,贯穿数据处理的全过程;从实际项目出发讲解相关知识点,因此增强了业务场景的体验。

(3)去掉了大数据处理的章节,因为大数据处理的方法、思维和小数据没有本质区别,只是平台不同。

(4)增加了字符串处理、特征工程、数据建模、模型评估方面的内容。

(5)增加了大量的学习资料:PPT、习题、代码、数据集、扩展阅读、微课视频等。

(6)增加了近几年R 语言的成果:pacman、caret、tidyverse、mlr 等。

本书第1~7 章由孙丽丽改编,第8~11 章由程显毅改编,第12、13章由林道荣改编。

本书编写过程中得到了云创刘鹏教授和清华大学出版社王莉编辑的大力支持和悉心指导,在此深表感谢。由于作者水平有限,书中一定会有不当之处,希望读者多多指教及谅解。

 

编 者

2022 年5 月



导语摘要

     本书通过Titanic 数据分析案例,深入浅出地介绍了R 语言在大数据分析应用中的相关知识,包括:数据准备、数据清洗、数据探索、数据变换、特征工程、数据建模、模型评估、模型部署等。全书共13章,第1~3 章介绍R 语言的开发环境和基本语法;第4~8 章按数据分析生命周期讨论R语言的实现;第9 章高级编程相对独立,主要解决复杂问题可能用到的程序结构;第10、11 章与机器学习有关,内容偏难,但通过Rattle 包回避了算法底层技术的难点;第12、13 章通过两个实际项目,让读者体验数据处理的全过程以及业务对分析的重要性。本书力求以简洁、精练、理论与实践相结合的方式,让读者快速掌握R 语言。

    本书既可作为数据分析相关课程的教材,也可作为数据分析爱好者的参考资料。



作者简介

    刘鹏,清华大学博士毕业,现任南京云创大数据科技股份有限公司总经理,兼任中国大数据应用联盟人工智能专家委员会主任、中国信息协会教育分会人工智能专家委员会主任、全国普通高校毕业生就业创业指导委员会委员、第45届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长、2019年全国大学生数据建模比赛命题人、工信部云计算研究中心专家。
    程显毅,工学博士,南通大学教授。硅湖职业技术学院特聘教授。江苏省人工智能学会监事会监事,江苏省微电脑学会人工智能专委会副主任委员。长期从事人工智能、自然语言理解领域的教学研究工作。主持国家自然科学基金项目2项。发表论文100多篇、出版教材6部、专著5部。



目录

第1 章 绪论


1.1 R 语言概述  1


1.1.1 R 语言现状  1


1.1.2 R 语言主要优势  2


1.1.3 学R 语言的理由  3


1.2 新手上路  4


1.3 R 语言开发环境部署  5


1.3.1 安装R  5


1.3.2 安装RStudio  6


1.4 获取帮助  8


1.5 工作空间  8


1.6 脚本  9


1.7 R 包  9


习题  10


第2 章 基本语法


2.1 变量  11


2.1.1 变量及其作用  11


2.1.2 变量命名  12


2.1.3 变量赋值  12


2.1.4 变量值输出  12


2.2 常量  13


2.2.1 逻辑常量  13


2.2.2 符号常量  13


2.2.3 标量  13


2.3 向量  15


2.3.1 向量产生  15


2.3.2 向量引用  16


2.3.3 向量化运算  16


XII R 语言(第2 版)


2.3.4 向量排序  17


2.4 运算符  18


2.4.1 算术运算符  18


2.4.2 关系运算符  18


2.4.3 逻辑运算符  19


2.4.4 其他运算符  20


2.5 命令  20


2.6 重要内置函数  21


习题  23


第3 章 数据类型


3.1 基本数据类型  27


3.2 结构数据类型  28


3.2.1 矩阵  28


3.2.2 数组  30


3.2.3 数据框  32


3.2.4 因子  33


3.2.5 列表  34


3.3 字符串操作  35


3.3.1 分割  35


3.3.2 拼接  35


3.3.3 正则表达式  36


3.3.4 替换  39


3.3.5 提取  42


3.3.6 测定字符串长度  42


3.3.7 匹配  43


3.4 数据类型判断和转换  43


3.5 日期和时间数据操作  44


3.5.1 日期数据基本操作  44


3.5.2 时间数据基本操作  45


习题  45


第4 章 数据导入导出


4.1 数据导入  49


4.1.1 键盘输入数据  49


目 录 XIII


4.1.2 导入文本文件  50


4.1.3 导入csv 文件  51


4.1.4 导入Excel 文件  51


4.1.5 导入数据库文件  51


4.2 数据导出  52


4.2.1 导出文本文件  52


4.2.2 保存图片  53


习题  53


第5 章 数据可视化


5.1 一图胜千言  55


5.2 低水平绘图命令  56


5.2.1 点图  56


5.2.2 线图  58


5.2.3 面图  60


5.3 高水平绘图命令  63


5.3.1 认识ggplot2  63


5.3.2 几何对象  63


5.3.3 映射  64


5.3.4 统计对象  66


5.3.5 标度  67


5.3.6 分面  68


5.3.7 其他修饰  69


5.4 交互式绘图命令  72


5.4.1 rCharts 包  72


5.4.2 plotly 包  74


5.4.3 Shiny  76


5.5 数据可视化图形选择建议  83


习题  84


第6 章 数据清洗


6.1 缺失值分析  87


6.1.1 缺失值检测  87


6.1.2 缺失数据处理  88


6.2 异常值分析  89


XIV R 语言(第2 版)


6.2.1 箱线图检测离群点  89


6.2.2 点图检测离群点  90


6.3 数据去重  91


6.4 规范化  92


6.4.1 数据的中心化  92


6.4.2 数据标准化  92


6.5 格式转换  93


习题  95


第7 章 数据探索


7.1 单一变量分析  97


7.1.1 定量变量  97


7.1.2 定性变量  99


7.2 双变量分析  100


7.2.1 一个定性变量和一个定量变量  100


7.2.2 两个定性变量  100


7.2.3 两个定量变量  101


7.3 多变量分析  102


7.3.1 集中趋势度量  102


7.3.2 离中趋势度量  103


7.4 相关分析  104


7.4 1 相关系数  104


7.4.2 直接绘制点图  105


7.4.3 绘制点图矩阵  106


习题  106


第8 章 数据变换


8.1 数据集划分与选择  109


8.1.1 数据集划分  109


8.1.2 数据集选择  110


8.2 特征工程  110


8.2.1 特征工程概述  110


8.2.2 特征构建  111


8.2.3 特征选择  112


8.2.4 特征抽取  115


8.2.5 自动化特征工程  117


8.3 数据整合  118


8.3.1 通过向量化重构数据  119


8.3.2 为数据添加新变量  119


8.3.3 变形与融合  120


8.3.4 列联表  123


8.3.5 分组汇总  123


8.3.6 连接表  125


习题  127


第9 章 高级编程


9.1 条件表达式  131


9.2 选择结构  132


9.3 循环结构  135


9.4 用户自定义函数  138


习题  139


第10 章 数据建模


10.1 Rattle 包  141


10.2 变量的类别  143


10.3 聚类分析  145


10.3.1 背景  145


10.3.2 K-means 聚类  146


10.3.3 层次聚类  148


10.4 关联规则挖掘  150


10.4.1 背景  150


10.4.2 基本术语  151


10.4.3 关联规则的分类  152


10.4.4 Apriori 算法  153


10.4.5 实验指导  154


10.5 传统决策树模型  156


10.5.1 背景  156


10.5.2 ID3 算法  157


10.5.3 C4.5 算法  158


10.5.4 实验指导  159


XVI R 语言(第2 版)


10.6 随机森林决策树模型  161


10.6.1 背景  161


10.6.2 随机森林算法  161


10.6.3 实验指导  163


10.7 自适应选择决策树模型  166


10.7.1 背景  166


10.7.2 Boosting 算法  166


10.7.3 adaboost 算法  167


10.7.4 实验指导  167


10.8 SVM 171


10.8.1 背景  171


10.8.2 SVM 算法  171


10.8.3 实验指导  173


10.9 线性回归模型  174


10.9.1 背景  174


10.9.2 一元线性回归方法  174


10.9.3 实验指导  176


10.10 神经网络模型  177


10.10.1 背景  177


10.10.2 人工神经网络模型  178


10.10.3 实验指导  179


习题  181


第11 章 模型评估


11.1 Rattle 模型评估选项卡  185


11.2 混淆矩阵  186


11.2.1 二分类混淆矩阵  186


11.2.2 模型评价指标  187


11.2.3 多分类混淆矩阵  188


11.3 风险图  188


11.3.1 风险图的作用  188


11.3.2 实验指导  188


11.4 ROC 曲线  190


11.4.1 ROC 曲线概述  190


11.4.2 ROC 曲线的作用  190


11.4.3 实验指导  190


11.5 交叉验证  192


习题  193


第12 章 影响大学平均录取分数线因素分析


12.1 背景与目标  195


12.2 数据说明  195


12.3 描述性分析  196


12.4 数据建模  199


12.5 总结  201


第13 章 收视率分析


13.1 背景介绍  202


13.2 数据说明  202


13.3 描述性分析  203


13.4 数据建模  209


13.5 总结  212


参考文献


附录A


附录B


 



内容摘要

     本书通过Titanic 数据分析案例,深入浅出地介绍了R 语言在大数据分析应用中的相关知识,包括:数据准备、数据清洗、数据探索、数据变换、特征工程、数据建模、模型评估、模型部署等。全书共13章,第1~3 章介绍R 语言的开发环境和基本语法;第4~8 章按数据分析生命周期讨论R语言的实现;第9 章高级编程相对独立,主要解决复杂问题可能用到的程序结构;第10、11 章与机器学习有关,内容偏难,但通过Rattle 包回避了算法底层技术的难点;第12、13 章通过两个实际项目,让读者体验数据处理的全过程以及业务对分析的重要性。本书力求以简洁、精练、理论与实践相结合的方式,让读者快速掌握R 语言。


    本书既可作为数据分析相关课程的教材,也可作为数据分析爱好者的参考资料。



主编推荐

    刘鹏,清华大学博士毕业,现任南京云创大数据科技股份有限公司总经理,兼任中国大数据应用联盟人工智能专家委员会主任、中国信息协会教育分会人工智能专家委员会主任、全国普通高校毕业生就业创业指导委员会委员、第45届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长、2019年全国大学生数据建模比赛命题人、工信部云计算研究中心专家。
    程显毅,工学博士,南通大学教授。硅湖职业技术学院特聘教授。江苏省人工智能学会监事会监事,江苏省微电脑学会人工智能专委会副主任委员。长期从事人工智能、自然语言理解领域的教学研究工作。主持国家自然科学基金项目2项。发表论文100多篇、出版教材6部、专著5部。



—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP