R语言大数据分析与挖掘
R语言大数据分析与挖掘
¥
26.4
4.8折
¥
55
全新
仅1件
作者谢笑盈
出版社电子工业出版社
出版时间2023-03
版次1
装帧其他
货号1
上书时间2025-01-05
商品详情
- 品相描述:全新
图书标准信息
-
作者
谢笑盈
-
出版社
电子工业出版社
-
出版时间
2023-03
-
版次
1
-
ISBN
9787121452383
-
定价
55.00元
-
装帧
其他
-
开本
16开
-
页数
280页
-
字数
448千字
- 【内容简介】
-
本书首先简要介绍了大数据分析与挖掘的相关概念,以及R语言的基础知识,以此来帮助读者了解、使用R语言;其次详细介绍了探索性数据分析、数据采集,以此来帮助读者了解数据的基本分析方法和数据的获取方法;然后着重介绍了目前主流的数据挖掘算法——时间序列算法、线性回归算法、分类算法、关联算法、聚类算法,从算法的原理到如何使用R语言进行算法实现都进行了详细的介绍并提供了实操代码,以此帮助读者学习数据挖掘及使用R语言完成数据挖掘任务;最后通过6个旅游行业的实际案例来帮助读者将学习到的知识运用到真实的业务场景中,并融会贯通整个知识体系。 本书无须读者具备R语言和大数据分析与挖掘的基础知识。无论是R语言初学者,还是熟练的R语言用户,都能从本书中找到有用的内容。本书既可以作为一本学习R语言的教材,也可以作为大数据分析与挖掘的工具书。
- 【作者简介】
-
谢笑盈:统计学博士、副教授、硕士生导师、澳大利亚科廷大学访问学者,研究方向为大数据统计分析方法与应用。近5年来,主持完成国家社科基金项目1项,国家统计局重点项目1项;以第一作者或通讯作者身份发表中科院SCI1区TOP论文1篇、SCI2区TOP论文1篇、ESI高被引论文1篇、EI检索论文3篇,其他中文核心以上刊物论文5篇;指导学生获得全国大学生市场调查与分析大赛总决赛三等奖1次、浙江省大学生市场调查与分析大赛一等奖2次、浙江省金融创新大赛一等奖1次。
- 【目录】
-
第1章 大数据分析与挖掘概论1
1.1 大数据分析与挖掘1
1.1.1 大数据定义1
1.1.2 大数据分析与挖掘的概念2
1.2 大数据分析与挖掘流程3
1.2.1 数据获取3
1.2.2 数据预处理3
1.2.3 数据分析4
1.2.4 数据解释5
1.3 大数据分析与挖掘应用5
1.3.1 优化任务5
1.3.2 预测任务5
1.3.3 分类任务5
1.3.4 识别任务6
第2章 R语言编程基础7
2.1 R语言的安装及配置7
2.1.1 R语言的获取和安装8
2.1.2 RStudio的获取和安装9
2.2 界面与菜单12
2.2.1 RGui界面12
2.2.2 RStudio界面12
2.3 变量与数据类型15
2.3.1 变量15
2.3.2 数据类型15
2.4 数据结构17
2.4.1 向量17
2.4.2 数组19
2.4.3 矩阵21
2.4.4 列表22
2.4.5 数据框23
2.4.6 因子25
2.5 控制语句26
2.5.1 条件语句26
2.5.2 循环语句28
2.6 函数30
2.6.1 内置函数30
2.6.2 自定义函数33
第3章 数据预处理35
3.1 数据表的基本操作35
3.1.1 数据表保存35
3.1.2 数据表读取37
3.1.3 选取子集40
3.1.4 连接数据库42
3.2 数据分组、分割、合并和变形44
3.2.1 数据分组44
3.2.2 数据分割46
3.2.3 数据合并47
3.2.4 数据变形49
3.3 缺失值、异常值、重复值处理52
3.3.1 缺失值52
3.3.2 异常值59
3.3.3 重复值61
3.4 数据类型的转换62
3.4.1 判断数据类型函数62
3.4.2 转换数据类型的函数63
3.5 提取字符64
3.5.1 截取字符64
3.5.2 正则表达式65
第4章 探索性数据分析69
4.1 描述性统计方法69
4.1.1 常用统计指标69
4.1.2 数据总结70
4.2 数据可视化72
4.2.1 箱线图72
4.2.2 直方图74
4.2.3 散点图75
4.2.4 饼图77
第5章 数据采集80
5.1 网络数据采集的原理80
5.1.1 网页通信的过程80
5.1.2 请求数据的方法87
5.1.3 网页的组成元素88
5.2 数据采集入门90
5.2.1 数据采集常用包概述90
5.2.2 数据采集前的准备91
5.2.3 编写第一个数据采集92
5.3 使用常用的R包采集数据96
5.3.1 使用RCurl包获取网络数据96
5.3.2 使用rvest包获取网络数据98
5.3.3 使用httr包获取网络数据106
5.4 爬虫限制处理107
5.4.1 解决IP限制问题108
5.4.2 验证码处理109
5.4.3 登录问题处理110
第6章 时间序列算法111
6.1 时间序列算法概述111
6.1.1 时序对象113
6.1.2 时序平滑处理113
6.1.3 时序季节性分解116
6.2 时序指数模型118
6.3 时序ARIMA模型122
第7章 线性回归算法129
7.1 一元线性回归模型129
7.2 多项式回归模型131
7.3 多元线性回归模型133
第8章 分类算法136
8.1 Logistic回归136
8.1.1 Logistic回归算法原理137
8.1.2 逻辑回归算法应用139
8.2 决策树143
8.2.1 决策树算法原理143
8.2.2 决策树算法应用147
8.3 支持向量机150
8.3.1 支持向量机算法原理151
8.3.2 支持向量机算法应用155
8.4 朴素贝叶斯157
8.4.1 贝叶斯定理157
8.4.2 最大似然估计157
8.4.3 朴素贝叶斯分类算法原理158
8.4.4 朴素贝叶斯分类算法应用159
8.5 人工神经网络166
8.5.1 人工神经网络的基本概念166
8.5.2 感知器和人工神经元模型167
8.5.3 前馈神经网络168
8.5.4 人工神经网络算法应用169
8.6 随机森林177
8.6.1 随机森林算法原理177
8.6.2 随机森林算法应用178
8.7 XGBoost算法183
8.7.1 XGBoost算法的原理184
8.7.2 XGBoost算法应用187
第9章 关联算法189
9.1 关联算法概述189
9.1.1 相关名词190
9.1.2 关联规则及频繁项集的产生190
9.2 Apriori算法191
9.2.1 Apriori算法概述191
9.2.2 先验原理191
9.2.3 连接步和剪枝步192
9.2.4 Apriori算法流程193
9.2.5 Apriori算法实例193
9.3 ECLAT算法196
9.3.1 ECLAT算法概述196
9.3.2 ECLAT算法流程198
9.3.3 ECLAT算法实例198
第10章 聚类算法202
10.1 聚类算法概述202
10.1.1 聚类算法的类型202
10.1.2 聚类算法评估的特点202
10.2 K均值聚类算法203
10.2.1 划分方法概述203
10.2.2 K均值聚类算法的优缺点203
10.2.3 K均值聚类算法的流程203
10.2.4 K均值聚类分析案例204
10.3 凝聚式层次聚类算法205
10.3.1 凝聚式层次聚类概述205
10.3.2 凝聚式层次聚类算法流程207
10.3.3 凝聚式层次聚类算法实例209
【应用案例1】景点舆情数据采集211
【应用案例2】旅游电商平台数据采集218
【应用案例3】旅游网站景点路线推荐233
【应用案例4】旅游城市和景点的负荷预测236
【应用案例5】精品旅行服务成单预测239
【应用案例6】航班延误预测259
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价