• R语言数据分析
21年品牌 40万+商家 超1.5亿件商品

R语言数据分析

全新正版 极速发货

36.89 5.3折 69 全新

仅1件

广东广州
认证卖家担保交易快速发货售后保障

作者(美)盖尔盖伊·道罗齐(Gergely Daroczi) 著;潘怡 译

出版社机械工业出版社

ISBN9787111547952

出版时间2016-10

装帧平装

开本16开

定价69元

货号1201414518

上书时间2024-11-20

书香美美

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
盖尔盖伊·道罗齐(GergelyDar6czi),统计学副教授,社会学专业博士。他是一位狂热的R包开发者,也rapporter.net网站的创始人及CTO,该网站为人们提供基于R的报表和Web应用程序。他现在就职于洛杉矶网站,担任首席R语言开发及研究的数据专家。

目录
译者序
前言
第1章你好,数据!1
1.1导入一个大小合适的文本文件2
1.2文本文件编译测试平台5
1.3导入文本文件的子集6
1.4从数据库中导入数据8
1.4.1搭建测试环境9
1.4.2MySQL和MariaDB11
1.4.3PostgreSQL15
1.4.4Oracle数据库17
1.4.5访问ODBC数据库22
1.4.6使用图形化用户面连接数据库23
1.4.7其他数据库后台24
1.5从其他统计系统导入数据25
1.6导入Excel电子表格26
1.7小结26
第2章从Web获取数据28
2.1从Internet导入数据集29
2.2其他流行的在线数据格式32
2.3从HTML表中读取数据37
2.4从其他在线来源获取数据39
2.5使用R包与数据源API交互42
2.5.1Socrata的开源数据API43
2.5.2金融API44
2.5.3使用Quandl获取时序数据45
2.5.4Google文档和统计数据46
2.5.5在线搜索的发展趋势47
2.5.6天气历史数据48
2.5.7其他在线数据源49
2.6小结49
第3章数据筛选和汇总50
3.1去掉多余的数据50
3.1.1快速去掉多余数据52
3.1.2快速去掉多余数据的其他方法53
3.2聚集54
3.2.1使用基础的R命令实现快速聚集55
3.2.2方便的辅助函数56
3.2.3高性能的辅助函数57
3.2.4使用data.table完成聚集59
3.3测试59
3.4汇总函数62
3.5小结64
第4章数据重构65
4.1矩阵转置65
4.2基于字符串匹配实现数据筛选66
4.3数据重排序67
4.4dplyr包和data.table包的比较70
4.5创建新变量70
4.5.1内存使用分析71
4.5.2同时创建多个变量72
4.5.3采用dplyr包生成新变量73
4.6数据集合并74
4.7灵活地实现数据整形76
4.7.1将宽表转换为长表77
4.7.2将长表转换为宽表78
4.7.3性能调整80
4.8reshape包的演变80
4.9小结81
第5章建模82
5.1多元模型的由来83
5.2线性回归及连续预测变量83
5.2.1模型解释83
5.2.2多元预测85
5.3模型假定87
5.4回归线的拟合效果90
5.5离散预测变量92
5.6小结95
第6章线性趋势直线外的知识96
6.1工作流建模96
6.2逻辑回归97
6.2.1数据思考100
6.2.2模型拟合的好处101
6.2.3模型比较102
6.3计数模型102
6.3.1泊松回归103
6.3.2负二项回归107
6.3.3多元非线性模型107
6.4小结115
第7章非结构化数据116
7.1导入语料库116
7.2清洗语料库118
7.3展示语料库的高频词121
7.4深度清洗121
7.4.1词干提取122
7.4.2词形还原124
7.5词条关联说明124
7.6其他一些度量125
7.7文档分段126
7.8小结128
第8章数据平滑129
8.1缺失值的类型和来源129
8.2确定缺失值130
8.3忽略缺失值131
8.4去掉缺失值134
8.5在分析前或分析中筛选缺失值136
8.6填补缺失值136
8.6.1缺失值建模138
8.6.2不同填补方法的比较140
8.6.3不处理缺失值141
8.6.4多重填补141
8.7异常值和孤立点141
8.8使用模糊方法144
8.9小结146
第9章从大数据到小数据147
9.1充分性测试148
9.1.1正态性148
9.1.2多元变量正态性149
9.1.3变量间的依赖关系152
9.1.4KMO和Barlett检验154
9.2主成分分析157
9.2.1PCA算法158
9.2.2确定成分数159
9.2.3成分解释161
9.2.4旋转方法164
9.2.5使用PCA检测孤立点167
9.3因子分析170
9.4主成分分析和因子分析172
9.5多维尺度分析173
9.6小结176
第10章分类和聚类177
10.1聚类分析178
10.1.1层次聚类178
10.1.2确定簇的理想个数181
10.1.3k均值聚类183
10.1.4可视化聚类185
10.2潜类别模型186
10.2.1潜类别分析187
10.2.2LCR模型189
10.3判别分析189
10.4逻辑回归192
10.5机器学习算法194
10.5.1k近邻算法195
10.5.2分类树197
10.5.3随机森林200
10.5.4其他算法201
10.6小结203
第11章基于R的社会网络分析204
11.1装载网络数据204
11.2网络中心性度量206
11.3网络数据的展现207
11.3.1交互网络图210
11.3.2绘制层次图211
11.3.3使用R包来解释包的依赖关系212
11.4更多网络分析资源212
11.5小结213
第12章时序数据分析214
12.1创建时序对象214
12.2展现时序数据215
12.3季节性分解217
12.4Holt-Winters筛选218
12.5自回归积分滑动平均模型220
12.6孤立点检测221
12.7更复杂的时序对象224
12.8高级时序数据分析225
12.9小结225
第13章我们身边的数据226
13.1地理编码226
13.2在空间中展示数据点228
13.3找出数据点的多边形重叠区域230
13.4绘制主题图232
13.5围绕数据点绘制

内容摘要
本书共分为14章,重点探讨了数据预处理的方法,包括数据获取、筛选、重构、建模、平滑以及降维,本书还介绍了分类和聚类等几种主要的数据分析方法,很后探讨了网络数据、时序数据、空间数据及社交媒体数据等一些特殊类型数据的分析处理。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP