R语言与数据挖掘
全新正版 极速发货
¥
31.32
5.3折
¥
59
全新
库存9件
作者张良均 等
出版社机械工业出版社
ISBN9787111540526
出版时间2016-06
装帧平装
开本16开
定价59元
货号1201327332
上书时间2024-06-08
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
张良均,资历大数据挖掘专家和模式识别专家,有10多年的大数据挖掘应用、咨询经验,10余年数据仓库系统管理与实施经验,超过10年的系统开发与设计经验。为电信、电力、互联网、生产制造、零售、银行、生物、化工、医药等多个行业上百家大型企业提供过数据挖掘应用与咨询服务,实践经验很好丰富。此外,他精通JavaEE企业级应用开发,是广东工业大学和华南师范大学兼职教授,著有《神经网络实用教程》、《数据挖掘:实用案例分析》等畅销书。
目录
前言
部分基础篇
章R语言的安装与使用2
1.1R安装与升级3
1.2R使用入门4
1.2.1R操作界面4
1.2.2RStudio窗口介绍5
1.2.3R常用操作6
1.3R数据分析包8
1.4配套资源使用说明10
1.5小结10
1.6上机实验10
第2章数据对象与数据读写12
2.1数据类型12
2.2数据结构16
2.2.1向量16
2.2.2矩阵19
2.2.3数组24
2.2.4数据框25
2.2.5因子28
2.2.6列表31
2.3数据文件的读写34
2.3.1键盘输入数据34
2.3.2读取不同格式的数据35
2.3.3从其他统计软件获取数据37
2.3.4从数据库获取数据37
2.3.5从网页获取数据39
2.4小结40
2.5上机实验40
第3章R语言常用数据管理42
3.1变量的重命名42
3.2缺失值分析45
3.3数据排序46
3.4随机抽样48
3.5数值运算函数49
3.6字符串处理52
3.7文本分词56
3.8apply函数族62
3.9数据整合65
3.10控制流68
3.11函数的编写71
3.12小结72
3.13上机实验73
第4章图形探索75
4.1图形元素76
4.1.1颜色76
4.1.2点80
4.1.3文本82
4.1.4线条86
4.1.5图例91
4.1.6坐标轴92
4.2图形组合94
4.3图形保存97
4.4图形函数98
4.5小结116
4.6上机实验116
第5章不错绘图工具117
5.1lattice包绘图工具117
5.1.1绘图特色117
5.1.2基本图形122
5.2ggplot2包绘图工具135
5.2.1从qplot开始135
5.2.2ggplot作图137
5.3交互式绘图工具简介142
5.3.1rCharts包143
5.3.2recharts包147
5.3.3googleVis包147
5.3.4htmlwidgets包148
5.3.5shiny包153
5.4小结163
5.5上机实验163
第二部分建模应用篇
第6章分类与预测166
6.1回归分析166
6.2决策树175
6.2.1C4.5算法176
6.2.2CART算法178
6.2.3C5.0算法180
6.3人工神经网络181
6.4KNN算法183
6.5朴素贝叶斯分类185
6.6其他分类与预测算法函数187
6.7分类与预测算法评价192
6.8小结196
6.9上机实验196
第7章聚类分析198
7.1K-Means聚类分析函数199
7.2层次聚类算法204
7.3其他聚类分析函数207
7.4小结211
7.5上机实验212
第8章关联规则213
8.1Apriori关联规则214
8.2小结226
8.3上机实验226
第9章智能推荐228
9.1智能推荐模型构建228
9.2智能推荐模型评价232
9.3小结235
9.4上机实验235
0章时间序列237
10.1ARIMA模型237
10.2其他时间序列模型245
10.3小结250
10.4上机实验251
第三部分Rattle篇
1章可视化数据挖掘工具Rattle254
11.1Rattle简介及其安装254
11.1.1Rattle简介254
11.1.2Rattle安装254
11.2功能预览255
11.3数据导入256
11.3.1导入CSV数据256
11.3.2导入ARFF数据261
11.3.3导入ODBC数据262
11.3.4RDataset——导入其他数据源264
11.3.5导入RDataFile数据集267
11.3.6导入Library数据268
11.4数据探索269
11.4.1数据总体概况269
11.4.2数据分布探索272
11.4.3相关性275
11.4.4主成分277
11.4.5交互图278
11.5数据建模283
11.5.1聚类分析283
11.5.2关联规则288
11.5.3决策树291
11.5.4随机森林293
11.6模型评估296
11.6.1混淆矩阵296
11.6.2风险图296
11.6.3ROC图及相关图表297
11.6.4模型得分数据集298
11.7小结299
11.8上机实验299
参考资料301
内容摘要
本书主要分为三个部分,基础篇、建模应用篇和Rattle篇。基础篇(靠前~5章)介绍了有关R语言的安装与使用、R语言中的数据结构、常用操作和绘图功能等基础功能。建模应用篇(第6~10章)主要介绍了目前在数据挖掘中的常用的建模方法在R语言中的实现函数,并对输出结果进行了解释,有助于读者快速掌握应用R语言进行分析挖掘建模的方法。Rattle篇(靠前1章)介绍了一个R语言的图形界面工具。图书配套提供了程序代码及数据,读者可通过上机实验,快速掌握书中所介绍的R语言的使用方法。
精彩内容
Preface?前 言为什么要写本书R语言是什么?R是一种适用于统计分析计算和图像处理的语言,受S语言和Scheme语言影响发展而来。早期R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不做任何修改地在R环境下运行。R的语法来自Scheme,作为一款诞生于20世纪90年代的语言,R已经成为S统计编程语言的一类实现方式。
R编程语言在数字分析与机器学习领域已经成为一款重要的工具。随着机器逐步成为愈发核心的数据生成器,该语言的人气也一路攀升。正如Tiobe、PyPL以及Redmonk等编程语言人气排名所指出,R语言所受到的关注程度正在快速提升。Rexer Analytics发布的2013年数据挖掘人员调查显示,70%的数据挖掘人员使用R软件进行分析工作,其中有24%将其作为主要工具。这些结果类似于 2013 年KDnuggets调查的结果,该调查指出有61%的响应者表示正在使用R处理分析、数据挖掘和数据科学工作。相比前一年,这一比例上升了16%。
R语言有一些明显的优势:
1)R语言作为一款开源软件,是完全免费的,对比昂贵的SPSS和SAS等统计软件,这无疑是一个巨大的优势。
2)R语言拥有一个庞大的社区来进行维护,庞大的软件包生态系统无疑是R语言最为突出的优势之一。
3)R语言具备可扩展能力且拥有丰富的功能选项,帮助开发人员构建自己的工具及方法,从而顺利实现数据分析。
4)R语言简单易学。虽与C语言之类的程序设计语言已差别很大(比如语言结构相对松散,使用变量前不需要明确正式定义变量类型等),但仍保留了程序设计语言的基础逻辑与自然的语言风格。
从R的普及来看,国外的普及度要明显好于国内,与盗版Windows的泛滥会影响Linux在中国的普及一样,破解的MATLAB与SPSS的存在也影响了R在中国的使用。但在国外高校的统计系,R几乎是一门必修的语言,具有统治性的地位。在工业界,作为互联网公司翘楚的Google内部也有不少工程使用R进行数据分析工作。随着数据挖掘在国内的发展,国内对R语言的需求必将随之一起发展。
总的来说,R语言是一款用于统计分析、数据可视化和预测建模的数据分析软件,它不单单只是一门语言,更是一个数据计算与分析的环境。R支持几乎所有数据分析所需的数据处理、统计模型和图表,支持大量的第三方功能包,涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型等内容。随着大数据时代的来临,数据挖掘将更加广泛地渗透到各行各业中去,而R语言作为数据挖掘里的热门工具,将会有更多其他行业的人加入到R语言的使用者行列中来。R语言的使用课程成为高校中数学与统计学专业的重要课程将是必然的趋势。
本书特色本书从实际应用出发,结合实例及应用场景,深入浅出地介绍了R语言应用的相关知识:R语言的安装及使用、数据对象与数据读写、常用数据管理、图形探索、不错绘图工具及常用的建模算法在R语言中的实现方式。书中以R语言的函数应用为主,先介绍了函数的应用场景及使用格式,再给出函数的应用实例,最后对函数的运行结果做出了解释,将掌握函数应用的所需知识点按照实际使用的流程展示出来。
为方便理解R语言中相关函数的使用,本书提供示例代码及所用数据等相关资源下载,读者可以从“泰迪杯”全国数据挖掘挑战赛网站(http://www.tipdm.org/ts/747.jhtml)免费获取。也可以通过热线电话(40068-40020)、企业QQ(40068-40020)及以下微信公众号咨询获取。
TipDM张良均〈大数据挖掘产品与服务〉本书适用对象开设有数据挖掘课程的高校教师和学生。
目前国内不少高校将数据挖掘引入本科教学中,在数学、计算机、自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程,但目前这一课程的教学工具仍然为SPSS、SAS等传统统计工具,并没有使用R语言作为挖掘工具。本书提供了有关R语言的从安装到使用的一系列知识,将能有效指导高校教师和学生使用R语言工具进行数据挖掘。
数据挖掘开发人员。
这类人员可以在理解数据挖掘应用需求和设计方案的基础上,结合书中提供的R语言的使用方法快速实现数据挖掘应用的编程。
进行数据挖掘应用研究的科研人员。
许多科研院所为了更好地对科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据。R语言可以提供一个优异的环境对这些数据进行挖掘分析应用。
关注不错数据分析的人员。
R语言作为一个专业的数据分析软件,能为数据分析人员提供可靠的依据。
如何阅读本书本书主要分为三个部分,基础篇、建模应用篇和Rattle篇。基础篇介绍了有关R语言的安装与使用、R语言中的数据结构、常用操作和绘图功能等基础功能。建模应用篇主要介绍了目前在数据挖掘中常用的建模方法在R语言中的实现函数,并对输出结果进行了解释,有助于读者快速掌握应用R语言进行分析挖掘建模的方法。读者可结合本书提供的示例代码及数据进行上机实验,快速掌握R语言的使用方法。
部分是基础篇(~5章),章主要介绍了R语言及图形操作工具RStudio的安装及使用方法,第2章对R语言中的数据类型和数据对象及不同格式的数据读入和导出R语言进行了介绍,第3章描述了R语言中对数据所能做的常用操作,包括变量的重命名、缺失值分析、排序、随机抽样等,第4、5章主要对R语言的绘图功能进行了介绍,涵盖常用图形如散点图、直方图、条形图、箱线图等,且一并介绍了一些基于R语言的可用于生成交互式图形的软件包。
第二部分是建模应用篇(第6~10章),主要对数据挖掘中常用算法的函数在R语言中的使用方法及其结果进行了介绍,涵盖了目前数据挖掘的5大类算法,包括分类与预测、聚类分析、关联规则、智能推荐和时间序列。按照从模型建立到模型评价架构的顺序进行介绍,使读者能熟练地掌握从建模到对模型评价的完整建模过程。
第三部分是Rattle篇(1章),介绍了一个R语言的图形界面工具Rattle,此工具能够在一个图形化的界面上对本书介绍的R语言功能进行操作,使读者能更好地体验到使用R语言进行数据挖掘的整个流程。
勘误和支持除封面署名作者外,参加本书编写工作的还有黄博、陈婷婷、王路、陈玉辉、杨征、施兴、徐英刚、郑泽如、张乐儿、黄东鑫等。由于水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。本书内容的更新将及时在“泰迪杯”全国数据挖掘挑战赛网站(www.tipdm.org)上发布。读者可通过微信公众号TipDM(微信号:TipDataMining)、TipDM官网(www.tipdm.com)反馈有关问题。也可通过热线电话(40068-40020)或企业QQ(40068-40020)进行在线咨询。
如果你有更多的宝贵意见,欢迎发送邮件至邮箱13560356095@qq.com,期待能够得到你的真挚反馈。
致谢本书编写过程中得到了广大高校师生的大力支持,在此谨向华南农业大学、华南师范大学、广东工业大学、广东技术师范学院、华南理工大学、韩山师范学院、中山大学、贵州师范学院等单位给予支持的领导及师生致以深深的谢意。
在本书编辑和出版过程中还得到了参与“泰迪杯”全国数据挖掘挑战赛(http://www.tipdm.org)的众多师生及机械工业出版社杨福川老师无私的帮助与支持,在此一并表示感谢。
张良均2016年4月
— 没有更多了 —
以下为对购买帮助不大的评价