R语言数据分析、挖掘建模与可视化
全新正版 极速发货
¥
62.09
6.3折
¥
99
全新
库存2件
作者刘顺祥
出版社清华大学出版社
ISBN9787302567622
出版时间2021-01
装帧平装
开本16开
定价99元
货号1202182420
上书时间2024-06-28
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
刘顺祥统计学硕士,“数据分析1480”微信公众号运营者。曾就职于大数据咨询公司,为联想、亨氏、美丽田园、网鱼网咖等企业项目提供服务;曾在唯品会大数据部担任数据分析师一职,负责电商支付环节的数据分析业务。出版著作
目录
第1章R语言的必备基础知识11.1R语言简介11.2R软件的下载与安装21.3第三方包的下载与加载41.3.1手动下载法41.3.2代码下载法41.3.3第三方包的加载51.4如何查看帮助文档61.4.1知包知函数——help函数61.4.2知函数未知包——help.search函数61.4.3知包未知函数——apropos函数71.4.4未知函数未知包——RSiteSearch函数81.5R语言中的数据结构91.5.1向量的创建91.5.2向量元素的获取131.5.3基于向量的数据类型转换151.5.4向量的因子化转换181.5.5基于向量的常用函数201.6矩阵的构造211.6.1矩阵索引的使用231.6.2基于矩阵运算的常用函数241.7数据框的构造及常用函数241.7.1构造数据框241.7.2基于数据框的常用函数261.8列表的构造及索引的使用301.8.1列表的构造301.8.2列表索引的使用311.9控制流语句及自定义函数311.9.1if分支321.9.2for循环331.9.3while循环351.10R语言中的自定义函数371.11巧用apply簇函数381.11.1tapply函数的使用381.11.2apply函数的使用401.11.3lapply与sapply函数的使用421.12教你一个爬虫项目441.13篇章总结46第2章数据的读写操作472.1文本文件数据的读取472.1.1csv或txt格式的数据读入472.1.2Json格式的数据读入532.2Excel数据的读取562.2.1xlsx包读取Excel数据562.2.2readxl包读取Excel数据602.3数据库数据的读取632.3.1读取MySQL数据库632.3.2读取SQLServer数据库662.4几种常见的数据写出格式702.4.1写出至文本文件702.4.2写出至电子表格Excel712.4.3写出至数据库732.5篇章总结74第3章数据的清洗与管理763.1重复记录的识别和处理773.2缺失值的识别793.3缺失值的处理办法823.3.1删除法823.3.2替换法833.3.3插补法843.4异常值的识别和处理863.4.1基于分位数法识别异常值863.4.2基于σ方法识别异常值883.4.3基于模型法识别异常值903.4.4异常值的处理办法923.5数据形状的重塑933.5.1reshape2包933.5.2Tidyr包963.6数据的聚合操作973.6.1基于aggregate函数的聚合973.6.2基于sqldf函数的聚合993.6.3基于group_by和summarize函数的聚合1013.7数据的合并与连接1023.7.1基于bind_rows函数的数据合并1023.7.2基于*_join函数的数据连接1043.8几种常用的抽样技术1063.8.1简单随机抽样1063.8.2分层抽样1073.8.3整群抽样1083.9篇章总结109第4章基于正则表达式的字符串处理技术1114.1基于字符串位置的处理技术1124.1.1数据截断——特定位置的子串获取1124.1.2数据清洗——非常规的字符型转数值型1144.1.3数据清洗——字符串子串的隐藏1164.2正则表达式的定义及用途1174.2.1什么是正则表达式1174.2.2正则表达式的常见用法1184.3基于正则的单字符匹配1184.3.1从静态文本的匹配开始1184.3.2任意单字符的匹配1214.3.3指定字符集的匹配1224.4字符匹配次数的设置1254.4.1无上限的次数匹配1254.4.2有限次数的匹配1284.5其他正则符号的使用1314.6篇章总结132第5章数据可视化技术的应用1345.1条形图的绘制1365.2饼图与环形图的绘制1405.3矩形图与瓦片图的绘制1415.4直方图与频次多边形图的绘制1445.5箱线图与小提琴图的绘制1475.6折线图与阶梯图的绘制1505.7面积图与带状图的绘制1535.8散点图及气泡图的绘制1555.9区块频次图的绘制1605.10核密度图的绘制1635.11QQ图的绘制1655.12篇章总结166第6章可视化图形的个性化调整1696.1分面图与组合图的绘制1696.2参考线和文本标签的添加1756.3轴系统coord_*的设置1806.4尺度scale_*的设置1826.5颜色、形状和线条类型的自定义设置1896.6图形主题的设置1916.7有关图例布局的调整1956.8篇章总结199第7章线性回归模型的预测应用2017.1相关性分析2017.2回归性分析2027.3线性回归模型的介绍2037.4回归系数求解2047.4.1构造似然函数2057.4.2取对数并整理2057.4.3展开并求导2067.4.4计算偏回归系数2067.5实战案例——如何基于成本预测利润2067.6模型的显著性检验——F检验2107.6.1提出假设2107.6.2构造统计量2107.6.3计算统计量2117.6.4对比统计量的值和理论分布值2127.7参数的显著性检验——t检验2127.7.1提出假设2127.7.2构造统计量2137.7.3计算统计量2137.7.4对比统计量的值和理论分布值2147.8变量选择——逐步回归法2147.9验证模型的各类假设前提2167.9.1多重共线性检验2167.9.2正态性检验2177.9.3独立性检验2207.9.4方差齐性检验2207.10模型的预测2227.11篇章总结223第8章岭回归与LASSO回归模型2258.1岭回归模型的介绍2258.1.1参数求解2268.1.2系数求解的几何意义2278.1.3岭回归模型的应用2288.1.4模型的预测2348.2LASSO回归模型的介绍2358.2.1参数求解2368.2.2系数求解的几何意义2378.2.3LASSO回归模型的应用2388.2.4模型的预测2408.3篇章总结242第9章Logistic回归模型的分类应用2449.1Logistic回归模型的构建2459.2Logistic回归模型的参数求解2479.2.1极大似然估计2479.2.2梯度下降2499.3Logistic回归模型的参数解释2499.4几种常用的模型评估方法2509.4.1混淆矩阵2509.4.2ROC曲线2519.4.3K-S曲线2539.5Logistic回归模型的应用2569.5.1建模2569.5.2预测2599.5.3模型评估2609.6篇章总结262第10章决策树与随机森林的应用26410.1节点字段的选择26510.1.1信息增益26610.1.2信息增益率26810.1.3基尼指数27010.2决策树的剪枝27210.2.1误差降低剪枝法27210.2.2悲观剪枝法27310.2.3代价复杂度剪枝法27410.3随机森林27610.3.1随机森林的思想27710.3.2随机森林的函数说明27810.4决策树与随机森林的应用27910.4.1分类问题的应用28010.4.2预测问题的应用28710.5篇章总结290第11章KNN模型29211.1KNN算法的思想29211.2最佳k值的选择29311.3相似度的度量方法29411.3.1欧氏距离29411.3.2曼哈顿距离29511.3.3余弦相似度29511.3.4杰卡德相似系数29611.4近邻样本的搜寻方法29711.4.1KD树搜寻法29711.4.2球树搜寻法30111.5KNN模型的应用30311.5.1分类问题的判别30411.5.2预测性问题的解决30911.6篇章总结312第12章朴素贝叶斯模型31412.1朴素贝叶斯理论基础31512.2几种贝叶斯模型31612.2.1高斯贝叶斯分类器31612.2.2高斯贝叶斯分类器的应用31812.2.3多项式贝叶斯分类器32212.2.4多项式贝叶斯分类器的应用32412.2.5伯努利贝叶斯分类器32712.2.6伯努利贝叶斯分类器的应用32912.3篇章总结335第13章SVM模型33713.1SVM的简介33813.1.1距离公式的介绍33913.1.2SVM的实现思想33913.2几种常见的SVM模型34113.2.1线性可分的SVM34113.2.2一个手工计算的案例34413.2.3近似线性可分SVM34613.2.4线性SVM的损失函数34813.2.5非线性可分SVM34912.2.6几种常用的SVM核函数35112.2.7SVM的回归预测35212.2.8R语言函数介绍35313.3分类性SVM模型的应用—手写字母的识别35513.4预测性SVM回归模型的应用—受灾面积的预测35813.5篇章总结361第14章GBDT模型36314.1提升树算法36414.1.1AdaBoost算法的损失函数36414.1.2AdaBoost算法的操作步骤36614.1.3AdaBoost算法的简单例子36714.1.4AdaBoost算法的应用36914.2GBDT算法的介绍37514.2.1GBDT算法的操作步骤37514.2.2GBDT分类算法37614.2.3GBDT回归算法37714.2.4GBDT算法的应用37814.3非平衡数据的处理38214.4XGBoost算法38414.4.1XGBoost算法的损失函数38414.4.2损失函数的演变38614.4.3XGBoost算法的应用38814.5篇章总结394第15章Kmeans聚类分析39615.1Kmeans聚类39715.1.1Kmeans的思想39715.1.2Kmeans的原理39815.2最佳k值的确定39915.2.1拐点法40015.2.2轮廓系数法40215.2.3GapStatistic40415.3Kmeans聚类的应用40715.3.1鸢尾花类别的聚类40715.3.2基于NBA球员历史参赛数据的聚类41015.4Kmeans聚类的注意事项41515.5篇章总结416
内容摘要
本书循序渐进地介绍R语言在数据分析与挖掘中的应用,涵盖数据分析与挖掘的常规流程,如数据预处理(清洗、整合与运算等)、数据可视化(离散型与连续型数据的绘图姿势)、数据建模(十大数据挖掘模型的应用)等内容。本书共分15章
— 没有更多了 —
以下为对购买帮助不大的评价