消息首页搜索举报

数据科学

全新正版假一赔十可开发票

44.46 6.4折 69 全新

库存7件

北京东城

认证卖家担保交易快速发货售后保障

作者方匡南编著

出版社电子工业出版社

ISBN9787121342448

出版时间2018-06

装帧平装

开本16开

定价69元

货号1201730428

上书时间2024-12-12

轻阅书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 8小时
好评率暂无

最新上架

经济学原理第4版 ¥62.32

法学方法论教程 ¥51.27

会计学原理模拟实训教程 ¥37.86

寻找油气之路——油气显示和封堵性的启示 ¥173.54

医学免疫和病原生物实验学第2版 ¥30.77

中国石油企业文化辞典吉林石化卷 ¥211.40

动画运动规律 ¥33.76

电子商务物流管理与实践 ¥36.29

标志与VI设计 ¥39.28

商品详情

品相描述：全新

商品描述: 作者简介
方匡南，现为厦门大学经济学院统计系教授、博士生导师，耶鲁大学博士后，厦门大学数据挖掘研究中心副主任，靠前统计学会会士，全国工业统计学会理事、厦门统计学会常务理事。主要研究方向为数据挖掘、机器学习、应用统计。曾先后在国外非常不错期刊发表论文七十多篇，主持了国家自然科学基金等项目二十多项。多年从事大数据及相关领域研究与教学，著有《R数据分析》等多部相关作品。

目录
第1章导论1
1.1 数据科学的发展历史1
1.2 数据科学研究的主要问题3
1.3 数据科学的主要方法5
1.4 R语言的优势7
第2章数据读/写9
2.1 数据的读入9
2.1.1 直接输入数据9
2.1.2 读入R包中的数据10
2.1.3 从外部文件读入数据10
2.1.4 批量读入数据15
2.1.5 R语言读取文件的几个常错的问题15
2.2 写出数据17
2.3 习题18
第3章数据清洗与预处理19
3.1 数据分类19
3.2 数据清洗20
3.2.1 处理缺失数据20
3.2.2 处理噪声数据23
3.3 数据变换23
3.4 R语言实现25
3.4.1 数据集的基本操作25
3.4.2 数据集间的操作28
3.4.3 连接数据库数据29
3.5 习题30
第4章数据可视化31
4.1 高阶绘图工具——ggplot231
4.1.1 快速绘图32
4.1.2 使用图层构建图像34
4.1.3 分面37
4.2 ECharts239
4.2.1 安装39
4.2.2 使用40
4.3 习题48
第5章线性回归49
5.1 问题的提出49
5.2 一元线性回归50
5.2.1 一元线性回归概述50
5.2.2 一元线性回归的参数估计52
5.2.3 一元线性回归模型的检验55
5.2.4 一元线性回归的预测56
5.3 多元线性回归分析57
5.3.1 多元线性回归模型及假定58
5.3.2 参数估计59
5.3.3 模型检验60
5.3.4 预测61
5.4 R语言实现63
5.4.1 一元线性回归63
5.4.2 多元线性回归66
5.5 习题67
第6章线性分类69
6.1 问题的提出69
6.2 Logistic模型70
6.2.1 线性概率模型70
6.2.2 Probit模型71
6.2.3 Logit模型原理72
6.2.4 边际效应分析73
6.2.5 优选似然估计（MLE）73
6.2.6 似然比检验74
6.3 判别分析74
6.3.1 Na?ve Bayes判别分析75
6.3.2 线性判别分析76
6.3.3 二次判别分析78
6.4 分类问题评价准则78
6.5 R语言实现80
6.5.1 描述统计80
6.5.2 Logistic模型81
6.5.3 判别分析87
6.5.4 模型比较90
6.6 习题92
第7章重抽样94
7.1 问题的提出94
7.2 基本概念94
7.2.1 训练误差和测试误差95
7.2.2 偏差和方差95
7.3 交叉验证法96
7.3.1 验证集方法97
7.3.2 留一交叉验证法97
7.3.3 K折交叉验证法98
7.4 自助法99
7.5 R语言实现100
7.5.1 验证集方法100
7.5.2 留一交叉验证法102
7.5.3 K折交叉验证法102
7.5.4 自助法103
7.6 习题104
第8章模型选择与正则化105
8.1 问题的提出105
8.2 子集选择法106
8.2.1 很优子集法106
8.2.2 逐步选择法106
8.2.3 模型选择108
8.3 基于压缩估计的逐个变量选择109
8.3.1 LASSO惩罚110
8.3.2 SCAD惩罚111
8.3.3 MCP惩罚112
8.3.4 调整参数选择113
8.4 基于压缩估计的组变量选择113
8.4.1 自然分组结构113
8.4.2 人为分组结构114
8.5 基于压缩估计的双层变量选择115
8.5.1 复合函数型双层选择115
8.5.2 稀疏组惩罚型双层选择116
8.6 R语言实现117
8.6.1 子集选择法117
8.6.2 模型选择120
8.6.3 组模型选择122
8.6.4 双层模型选择126
8.7 习题128
第9章决策树与组合学习129
9.1 问题的提出129
9.2 决策树130
9.2.1 基本概念130
9.2.2 分类树133
9.2.3 回归树135
9.2.4 树的优缺点137
9.3 Bagging137
9.3.1 基本算法137
9.3.2 袋外误差估计138
9.3.3 变量重要性的度量139
9.4 随机森林140
9.5 提升法142
9.5.1 Adaboost算法142
9.5.2 GBDT算法143
9.5.3 XGBoost算法143
9.6 R语言实现144
9.6.1 数据介绍144
9.6.2 描述性统计145
9.6.3 分类树145
9.6.4 Bagging148
9.6.5 随机森林149
9.6.6 Boosting150
9.7 习题155
第10章支持向量机156
10.1 问题的提出156
10.2 优选间隔分类器157
10.2.1 使用分割超平面分类157
10.2.2 构建优选间隔分类器159
10.2.3 线性不可分的情况160
10.3 支持向量分类器161
10.3.1 使用软间隔分类161
10.3.2 构建支持向量分类器161
10.4 支持向量机163
10.4.1 使用非线性决策边界分类163
10.4.2 构建支持向量机165
10.5 与Logistic回归的关系166
10.6 支持向量回归167
10.7 R语言实现168
10.7.1 支持向量分类器168
10.7.2 支持向量机173
10.7.3 Auto数据集175
10.8 习题178
第11章神经网络180
11.1 问题的提出181
11.2 神经网络的基本概念181
11.2.1 神经网络的基本单元——神经元181
11.2.2 神经网络的结构185
11.2.3 神经网络的学习186
11.3 神经网络模型188
11.3.1 单神经元感知器188
11.3.2 单层感知器189
11.3.3 BP神经网络190
11.3.4 Rprop神经网络193
11.4 R语言实现195
11.4.1 nnet程序包195
11.4.2 neuralnet程序包197
11.4.3 应用案例1：利用nnet程序包分析纸币鉴别数据198
11.4.4 应用案例2：利用neuralnet程序包分析白葡萄酒的品质200
11.5 习题203
第12章无监督学习205
12.1 问题的提出205
12.2 聚类分析207
12.2.1 相异度207
12.2.2 K-means聚类209
12.2.3 系统聚类法211
12.3 主成分分析214
12.3.1 主成分分析的几何意义214
12.3.2 主成分的数学推导215
12.3.3 主成分回归217
12.3.4 主成分分析的其他方面217
12.4 因子分析219
12.4.1 因子分析的数学模型219
12.4.2 因子载荷阵的统计意义220
12.4.3 因子分析的其他方面221
12.5 典型相关分析223
12.5.1 典型相关分析原理223
12.5.2 典型相关系数的显著性检验226
12.5.3 典型相关分析的步骤227
12.6 R语言实现228
12.6.1 聚类分析：移动通信用户细分228
12.6.2 主成分分析：农村居民消费水平评价233
12.6.3 因子分析：市场调查236
12.6.4 典型相关分析：职业满意度与职业特性的关系239
12.7 习题242
第13章推荐算法243
13.1 关联规则243
13.1.1 基本概念244
13.1.2 基本分类246
13.1.3 基本方法247
13.2 协同过滤算法249
13.2.1 基于邻居的协同过滤算法249
13.2.2 基于模型的协同过滤算法253
13.3 R语言实现254
13.3.1 关联规则254
13.3.2 协同过滤算法259
13.4 习题262
第14章文本挖掘264
14.1 问题的提出264
14.2 文本挖掘基本流程265
14.2.1 文本数据获取265
14.2.2 文本特征表示265
14.2.3 文本的特征选择268
14.2.4 信息挖掘与主题模型269
14.3 R语言实现270
14.3.1 JSS_papers数据集270
14.3.2 拓展案例：房地产网络舆情分析275
14.4 习题278
第15章社交网络分析279
15.1 问题的提出279
15.2 网络的基本概念280
15.3 网络特征的描述性分析281
15.3.1 节点度281
15.3.2 节点中心性282
15.3.3 网络的凝聚性特征283
15.3.4 分割284
15.4 网络图的统计模型285
15.4.1 经典随机图模型285
15.4.2 广义随机图模型286
15.4.3 指数随机图模型287
15.4.4 网络块模型287
15.5 关联网络推断288
15.5.1 相关网络288
15.5.2 偏相关网络289
15.5.3 高斯图模型网络290
15.5.4 Graphic Lasso模型291
15.6 二值型网络模型294
15.7 R语言实现295
15.7.1 网络的基本操作295
15.7.2 “豆瓣关注网络”和“豆瓣朋友网络”特征分析298
15.7.3 关联网络推断303
15.8 习题308
第16章并行计算309
16.1 提高R语言的计算速度309
16.2 R语言的并行计算310
16.3 HPC多线程并行计算316
参考文献321

内容摘要
本书是一本数据科学的入门书籍。每个知识点尽量从实际的应用案例出发，从数据出发，以问题为导向，在解决问题中学习数据挖掘、机器学习等数据科学相关方法。本书将数据读写、数据清洗和预处理作为开端，逐渐深入到和数据科学相关的决策树、支持向量机、神经网络、无监督学习等知识。此外，结合数据科学的实际应用，书中还讲解了推荐算法、文本挖掘和社交网络分析等热门实用技术。本书在写作过程中尽量删去太过抽样的理论，让具有一定高等数学和概率论基础的读者就能看得懂。当然，如果读者对方法原理确实不感兴趣，只是为了用R程序实现某种方法，可以跳过方法只看案例和程序。本书适合作为高校数据科学、机器学习、数据挖掘、大数据分析等相关专业的研究生和高年级本科的教科书，也适合作为相关企业的数据科学家、数据挖掘工程师、数据分析师及数据科学的爱好者等的工具书。

— 没有更多了 —