• 数据科学中的实用统计学 第2版 数据库 (美)彼得·布鲁斯,(美)安德鲁·布鲁斯,(德)彼得·格德克 新华正版
21年品牌 40万+商家 超1.5亿件商品

数据科学中的实用统计学 第2版 数据库 (美)彼得·布鲁斯,(美)安德鲁·布鲁斯,(德)彼得·格德克 新华正版

数据科学教程,同时提供python和r代码,细致讲解数据科学中的核心统计学概念,含丰富代码示例,数据科学从业人员、数据分析面试参书籍。

68 6.8折 99.8 全新

库存8件

江苏无锡
认证卖家担保交易快速发货售后保障

作者(美)彼得·布鲁斯,(美)安德鲁·布鲁斯,(德)彼得·格德克

出版社人民邮电出版社

ISBN9787115569028

出版时间2021-10

版次1

装帧平装

开本16开

页数288页

字数426千字

定价99.8元

货号xhwx_1202502166

上书时间2023-09-18

翰林文轩旗舰店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

1.以通俗易懂的方式,从数据科学的角度系统的阐释重要且实用的统计学概念,介绍如何将各种统计方应用于数据科学中;2.运用清晰的解释和丰富的示例,将实用的统计学术语与数据挖掘实践相结合,适用于数据科学的入门初学者;3.相比于上一版,本书新增了更多python和r语言示例,读者可以更深入的了解如何在数据科学项目中正确运用各种统计方;4.通过本书,你将掌握以下知识:为什么探索数据分析是开启数据科学任务的关键一步抽样如何降低偏差并提高数据集的质量实验设计原则如何针对问题生成确定如何使用回归方估计结果并检测异常用于预测记录所属类别的主要分类方从数据中“学”的统计机器学方从未标记的数据中提取信息的无监督学方

目录:

章探索数据分析1

1.1结构化数据的要素2

1.2矩形数据4

1.2.1数据框和索引5

1.2.2非矩形数据结构6

1.2.3扩展阅读6

1.3位置估计6

1.3.1均值8

1.3.2中位数和健壮的估计9

1.3.3示例:人和谋杀率的位置估计10

1.3.4扩展阅读11

1.4变异估计11

1.4.1标准差以及相关估计13

1.4.2基于百分位数的估计14

1.4.3示例:美国各州人数量的变异估计15

1.4.4扩展阅读16

1.5探索数据分布16

1.5.1百分位数与箱线图17

1.5.2频数表和直方图18

1.5.3密度图和密度估计20

1.5.4扩展阅读22

1.6探索二元数据和分类型数据22

1.6.1众数24

1.6.2期望值24

1.6.3概率25

1.6.4扩展阅读25

1.7相关25

1.7.1散点图28

1.7.2扩展阅读29

1.8探索两个及以上的变量29

1.8.1六边形分箱图和等高线图(绘制数值型数据之间的关系)30

1.8.2两个分类变量32

1.8.3分类型数据和数值型数据33

1.8.4多个变量的可视化35

1.8.5扩展阅读37

1.9小结37

第2章数据与抽样分布39

2.1抽样和样本偏差40

2.1.1偏差42

2.1.2选择43

2.1.3数量和质量:什么时候数量更重要44

2.1.4样本均值与体均值45

2.1.5扩展阅读45

2.2选择偏差45

2.2.1均值回归46

2.2.2扩展阅读48

2.3统计量的抽样分布48

2.3.1中心极限定理51

2.3.2标准误差51

2.3.3扩展阅读52

2.4bootstrap方52

2.4.1重抽样与bootstrap方55

2.4.2扩展阅读55

2.5置信区间55

2.6正态分布57

2.7长尾分布60

2.8学生的t分布62

2.9二项分布64

2.10卡方分布67

2.11f分布68

2.12泊松及其相关分布68

2.12.1泊松分布69

2.12.2指数分布69

2.12.3估计故障率70

2.12.4韦布尔分布70

2.12.5扩展阅读71

2.13小结71

第3章统计实验与显著检验72

3.1a/b测试73

3.1.1为什么要有对照组75

3.1.2为什么只有a/b,没有c/d76

3.1.3扩展阅读77

3.2设检验77

3.2.1零设78

3.2.2备择设79

3.2.3单向设检验与双向设检验79

3.2.4扩展阅读80

3.3重抽样80

3.3.1置换检验80

3.3.2示例:web黏81

3.3.3穷尽置换检验和bootstrap置换检验84

3.3.4置换检验:数据科学的底线85

3.3.5扩展阅读85

3.4统计显著和p值85

3.4.1p值88

3.4.2α88

3.4.3类错误和第二类错误90

3.4.4数据科学与p值9

3.4.5扩展阅读90

3.5t检验91

3.6多重检验92

3.7自由度95

3.8anova97

3.8.1f统计量99

3.8.2双向anova101

3.8.3扩展阅读101

3.9卡方检验101

3.9.1卡方检验:一种重抽样方102

3.9.2卡方检验:统计理论104

3.9.3费希尔准确检验105

3.9.4与数据科学的关联107

3.9.5扩展阅读107

3.10多臂老虎机算107

3.11检验力与样本容量110

3.11.1样本容量111

3.11.2扩展阅读113

3.12小结114

第4章回归与预测115

4.1简单线回归115

4.1.1回归方程117

4.1.2拟合值与残差119

4.1.3小二乘120

4.1.4预测与解释(分析)121

4.1.5扩展阅读121

4.2多元线回归122

4.2.1示例:金县房屋数据123

4.2.2模型评估124

4.2.3交验证126

4.2.4模型选择与逐步回归127

4.2.5加权回归130

4.2.6扩展阅读131

4.3使用回归进行预测131

4.3.1外推风险131

4.3.2置信区间与预测区间132

4.4回归中的因子变量133

4.4.1虚拟变量的表示方134

4.4.2多水因子变量136

4.4.3有序因子变量138

4.5解释回归方程138

4.5.1相关的预测变量139

4.5.2多重共线140

4.5.3混淆变量141

4.5.4交互作用与主效应142

4.6回归诊断143

4.6.1离群点144

4.6.2强影响值146

4.6.3异方差、非正态与相关误差148

4.6.4偏残差图与非线151

4.7多项式回归与样条回归152

4.7.1多项式回归153

4.7.2样条回归155

4.7.3广义可加模型156

4.7.4扩展阅读158

4.8小结158

第5章分类159

5.1朴素贝叶斯算160

5.1.1为什么进行准确贝叶斯分类是不现实的161

5.1.2朴素贝叶斯问题求解161

5.1.3数值型预测变量164

5.1.4扩展阅读164

5.2判别分析164

5.2.1协方差矩阵165

5.2.2费希尔线判别分析166

5.2.3一个简单的例子166

5.2.4扩展阅读169

5.3逻辑回归169

5.3.1逻辑响应函数和logit函数170

5.3.2逻辑回归和广义线模型171

5.3.3广义线模型172

5.3.4逻辑回归的预测值173

5.3.5系数和优势比的解释174

5.3.6线回归与逻辑回归:共与差异175

5.3.7评估模型176

5.3.8扩展阅读179

5.4分类模型评估179

5.4.1混淆矩阵180

5.4.2稀有类问题182

5.4.3准确度、召回率和特异度182

5.4.4roc曲线183

5.4.5auc185

5.4.6提升度186

5.4.7扩展阅读187

5.5非衡数据的处理策略187

5.5.1欠采样188

5.5.2过采样与上(下)加权189

5.5.3数据生成190

5.5.4基于成本的分类191

5.5.5探索预测结果191

5.5.6扩展阅读192

5.6小结193

第6章统计机器学194

6.1knn195

6.1.1一个小例子:预测贷款违约196

6.1.2距离的度量198

6.1.3独热编码198

6.1.4标准化(归一化,z分数)199

6.1.5k的选择201

6.1.6knn作为特征引擎202

6.2树模型204

6.2.1一个简单的例子205

6.2.2递归分割算207

6.2.3测量同质或不纯度208

6.2.4让树停止生长209

6.2.5预测连续的值211

6.2.6如何使用树211

6.2.7扩展阅读212

6.3装袋与森林212

6.3.1装袋213

6.3.2森林213

6.3.3变量的重要217

6.3.4超参数220

6.4提升方221

6.4.1提升算222

6.4.2xgboost222

6.4.3正则化:避过拟合225

6.4.4超参数与交验证228

6.5小结231

第7章无监督学232

7.1主成分分析233

7.1.1一个简单的例子234

7.1.2计算主成分236

7.1.3解释主成分236

7.1.4对应分析239

7.1.5扩展阅读240

7.2k-均值聚类241

7.2.1一个简单的例子241

7.2.2k-均值算244

7.2.3簇的解释245

7.2.4选择簇的数量247

7.3层次聚类248

7.3.1一个简单的例子249

7.3.2树状图250

7.3.3凝聚算251

7.3.4测量相异度252

7.4基于模型的聚类253

7.4.1多元正态分布253

7.4.2混合正态分布254

7.4.3选择簇的数量257

7.4.4扩展阅读259

7.5数据缩放与分类变量259

7.5.1缩放变量260

7.5.2主导变量261

7.5.3分类数据和gower距离263

7.5.4混合数据聚类中的问题265

7.6小结266

扩展阅读267

作者介绍269

封面介绍269

内容简介:

本书解释了数据科学中至关重要的统计学概念,并介绍了如何将各种统计方应用于数据科学。作者以通俗易懂、分门别类的方式,阐释了统计学中与数据科学相关的关键概念,并解释了各统计学概念在数据科学中的重要及有用程度。第2版在版的基础上加入了更多以python和r编写的示例,更清楚地阐释了如何将统计方用于数据科学。本书适合对r和python有了解的数据科学从业者阅读。

作者简介:

彼得布鲁斯是.statistics.统计教育研究所的和创始人。他撰写了多篇期刊文章,并且是重采样统计软件的开发者。他是统计分析导论:基于重采样角度一书的作者以及商业数据挖掘:概念、技术和应用程序xlminer(第三版)的合著者之一。

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP