正版现货新书 精通数据科学 9787115479105 唐亘 著
全新正版现货,以书名为准,放心购买,购书咨询18931383650朱老师
¥
69.11
7.0折
¥
99
全新
库存5件
作者唐亘 著
出版社人民邮电出版社
ISBN9787115479105
出版时间2018-06
装帧平装
开本16开
定价99元
货号1201691770
上书时间2024-10-12
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
唐亘,数据科学家,专注于机器学习和大数据。曾获得复旦大学的数学和计算机双学士学位;巴黎综合理工的金融硕士学位;法国国立统计与经济管理学校的数据科学硕士学位。热爱并积极参与是Apache Spark和Scikit-Learn等开源项目。作为讲师和技术顾问,为多家机构(包括惠普、华为、复旦大学等)提供百余场技术培训。此前的工作和研究集中于经济和量化金融,曾参与经济合作与发展组织(OECD)的研究项目并发表论文,并担任英国知名在线出版社Packt的技术审稿人。
目录
章数据科学概述1
1.1挑战2
1.1.1工程实现的挑战2
1.1.2模型搭建的挑战3
1.2机器学习5
1.2.1机器学习与传统编程5
1.2.2监督式学习和非监督式学习8
1.3统计模型8
1.4关于本书10
第2章Python安装指南与简介:告别空谈12
2.1Python简介13
2.1.1什么是Python15
2.1.2Python在数据科学中的地位16
2.1.3不可能绕过的第三方库17
2.2Python安装17
2.2.1Windows下的安装18
2.2.2Mac下的安装21
2.2.3Linux下的安装24
2.3Python上手实践26
2.3.1Pythonshell26
2.3.2个Python程序:WordCount28
2.3.3Python编程基础30
2.3.4Python的工程结构34
2.4本章小结35
第3章数学基础:恼人但又不可或缺的知识36
3.1矩阵和向量空间37
3.1.1标量、向量与矩阵37
3.1.2特殊矩阵39
3.1.3矩阵运算39
3.1.4代码实现42
3.1.5向量空间44
3.2概率:量化随机46
3.2.1定义概率:事件和概率空间47
3.2.2条件概率:信息的价值48
3.2.3随机变量:两种不同的随机50
3.2.4正态分布:殊途同归52
3.2.5P-value:自信的猜测53
3.3微积分55
3.3.1导数和积分:位置、速度55
3.3.2极限:变化的终点57
3.3.3复合函数:链式法则58
3.3.4多元函数:偏导数59
3.3.5极值与最值:最优选择59
3.4本章小结61
第4章线性回归:模型之母62
4.1一个简单的例子64
4.1.1从机器学习的角度看这个问题66
4.1.2从统计学的角度看这个问题69
4.2上手实践:模型实现73
4.2.1机器学习代码实现74
4.2.2统计方法代码实现77
4.3模型陷阱82
4.3.1过度拟合:模型越复杂越好吗84
4.3.2模型幻觉之统计学方案:假设检验87
4.3.3模型幻觉之机器学习方案:惩罚项89
4.3.4比较两种方案92
4.4模型持久化92
4.4.1模型的生命周期93
4.4.2保存模型93
4.5本章小结96
第5章逻辑回归:隐藏因子97
5.1二元分类问题:是与否98
5.1.1线性回归:为何失效98
5.1.2窗口效应:看不见的才是关键100
5.1.3逻辑分布:胜者生存102
5.1.4参数估计之似然函数:统计学角度104
5.1.5参数估计之损失函数:机器学习角度104
5.1.6参数估计之最终预测:从概率到选择106
5.1.7空间变换:非线性到线性106
5.2上手实践:模型实现108
5.2.1初步分析数据:直观印象108
5.2.2搭建模型113
5.2.3理解模型结果116
5.3评估模型效果:孰优孰劣118
5.3.1查准率与查全率119
5.3.2ROC曲线与AUC123
5.4多元分类问题:超越是与否127
5.4.1多元逻辑回归:逻辑分布的威力128
5.4.2One-vs.-all:从二元到多元129
5.4.3模型实现130
5.5非均衡数据集132
5.5.1准确度悖论132
5.5.2一个例子133
5.5.3解决方法135
5.6本章小结136
第6章工程实现:计算机是怎么算的138
6.1算法思路:模拟滚动139
6.2数值求解:梯度下降法141
6.3上手实践:代码实现142
6.3.1TensorFlow基础143
6.3.2定义模型148
6.3.3梯度下降149
6.3.4分析运行细节150
6.4更优化的算法:随机梯度下降法153
6.4.1算法细节153
6.4.2代码实现154
6.4.3两种算法比较156
6.5本章小结158
第7章计量经济学的启示:他山之石159
7.1定量与定性:变量的数学运算合理吗161
7.2定性变量的处理162
7.2.1虚拟变量162
7.2.2上手实践:代码实现164
7.2.3从定性变量到定量变量168
7.3定量变量的处理170
7.3.1定量变量转换为定性变量171
7.3.2上手实践:代码实现171
7.3.3基于卡方检验的方法173
7.4显著性175
7.5多重共线性:多变量的烦恼176
7.5.1多重共线性效应176
7.5.2检测多重共线性180
7.5.3解决方法185
7.5.4虚拟变量陷阱188
7.6内生性:变化来自何处191
7.6.1来源192
7.6.2内生性效应193
7.6.3工具变量195
7.6.4逻辑回归的内生性198
7.6.5模型的联结200
7.7本章小结201
第8章监督式学习:目标明确202
8.1支持向量学习机203
8.1.1直观例子204
8.1.2用数学理解直观205
8.1.3从几何直观到最优化问题207
8.1.4损失项209
8.1.5损失函数与惩罚项210
8.1.6Hardmargin与softmargin比较211
8.1.7支持向量学习机与逻辑回归:隐藏的假设213
8.2核函数216
8.2.1空间变换:从非线性到线性216
8.2.2拉格朗日对偶218
8.2.3支持向量220
8.2.4核函数的定义:优化运算221
8.2.5常用的核函数222
8.2.6Scalevariant225
8.3决策树227
8.3.1决策规则227
8.3.2评判标准229
8.3.3代码实现231
8.3.4决策树预测算法以及模型的联结231
8.3.5剪枝235
8.4树的集成238
8.4.1随机森林238
8.4.2Randomforestembedding239
8.4.3GBTs之梯度提升241
8.4.4GBTs之算法细节242
8.5本章小结244
第9章生成式模型:量化信息的价值246
9.1贝叶斯框架248
9.1.1蒙提霍尔问题248
9.1.2条件概率249
9.1.3先验概率与后验概率251
9.1.4参数估计与预测公式251
9.1.5贝叶斯学派与频率学派252
9.2朴素贝叶斯254
9.2.1特征提取:文字到数字254
9.2.2伯努利模型256
9.2.3多项式模型258
9.2.4TF-IDF259
9.2.5文本分类的代码实现260
9.2.6模型的联结265
9.3判别分析266
9.3.1线性判别分析267
9.3.2线性判别分析与逻辑回归比较269
9.3.3数据降维270
9.3.4代码实现273
9.3.5二次判别分析275
9.4隐马尔可夫模型276
9.4.1一个简单的例子276
9.4.2马尔可夫链278
9.4.3模型架构279
9.4.4中文分词:监督式学习280
9.4.5中文分词之代码实现282
9.4.6股票市场:非监督式学习284
9.4.7股票市场之代码实现286
9.5本章小结289
0章非监督式学习:聚类与降维290
10.1K-means292
10.1.1模型原理292
10.1.2收敛过程293
10.1.3如何选择聚类个数295
10.1.4应用示例297
10.2其他聚类模型298
10.2.1混合高斯之模型原理299
10.2.2混合高斯之模型实现300
10.2.3谱聚类之聚类结果303
10.2.4谱聚类之模型原理304
10.2.5谱聚类之图片分割307
10.3Pipeline308
10.4主成分分析309
10.4.1模型原理310
10.4.2模型实现312
10.4.3核函数313
10.4.4KernelPCA的数学原理315
10.4.5应用示例316
10.5奇异值分解317
10.5.1定义317
10.5.2截断奇异值分解317
10.5.3潜在语义分析318
10.5.4大型推荐系统320
10.6本章小结323
1章分布式机器学习:集体力量325
11.1Spark简介327
11.1.1Spark安装328
11.1.2从MapReduce到Spark333
11.1.3运行Spark335
11.1.4SparkDataFrame336
11.1.5Spark的运行架构339
11.2最优化问题的分布式解法341
11.2.1分布式机器学习的原理341
11.2.2一个简单的例子342
11.3大数据模型的两个维度344
11.3.1数据量维度344
11.3.2模型数量维度346
11.4开源工具的另一面348
11.4.1一个简单的例子349
11.4.2开源工具的阿喀琉斯之踵351
11.5本章小结351
2章神经网络:模拟人的大脑353
12.1神经元355
12.1.1神经元模型355
12.1.2Sigmoid神经元与二元逻辑回归356
12.1.3Softmax函数与多元逻辑回归358
12.2神经网络360
12.2.1图形表示360
12.2.2数学基础361
12.2.3分类例子363
12.2.4代码实现365
12.2.5模型的联结369
12.3反向传播算法370
12.3.1随机梯度下降法回顾370
12.3.2数学推导371
12.3.3算法步骤373
12.4提高神经网络的学习效率373
12.4.1学习的原理373
12.4.2激活函数的改进375
12.4.3参数初始化378
12.4.4不稳定的梯度380
12.5本章小结381
3章深度学习:继续探索383
13.1利用神经网络识别数字384
13.1.1搭建模型384
13.1.2防止过拟合之惩罚项386
13.1.3防止过拟合之dropout387
13.1.4代码实现389
13.2卷积神经网络394
13.2.1模型结构之卷积层395
13.2.2模型结构之池化层397
13.2.3模型结构之完整结构399
13.2.4代码实现400
13.2.5结构真的那么重要吗405
13.3其他深度学习模型406
13.3.1递归神经网络406
13.3.2长短期记忆407
13.3.3非监督式学习409
13.4本章小结411
内容摘要
本书全面讲解了数据科学的相关知识,从统计分析学到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而更好地发现模型的潜在应用场景。本书可作为数据科学家和数据工程师的学习用书,也适合对数据科学有强烈兴趣的初学者使用,同时也可作为高等院校计算机、数学及相关专业的师生用书和培训学校的教材。
主编推荐
媒体评论
— 没有更多了 —
以下为对购买帮助不大的评价