消息首页搜索举报

正版现货新书精通数据科学 9787115479105 唐亘著

全新正版现货，以书名为准，放心购买，购书咨询18931383650朱老师

69.11 7.0折 99 全新

库存4件

北京丰台

认证卖家担保交易快速发货售后保障

作者唐亘著

出版社人民邮电出版社

ISBN9787115479105

出版时间2018-06

装帧平装

开本16开

定价99元

货号1201691770

上书时间2024-10-12

黎明书店

十四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

正版现货新书孤独传：一种现代情感的历史 9787575302616 费伊·邦德·艾伯蒂著张畅译

正版现货新书亨利·米勒三部曲：北回归线 9787544787277 [美国]亨利·米勒著袁洪庚译

正版现货新书亨利·米勒三部曲：南回归线 9787544787284 [美国]亨利·米勒著杨恒达职茉莉译

正版现货新书亨利·米勒三部曲：黑色的春天 9787544787291 [美国]亨利·米勒著杨恒达职茉莉译

正版现货新书小学语文融合劳动教育的案例探索 9787577305165 屠素凤编

正版现货新书医院校创新创业基础教程·全国医行业高等教育“十四五”创新教材 9787513270465 张元龙,马重阳著

正版现货新书（2025）一建创新教材：市政公用工程管理与实务 9787566142573 全国一级建造师执业资格用书编写组著

正版现货新书（2025）一建创新教材：建设工程法规及相关知识 9787566142535 全国一级建造师执业资格用书编写组著

商品详情

品相描述：全新

商品描述: 作者简介
唐亘，数据科学家，专注于机器学习和大数据。曾获得复旦大学的数学和计算机双学士学位；巴黎综合理工的金融硕士学位；法国国立统计与经济管理学校的数据科学硕士学位。热爱并积极参与是Apache Spark和Scikit-Learn等开源项目。作为讲师和技术顾问，为多家机构（包括惠普、华为、复旦大学等）提供百余场技术培训。此前的工作和研究集中于经济和量化金融，曾参与经济合作与发展组织（OECD）的研究项目并发表论文，并担任英国知名在线出版社Packt的技术审稿人。

目录
章数据科学概述1
1.1挑战2
1.1.1工程实现的挑战2
1.1.2模型搭建的挑战3
1.2机器学习5
1.2.1机器学习与传统编程5
1.2.2监督式学习和非监督式学习8
1.3统计模型8
1.4关于本书10
第2章Python安装指南与简介：告别空谈12
2.1Python简介13
2.1.1什么是Python15
2.1.2Python在数据科学中的地位16
2.1.3不可能绕过的第三方库17
2.2Python安装17
2.2.1Windows下的安装18
2.2.2Mac下的安装21
2.2.3Linux下的安装24
2.3Python上手实践26
2.3.1Pythonshell26
2.3.2个Python程序：WordCount28
2.3.3Python编程基础30
2.3.4Python的工程结构34
2.4本章小结35
第3章数学基础：恼人但又不可或缺的知识36
3.1矩阵和向量空间37
3.1.1标量、向量与矩阵37
3.1.2特殊矩阵39
3.1.3矩阵运算39
3.1.4代码实现42
3.1.5向量空间44
3.2概率：量化随机46
3.2.1定义概率：事件和概率空间47
3.2.2条件概率：信息的价值48
3.2.3随机变量：两种不同的随机50
3.2.4正态分布：殊途同归52
3.2.5P-value：自信的猜测53
3.3微积分55
3.3.1导数和积分：位置、速度55
3.3.2极限：变化的终点57
3.3.3复合函数：链式法则58
3.3.4多元函数：偏导数59
3.3.5极值与最值：最优选择59
3.4本章小结61
第4章线性回归：模型之母62
4.1一个简单的例子64
4.1.1从机器学习的角度看这个问题66
4.1.2从统计学的角度看这个问题69
4.2上手实践：模型实现73
4.2.1机器学习代码实现74
4.2.2统计方法代码实现77
4.3模型陷阱82
4.3.1过度拟合：模型越复杂越好吗84
4.3.2模型幻觉之统计学方案：假设检验87
4.3.3模型幻觉之机器学习方案：惩罚项89
4.3.4比较两种方案92
4.4模型持久化92
4.4.1模型的生命周期93
4.4.2保存模型93
4.5本章小结96
第5章逻辑回归：隐藏因子97
5.1二元分类问题：是与否98
5.1.1线性回归：为何失效98
5.1.2窗口效应：看不见的才是关键100
5.1.3逻辑分布：胜者生存102
5.1.4参数估计之似然函数：统计学角度104
5.1.5参数估计之损失函数：机器学习角度104
5.1.6参数估计之最终预测：从概率到选择106
5.1.7空间变换：非线性到线性106
5.2上手实践：模型实现108
5.2.1初步分析数据：直观印象108
5.2.2搭建模型113
5.2.3理解模型结果116
5.3评估模型效果：孰优孰劣118
5.3.1查准率与查全率119
5.3.2ROC曲线与AUC123
5.4多元分类问题：超越是与否127
5.4.1多元逻辑回归：逻辑分布的威力128
5.4.2One-vs.-all：从二元到多元129
5.4.3模型实现130
5.5非均衡数据集132
5.5.1准确度悖论132
5.5.2一个例子133
5.5.3解决方法135
5.6本章小结136
第6章工程实现：计算机是怎么算的138
6.1算法思路：模拟滚动139
6.2数值求解：梯度下降法141
6.3上手实践：代码实现142
6.3.1TensorFlow基础143
6.3.2定义模型148
6.3.3梯度下降149
6.3.4分析运行细节150
6.4更优化的算法：随机梯度下降法153
6.4.1算法细节153
6.4.2代码实现154
6.4.3两种算法比较156
6.5本章小结158
第7章计量经济学的启示：他山之石159
7.1定量与定性：变量的数学运算合理吗161
7.2定性变量的处理162
7.2.1虚拟变量162
7.2.2上手实践：代码实现164
7.2.3从定性变量到定量变量168
7.3定量变量的处理170
7.3.1定量变量转换为定性变量171
7.3.2上手实践：代码实现171
7.3.3基于卡方检验的方法173
7.4显著性175
7.5多重共线性：多变量的烦恼176
7.5.1多重共线性效应176
7.5.2检测多重共线性180
7.5.3解决方法185
7.5.4虚拟变量陷阱188
7.6内生性：变化来自何处191
7.6.1来源192
7.6.2内生性效应193
7.6.3工具变量195
7.6.4逻辑回归的内生性198
7.6.5模型的联结200
7.7本章小结201
第8章监督式学习：目标明确202
8.1支持向量学习机203
8.1.1直观例子204
8.1.2用数学理解直观205
8.1.3从几何直观到最优化问题207
8.1.4损失项209
8.1.5损失函数与惩罚项210
8.1.6Hardmargin与softmargin比较211
8.1.7支持向量学习机与逻辑回归：隐藏的假设213
8.2核函数216
8.2.1空间变换：从非线性到线性216
8.2.2拉格朗日对偶218
8.2.3支持向量220
8.2.4核函数的定义：优化运算221
8.2.5常用的核函数222
8.2.6Scalevariant225
8.3决策树227
8.3.1决策规则227
8.3.2评判标准229
8.3.3代码实现231
8.3.4决策树预测算法以及模型的联结231
8.3.5剪枝235
8.4树的集成238
8.4.1随机森林238
8.4.2Randomforestembedding239
8.4.3GBTs之梯度提升241
8.4.4GBTs之算法细节242
8.5本章小结244
第9章生成式模型：量化信息的价值246
9.1贝叶斯框架248
9.1.1蒙提霍尔问题248
9.1.2条件概率249
9.1.3先验概率与后验概率251
9.1.4参数估计与预测公式251
9.1.5贝叶斯学派与频率学派252
9.2朴素贝叶斯254
9.2.1特征提取：文字到数字254
9.2.2伯努利模型256
9.2.3多项式模型258
9.2.4TF-IDF259
9.2.5文本分类的代码实现260
9.2.6模型的联结265
9.3判别分析266
9.3.1线性判别分析267
9.3.2线性判别分析与逻辑回归比较269
9.3.3数据降维270
9.3.4代码实现273
9.3.5二次判别分析275
9.4隐马尔可夫模型276
9.4.1一个简单的例子276
9.4.2马尔可夫链278
9.4.3模型架构279
9.4.4中文分词：监督式学习280
9.4.5中文分词之代码实现282
9.4.6股票市场：非监督式学习284
9.4.7股票市场之代码实现286
9.5本章小结289
0章非监督式学习：聚类与降维290
10.1K-means292
10.1.1模型原理292
10.1.2收敛过程293
10.1.3如何选择聚类个数295
10.1.4应用示例297
10.2其他聚类模型298
10.2.1混合高斯之模型原理299
10.2.2混合高斯之模型实现300
10.2.3谱聚类之聚类结果303
10.2.4谱聚类之模型原理304
10.2.5谱聚类之图片分割307
10.3Pipeline308
10.4主成分分析309
10.4.1模型原理310
10.4.2模型实现312
10.4.3核函数313
10.4.4KernelPCA的数学原理315
10.4.5应用示例316
10.5奇异值分解317
10.5.1定义317
10.5.2截断奇异值分解317
10.5.3潜在语义分析318
10.5.4大型推荐系统320
10.6本章小结323
1章分布式机器学习：集体力量325
11.1Spark简介327
11.1.1Spark安装328
11.1.2从MapReduce到Spark333
11.1.3运行Spark335
11.1.4SparkDataFrame336
11.1.5Spark的运行架构339
11.2最优化问题的分布式解法341
11.2.1分布式机器学习的原理341
11.2.2一个简单的例子342
11.3大数据模型的两个维度344
11.3.1数据量维度344
11.3.2模型数量维度346
11.4开源工具的另一面348
11.4.1一个简单的例子349
11.4.2开源工具的阿喀琉斯之踵351
11.5本章小结351
2章神经网络：模拟人的大脑353
12.1神经元355
12.1.1神经元模型355
12.1.2Sigmoid神经元与二元逻辑回归356
12.1.3Softmax函数与多元逻辑回归358
12.2神经网络360
12.2.1图形表示360
12.2.2数学基础361
12.2.3分类例子363
12.2.4代码实现365
12.2.5模型的联结369
12.3反向传播算法370
12.3.1随机梯度下降法回顾370
12.3.2数学推导371
12.3.3算法步骤373
12.4提高神经网络的学习效率373
12.4.1学习的原理373
12.4.2激活函数的改进375
12.4.3参数初始化378
12.4.4不稳定的梯度380
12.5本章小结381
3章深度学习：继续探索383
13.1利用神经网络识别数字384
13.1.1搭建模型384
13.1.2防止过拟合之惩罚项386
13.1.3防止过拟合之dropout387
13.1.4代码实现389
13.2卷积神经网络394
13.2.1模型结构之卷积层395
13.2.2模型结构之池化层397
13.2.3模型结构之完整结构399
13.2.4代码实现400
13.2.5结构真的那么重要吗405
13.3其他深度学习模型406
13.3.1递归神经网络406
13.3.2长短期记忆407
13.3.3非监督式学习409
13.4本章小结411

内容摘要
本书全面讲解了数据科学的相关知识，从统计分析学到机器学习、深度学习中用到的算法及模型，借鉴经济学视角给出模型的相关解释，深入探讨模型的可用性，并结合大量的实际案例和代码帮助读者学以致用，将具体的应用场景和现有的模型相结合，从而更好地发现模型的潜在应用场景。本书可作为数据科学家和数据工程师的学习用书，也适合对数据科学有强烈兴趣的初学者使用，同时也可作为高等院校计算机、数学及相关专业的师生用书和培训学校的教材。

主编推荐

媒体评论