大数据分析:理论、方法及应用
批量上传,套装书可能不全,下单前咨询在线客服!有特殊要求,下单前请咨询客服!
¥
61.05
4.7折
¥
129
全新
库存14件
作者史蒂文
出版社机械工业出版社
ISBN9787111703471
出版时间2022-05
装帧平装
开本16开
定价129元
货号29404602
上书时间2024-11-02
商品详情
- 品相描述:全新
- 商品描述
-
前言
为了了解我们周围的世界,我们需要从环境中获取和分析数据。 近,一些技术的发展为我们提供了新的机会,使我们能够将数据分析知识应用到比以往任何时候都更大的挑战中。
计算机存储容量呈指数级增长。确实,存储已经变得如此廉价,以至于几乎不太可能需要计算机系统刻意删除某些数据。传感设备越来越多地监控所有可以观察到的东西:视频流、社交媒体互动以及任何移动的东西的位置。云计算使我们能够利用大量机器来处理这些数据。事实上,每次当你在谷歌上进行搜索的时候,都会调用上百台计算机,对你之前的所有搜索活动仔细检查,以决定下一个推荐给你的 佳广告。
所有这一切的结果就是数据科学的诞生。数据科学是一个致力于从海量信息中获取 价值的新领域。作为一门学科,数据科学融合了统计学、计算机科学和机器学习,同时它也正在逐渐显露出自己独有的特点。这本书是对数据科学的一个介绍,重点介绍构建用于收集、分析和解释数据的系统所需的知识和原则。
作为一名研究人员和讲师,我的专业经验使我确信,数据科学的一个主要挑战是它实际上要比看起来微妙得多。任何一名曾经计算过自己平均成绩(GPA)的学生都可以说自己掌握了 基本的统计知识,就像绘制一个简单的散点图可以让你在简历中增加数据可视化的经历一样。但想要有意义地分析和解释数据则需要专业的技术和知识。有太多人对这些基础知识掌握得十分糟糕,这促使我撰写这本书。
致读者
我的另一本书The Algorithm Design Manual [Ski08]自1997年首次出版以来受到了很多读者的喜爱,我对此感到十分欣慰。该书被认为是使用算法技术来解决实践中经常遇到的问题的独特指南。而现在呈现在你面前的这本书虽然在内容上与上一本截然不同,但是写作目的却是相似的。
在这里,我特别强调以下几个基本原则,它们对于成为一名优秀的数据科学家至关重要:
重视做好简单的事情:数据科学不是一门十分高深的学科。学生和实践者经常在技术的道路上迷失了方向,他们一味地追求 进的机器学习方法、 新的开源软件库或 炫目的可视化技术。然而,数据科学的核心在于正确地做一些简单的事情—理解与应用相关的领域,清洗和集成相关的数据源,并将你的结果清晰地呈现给其他人。
然而,简单并不意味着容易。事实上,提出正确的问题并感知自己是否正在朝着正确的答案和可行的方案迈进,需要相当敏锐的洞察力和丰富的经验。我在本书中克制住了深入探讨清洗数据这种技术性问题的冲动,因为它是可以教授的。市面上有很多其他书籍涵盖了机器学习算法或统计假设检验的复杂性。而我在本书中的任务是为分析数据中真正重要的事情打下基础。
培养数学直觉:数据科学建立在数学基础之上,特别是统计学和线性代数。从直观的角度理解这些材料是很重要的—为什么要开发这些概念,它们为什么有用,以及使用它们的 佳时机。我展示了一些线性代数中的运算,呈现了当你操作矩阵时矩阵会发生什么情况的图片,并且通过示例解释了一些统计概念。我的目标是让读者培养出这种直觉。
但我在书中尽量减少对于这些知识的相关数学表达。实际上,在这本书中我只给出一个形式证明—一个其中的相关定理显然不当的不正确证明。这里的寓意不是说数学上的严谨不重要,因为它显然很重要,但是真正的严谨是在理解之后才可能实现的。
像计算机科学家一样思考,但像统计学家一样行动:数据科学将计算机科学家、统计学家和领域专家联系成一个整体。但是每个团体都有自己独特的思维和行为风格,这些风格已深深烙印在其成员的灵魂之中。
在这本书中,我强调了计算机科学家 自然的方法,特别是关于数据的算法处理、机器学习的使用,以及数据规模的掌握。但我也试图传达统计推理的核心价值观:理解应用领域的必要性,对小领域的正确认识,对重要性的追求和对探索的渴望。
没有任何一门学科能够揭示全部真理。 好的数据科学家会整合多个领域的工具,而这本书力求提供一个相对中立的场所,在这里,对立的哲学可以一起推理。
本书没有提及的内容也同样重要。我没有强调任何特定的语言或数据分析工具。相反,本书对重要的设计原理进行了高层次讨论。我试图在概念层面而不是技术层面上操作。本书的目标是让你尽可能快地朝着正确的方向前进,使用你认为 便利的软件工具。
致讲师
这本书涵盖的内容足够为刚开始上“数据科学导论”这门课程的本科生和低年级研究生提供帮助。我希望读者至少完成了一门与编程相关的课程,并且掌握一些概率和统计方面的知识,当然,多多益善。
我制作了一套完整的教学幻灯片,并上传到了http://www.data-manual.com上。项目和作业的数据资源也可用于帮助讲师。
本书的教学特色包括:
实战故事:为了更好地了解数据科学技术如何应用于现实世界,我收集了一些“实战故事”,或者我们处理实际问题的经验。这些故事的寓意在于,这些方法不仅是理论,而且是重要的工具,可以根据需要使用。
错误的开始:大多数教科书将方法作为既成事实来呈现,模糊了设计方法所涉及的思想,以及其他方法失败的原因。实战故事说明了我对某些应用问题的推理过程,但我也将这些内容编入了核心材料。
课后拓展:突出强调了每一章中需要特别注意的一些概念。
练习:我提供了一系列的作业和课后习题。很多是传统的考试题,但也有不少实验挑战和少量学生在寻找工作时可能遇到的面试问题,而且对所有练习都进行了难度等级评定。
我建立了解决方案Wiki而非直接给出答案,该解决方案Wiki将通过众包服务寻求所有偶数号习题的解答。有人告诉我,一个类似的系统和我的The Algorithm Design Manual产生了一致的解答。原则上我拒绝查看它们,所以请买家当心。
Kaggle挑战:Kaggle(www.kaggle.com)为数据科学家提供了一个参与竞争的论坛,其特色是在引人入胜的数据集上挑战现实世界中的问题,并通过评分来评估你的模型相对于其他模型的表现。每章的练习包括三个相关的Kaggle挑战,可为读者做其他项目和调查带来灵感,也可以自学或作为数据源。
数据科学电视:数据科学仍然神秘,甚至威胁到广大公众。The Quant Shop是一个业余的数据科学真人秀节目,学生小组可在这里处理各种各样的现实世界预测问题,并试图预测未来事件。请访问http://www.quant-shop.com。
我们准备了8集30分钟的内容,每个内容围绕一个特定的现实世界预测问题。挑战包括在拍卖会上为艺术品定价、挑选环球小姐大赛的获胜者,以及预测名人的死亡时间。对于每一种情况,我们都观察学生小组会如何处理这个问题,并在他们建立预测模型时与他们一起学习。他们做出了预测,我们与他们一起观察这些预测是对还是错。
在这本书中,The Quant Shop用于提供预测挑战的具体例子,从数据获取到评估,系统讨论数据科学建模过程。我希望你觉得它们很有趣,它们会鼓励你思考,让你接受建模挑战。
章节注释: 后,每章都会给出一个简短的注释,向读者指出主要的资源和其他参考。
献词
我聪明开朗的女儿Bonnie和Abby现在都已成年,这意味着她们处理统计数据的速度并不总是如我所愿。我将这本书献给她们,希望她们的分析能力有所提高,从而总是同意我的观点。
我将这本书献给我美丽的妻子Renee,即使她不同意我的观点, 终也会和我达成一致,并且一切迹象表明她十分爱我。
致谢
我要感谢的人太多了,可能有一些没有被提及。我会尽可能地将他们列举出来,但请那些我不小心遗漏的人对此表示谅解。
首先,我感谢那些为我整理这本书做出具体贡献的人。Yeseul Lee曾担任该项目的学徒,在2016年夏季这段时间帮助处理图表、练习等。你会在本书几乎每一页上看到她的手工制作成果,我非常感谢她的帮助和奉献。Aakriti Mittal和Jack Zheng也参与了一些图的制作。
上我2016级秋季“数据科学概论”课程(CSE519)的学生帮助修正了手稿,他们发现了很多需要修正的内容。我特别感谢Rebecca Siford,她提出了一百多条修正意见。几个数据科学的朋友帮我审阅了特定的章节,我感谢Anshul Gandhi、Yifan Hu、Klaus Mueller、Francesco Orabona、Andy Schwartz和Charles Ward在这里所做的努力。
我感谢2015年秋季所有参与The Quant Shop节目的学生,他们的视频和建模工作成果显著。我特别感谢Jan(Dini)Diskin-Zimmerman,他的编辑工作远远超出了其职责范围。
很高兴Springer的编辑Wayne Wheeler和Simon Rees能够一如既往地与我合作。我也感谢 终将这本书呈现在你面前的所有生产和营销人员,包括Adrian Pieron和Annette Anlauf。
一些练习是由同事原创的,或是受到其他资源的启发。几年后重建原始资源可能是一个挑战,但每个问题的记录(据我所知)都会出现在网站上。
通过与其他人的合作,我了解到了很多关于数据科学的知识。这些人包括我的博士生,特别是Rami al-Rfou、Mikhail Bautin、Haochen Chen、Yanqing Chen、Vivek Kulkarni、Levon Lloyd、Andrew Mehler、Bryan Perozzi、Yingtao Tian、Junting Ye、Wenbin Zhang和博士后Charles Ward。我深深地记得这些年来我所有的Lydia项目硕士生,并提醒大家:个将其女儿命名为Lydia的人将获大奖,这项奖励至今仍然无人认领。我要感谢我的其他合作者提供的故事,包括Bruce Futcher、Justin Gardin、Arnout van de Rijt和Oleksii Starov。
我记得General Sentiment/Canrock universe的所有成员,特别是Mark Fasciano,我和他分享了创业梦想,并体验了数据进入现实世界时的变化。我感谢在我2015~2016年公休假期间的雅虎实验室/研究部同事,正是在那段时间我构思了这本书的大部分内容。我特别感谢Amanda Stent,他让我在公司历史上特别困难的一年进入了雅虎。我从其他教过数据科学相关课程的人那里学到了宝贵的东西,包括Andrew Ng和Hans-Peter Pfister,并感谢他们的帮助。
如果你有一个带10个参数的程序,那么你很可能还遗漏了一些参数。
—Alan Perlis
警告
对于作者而言,无论存在什么不足,一般都要宽容地接受责备。但是我们并不认同这种观点。本书中的任何错误、不足或问题都可能是其他某个人的错,但我仍然很高兴知道哪些内容有问题,
导语摘要
本书由算法领域的知名专家Steven Skiena教授撰写,重点介绍了收集、分析和解释数据所需的技能和原理。作者由浅入深地介绍了数据科学的概念、所需的数学基础、数据的整理清洗方法、数据分析方法(统计分析、可视化、数学模型、线性逻辑回归、机器学习算法等)以及学习大数据分析的意义。作者结合应用领域的大量数据分析案例,以解释大数据分析所需技能与原理,帮助者快速理解和掌握大数据分析的理论与方法,也将这些技能的实际应用方式展现得淋漓尽致,具有很强的可操作性。
作者简介
史蒂文·S. 斯基纳(Steven S.Skiena)博士是石溪大学的杰出教授,研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献,他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书,包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Manual。
目录
译者序
前言
第1章 什么是数据科学1
1.1 计算机科学、数据科学和真正的科学1
1.2 从数据中提出有趣的问题3
1.2.1 棒球百科全书3
1.2.2 互联网电影数据库6
1.2.3 Google Ngrams7
1.2.4 纽约出租车记录9
1.3 数据的属性11
1.3.1 结构化与非结构化数据11
1.3.2 定量数据与类别数据11
1.3.3 大数据与小数据12
1.4 分类与回归12
1.5 关于数据科学的电视节目:The Quant Shop13
1.6 关于实战故事15
1.7 实战故事:回答正确的问题16
1.8 章节注释17
1.9 练习17
第2章 数学基础20
2.1 概率20
2.1.1 概率与统计21
2.1.2 复合事件与独立事件22
2.1.3 条件概率23
2.1.4 概率分布23
2.2 描述性统计25
2.2.1 中心性度量25
2.2.2 变异性度量26
2.2.3 解释方差27
2.2.4 描述分布29
2.3 相关性分析29
2.3.1 相关系数:皮尔逊和斯皮尔曼秩30
2.3.2 相关的强弱与显著性31
2.3.3 相关性并不意味着因果关系33
2.3.4 用自相关检测周期性34
2.4 对数35
2.4.1 对数与乘法概率35
2.4.2 对数和比率35
2.4.3 对数与正规化偏态分布36
2.5 实战故事:契合设计师基因37
2.6 章节注释39
2.7 练习39
第3章 数据整理42
3.1 数据科学语言42
3.1.1 notebook环境的重要性44
3.1.2 标准数据格式45
3.2 数据收集47
3.2.1 搜索47
3.2.2 爬取49
3.2.3 网络日志50
3.3 数据清洗50
3.3.1 错误与伪影51
3.3.2 数据兼容性52
3.3.3 处理缺失值56
3.3.4 离群值检测57
3.4 实战故事:打败市场58
3.5 众包59
3.5.1 一便士的实验59
3.5.2 什么时候有群体智慧60
3.5.3 聚合机制61
3.5.4 众包服务62
3.5.5 游戏化65
3.6 章节注释66
3.7 练习66
第4章 得分和排名69
4.1 体重指数70
4.2 开发评分系统72
4.2.1 黄金标准和代理72
4.2.2 排名与得分72
4.2.3 识别良好的评分函数74
4.3 Z得分和归一化75
4.4 高级排名技术76
4.4.1 Elo排名76
4.4.2 合并排名78
4.4.3 基于有向图的排名80
4.4.4 PageRank80
4.5 实战故事:Clyde的复仇81
4.6 阿罗不可能性定理83
4.7 实战故事:谁更大84
4.8 章节注释87
4.9 练习87
第5章 统计分析89
5.1 统计分布90
5.1.1 二项分布90
5.1.2 正态分布91
5.1.3 正态分布的含义93
5.1.4 泊松分布93
5.1.5 幂律分布95
5.2 从分布中采样97
5.3 统计显著性99
5.3.1 显著性的意义100
5.3.2 t检验:比较总体均值101
5.3.3 Kolmogorov-Smirnov检验102
5.3.4 Bonferroni校正104
5.3.5 错误发现率104
5.4 实战故事:发现青春之泉105
5.5 置换检验与p值106
5.5.1 产生随机排列108
5.5.2 迪马吉奥的连胜纪录109
5.6 贝叶斯定理110
5.7 章节注释111
5.8 练习111
第6章 数据可视化114
6.1 探索性数据分析115
6.1.1 面对新的数据集115
6.1.2 汇总统计量和Anscombe四重线117
6.1.3 可视化工具119
6.2 发展可视化美学119
6.2.1 化数据墨水比率120
6.2.2 小化谎言因子121
6.2.3 限度地减少图表垃圾122
6.2.4 恰当的缩放和标注123
6.2.5 有效使用颜色和阴影124
6.2.6 重复的力量125
6.3 图表类型125
6.3.1 表格数据127
6.3.2 点状图和折线图128
6.3.3 散点图131
6.3.4 条形图和饼图133
6.3.5 直方图135
6.3.6 数据地图137
6.4 出色的可视化139
6.4.1 Marey的火车时刻表139
6.4.2 斯诺的霍乱地图140
6.4.3 纽约气象年141
6.5 读图141
6.5.1 模糊分布141
6.5.2 过度解释方差142
6.6 交互式可视化143
6.7 实战故事:TextMap144
6.8 章节注释146
6.9 练习146
第7章 数学模型149
7.1 建模哲学149
7.1.1 奥卡姆剃刀原理149
7.1.2 权衡偏差与方差150
7.1.3 Nate Silver会怎么做150
7.2 模型分类152
7.2.1 线性模型与非线性模型152
7.2.2 黑盒与描述性模型152
7.2.3 原理与数据驱动模型153
7.2.4 随机模型与确定性模型154
7.2.5 平面模型与分层模型155
7.3 基准模型155
7.3.1 分类的基准模型155
7.3.2 价值预测的基准模型156
7.4 评估模型157
7.4.1 评估分类器158
7.4.2 受试者工作特征曲线161
7.4.3 评估多类系统162
7.4.4 评估价值预测模型164
7.5 评估环境165
7.5.1 数据卫生评估167
7.5.2 放大小型评估集167
7.6 实战故事:100%准确169
7.7 模拟模型170
7.8 实战故事:经过计算的赌注170
7.9 章节注释1
内容摘要
本书由算法领域的知名专家Steven Skiena教授撰写,重点介绍了收集、分析和解释数据所需的技能和原理。作者由浅入深地介绍了数据科学的概念、所需的数学基础、数据的整理清洗方法、数据分析方法(统计分析、可视化、数学模型、线性逻辑回归、机器学习算法等)以及学习大数据分析的意义。作者结合应用领域的大量数据分析案例,以解释大数据分析所需技能与原理,帮助者快速理解和掌握大数据分析的理论与方法,也将这些技能的实际应用方式展现得淋漓尽致,具有很强的可操作性。
主编推荐
史蒂文·S. 斯基纳(Steven S.Skiena)博士是石溪大学的杰出教授,研究方向是数据科学、自然语言处理和算法。由于对本科教学工作有杰出贡献,他曾获得IEEE计算机科学与工程本科教学奖。他还撰写了6本书,包括知名的The Algorithm Design Manual、Programming Challenges: The Programming Contest Training Manual。
— 没有更多了 —
以下为对购买帮助不大的评价