• 数据科学手册
21年品牌 40万+商家 超1.5亿件商品

数据科学手册

正版二手书,欢迎选购

21.35 2.2折 99 九品

仅1件

北京朝阳
认证卖家担保交易快速发货售后保障

作者[美]菲尔德·卡迪

出版社机械工业出版社

ISBN9787111619116

出版时间2019-04

装帧精装

开本16开

定价99元

货号1145262560921632781

上书时间2024-12-07

宏铭图书店

十三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
商品描述
前言

原书前言 

本书是为解决问题而编写的。在我面试的数据科学职位中的那些具有纯正数学背景的人中,大多数都无法编写一个计算斐波那契数的简单脚本(如果读者不熟悉斐波那契数,这只需要大约5行代码)。另一方面,雇主倾向于将数据科学家视为神秘的巫师或二手车销售人员,而当数据科学家被认为无法编写基本的脚本时,后一种印象就尤为深刻!这些问题反映了所有各方对数据科学是什么(或不是什么)以及从业者需要什么样的技能存在根本误解。 

当我初涉数据科学时,也存在同样的问题。多年的物理学科训练使我擅长以抽象理论来解决问题,而在其中缺乏常识或灵活性。幸运的是,我知道如何编码(得益于在Google公司的实习),这让我一瘸一拐地抓住了重要的实用技能和思维模式。 

离开学术界后,我为多种类型的公司做过数据科学咨询,包括针对小型初创企业进行的网络流量分析、财富100巨头的制造优化以及介于两者之间的方方面面。要解决的问题总是独一无二的,但解决这些问题所需的技能却出奇一致。它们是计算机编程、数学和商业思维的折衷组合。这些技能很少在一个人身上找到,但实际上可以被任何人学习而获得。 

一些面试经历在我脑海中浮现而出。有位候选人聪明且知识渊博,但这次面试痛苦而又清楚地表明他们对数据科学家的日常工作毫不知晓。当候选人开始为浪费您的时间而道歉时,作为面试官又能够做什么呢?我们最后开设了1h的速成课程,讲述了他们缺失的知识内容,以及他们如何填补他们的知识空白。他们在面试之后,学习了他们所需要的东西,现在已是成功的数据科学家。 

我写本书的目的是通过将数据科学的各种技能凝练成一本手册来帮助这样的求职者,其关注点还是实用性:对于需要速成或在紧迫的截止日期前解决问题的人来说本书是理想的选择。在教育系统还没有赶上这个令人兴奋的新领域的需求之前,希望本书能填补空白。 

Field Cady 
2016年9月 
华盛顿州雷德蒙德

 


 

译者序

 


 

大数据与人工智能当属近几年最热门的话题之一,其学术研究空前活跃,就业市场广阔,也是高薪行业。人工智能的崛起得益于大数据的涌现、计算能力的提升与算法的突破,特别是深度学习。大数据是人工智能的燃料与驱动力,而数据科学又是大数据的核心研究内容与实现方法学。目前全国已有 300余所高校设立了数据科学与大数据技术专业,足显其在学界及业界的热度。

 


 

数据科学是有关数据的科学或者研究数据的科学,可定义为探索网络空间各种数据奥秘的理论、方法和技术。与自然科学和社会科学有所不同,数据科学的研究对象是网络空间中的数据,是一门新型科学。数据科学主要有两个内涵:一个是对数据本身的研究,主要是数据的各种类型、状态、属性及其变化形式和规律;另一个是为自然科学和社会科学研究提供一种新的思维方式及方法,可称为科学研究的数据方法(或称第四泛型),这就需要建立许多科学假说和理论体系,并通过这些实验方法和理论体系来开展对数据空间的探索研究,其目的在于揭示自然界和人类行为本身的现象和存在的规律。

 


 

数据科学已有的方法和技术包括:数据获取、数据存储与管理、数据安全、数据分析、可视化等,此外它还需要有基础理论和新技术支持,如数据存在性、测度、时间、数据代数、相似性与聚类、数据分类、数据百科、数据伪装与识别、数据实验、数据感知等。针对各个研究领域可开发出专门的理论、技术和方法,从而形成专门领域的数据科学,例如行为数据科学、生命数据科学、脑神经数据科学、气象数据科学、金融数据科学、地理数据科学等。另外还有对数据资源本身的开发利用和技术研究。数据资源是重要的现代战略资源,其重要程度将越来越凸显,在 21世纪有可能超过石油、煤炭、矿产,成为最重要的人类资源之一。

 


 

本书包含3部分内容:第Ⅰ部分是必须掌握的基础素材(如数据科学路线图、编程语言、数据变换与数据清理、数据可视化与度量标准、机器学习等);第Ⅱ部分是仍需要知道的事情(如数据聚类和降维、回归、数据编码与文件格式、大数据、数据库、软件工程最佳实践、自然语言处理、时间序列分析等);第Ⅲ部分是专业或高级主题(如计算机内存和数据结构、最大似然估计和最优化、高级分类器、随机建模等)。

 


 

本书的翻译出版得益于机械工业出版社顾谦老师的推荐与鼓励,在此特致谢意。我的研究生们在全书的初稿翻译、图表编辑等诸多方面给予了帮助,在此一并致谢。本书主要由程国建、强新建、赵川源、白俊卿翻译,参与翻译的还有宋博敬、岳清清、张晗、魏珺洁。

 


 

由于译者水平有限、加之数据科学新兴概念繁多,难免误译或词不达意,敬请读者赐教与原谅。

 


 

程国建 

 

2018年12月



目录

译者序

 

原书前言

 

第1章 引言:成为独角兽 1 

 


 

第Ⅰ部分 必须掌握的基础素材

 

第2章 数据科学路线图 6 

 

第3章 编程语言 13 

 

第4章 数据预处理:字符串操作、正则表达式和数据清理 36 

 

第5章 可视化与简单度量 48 

 

第6章 机器学习概要 70 

 

第7章 插曲:特征提取思路 74 

 

第8章 机器学习分类 77 

 

第9章 技术交流与文档化 96 

 


 

第Ⅱ部分 仍需要知道的事情

 

第10章 无监督学习:聚类与降维 108 

 

10.1 维数灾难 108 

 

10.2 实例:“特征脸”降维 110 

 

10.3 主成分分析与因子分析 112 

 

10.4 Skree图与维度的理解 113 

 

10.5 因子分析 114 

 

10.6 PCA的局限性 114 

 

10.7 聚类 115 

 

10.7.1 聚类簇的实际评估 115 

 

10.7.2 k均值聚类 116 

 

10.7.3 高斯混合模型 117 

 

10.7.4 合成聚类 118 

 

10.7.5 聚类质量评价 118 

 

10.7.6 轮廓分数 118 

 

10.7.7 兰德指数与调整兰德指数 120 

 

10.7.8 互信息 120 

 

10.8 延伸阅读 121 

 

10.9 术语 121

 

第11章 回归 122 

 

11.1 实例:预测糖尿病进展 122 

 

11.2 最小二乘法 125 

 

11.3 非线性曲线拟合 126 

 

11.4 拟合度:R2和相关度 127 

 

11.5 残差相关性 128 

 

11.6 线性回归 128 

 

11.7 LASSO回归与特征选择 130 

 

11.8 延伸阅读 131 

 

11.9 术语 131

 

第12章 数据编码与文件格式 132 

 

12.1 典型的文件格式类别 132 

 

12.1.1 文本文件 132 

 

12.1.2 密集数组 133 

 

12.1.3 程序相关的数据格式 133 

 

12.1.4 数据压缩和数据存档 133 

 

12.2 CSV文件 133 

 

12.3 JSON文件 134 

 

12.4 XML文件 136 

 

12.5 HTML文件 138 

 

12.6 Tar文件 139 

 

12.7 GZip文件 140 

 

12.8 Zip文件 140 

 

12.9 图像文件:栅格化、矢量化及压缩 141 

 

12.10 归根到底都是字节 142 

 

12.11 整型数 142 

 

12.12 浮点数 143 

 

12.13 文本数据 144 

 

12.14 延伸阅读 146 

 

12.15  术语 146

 

第13章 大数据 147 

 

13.1 什么是大数据 147 

 

13.2 Hadoop:文件系统与处理器 148 

 

13.3 使用HDFS 149 

 

13.4 PySpark脚本实例 150 

 

13.5 Spark概述 151 

 

13.6 Spark操作 152 

 

13.7 运行PySpark的两种方式 154 

 

13.8 Spark配置 154 

 

13.9 底层的细节 155 

 

13.10 Spark提示与技巧 156 

 

13.11  MapReduce范例 157 

 

13.12 性能考量 158 

 

13.13 延伸阅读 159 

 

13.14 术语 160

 

第14章 数据库 161 

 

14.1 关系数据库及MySQL 162 

 

14.1.1 基本查询和分组 162 

 

14.1.2 连接 164 

 

14.1.3 嵌套查询 165 

 

14.1.4 运行MySQL并管理数据库 166 

 

14.2 键-值存储 167 

 

14.3 宽列存储 167 

 

14.4 文档存储 168 

 

14.4.1 MongoDB 168 

 

14.5 延伸阅读 170 

 

14.6 术语 170

 

第15章 软件工程最佳实践 172 

 

15.1 编码风格 172 

 

15.2 数据科学家的版本控制和Git 174 

 

15.3 代码测试 176 

 

15.3.1 单元测试 176 

 

15.3.2 集成测试 178 

 

15.4 测试驱动的开发 178 

 

15.5 敏捷方法 179 

 

15.6 延伸阅读 179 

 

15.7 术语 179

 

第16章 自然语言处理 181 

 

16.1 是否真正需要NLP 181 

 

16.2 两种流派的对垒:语言学与统计学 181 

 

16.3 实例:股市文章的论点分析 182 

 

16.4 软件和数据库 184 

 

16.5 词语切分 184 

 

16.6 核心概念:词袋 184 

 

16.7 单词加权:TF-IDF 185 

 

16.8 n-gram 186 

 

16.9 停用词 186 

 

16.10 词形还原与词干提取 187 

 

16.11 同义词 187 

 

16.12 词性标注 188 

 

16.13 常见问题 188 

 

16.13.1 搜索 188 

 

16.13.2 情感分析 189 

 

16.13.3 实体识别与主题建模 189 

 

16.14 高级NLP:语法树、知识以及理解 190 

 

16.15 延伸阅读 191 

 

16.16 术语 191 

 


 

第17章 时间序列分析 192 

 

17.1 实例:预测维基百科页面的访问量 192 

 

17.2 典型的工作流 196 

 

17.3 时间序列与时间戳事件 196 

 

17.4 插值的重采样 196 

 

17.5 信号平滑 199 

 

17.6 对数变换及其他变换 199 

 

17.7 趋势和周期性 199 

 

17.8 窗口化 200 

 

17.9 简单特征的头脑风暴 201 

 

17.10 更好的特征:向量形式的时间序列 201 

 

17.11 傅里叶分析:有时候非常有效 202 

 

17.12 上下文中的时间序列:全套特征 204 

 

17.13 延伸阅读 205 

 

17.14 术语 205

 

第18章 概率 206 

 

18.1 抛硬币:伯努利随机变量 206 

 

18.2 掷飞镖:均匀随机变量 207 

 

18.3 均匀分布和伪随机数 208 

 

18.4 非离散型、非连续型随机变量 209 

 

18.5 记号、期望和标准偏差 210 

 

18.6 独立概率、边际概率和条件概率 211 

 

18.7  重尾的理解 212 

 

18.8 二项分布 214 

 

18.9 泊松分布 214 

 

18.10 正态分布 215 

 

18.11 多元高斯分布 216 

 

18.12 指数分布 217 

 

18.13 对数正态分布 218 

 

18.14 熵 218 

 

18.15 延伸阅读 220 

 

18.16 术语 220 

 


 

第19章 统计学 222 

 

19.1 统计学透视 222 

 

19.2 贝叶斯与频率论:使用上的权衡及不同学派 223 

 

19.3 假设检验:关键思想和范例 223 

 

19.4 多重假设检验 225 

 

19.5 参数估计 226 

 

19.6 假设检验:t检验 227 

 

19.7 置信区间 229 

 

19.8 贝叶斯统计学 230 

 

19.9 朴素贝叶斯统计学 231 

 

19.10 贝叶斯网络 232 

 

19.11 先验概率选择:最大熵或领域知识 232 

 

19.12 延伸阅读 233 

 

19.13 术语 233

 

第20章 编程语言概念 235 

 

20.1 编程范式 235 

 

20.1.1 命令式 235 

 

20.1.2 函数式 236 

 

20.1.3 面向对象 239 

 

20.2 编译与解释 242 

 

20.3 类型系统 244 

 

20.3.1 静态类型与动态类型 244 

 

20.3.2 强类型与弱类型 244 

 

20.4 延伸阅读 245 

 

20.5 术语 245

 

第21章 性能和计算机内存 247 

 

21.1 示例脚本 247 

 

21.2 算法性能与Big-O符号 249 

 

21.3 一些经典问题:排序列表与二分查找 250 

 

21.4 摊销性能与平均性能 253 

 

21.5 两个原则:减小开销和管理内存 255 

 

21.6 性能技巧:在适用的情况下使用数字化库 256 

 

21.7 性能技巧:删除不需要的大型结构 257 

 

21.8 性能技巧:尽可能使用内置函数 257 

 

21.9 性能技巧:避免不必要的函数调用 258 

 

21.10 性能技巧:避免创建大型新对象 258 

 

21.11 延伸阅读 259 

 

21.12 术语 259

 


 

第Ⅲ部分 专业或高级主题

 

第22章 计算机内存和数据结构 262 

 

22.1 虚拟内存、堆栈和堆结构 262 

 

22.2 C程序实例 262 

 

22.3 内存数据类型和数组 263 

 

22.4 结构 264 

 

22.5 指针、堆栈和堆 265 

 

22.6 关键数据结构 269 

 

22.6.1 字符串 269 

 

22.6.2 可调数组 269 

 

22.6.3 哈希表 271 

 

22.6.4 链表 272 

 

22.6.5 二叉搜索树 273 

 

22.7 延伸阅读 274 

 

22.8 术语 274

 

第23章 最大似然估计和最优化 276 

 

23.1 最大似然估计 276 

 

23.2 一个简单实例:直线拟合 277 

 

23.3 另一个例子:逻辑回归 278 

 

23.4 最优化 279 

 

23.5 梯度下降和凸优化 280 

 

23.6 凸优化 283 

 

23.7 随机梯度下降 284 

 

23.8 延伸阅读 284 

 

23.9 术语 284 

 

第24章 高级分类器 286 

 

24.1 函数库注解 286 

 

24.2 基础深度学习 287 

 

24.3 卷积神经网络 289 

 

24.4 不同类型的层以及张量到底是什么 290 

 

24.5 实例:MNIST手写数据集 291 

 

24.6 递归神经网络 293 

 

24.7 贝叶斯网络 294 

 

24.8 训练和预测 295 

 

24.9 马尔可夫链蒙特卡洛理论 296 

 

24.10 PyMC实例 297 

 

24.11 延伸阅读 299 

 

24.12 术语 299

 

第25章 随机建模 300 

 

25.1 马尔可夫链 300 

 

25.2 两类马尔可夫链、两类问题 302 

 

25.3 马尔可夫链蒙特卡洛 303 

 

25.4 隐马尔可夫模型和Viterbi算法 304 

 

25.5 维特比算法 305 

 

25.6 随机游走 307 

 

25.7 布朗运动 308 

 

25.8 ARIMA模型 308 

 

25.9 连续时间马尔可夫过程 309 

 

25.10 泊松过程 310 

 

25.11 延伸阅读 310 

 

25.12 术语 311

 


 

告别语: 数据科学家的未来 312



内容摘要

《数据科学手册》对数据科学进行了整体性介绍,涵盖了掌握该学科所需的分析、编程和业务技能等方方面面。找到一个的数据科学家就像是寻找一只独角兽:因为其所需要的技术及技能组合很难在一个人身上兼备。另外,良好的数据科学素养不仅仅是对所训练技能的综合应用,还需要能够灵活考虑所有这些领域,并理解它们之间的联系。《数据科学手册》提供了数据科学的速成课程,将所有必要的技能结合到一个统一的学科体系中。与许多数据分析的书籍不同,《数据科学手册》涵盖了关键的计算机科学和软件工程相关内容,因为它们在数据科学家的日常工作中发挥了极其重要的作用。《数据科学手册》还介绍了经典的机器学习算法,从这些算法的数学基础到实际应用均有描述。《数据科学手册》对可视强调其在数据科学中的核心位置。引入古典统计学的目的是帮助读者用批判性思维对数据进行解释,并指出常见的陷阱。对分析结果的清化工具进行了综述,并晰交流(这也许是数据科学技术中*为薄弱的一个环节)有专门的章节进行讲解,本书对所有涉及的主题均是在解决实际问题的背景下加以解释。



主编推荐

人工智能的崛起得益于大数据的涌现、计算能力的提升与算法的突破,特别是深度学习。大数据是人工智能的燃料与驱动力,而数据科学又是大数据的核心研究内容与实现方法学。

 

《数据科学手册》包含3部分内容:第Ⅰ部分是必须掌握的基础素材(如数据科学路线图、编程语言、数据变换与数据清理、数据可视化与度量标准、机器学习等);第Ⅱ部分是仍需要知道的事情(如数据聚类和降维、回归、数据编码与文件格式、大数据、数据库、软件工程*佳实践、自然语言处理、时间序列分析等);第Ⅲ部分是专业或高级主题(如计算机内存和数据结构、*大似然估计和*优化、高级分类器、随机建模等)。

 




精彩内容
原书前言本书是为解决问题而编写的。在我面试的数据科学职位中的那些具有纯正数学背景的人中,大多数都无法编写一个计算斐波那契数的简单脚本(如果读者不熟悉斐波那契数,这只需要大约5行代码)。另一方面,雇主倾向于将数据科学家视为神秘的巫师或二手车销售人员,而当数据科学家被认为无法编写基本的脚本时,后一种印象就尤为深刻!这些问题反映了所有各方对数据科学是什么(或不是什么)以及从业者需要什么样的技能存在根本误解。当我初涉数据科学时,也存在同样的问题。多年的物理学科训练使我擅长以抽象理论来解决问题,而在其中缺乏常识或灵活性。幸运的是,我知道如何编码(得益于在Google公司的实习),这让我一瘸一拐地抓住了重要的实用技能和思维模式。离开学术界后,我为多种类型的公司做过数据科学咨询,包括针对小型初创企业进行的网络流量分析、财富100巨头的制造优化以及介于两者之间的方方面面。要解决的问题总是独一无二的,但解决这些问题所需的技能却出奇一致。它们是计算机编程、数学和商业思维的折衷组合。这些技能很少在一个人身上找到,但实际上可以被任何人学习而获得。一些面试经历在我脑海中浮现而出。有位候选人聪明且知识渊博,但这次面试痛苦而又清楚地表明他们对数据科学家的日常工作毫不知晓。当候选人开始为浪费您的时间而道歉时,作为面试官又能够做什么呢?我们最后开设了1h的速成课程,讲述了他们缺失的知识内容,以及他们如何填补他们的知识空白。他们在面试之后,学习了他们所需要的东西,现在已是成功的数据科学家。我写本书的目的是通过将数据科学的各种技能凝练成一本手册来帮助这样的求职者,其关注点还是实用性:对于需要速成

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP