全新正版书籍,24小时发货,可开发票。
¥ 18.8 4.8折 ¥ 39 全新
库存2件
作者道恩·E.霍尔姆斯 著,李德俊、洪艳青 译
出版社译林出版社
ISBN9787544783439
出版时间2020-08
装帧平装
开本16开
定价39元
货号29135876
上书时间2024-11-24
序 言
王崇骏
四方上下曰宇,往来古今曰宙!
从137亿年前宇宙大爆炸,到46亿年前地球诞生,再到38亿年前地球上开始有生命,直至约6000年前文字的出现开启了人类文明,这是一个多么漫长的过程!与其他物种大多通过遗传进化不同,人类在进化过程中发展和演化出了一种非遗传性的继承:通过独一无二且日益发达的文化媒介(语言、文字以及有意识地利用外在物和工具的特质)将知识留给后代。这种文化传承使得人类可以快速进化,并终成为这个星球的“统治者”。
在漫长的人类文明发展史中,从源自动物性的“数觉”到为了“征服”自然界,人类开始对“数”产生了需求,并且随着这种需求的逐步膨胀,一系列的工具、算法、设备被不断发明和创造,比如早期的计时工具、计数工具,以及诸如算筹、算盘等算术工具。随着计算理论的丰富,以及机械工艺的进步,人们开始思考如何用更为精巧的设备进行计算,如纳皮尔筹、机械尺、机械计算机等;而图灵机理论的发明、冯诺伊曼体系结构的提出,以及1946年ENIAC的发明,则让数字计算时代就此来临。
在后ENIAC时代,计算机从开始的军用走向了民用,其功能不断发展和丰富,从开始的数值计算走向网络通信、计算感知,并逐渐应用于生活娱乐和企业管理。与此同时,也因为计算机在各个领域的渗透和深入应用,计算机从原始的计算工具变为一个研究对象,伴随着各类计算理论的发展,计算机科学与技术、工程和应用也得到持续的发展和推进。在这个发展过程中,传统的“数”的内涵,也从开始的“数值”不断拓展,数据开始以不同的类型、模态、视图样式出现,并服务于人们的需求,传统意义的“数值”则成为一种数据类型。
信息技术,尤其是互联网技术的迅猛发展,烟囱式软件开发模式、云计算在不同领域的不断渗透,以及人们日益多样化和碎片化的行为方式,或许还有其他更多的原因,让人们在数据层面不得不面对“大数据”这样的难题,即难以在期望的时间内利用常规工具进行有效处理并获得期望的价值。在当下的大数据时代,传统意义的“数据”成为一种可以交易的“资产”,一种具有战略资源意义的“石油”,一种提高竞争力的“资本”,一种用于科学研究的“第四范式”。出于对大数据价值期望的共同追求,社会各界都对大数据产生了极大的兴趣、热情和期盼,使得“大数据”这个概念从其诞生之日起,就得到了“政、产、学、研、商、用”的一致认同,并引起了包括哲学家、科学家、技术研究者和工程研发人员等的普遍关注。
牛津通识读本《大数据》一书,当然也是对这一社会关注点的回应。道恩·E.霍尔姆斯教授是贝叶斯网络、机器学习和数据挖掘方面的专家,她用深入浅出的文字扼要介绍了什么是数据、什么是大数据以及它有什么意义,进而对大数据应用所涉及的存储和分析技术进行了简明扼要的综述,并在此基础上,分析和研判了大数据在医学、电子商务、安全、生活等各个领域的应用。这样一本概述性质的通俗读物,非常有助于普通读者更多地了解大数据,学习大数据,应用大数据,进而培养一种大数据思维,惟其如此,才能适应未来的大数据时代。
对于本书所涉及的内容,笔者还想做一些补充说明,即看待大数据的三个视角和四个维度,以使读者对于大数据的认识更加全面。首先谈谈三个视角。
一是计算视角:从计算视角来看,大数据是一个难以获取、难以组织与管理、难以处理和分析的技术难题(以及因此而引发的各类思维层难题),也正是因为这样的难题驱动,加之人们对大数据在优政、兴业、科研、惠民等不同领域的价值期望,促使相关科研人员进行技术攻关和发明创造,进而推进了相关理论和技术的发展。
二是科研视角:从科学研究的角度来看,大数据成为继实验、理论、模拟之后用于科学研究的“第四范式”(此处的“范式”指的是从事某一科学的科学家群体所共同遵从的世界观和行为方式)。
三是商业视角:从商业应用的角度来看,大数据能够带来利润。一般而言,只要找到一个合适的应用场景,能够为这个应用场景找到一个合适的解决方案,知道数据的来源并且能够获取,而且有技术支撑(研发能力),更重要的是能够找到融资支持(经过可行性分析、盈亏平衡分析等之后),就有可能终成功应用并获得收益。这在彰显大数据商业价值的同时,也会促使同行去挖掘更多的大数据价值。
更进一步说,大数据的价值实现,涉及数据、技术与应用的协同,具有典型的多学科交叉与跨界整合特征,因此就总体而言,大数据价值的实现至少涉及如下四个维度(层面)。
1.算法(Algorithm):大数据价值的实现路径涵盖了数据采集与汇聚、数据存储与管理、数据处理与分析、应用系统开发与运维,每一个环节都需要依赖不同的算法进行,如数据采集算法、数据汇聚算法、数据治理算法、数据处理和分析算法等。
2.商业应用(Business):大数据应用一般体现在描述性分析、预测性分析或者决策性分析等,任何一种应用都是围绕某个具体场景展开的,因此大数据价值得以实现的一个重要前提,是找到一个合适的应用场景,该应用场景既直击需求痛点并有投资回报预期,又有数据积淀和IT建设基础。大数据在这个场景的应用,能够进一步内生和富集更多数据并因而形成数据闭环,就能进一步体现和实现大数据价值。
3.算力(Computing Power):所谓算力,指的是设备的计算能力,显然,对于大数据应用而言,更精准(复杂)的算法以及更高效的计算需求都需要强大的算力支撑,因此算力是大数据价值实现的基本保障。
4.数据(Data):数据是大数据价值实现的基础,因此必须首先解决诸如数据在哪以及如何从不同的数据源获取数据,并进行有效的富集、汇聚和深入加工等问题,从而为应用提供数据支撑或高级语义支撑。
2017年,中国政府发布了“新一代人工智能规划”,明确提出了大数据智能这一概念,其内涵在于形成从数据到知识、从知识到智能的能力,打穿数据孤岛,形成链接多领域的知识中心,支撑新技术和新业态的跨界融合与创新服务。显然,大数据智能进一步明确了,在上述四个维度共同发力的基础上实现大数据价值的基本路径。
此外,笔者还想提请读者注意的是,数据的本质是行为主体(例如人)在进行各类活动(生活、工作、娱乐)时的行为、偏好等痕迹被业务系统(或互联网、物联网等)地记录在各个服务器里。因此,数据本身暗含着行为主体的隐私,所以围绕大数据价值的实现,数据隐私与安全保护是一个不可回避的重要内容。这一点在《大数据》一书中也有专章介绍。2018年5月25日,欧盟《通用数据保护条例》(简称GDPR)正式实施,在全球范围内掀起了数据保护改革的浪潮。在数据全球化深入发展的当下,如何在后GDPR时代建立起一套数据保护法律体系,既符合国际立法实践又符合本国国情,既能为个人权益、数字经济、国家安全等系列利益保驾护航,又能在国际数据规则制定中占有话语权,也成为各国政策制定者普遍关注的领域。
通读《大数据》一书,萦绕于笔者心中的问题是:大数据会让我们的生活变得更好吗?如何才能让我们的生活变得更好呢?在阅读本书的过程中,笔者能够感觉到作者在成文时力求做到“在不牺牲准确性的前提下,尽可能写得简单”,同时又能做到周全和清晰。因此,本书尤其适合对大数据有兴趣的初学者,其真正的意义在于:为你打开了一扇门,并言明了很多方向。
于南京九乡河
2020年7月12日
在全世界不同的文化中,数据的收集与组织都有着悠久的历史,甚至在计算机思想出现之前很久就已存在。但只是到了互联网时代,日常产生的数据量才开始变得非常巨大,而且继续呈指数级增长,其中包括我们上传的文件、视频、照片、社交媒体信息、在线购物,甚至我们汽车的GPS导航数据。大数据这一术语所代表的不仅仅是一种量变,而是一种质变;其所指涉的不仅是新的技术,还有企业和政府利用它的方式。霍尔姆斯基于统计学、概率论和计算机科学,对大数据这一主题进行了概要性探讨,并强调指出,大数据不仅改变了商业的运营模式,而且改变了医疗研究的进行方式。与此同时,它也引起了一些重要的伦理问题,作者据此对斯诺登事件、数据安全,以及家庭智能设备可能被黑客挟持等实例进行了讨论。
道恩·E.霍尔姆斯,现任教于美国加利福尼亚大学圣巴巴拉分校应用概率与统计学系,主要研究领域为贝叶斯网络、机器学习和数据挖掘等。霍尔姆斯是电气电子工程师学会高级会员、《基于知识的智能信息系统国际期刊》副主编,并与他人合编了三卷本著作《数据挖掘:基础和智能范例》(2014)。
前 言
致 谢
章 数据爆炸
第二章 大数据为什么不一般?
第三章 大数据存储
第四章 大数据分析法
第五章 大数据与医学
第六章 大数据,大商务
第七章 大数据安全与斯诺登事件
第八章 大数据与社会
字节大小量表
小写英文字母ASCII码表
索 引
英文原文
在全世界不同的文化中,数据的收集与组织都有着悠久的历史,甚至在计算机思想出现之前很久就已存在。但只是到了互联网时代,日常产生的数据量才开始变得非常巨大,而且继续呈指数级增长,其中包括我们上传的文件、视频、照片、社交媒体信息、在线购物,甚至我们汽车的GPS导航数据。大数据这一术语所代表的不仅仅是一种量变,而是一种质变;其所指涉的不仅是新的技术,还有企业和政府利用它的方式。霍尔姆斯基于统计学、概率论和计算机科学,对大数据这一主题进行了概要性探讨,并强调指出,大数据不仅改变了商业的运营模式,而且改变了医疗研究的进行方式。与此同时,它也引起了一些重要的伦理问题,作者据此对斯诺登事件、数据安全,以及家庭智能设备可能被黑客挟持等实例进行了讨论。
道恩·E.霍尔姆斯,现任教于美国加利福尼亚大学圣巴巴拉分校应用概率与统计学系,主要研究领域为贝叶斯网络、机器学习和数据挖掘等。霍尔姆斯是电气电子工程师学会高级会员、《基于知识的智能信息系统国际期刊》副主编,并与他人合编了三卷本著作《数据挖掘:基础和智能范例》(2014)。
章 数据爆炸
什么是数据?
公元前431年,斯巴达向雅典宣战。修昔底德在对战争的描述中,记载了被围困于城中的忠于雅典的普拉蒂亚部队,如何翻越由斯巴达领导的伯罗奔尼撒军队所建的围墙而终得以逃脱的过程。要做到这一点,他们需要知道城墙的高度,以便制造高度合适的梯子。伯罗奔尼撒军队所建城墙的大部分都覆盖着粗糙的灰泥卵石,但他们终还是找到了一处砖块清晰可见的区域。接下来,大量的士兵被赋予了一项任务,就是每个人分别去计数这些裸露砖块的层数。要在远离敌人攻击的距离之外完成判断,误差难以避免。但正如修昔底德所解释的那样,考虑到计数的是众多的个体,常出现的那个数应该是可靠的。这个常出现的数,我们今天称之为众数,普拉蒂亚人正是使用它来计量围墙的高度。由于使用的墙砖的大小是已知的,因此适合翻越城墙所需高度的梯子也顺理成章地打造了出来。随后,数百的军人得以成功逃脱。此事可以被视为数据收集和分析为生动的范例,也因而载入史册。但是,正如我们在本书的后续章节中将要看到的,数据的收集、存储和分析甚至比修昔底德的时代还要早几个世纪。
早在旧石器时代晚期的棍棒、石头和骨头上,人们就发现了凹口。这些凹口被认为是计数标记,尽管学术界对此仍然存有争议。也许著名的例子是,1950年在刚果民主共和国发现的伊山戈骨,它距今大约有两万年之久。这个有着凹口的骨头被解读为具有特殊的功用,比如用作计算器或日历,当然也有人认为,骨头上的凹口只是为了方便手握。20世纪70年代在斯威士兰发现的列朋波骨甚至更为久远,时间大概可以追溯到公元前35000年左右。这块刻有29个线条的狒狒腓骨,与今天远在纳米比亚丛林中生活的土著仍然使用的日历棒,有着惊人的相似之处。这表明它确有可能是一种用来记录数据的方式,对于他们的文明来说,这些数据至关重要。
虽然对这些凹口骨骼的解释仍然没有定论,但我们清楚地知道,人类早期有充分记录的数据使用之一,是巴比伦人在公元前3800年进行的人口普查。该人口普查系统记录了人口数量和商品,比如牛奶和蜂蜜,以便提供计算税收所需的信息。早期的埃及人也擅长使用数据,他们用象形文字把数据写在木头或莎草纸上,用来记录货物的运送情况并追踪税收。但早期的数据使用示例,绝不仅限于欧洲和非洲。印加人和他们的南美洲前辈热衷于记录税收和商业用途的数据,他们使用一种被称为“奇普”的精巧而复杂的打彩色绳结的方法,作为十进制的记账系统。这些由染成明亮色彩的棉花或骆驼毛制成的打结绳,可以追溯到公元前3000年。虽然只有不到1 000个打结绳在西班牙人入侵和后续的各种毁灭性灾难中得以幸存,但它们是已知的批大规模数据存储系统的典范。现在有人正在开发计算机算法,试图解码“奇普”的全部含义,加深我们对其使用原理的理解。
虽然我们可以将这些早期的计数方法设想并描述为使用数据,但英文词data(数据)实际上是源于拉丁语的复数词,其单数形式为datum。今天,datum已经很少使用,“数据”的单数和复数都用data表示。《牛津英语词典》将该术语的个使用者,归于17世纪的英国神职人员亨利 · 哈蒙德。他在1648年出版的一本有争议的宗教小册子中使用了“数据”这个词。在此书中,哈蒙德在神学意义上使用了“数据堆”这一短语,来指称无可争辩的宗教真理。但是,尽管该出版物在英语中首次使用了“数据”这一术语,但它与现在表示“一个有意义的事实和数值总体”并不是同一个概念。我们现在所理解的“数据”,源于18世纪由普里斯特利、牛顿和拉瓦锡等知识巨人引领的科学革命。到1809年,在早期数学家的研究基础上,高斯和拉普拉斯为现代统计方法奠定了坚实的数学基础。
在更实际的层面上,当属1854年伦敦宽街暴发霍乱疫情时,针对该疫情收集的大量数据,它使得约翰 · 斯诺医生得以绘制了疫情图。数据和疫情图证明他先前的假设是正确的,即霍乱通过污染的水源传播,而不是一直以来被广为认同的空气传播。通过收集当地居民的数据,他确定患病的人都使用了相同的公共水泵。接下来,他说服地方当局关闭了该饮水源。关闭饮水源并不难,他们拆下了水泵的手柄,任务也就完成了。斯诺随后制作了一张疫情图,该图现在很出名,它清楚显示患病者以宽街的饮水泵为中心,成集群状态分布。斯诺继续在该领域潜心钻研,收集和分析数据,并成为著名的流行病学家。
约翰·斯诺之后,流行病学家和社会学家进一步发现,人口统计数据对于研究弥足珍贵。如今,在许多国家进行的人口普查,就是非常有价值的信息来源。例如,出生率和死亡率的数据,各种疾病的发生频率,以及收入和犯罪相关联的统计数据,现在都会有所收集,而在19世纪之前这些都是空白。人口普查在大多数国家每十年进行一次。由于收集到的数据越来越多,终导致手工记录或以前使用的简单计数器,已经难以应对实际的海量数据登录。在为美国人口普查局工作期间,赫尔曼·何乐礼就遇到了如何应对这些不断增长的人口普查数据的挑战。
到1870年美国开展人口普查时,所依靠的是一种简单的计数器,但这种机器效率有限,已无法满足人口普查局的要求。1890年的人口普查有了突破,这完全得益于赫尔曼·何乐礼发明的用于存储和处理数据的打孔卡制表机。通常情况下,处理美国人口普查数据需要八年左右的时间,但使用这项新发明后,时间缩短到了一年。何乐礼的机器彻底改变了世界各国人口普查数据的分析处理,其中包括德国、俄罗斯、挪威和古巴。
何乐礼随后将他的机器卖给了一家后来称为国际商用机器(IBM)的公司,该公司开发并生产了一系列广泛使用的打孔卡机。1969年,美国国家标准协会制定了以何乐礼命名的打孔卡代码(或称何乐礼卡代码)标准,以对打孔卡机的先驱何乐礼表示敬意。
数字时代的数据
在计算机广泛使用之前,人口普查、科学实验或精心设计的抽样调查和调查问卷的数据都记录在纸上—这个过程费时且昂贵。数据收集只有在研究人员确定他们想要对实验或调查对象询问哪些问题后才能进行,收集到的这些高度结构化的数据按照有序的行和列转录到纸张上,然后通过传统的统计分析方法进行检验。到20世纪上半叶,有些数据开始被存储到计算机里,这有助于缓解部分劳动密集型工作的压力。但直到1989年万维网(或网络)的推出及其快速发展,以电子方式生成、收集、存储和分析数据才变得越来越可行。面对网络上可访问的海量数据,问题也接踵而来,它们需要及时得到处理。首先,让我们看看数据的不同类型。
我们从网络上获得的数据可以分为结构化数据、非结构化数据或半结构化数据。
手工编写并保存在笔记本或文件柜中的结构化数据,现在以电子的形式存储在电子表格或数据库中。电子表格样式的数据表由行和列组成,行记录的是数据,列对应的是字段(比如名称、地址和年龄)。当我们在线订购商品时,我们实际上也正在贡献结构化数据。精心构建和制表的数据相对容易管理,并且易于进行统计分析,实际上直到近,统计分析方法也只能应用于结构化数据。
相比之下,像照片、视频、推文和文档这些非结构化数据就不太容易归类。一旦万维网的使用变得普遍,我们就会发现,很多这样的潜在信息仍然无法访问,因为它们缺乏现有分析技术所需的结构。但是,如果通过识别关键性特征,那么初看起来为非结构化的数据也可能不是完全没有结构。例如,电子邮件虽然正文的数据是非结构化的,但标题中包含了结构化元数据,因此它可以归类为半结构化数据。元数据标签本质上是描述性引用,可用于向非结构化数据添加可识别的结构化信息。给网站上的图像添加单词标签,它就可以被识别并且更易于搜索。在社交网站上也可以找到半结构化数据,这些网站使用主题标签,以便识别特定主题的消息(非结构化数据)。处理非结构化数据具有挑战性:由于无法将其存储在传统数据库或电子表格中,因此必须开发特殊工具来提取有用信息。在后面的章节中,我们会谈到非结构化数据的存储方式。
本章的题名“数据爆炸”一词,指的是逐渐产生的越来越多的结构化、非结构化和半结构化数据。接下来,我们将梳理产生这些数据的各种不同来源。
大数据简介
在本书的写作过程中,我在网上检索相关资料,体验了被网上可用的数据所淹没的感觉—来自网站、科学期刊和电子教科书的数据可谓海量。根据IBM公司近进行的一项全球范围内的调查,每天产生的数据大约为2.5 Eb。一个Eb是1018(1 后面跟18 个0)字节(或100 万Tb;请参阅本书结尾的“字节大小量表”)。在写作本书时,一台高配的笔记本电脑的硬盘通常会有1 Tb 或2 Tb的存储容量。初,“大数据”一词仅指数字时代产生的大量数据。这些海量数据(结构化和非结构化数据)包括电子邮件、普通网站和社交网站生成的所有网络数据。
世界上大约80%的数据是以文本、照片和图像等非结构化数据的形式存在,因此不适合传统的结构化数据分析方法。“大数据”现在不仅用于指代以电子方式生成和存储的数据总体,还用于指数据量大和复杂度高的特定数据集。为了从这些数据集中提取有用的信息,需要新的算法技术。这些大数据集来源差异很大,因此有必要让我们先详细了解一下主要的数据源以及它们生成的数据。
搜索引擎数据
到2015年,谷歌是全球受欢迎的搜索引擎,微软的必应和雅虎搜索分居第二位和第三位。从谷歌可以查阅的近一年数据来看,也就是2012年的公开数据,仅谷歌每天就有超过35亿次搜索。
在搜索引擎中输入关键词能生成与之为相关的网站列表,同时也会收集到大量数据。网站跟踪继续生成大量数据。作为试验,我用“边境牧羊犬”为关键词进行了检索,并点击返回的顶层网站。通过一些基本的追踪软件,我发现仅通过点击这一个网站就可以生成大约67个第三方站点的链接。商业企业之间通过此类方式共享信息,以达到收集网站访问者兴趣爱好的目的。
每次我们使用搜索引擎时,都会创建日志,它记录我们访问过的推荐网站。这些日志包含诸多有用信息,比如查询的术语、所用设备的IP地址、提交查询的时间、我们在各个网站停留的时长,以及我们访问它们的顺序—所有这些都以匿名的方式进行。此外,点击流日志记录了我们访问网站时所选择的路径,以及我们在网站内的具体导航。当我们在网上冲浪时,我们所做的每次点击都记录在某个地方以备将来使用。企业可以使用获取的软件来收集他们自家网站生成的点击流数据,这也是一种有价值的营销工具。通过提供有关系统使用情况的数据,日志有助于侦测身份盗用等恶意行为。日志还可用于评估在线广告的有效性,通过计算网站访问者点击广告的次数,广告的效用一目了然。
通过启用客户身份识别,“网络饼干”(Cookie)(一个小文本文件,通常由网站标识符和用户标识符组成)可用于个性化你的上网体验。当你首次访问所选网站时,“网络饼干”将被发送到你的计算机中,除非你已经禁用了它。以后每次你访问该网站时,“网络饼干”都会向网站发送一条消息,并借此跟踪你的访问。正如我们将在第六章中要看到的,“网络饼干”通常用于记录点击流数据,跟踪你的偏好,或将你的名字添加到定向广告中。
社交网站也会产生大量数据,脸书(Facebook)和推特(Twitter)位居榜首。到2016年年中,脸书平均每月有17.1亿个活跃用户。所有用户都在生成数据,仅日志数据每天就能达到大约1.5 Pb(或1 000 Tb)。视频共享网站优兔(YouTube)创建于2005年,目前广受欢迎,影响深远。在近期的新闻发布会上,优兔声称其全球用户数超过了10亿。搜索引擎和社交网站产生的有价值数据可用于其他许多领域,比如健康问题的处理。
医疗数据
如果我们看看医疗保健,就会发现一个涉及人口比例越来越大的被电子化的领域。电子健康记录逐渐成为医院和手术的标配,其主要目的是便于与其他医院和医生共享患者的数据,从而提供更好的医疗保健服务。通过可穿戴或可植入传感器收集的个人数据正日益增加。特别是为了健康监测,我们很多人都在使用复杂程度各异的个人健身追踪器,它们输出前所未有的新型数据。现在可以通过收集血压、脉搏和体温的实时数据,来远程监控患者的健康状况,从而达到降低医疗成本并提高生活质量的潜在目的。这些远程监控设备正变得越来越复杂,除了测量基本生命体征参数之外,睡眠跟踪和动脉血氧饱和度也成了测量的对象。
有一些公司通过激励措施来吸引员工使用可穿戴健身设备,公司设定某些具体目标,比如减肥或
— 没有更多了 —
以下为对购买帮助不大的评价