正版保障 假一赔十 可开发票
¥ 27.42 4.7折 ¥ 58 全新
库存5件
作者[美]卢克·阿布克尔,[美]卡里德·埃尔·伊马姆
出版社中国电力出版社
ISBN9787519856731
出版时间2021-08
装帧平装
开本16开
定价58元
货号29293589
上书时间2024-10-28
前言
几年前,我们和O’Reilly公司合编一书。该书研究健康数据匿名化的相关案例,带读者过了一遍匿名数据集的实际生成方法。这些方法覆盖多种应用场景。
自打那时起,各数据分析组织,数据用量不断增加,却又面对隐私法案不断演进、日益严苛的形势。他们既希望获得隐私监管组织的信任,又因其收集和处理的数据有的是来源于私企和公民,所以也希望获得其信任。在这样的背景下,数据分析组织对数据匿名化(也称“去标识化”)的兴趣随之增加。
写作缘由
分享数据,用于数据分析和研究,益处颇多。但与此同时,人们对数据拥有权和数据隐私抱有顾虑,持有不同观点,遂引发辩论,其意义深远。O’Reilly公司在2019年1月2日发布的“数据通信”(https://oreil.ly/TMWre)中透露,O’Reilly雷达捕获到隐私保护和以此为前提的数据分析成为趋势。于是,我们萌生一个想法:写本书指导读者利用可识别性范围(identifiability
spectrum),实现在多种场景,分离数据和个人身份信息,提升隐私保护力度,且不影响数据使用。本书就是我们为之努力的结果,其中探讨多种端到端解决方案,以削减数据可识别性。我们讲解多种不同数据采集模型和源自真实业务的案例。它们借鉴自人们迫切需要的数据环境的工作,所用方法久经考验。我们经常被问及的核心问题是:如何利用数据,才能既保护个人隐私,又能保证数据粒度足够细,以确保对其分析既有用又有意义。数据分析组织整合匿名化方法,减少可识别性,可创建安全和可复用的匿名化流水线,并以可持续方式,将其整合到自己的数据流和分析工作。我们将介绍多种不同匿名化技术,通过数据泛化、数据抑制译注1或数据随机化等技术,削减可识别性,生成所需数据或统计信息。我们还将介绍这些技术是如何契合“基于风险”方法这一更为宏大的主题,根据数据分享环境,确定数据转换的程度。
基于风险方法,旨在用一种更具指导性的决策方法,替代主观评估。
该方法可扩展,取舍得当,所得解决方案能确保数据有用且保护充
分。该方法利用统计估计量,为决策结果提供客观支持,决策过程
更看重经验证据。
我们加起来在数据隐私领域有着30年从业经验。我们做过学术研究,开发过
培训课程,主持过研讨会,做过演讲,带过高水平研究者、数据科学家和数据从业者团队。关于如何实践隐私保护技术,我们学到很多,并将持续学到更多。我们想把这些知识分享给读者,帮助推进实践,我们想论证数据隐私保护是能做到“双赢”的,就像前任隐私保护专员AnnCavoukian博士在她非常有影响力的“PrivacybyDesign”注2(通过设计保护隐私)概念中
所提倡的那样。很多隐私倡导者认为,我们能够而且应该将隐私当作社会财产,隐私保护应予以鼓励甚至可强制推行,并且,我们能够采取切实可行的方法来保护隐私,同时满足当代社会对数据的需求。
然而,本书重策略而非理论。请将本书当成你的顾问,遇到匿名化工具和流程的规划和使用问题,尽可咨询它。本书指导你将数据用于不同目的,这些目的可能有别于采集数据的原目的。本书所提供方法,可确保数据不仅丰富,而且其使用合法、有理有据。我们将过一遍不同应用场景,这些场景是根据所分析数据三种迥然不同的可识别性程度而设置的,并提供相关细节,帮你理解一些策略方面的注意事项,这正是数据分析组织努力解决的问题。我们的目标是帮你建立隐私注意事项和技术解决方案之间的联系。
本书虽非专著,但还是涉及多个匿名化相关主题。请注意,法律法规的解释因环境而异,遇到相关问题,我们强烈建议你咨询法律和隐私团队!本书所提供资料仅仅是起告知信息的作用,而非向你提供法律咨询服务。我们已给出免责声明,终于可松口气了。
目标读者
本书构思之际,我们将读者分成两个群体:需要策略支持的读者(主要读者群)和需要理解决策的读者(第二大读者群)。不论在官方机构还是产业界工作,交付数据分析成果,都是数据分析岗位的要求。我们假定读者除了要遵守数据隐私和保护法律外,还准备好利用数据大干一场。而且我们假定他们正在寻找数据访问模式,以便安全和负责任地使用数据。
主要读者群(关心如何精心构思愿景,并确保该愿景成功实现):
•执行团队:关心如何充分利用数据,如提升效率、获取新洞察力、新品上市,所有这些都是为了拓宽其服务范围并提升服务质量,同时更好地保护数据主体的隐私。这类读者很可能会快速浏览本书内容,以确定其愿景,找到合适的方式,将匿名化融入愿景。
•数据架构师和工程师:需将其问题跟解决方案联系起来,以便安全分析数据,并保护数据主体的隐私。他们更可能聚焦于特定细节和注意事项,这些内容有助于决策,并找到其应用场景所需具体方法。
第二大读者群(关心愿景的理解和执行方式):
•数据分析师和数据科学家:他们想理解数据访问相关决策。作为以细节为导向的群体,其问题远多于本书所提到的!以经验来看,这也许会让他们有兴趣理解更广泛的隐私保护内容(当然是好事)。
•隐私专家:他们想为组织的分析职能提供支持。他们虽熟悉隐私保护领域,并有技术背景,但可能还想深入钻研特定章节和注意事项,寻找自己能为应用场景提供什么方式的支持,以发挥其扎实的知识储备,对隐私的深入理解的优势。
写本书介绍安全和负责任的数据使用策略,其难点在于如何取得语言和内容范围之间的平衡。本书涵盖隐私、数据科学和数据处理这些主题。尽管我们尝试向读者介绍这些领域一些基本概念,但我们意识到这样做对某些读者可能有难度。我们希望本书将成为一本重要参考书,读者感到内容有用,可深入学习。
内容编排
本书先带你理解可识别性,根据数据中的可识别特征和攻击的可能性,合理估计聚类结果,从而为理解匿名化打下概念基础。本书用两章的篇幅来完成这一目标,第2章先介绍可识别性范围,以便你理解数据中的可识别性内容。
第3章接着给出一个管理框架,解释数据分享环境,理解潜在威胁。我们从数据和环境两个密切相关的方面评估可识别性。可识别性范围,也随之从数据可识别性概念,演进到包括数据和环境在内的大概念。我们在可识别性概念基础上,接着探讨数据处理步骤,创建流水线需要这些步骤。
第4章从明识数据和隐私工程概念出发,思考如何设计内置隐私保护功能的系统。特别地,数据用途不同于原采集目的,用该系统处理,可削减数据可识别性。数据持有方既有明识数据又有匿名数据这种情况,我们也会讲到。
我们确定明识数据相关要求之后,将考虑另一类数据,其直接可识别内容已被删除,我们将其作为伪匿名数据来解释。减少可识别性的步是,删除数据中的人名及其地址。第5章起,我们开始明确为实现数据匿名化目标而工作。我们首先探讨伪匿名化为什么能作为一种数据保护方法,并介绍匿名化的步。我们还将思考伪匿名数据分析技术,以及它们对匿名化有何意义。
第6章将全部精力放在匿名化上(因此完全是关于数据的次要用途),这是数据流水线的后环节。我们先介绍更为传统的方法,将在源头匿名化的数据推给接收者。接着我们来个大翻转,考虑由接收方来拉取匿名数据。这种思考方式,为我们根据一组不同要求来利用匿名化,提供非常有趣的机会,并为构建数据湖开辟道路。我们以前几章所讲概念为基础,提出构建匿名化流水线的新方法。
第7章以对数据安全使用的讨论结束本书。我们将讨论责任和伦理这些主题。深度学习和人工智能及机器学习领域相关方法的实际使用,为数据隐私领域带来新顾虑。我们建议用多种框架和指导原则来管理这些担忧,而且我们希望总结并给出构建匿名化流水线应注意的一些事项。
排版约定
本书在排版上遵循以下约定:
斜体(Italic)
表示新术语、URL、邮件地址、文件名和文件扩展名。
等宽字体(ConstantWidth)
表示程序片段和正文中出现的编程元素,如变量、函数名、数据库、数据类型、环境变量、语句和关键字。
O’Reilly在线学习平台(O’ReillyOnlineLearning)
近40年来,O’ReillyMedia致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。
我们有一群独家专家和创新者,他们通过图书、文章、会议和在线学习平台分享知识和技术。O’Reilly的在线学习平台提供按需访问的直播培训课程、详细的学习路径、交互式编程环境,以及由O’Reilly和其他200多家出版社出版的书籍和视频。详情请访问http://oreilly.com。
联系方式
请将你对本书的评价和问题发给出版社:
美国:
O’ReillyMedia,Inc.
1005GravensteinHighwayNorth
Sebastopol,CA95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
我们为本书做了一个网页,将勘误信息、示例和其他附加信息列在上面。其地址是https://oreil.ly/building-anonymization-pipeline。
对本书的评论或技术性问题,请发电子邮件至:bookquestions@oreilly.com。
如欲了解O’Reilly图书、培训课程的新闻和更多信息,请访问网站:http://www.oreilly.com。
我们的Facebook:http://facebook.com/oreilly。
我们的Twitter:http://twitter.com/oreillymedia。
我们的YouTube:http://www.youtube.com/oreillymedia。
致谢
倘若没有隐私分析领域多位专家的支持,就不可能有这本书。这些专家日复一日从事咨询、数据和软件的实现与交付工作。从理论上提出解决方案是一回事,跟大大小小的组织合作,将隐私保护实践和解决方案带到市场,并保证其足够灵活、能扩展,则是另一回事。真实有效的解决方案正是诞生和成长于跟客户的协同工作之中。
我们必须给予技术审稿人以诚挚的谢意!他们阅读本书的全部初稿并提出宝贵反馈。其背景多样性为本书提供至关重要的洞察力。其反馈使我们能直接定位需进一步发挥的领域并着力解决问题。尽管本书中的看法和观点出自我们之手,但我们希望也成功将技术审稿人的反馈整合到本书终版。按姓名首字母排序,我们想感谢标准和风险管理专家BryanCline、真实场景匿名化专家JordanCollins、商用技术专家LeroyRuggerio和数据保护技术专家MalcolmTownsend。
我们还要感谢FelixRitchie制定并促成“五个安全”安全框架被业界所接纳,它带给我们灵感!本书用一整章篇幅介绍该框架。我们写完该章初稿之后就一直跟Felix一道工作,实在是非常幸运。我们很感激PierreChetelat在本书后编辑工作所给予的帮助,这也为其了解我们所从事的法律和技术领域提供机会。
后,我们必须感谢O’Reilly公司为我们编写另一本面向实践的匿名化图书而提供机会。同样把感谢送给MelissaPotter,她是O’Reilly公司的内容开发编辑,她在本书的写作和编校方面给我们很多支持。恕我们无法一一列举O’Reilly公司其他幕后成员,我们还想感谢勤奋的文字编辑、设计师、技术支持,以及为本书上市而付出努力的其他人员。
Luk Arbuckle是Privacy Analytics公司首席方法官,为负责任地使用和分享数据提供策略指导,为隐私增强技术和方法提供创新。Luk曾担任加拿大隐私专员办公室主任。
Khaled El Emam是Replica Analytics公司合伙人和CEO,该公司致力于开发合成数据。他还是加拿大渥太华医学院教授、东安大略儿童医院研究所研究员。
Luk Arbuckle是Privacy Analytics公司首席方法官,为负责任地使用和分享数据提供策略指导,为隐私增强技术和方法提供创新。Luk曾担任加拿大隐私专员办公室主任。
Khaled El Emam是Replica Analytics公司合伙人和CEO,该公司致力于开发合成数据。他还是加拿大渥太华大学医学院教授、东安大略儿童医院研究所资深研究员
“若要用个人数据创新并交付价值,数据策略该如何设计和交付,本书给出绝佳指导,并帮读者打下坚实基础。”
——LeRoy A. Ruggerio
强生公司医院医疗设备研发部商务技术负责人
— 没有更多了 —
以下为对购买帮助不大的评价