正版图书 漫画算法与数据结构(大规模数据集)(数据科学与大数
正版图书 没有图片的请核对书号下单 以书名为准~ 出版时间系统采集的 请注意!
¥
52.48
6.6折
¥
79.8
全新
库存22件
作者未知
出版社清华大学出版社
ISBN9787302645207
出版时间2024-02
版次1
装帧线装
开本16开
纸张胶版纸
定价79.8元
货号wht- 9787302645207
上书时间2024-07-20
商品详情
- 品相描述:全新
-
库存书 未翻阅
- 商品描述
-
基本信息
书名:漫画算法与数据结构(大规模数据集)(数据科学与大数据技术)
定价:79.8元
作者:未知
出版社:清华大学出版社
出版日期:2024-02-01
ISBN:9787302645207
字数:
页码:
版次:
装帧:线装
开本:32开
商品重量:
编辑推荐
《漫画算法与数据结构(大规模数据集)》的重点并不是介绍通用的数据结构与算法分析。在大数据和人工智能的时代背景下,传统的经典算法往往性能不佳,甚至可能不起作用。本书以分布式数据集、流式数据结构与算法设计为主线,对流式数据采集、数据库中的数据结构设计、外部存储器算法进行介绍。目前,实际生产中已经形成了流式数据采集、存储、分析和计算的产品且成果显著。针对流式数据的采集和存储的产品主要有 Apache Kafka、Apache Pulsar 和 Pravega。流式数据的计算与分析主要经历了两代产品,代为 Apache Storm、Spark Streaming,目前流行的是第二代产品 Apache Flink。此外,还出现了 MPP(Shared Nothing 架构)的分布式并行架构数据库集群,主要有 Greenplum、HAWQ、HashData 等分布式数据库系统。通过在 MPP 架构基础上对流式数据的存储和计算支持,单节点每秒可处理多达 100 亿行数据,支持大规模数据实时写入且保证秒级实时性,主要的产品有Apache Doris、StarRocks 和 MatrixDB。这些的产品无不把流式数据的数据结构和算法体现得淋漓尽致。本书针对流式数据场景,对常见的大规模数据集算法和数据结构进行了梳理和讲解。这些流式数据产品的出现有效解决了海量流式数据的采集、存储和极速全场景分析计算等问题。本书可作为从事算法设计与分析、大数据平台分析、模式识别与人工智能和数据库等领域研究工作的工程师、计算机科学家的参考书。
内容提要
当应用于大型分布式数据集时,标准算法和数据结构可能会变慢或完全失效。选择专为大数据设计的算法可以节省时间、提高准确性并降低处理成本。《漫画算法与数据结构(大规模数据集)》将的研究论文提炼为实用的技术,用于绘制、流式传输并组织磁盘和云中的大规模数据集,十分独特。大规模数据集的算法与数据结构为大型分布式数据引入了处理和分析技术。《漫画算法与数据结构(大规模数据集)》作为指南,包含了行业故事和有趣的插图,使复杂的概念也易于理解。在学习如何将强大的算法(如Bloom 过滤器、计数草图、HyperLogLog和LSM树)映射到你自己的用例时,将对真实世界的示例进行探索。主要内容: 概率草图数据结构 选择正确的数据库引擎 设计高效的磁盘数据结构和算法 大规模系统中的算法权衡 有限空间资源下的百分位数计算Python、R和伪代码中的示例。
目录
第Ⅰ部分基于哈希的草图 章 导论 31.1 示例 51.1.1 示例解决方法 61.1.2 本书给出的解决方法 81.2 本书的结构 111.3 本书的不同之处及目标读者 121.4 为什么大规模数据对当今的系统如此具有挑战性 131.4.1 CPU 内存性能差距 131.4.2 内存层次结构 141.4.3 延迟与带宽 151.4.4 分布式系统的情况 151.5 基于硬件来设计算法 161.6 本章小结 17第2 章 哈希表和现代哈希回顾 192.1 无处不在的哈希 202.2 数据结构概述 222.3 现代系统中的使用场景 252.3.1 备份/存储解决方案中的重复数据删除 252.3.2 使用MOSS 和Rabin-Karp 指纹识别进行剽窃检测 262.4 有关O(1) 292.5 解决冲突:理论与实践 302.6 使用场景:Python 的dict是如何实现的 332.7 MurmurHash 352.8 分布式系统的哈希表:一致性哈希 362.8.1 一个典型的哈希问题 372.8.2 哈希环 382.8.3 查找 412.8.4 添加新节点/资源 412.8.5 删除节点 442.8.6 一致性哈希场景:Chord 482.8.7 一致性哈希:编程练习 502.9 本章小结 50第3 章 近似成员关系:Bloom 过滤器和商过滤器 533.1 工作原理 563.1.1 插入 563.1.2 查找 573.2 用例 583.2.1 网络中的Bloom 过滤器:Squid 583.2.2 Bitcoin 移动应用 593.3 一个简单的实现 603.4 设置Bloom过滤器 613.5 一点理论 663.6 Bloom 过滤器的调整和替代方案 693.7 商过滤器 703.7.1 商-余数法 713.7.2 了解元数据位 733.7.3 示例:插入商过滤器中 733.7.4 用于查找的Python代码 763.7.5 调整大小与合并 793.7.6 误报率和空间考虑 803.8 Bloom 过滤器和商过滤器的比较 803.9 本章小结 82第4 章 频率估计和count-minsketch 854.1 多数元素 874.2 count-min sketch 的工作原理 904.2.1 update 904.2.2 estimate 914.3 用例 924.3.1 前k 个睡眠不安者 924.3.2 缩放单词的分布相似度 964.4 count-min sketch 中的误差与空间 994.5 count-min sketch 的简单实现 1004.5.1 练习 1014.5.2 公式所蕴含的原理 1024.6 使用count-min sketch进行范围查询 1034.6.1 二元区间 1044.6.2 更新阶段 1054.6.3 估计阶段 1074.6.4 计算二元区间 1084.7 本章小结 110第5 章 基数估计和HyperLogLog 1135.1 对数据库中的不同项计数 1145.2 HyperLogLog 增量设计 1165.2.1 步:概率计数 1175.2.2 随机平均 1195.2.3 LogLog 1215.2.4 HyperLogLog:使用调和平均值进行随机平均 1235.3 用例:使用HLL 捕捉蠕虫 1265.4 一个小实验 1285.5 用例:使用Hyper-LogLog 进行聚合 1325.6 本章小结 135第Ⅱ部分实时分析第6 章 流式数据 1396.1 流式数据系统:元示例 1446.1.1 Bloom 连接 1446.1.2 重复数据删除 1476.1.3 负载平衡和跟踪网络流量 1496.2 数据流中的实际约束和概念 1516.2.1 实时 1516.2.2 小时间和小空间 1526.2.3 概念转变和概念漂移 1526.2.4 滑动窗口模型 1536.3 抽样和估计 1556.3.1 有偏差抽样策略 1576.3.2 代表性样本的估计 1606.4 本章小结 162第7 章 从数据流中抽样 1657.1 从地标流中抽样 1667.1.1 伯努利抽样 1667.1.2 蓄水池抽样 1707.1.3 有偏差的蓄水池抽样 1767.2 从滑动窗口抽样 1827.2.1 链式抽样 1827.2.2 优先级抽样 1877.3 抽样算法比较 1917.4 本章小结 195第8 章 数据流上的近似分位数 1978.1 分位数 1988.2 近似分位数 2018.2.1 加法误差 2018.2.2 相对误差 2038.2.3 数据域中的相对误差 2048.3 t-digest:工作原理 2048.3.1 digest 2058.3.2 比例函数 2078.3.3 合并t-digest 2118.3.4 t-digest 的空间范围 2158.4 q-digest 2158.4.1 从头开始构建q-digest 2168.4.2 合并q-digest 2188.4.3 q-digest 中的误差和空间注意事项 2198.4.4 使用q-digest 进行分位数查询 2208.5 模拟代码和结果 2218.6 本章小结 226第Ⅲ部分数据库的数据结构和外部存储器算法第9 章 外部存储器模型 2319.1 外部存储器模型初探 2339.2 示例1:寻找最小值 2359.3 示例2:二进制搜索 2399.3.1 生物信息学用例 2399.3.2 运行时间分析 2419.4 搜索 2439.5 示例3:合并K 个排序列表 2469.5.1 合并时间/日期日志 2469.5.2 外部存储器模型是否过于简单 2509.6 下一章内容 2519.7 本章小结 2510 章 数据库的数据结构:B 树、Bε 树和LSM 树 25310.1 索引的工作原理 25410.2 本章中的数据结构 25610.3 B 树 25810.3.1 B 树平衡 25910.3.2 查找 26010.3.3 插入 26110.3.4 删除 26310.3.5 B 树 26610.3.6 B 树上的操作有何不同 26810.3.7 用例:MySQL 等中的B 树 26810.4 为什么B 树查找在外部存储器中是的 26910.5 Bε 树 27210.5.1 Bε 树:工作原理 27310.5.2 缓冲区机制· 27310.5.3 插入和删除 27510.5.4 查找 27610.5.5 成本分析 27710.5.6 Bε 树:数据结构的范围 27810.5.7 用例:TokuDB 中的Bε 树 27910.5.8 输入/输出之道:欲速则不达 28010.6 日志结构合并树(LSM 树) 28110.6.1 LSM 树:工作原理 28310.6.2 LSM 树成本分析 28510.6.3 用例:Cassandra 中的LSM 树 28610.7 本章小结 2871 章 外部存储器排序 28911.1 排序用例 29011.1.1 机器人运动规划 29011.1.2 癌症基因组学 29111.2 外部存储器排序的挑战:示例 29311.3 外部存储器合并排序 29711.4 外部快速排序 30011.4.1 外部存储器双向快速排序 30111.4.2 外部存储器多向快速排序 30211.4.3 找到足够的枢轴 30311.4.4 找到足够好的枢轴 30411.4.5 将它们重新组合在一起 30511.5 为什么外部存储器合并排序是的 30611.6 结尾 30811.7 本章小结 309参考文献 310
作者介绍
序言
— 没有更多了 —
以下为对购买帮助不大的评价