消息首页搜索举报

大数据系统构建

13.91 1.8折 79 九品

库存2件

江苏盐城

认证卖家担保交易快速发货售后保障

作者南森·马茨

出版社机械工业出版社

ISBN9787111552949

出版时间2017-01

装帧其他

开本16开

定价79元

货号9787111552949

上书时间2024-08-31

书友kw2869753的书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 20小时
好评率暂无

最新上架

一瞬间改变：总是围着别人团团转 ¥10.08

告别刺猬 ¥11.24

笑死我的英文书 ¥7.56

怀孕40周同步 ¥8.23

摸金传人7.孤岛惊魂 ¥8.51

斗罗大陆·第二部·绝世唐门13 ¥6.95

凤啸云歌（上下） ¥12.39

新概念几何 ¥6.83

世界古国货币漫谈 ¥13.02

商品详情

品相描述：九品

商品描述: 作者简介
南森·马茨，Cascalog和Storm的创始人。在2011年Twitter收购社交媒体数据分析公司BackType前，他是BackType首席工程师。在Twitter，他建立了流计算团队，提供和开发共享基础设施，为整个公司的关键实时应用提供支持。他目前是Stealth startup的创始人。
詹姆斯·沃伦，Storm8的分析架构师，精通大数据处理、机器学习和科学计算。
马延辉，资历Hadoop技术专家，对Hadoop生态系统相关技术有着深刻的理解，在Hadoop开发和运维方面积累了丰富的经验。曾就职于阿里、Answers.com、暴风等互联网公司，从事Hadoop相关的研发和运维工作，对大数据技术的企业级落地、研发、运维和管理有着深刻的理解和丰富的实战经验。开源HBase监控工具Ella作者。现在致力于大数据技术在传统行业的落地和大数据技术的普及和推广。
向磊，前暴风影音数据平台架构师，目前在某垂直电商平台担任技术总监，惠普中国Hadoop相关课程讲师。开源项目EasyHadoop、phpHiveAdmin作者，对Hadoop及其周边生态系统的底层运维及开发、集群自动化运维、网络架构设计、集群安全、性能优化、嵌入式编程方面有较深入了解。
魏东琦，博士，长期从事软件研发工作，现就职于中国地质调查局西安地质调查中心，参加、承担过多项科研项目。现致力于地质行业与大数据技术融合的相关研究工作。

目录
译者序
前言
关于本书
致谢
第1章  大数据的新范式
  1.1  本书是如何组织的
  1.2  扩展传统数据库
    1.2.1  用队列扩展
    1.2.2  通过数据库分片进行扩展
    1.2.3  开始处理容错问题
    1.2.4  损坏问题
    1.2.5  到底是哪里出错了
    1.2.6  大数据技术是如何起到帮助作用的
  1.3  NoSQL不是的
  1.4  基本原理
  1.5  大数据系统应有的属性
    1.5.1  鲁棒性和容错性
    1.5.2  低延迟读取和更新
    1.5.3  可扩展性
    1.5.4  通用性
    1.5.5  延展性
    1.5.6  即席查询
    1.5.7  少维护
    1.5.8  可调试性
  1.6  全增量架构的问题
    1.6.1  操作复杂性
    1.6.2  实现终一致性的复杂性
    1.6.3  缺乏容忍人为错误
    1.6.4  全增量架构解决方案与Lambda架构解决方案
  1.7  Lambda架构
    1.7.1  批处理层
    1.7.2  服务层
    1.7.3  批处理层和服务层满足几乎所有属性
    1.7.4  速度层
  1.8  技术上的新趋势
    1.8.1  CPU并不是越来越快
    1.8.2  弹性云
    1.8.3  大数据充满活力的开源生态系统
  1.9  示例应用：SuperWebAna
  1.10  总结
第一部分  批处理层
  第2章  大数据的数据模型
    2.1  数据的属性
      2.1.1  数据是原始的
      2.1.2  数据是不可变的
      2.1.3  数据是永远真实的
    2.2  基于事实的数据表示模型
      2.2.1  事实的示例及属性
      2.2.2  基于事实的模型的优势
    2.3  图模式
      2.3.1  图模式的元素
      2.3.2  可实施模式的必要性
    2.4  SuperWebAnalytics.的完整数据模型
    2.5  总结
  第3章  大数据的数据模型：示例
    3.1  为什么使用序列化框架
    3.2  Apache
      3.2.1  节点
      3.2.2  边
      3.2.3  属性
      3.2.4  把一切组合成数据对象
      3.2.5  模式演变
    3.3  序列化框架的局限性
    3.4  总结
  第4章  批处理层的数据存储
    4.1  主数据集的存储需求
    4.2  为批处理层选择存储方案
      4.2.1  使用键/值存储主数据集
      4.2.2  分布式文件系统
    4.3  分布式文件系统是如何工作的
    4.4  使用分布式文件系统存储主数据集
    4.5  垂直分区
    4.6  分布式文件系统的底层性质
    4.7  在分布式文件系统上存储SuperWebAnalytics.的主数据集
    4.8  总结
  第5章  批处理层的数据存储：示例
    5.1  使用
      5.1.1  小文件问题
      5.1.2  转向更高层次的抽象
    5.2  使用Pail在批处理层存储数据
      5.2.1  Pail基本操作
      5.2.2  序列化对象到Pail中
      5.2.3  使用Pail进行批处理操作
      5.2.4  使用Pail进行垂直分区
      5.2.5  Pail文件格式与压缩
      5.2.6  Pail优点的总结
    5.3  存储SuperWebAnalytics.的主数据集
      5.3.1  Thrift对象的结构化
      5.3.2  SuperWebAnalytics.的基础
      5.3.3  用于垂直分区数据集的分片
    5.4  总结
  第6章  批处理层
  第7章  批处理层：示例
  第8章  批处理层示例：架构和算法
  第9章  批处理层示例：实现
第二部分  服务层
  第10章  服务层概述
  第11章  服务层：示例
第三部分  速度层
  第12章  实时视图
  第13章  实时视图：示例
  第14章  队列和流处理
  第15章  队列和流处理：示例
  第16章  微批量流处理
  第17章  微批量流处理：示例
  第18章  深入Lambda架构

内容摘要
随着社交网络、网络分析和智能型电子商务的兴起，传统的数据库系统显然已无法满足海量数据的管理需求。作为一种新的处理模式，大数据系统应运而生，它使用多台机器并行工作，能够对海量数据进行存储、处理、分析，进而帮助用户从中提取对优化流
程、实现高增长率的有用信息，做更为精准有效的决策。但不可忽略的是，它也引入了大多数开发者并不熟悉的、困扰传统架构的复杂性问题。
由南森·马茨、詹姆斯·沃伦所著的《大数据系统构建(可扩展实时数据系统构建原理与最佳实践)》将教你充分利用集群硬件优势的Lambda架构，以及专门用来捕获和分析网络规模数据的新工具，来创建这些系统。它将描述一个可扩展的、易于理解大数据系统的方法——可以由小团队构建并运行。本书共18章，除了介绍基本概念，其他章节采用“理论+示例”的方式来阐释相关概念，并使用现实世界中的工具加以论证。其中，第1章介绍了数据系统的原理，给出了Lambda架构的概述，并概述了构建任何数据系统的广义方法。第2～9章集中阐述Lambda架构的批处理层
。第10章和第11章集中阐述服务层，让读者了解只批量写入的特定数据库——这些数据库比传统数据库更简单，它们具有出色的性能，并具备可操作性、稳健性等特点。第12～17章集中阐述速度层，让读者更明确地了解NoSQL数据库、流处理和管理增量计算的复杂性。第18章通过综合回顾Lambda架构的相关知识，帮助读者了解增量批处理、基本Lambda架构的变种，以及如何充分利用资源。

— 没有更多了 —