• Greenplum构建实时数据仓库实践
21年品牌 40万+商家 超1.5亿件商品

Greenplum构建实时数据仓库实践

正版图书保证 可开电子发票

56.3 6.3折 89 全新

库存37件

湖北武汉
认证卖家担保交易快速发货售后保障

作者王雪迎著

出版社清华大学出版社

ISBN9787302611653

出版时间2022-08

装帧平装

开本其他

定价89元

货号4166791

上书时间2024-02-18

汉唐图书旗舰店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言

从Bill Inmon在1991年提出数据仓库的概念起,至今已有三十年的时间。在这期间人们所面对的数据,以及处理数据的方法都发生了翻天覆地的变化。起初数据仓库系统运行在单机或小型集群之上,程序以批处理方式周期性运行ETL作业。最为常见的执行方式是在每天业务低峰期处理前一天产生的业务数据,即所谓的T 1模式。后来随着互联网和移动终端等应用的普及,需要处理的数据量不断增大,出现了大数据的概念,以Hadoop及其生态圈组件为代表的新一代分布式大数据处理平台逐渐流行。近年来随着业务领域的不断拓展,人们对数据分析的实时性要求越来越高,离线批处理方式所产生的延时已不能满足需求。以Hadoop为代表的分布式框架并没有给出实时计算解决方案,于是便出现了Storm、Spark Streaming、Flink等实时计算框架,可提供秒级的响应时间,在此基础上实时数据仓库应运而生。

 

作为DBA,我更倾向于采用一种不编程、组件少、门槛低、易上手、纯SQL,并能处理包含历史全量数据的方案,用来实现实时数据仓库。不可否认,SQL仍然是数据库、数据仓库中最常使用的开发语言,也是传统数据库工程师或DBA的必会语言,从它出现至今一直被广泛使用。首先,SQL有坚实的关系代数作为理论基础,经过几十年的积累,查询优化器已经相当成熟。再者,对于开发者,SQL作为典型的非过程语言,其语法相对简单,但语义却相当丰富。据统计95%的数据分析问题都能用SQL解决,这是一个相当惊人的结论。

 

本书介绍的实现方案能满足以上所有要求,涉及的具体技术包括:MySQL主从复制,保证为业务系统提供可靠的数据库服务,并提供数据来源;Canal Server实时获取增量MySQL binlog,并将其传入Kafka消息队列;Kafka将消息持久化,同时提供可伸缩、高吞吐的消息服务;Canal ClientAdapter负责消费Kafka中的消息,将数据流传输到Greenplum数据库;Greenplum作为数据仓库系统,提供实时ETL功能,自动维护操作数据存储(ODS)、维度表与事实表。

 

Greenplum分布式数据库采用无共享(Shared-Nothing)的大规模并行处理(MPP)架构,能充分利用集群的硬件资源,将并行处理发挥到极致。Greenplum具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,正是它们支撑Greenplum成为一款理想的分析型数据库产品。

 本书内容 

全书共分10章。第1章说明数据仓库相关的基本概念,包括数据仓库定义、操作型系统与分析型系统、ETL、数据仓库架构等。第2章介绍三种主流的数据仓库设计模型,即关系数据模型、维度数据模型和DATA VAULT模型。第3章介绍Greenplum系统架构、功能特性、主要优缺点,以及为何适用于数据仓库应用。第4章详解Greenplum的安装部署问题。第5章介绍实时数据同步的实现,包括MySQL数据复制在实时数据仓库架构中所起的作用,如何使用Kafaka,以及Maxwell Kafka Bireme和Canal Server Kafka Canal ClientAdapter两种具体实现。第6章用一个销售订单示例说明如何使用Greenplum的规则(rule)实现实时自动数据装载。第7章和第8章分别详解多维数据仓库中常见的维度表和事实表技术,及其在Greenplum中的实现。第9章介绍Greenplum主要的、例行的与推荐的运维与监控工作。第10章作为完整数据分析体系的组成部分,介绍如何在Greenplum中集成MADlib,实现基于SQL的机器学习。

 读者对象 

本书所定位的读者是大数据分析系统设计和开发、数据仓库系统设计和开发、DBA、架构师等相关技术人员。所有的描绘场景与实验环境都基于Linux操作系统。假设读者已具有一定的数据库、数据仓库、SQL与Linux基础。

 源码下载 

本书配套的源码,需要使用微信扫描下面二维码获取,可按扫描后的页面提示,把下载链接转发到自己的邮箱中下载。如果发现问题或疑问,请电子邮件联系booksaga@163.com,邮件主题为“Greenplum构建实时数据仓库实践”。

 致谢 

在本书编写过程中,得到了很多人的帮助与支持。首先,感谢我所在的公司——优贝在线提供的平台和环境,感谢同事们在工作中的鼎力相助。没有那里的环境和团队,也就不会有这本书。其次,感谢清华大学出版社图格事业部的老师和编辑们,他们的辛勤工作使得本书得以尽早与读者见面。再次,感谢CSDN提供的技术分享平台,给我有一个将博客文章整理成书的机会。最后,感谢家人对我一如既往的支持。

 

由于水平有限,疏漏之处在所难免,希望读者批评指正。

 

编 者

 

2022年5月


【免费在线读】

商品简介

Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。

 

本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。 本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。

 

本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。



作者简介

王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Greenplum构建实时数据仓库实践》《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。


【媒体评论】

推 荐 序

自从人类诞生以来,我们利用不同形式的生产工具推动社会不断向前发展,继农业时代、工业时代之后,随着科技革命和产业变革的深入演进,我们已进入数字时代的快速发展时期。数字经济以数据资源作为关键生产要素、以现代信息网络作为重要载体、以信息通信技术的有效使用作为效率提升和经济结构优化的重要推动力。数字化转型正在驱动生产方式、生活方式和治理方式发生深刻的变革,对世界经济、政治和科技格局产生深远影响。

数据要素是数字经济深化发展的核心引擎,企业作为数字经济发展的主力军,在研发生产、企业管理及市场经营的时候,一方面产生了各类海量数据,另一方面又迫切需要从海量聚集的数据中挖掘数据价值,从而推动技术、产品及模式的创新,增强企业市场竞争力,为全社会的经济发展带来强劲推动力。

中国作为全球数字时代的领先者,各领域的高速发展迫切需要在数据管理、数据利用等方面有更加高效、智能的工具平台,降低经济体在数据治理方面的成本,提升数据服务质量和体验。

王雪迎作为国内数据工程领域的实践者和教育者,在数据领域已从业近三十多年,在工作中不断跟踪、实践和总结最新的数据技术。2021年3月,公司组织专家研讨行业数据应用技术方案,我对王雪迎抱怨,目前市面上的各类数据库、数据挖掘软件五花八门,对中小企业来讲难以选择,OLTP、OLAP以及AI三位一体的实施应用成本太高,制约了中小企业在数据利用方面的能力。2022年初,王雪迎说通过一年的探索验证,总结了一些新经验即将出版成册,这就是《Greenplum构建实时数据仓库实践》。

世间万物都在变化,市场和客户在变化,产品和技术在变化,经营环境在变化,企业本身也在变化。在不断变化中,如何用一种优雅、简洁和高效的方式,通过数据感知变化,将是数字时代下每个数据从业者都要思考和面临的问题。

这本由清华大学出版社出版的《Greenplum构建实时数据仓库实践》,行文流畅、案例易懂、体系完美,理论与实践相结合。希望它能为国内数据工程领域带来了“与时俱进”的变化,也希望这种变化为我们广大从业者带来更多的提升可能,从而实现各自更大的价值。

杨兴兵

北京世元科技有限公司总经理

2022年3月



目录
本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib等。

内容摘要
Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。

本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。

本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。

主编推荐

本书详解Greenplum构建实时数据仓库,涉及的具体技术包括:

MySQL主从复制,保证为业务系统提供可靠的数据库服务,并提供数据来源。 Canal Server实时获取增量MySQL binlog,并将其传入Kafka消息队列。 Kafka将消息持久化,同时提供可伸缩、高吞吐的消息服务。 Canal ClientAdapter负责消费Kafka中的消息,将数据流传输到Greenplum。 Greenplum提供实时ETL功能,自动维护操作数据存储、维度表与事实表。 Greenplum数据库权限与角色管理、数据导入导出、性能优化、监控与维护。 Greenplum集成机器学习库MADlib,对数据进行分析与挖掘。
【内容简介】

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP