{正版现货新书} 大数据平台架构 9787030823304 吕欣，黄宏斌主编

全新正版现货，以书名为准，放心购买，购书咨询18515909251朱老师

51.88 6.7折 78 全新

库存14件

北京丰台

作者吕欣，黄宏斌主编

出版社科学出版社

ISBN9787030823304

出版时间2025-11

装帧平装

开本26cm

定价78元

货号18561225

上书时间2026-02-27

商品详情

品相描述：全新

商品描述: 作者简介
吕欣，中国人民解放军国防科技大学系统工程学院首席专家，教授，博士生导师，“对抗性复杂系统智能决策”创新研究群体负责人。主要研究方向为大数据、复杂网络、应急管理等。研究成果广泛应用在地震、台风、疫情等国内外重大突发事件的应急响应中，关于应用移动大数据支撑应急救援的工作被《麻省理工科技评论》列为“全球十大突破性技术”，关于高风险人群网络抽样和统计推断的工作被命名为“吕-估计量”。研究成果发表在Nature、PNAS、Nature Microbiology、Nature Communications、Physics Reports等高水平期刊上，得到《人民日报》《解放军报》《科技日报》《纽约时报》、新华社、BBC等高度正面评价。多次入选全球前2%顶尖科学家榜单，获全球移动大奖（The Global Mobile Awards，GLOMO Awards），国家级教学成果奖二等奖，湖南省高等教育教学成果奖特等奖，深圳市科技进步奖一等奖，教育部高等学校科学研究优秀成果奖（科学技术）二等奖，军队科学技术进步奖二等奖，霍英东教育基金会高等院校青年科学奖等。

目录
目录

第1章导论

1.1 走进大数据时代 2

1.1.1 数据爆炸 2

1.1.2 数据生产要素 5

1.1.3 大数据时代的技术变革 8

1.2 大数据的定义及特征 11

1.3 大数据技术基础 14

1.3.1 数据采集与预处理 15

1.3.2 数据存储与管理 17

1.3.3 数据分析与挖掘 18

1.3.4 数据隐私与安全 19

1.4 大数据平台架构 22

1.4.1 大数据平台基本概念 22

1.4.2 大数据平台架构模块 23

1.5 大数据平台应用 25

1.5.1 环境监测大数据平台 25

1.5.2 智慧农业大数据平台 26

1.5.3 能源电力大数据平台 27

1.5.4 智慧物流大数据平台 28

1.5.5 医疗大数据平台 29

1.5.6 社会治理大数据平台 30

1.6 本书实验环境说明 31

本章小结 33

第2章分布式理论基础

2.1 分布式系统简介 35

2.1.1 分布式系统的特点 36

2.1.2 分布式系统的优势 36

2.1.3 分布式系统的挑战 38

2.2 分布式存储理论 39

2.2.1 分区和复制 39

2.2.2 CAP定理 40

2.2.3 PACELC定理 44

2.2.4 BASE理论 46

2.3 分布式共识 48

2.3.1 分布式共识简介 48

2.3.2 分布式系统模型 49

2.3.3 FLP不可能定理 53

2.4 共识算法 54

2.4.1 Paxos算法 55

2.4.2 Raft算法 62

2.4.3 拜占庭容错和PBFT算法 68

本章小结 72

第3章大数据处理架构Hadoop

3.1 认识Hadoop 75

3.1.1 数据库的架构设计 75

3.1.2 传统的数据库管理 77

3.1.3 新兴的数据管理需求 79

3.1.4 Apache Hadoop生态的提出 80

3.2 Apache Hadoop生态系统及其重要组件 82

3.2.1 分布式文件系统：HDFS 83

3.2.2 分布式计算框架：MapReduce 86

3.2.3 分布式协作服务：ZooKeeper 89

3.2.4 分布式列数据库：HBase 92

3.2.5 数据仓库：Hive 95

3.2.6 资源管理器：YARN 98

3.2.7 日志收集工具：Flume 100

3.3 Hadoop社区和典型应用 102

3.3.1 Hadoop社区 102

3.3.2 Hadoop的典型应用 103

本章小结 106

第4章 Hadoop分布式文件系统HDFS

4.1 HDFS概述 108

4.1.1 分布式文件系统发展 108

4.1.2 HDFS设计思想 112

4.1.3 HDFS特性与局限 114

4.2 HDFS基本架构 115

4.2.1 NameNode 116

4.2.2 DataNode 119

4.2.3 Client 121

4.2.4 Secondary NameNode 122

4.3 HDFS工作机制 124

4.3.1 机架感知 124

4.3.2 DataNode容错机制 125

4.3.3 高可用机制 129

4.3.4 联邦机制 133

4.4 HDFS读写操作 134

4.4.1 文件读取 134

4.4.2 文件写入 137

4.5 HDFS实践 139

4.5.1 HDFS安装、启动和配置 139

4.5.2 HDFS常用操作综合实践 148

本章小结 157

第5章基于Hadoop的数据仓库工具Hive

5.1 Hive基础 160

5.1.1 Hive简介 160

5.1.2 Hive应用场景 160

5.2 Hive架构及运行机制 161

5.2.1 Hive架构 161

5.2.2 Hive工作流程及与Hadoop的交互 163

5.3 Hive数据类型 164

5.4 Hive数据定义语言 165

5.4.1 Hive数据库管理 166

5.4.2 Hive表管理 168

5.4.3 Hive视图管理 172

5.4.4 Hive索引管理 173

5.5 分区和分桶 174

5.5.1 分区与分区表 174

5.5.2 分桶与分桶表 176

5.6 Hive数据操作语言 178

5.6.1 加载文件 178

5.6.2 查询插入 179

5.6.3 数据迁移 180

5.7 Hive数据检索与计算基础 180

5.7.1 Hive运算符 181

5.7.2 数据的查询、过滤与分组聚合 182

5.7.3 Hive内置函数 186

5.8 Hive实践 187

5.8.1 Hive安装与配置 187

5.8.2 基于Hive的网络直播平台数据查询与分析综合实践 196

本章小结 206

第6章分布式数据库HBase　

6.1 数据库系统概述 209

6.1.1 数据模型 210

6.1.2 传统关系型数据库 214

6.1.3 关系型数据库标准语言SQL 220

6.1.4 大数据时代下的数据库技术 231

6.2 HBase概述 233

6.2.1 HBase的基本概念 233

6.2.2 HBase表结构 233

6.2.3 HBase的优缺点 236

6.3 HBase体系架构 237

6.3.1 Master 238

6.3.2 分区服务器 240

6.3.3 ZooKeeper 241

6.3.4 HBase客户端 242

6.3.5 HDFS 242

6.4 HBase数据模型 242

6.4.1 概念模型 243

6.4.2 物理模型 243

6.5 HBase读写流程 245

6.5.1 HBase写入操作流程 245

6.5.2 HBase读取操作流程 246

6.6 HBase shell 247

6.6.1 数据定义语言 247

6.6.2 数据操纵语言 249

6.7 HBase实践 250

6.7.1 HBase安装 250

6.7.2 单机模式配置HBase 252

6.7.3 分布模式配置HBase 253

6.7.4 简单的HBase操作实践 255

本章小结 259

第7章分布式计算框架MapReduce　

7.1 MapReduce概述 261

7.1.1 MapReduce简介 261

7.1.2 Map和Reduce函数定义 261

7.1.3 Map和Reduce函数示例 261

7.2 MapReduce工作流程 264

7.2.1 工作流程概述 264

7.2.2 MapReduce执行步骤 268

7.2.3 Shuffle过程详解 269

7.3 MapReduce的数据类型与格式 270

7.3.1 MapReduce数据类型 270

7.3.2 输入格式 271

7.3.3 输出格式 273

7.4 WordCount应用示例 275

7.4.1 WordCount问题背景 275

7.4.2 MapReduce执行条件判断 275

7.4.3 WordCount处理流程 275

7.4.4 编程实践 277

7.5 基于MapReduce的气象数据挖掘综合实践 283

7.5.1 气象数据集介绍 284

7.5.2 数据处理流程 284

7.5.3 编写MapReduce程序 285

本章小结 289

第8章基于内存的分布式计算框架Spark

8.1 Spark概述 291

8.1.1 Spark产生背景 291

8.1.2 Spark是什么 292

8.1.3 Spark的主要特点 293

8.2 Spark组件 294

8.2.1 Spark Core 295

8.2.2 Spark SQL 297

8.2.3 Spark Structured Streaming 298

8.2.4 Spark MLlib 298

8.2.5 GraphX 299

8.3 Spark运行架构 299

8.3.1 基本概念 299

8.3.2 Spark应用程序 300

8.3.3 Spark工作流程 300

8.3.4 转换操作和行动操作 301

8.4 Spark结构化API 303

8.4.1 产生背景 303

8.4.2 DataFrame和Dataset 303

8.4.3 Spark数据类型 305

8.5 Spark下载及使用 306

8.5.1 Spark下载 306

8.5.2 Spark Shell使用 307

8.5.3 Spark UI简介 309

8.6 Spark SQL实践 310

8.6.1 Spark SQL查询语句 310

8.6.2 Spark SQL数据库和数据表 315

8.6.3 Spark SQL视图 318

8.7 基于Spark的商品订单数据处理综合实践 319

8.7.1 环境配置 319

8.7.2 数据来源 320

8.7.3 数据预处理 321

8.7.4 数据统计 321

本章小结 325

第9章分布式计算框架Flink

9.1 Flink概述 327

9.1.1 Flink的定义及描述 327

9.1.2 Flink的主要功能 327

9.1.3 Flink的特点 328

9.2 数据处理架构设计 328

9.2.1 传统数据处理架构 328

9.2.2 初级流式处理架构 329

9.2.3 Flink流式处理架构 330

9.3 Flink工作机制 330

9.3.1 Flink运行架构 331

9.3.2 Flink应用程序部署方式 331

9.4 Flink API 332

9.4.1 Flink API关键概念 333

9.4.2 SQL/Table API 335

9.4.3 DataStream API 338

9.4.4 ProcessFunction 340

9.5 Flink监控 341

9.5.1 Flink监控处理的问题 342

9.5.2 Flink监控内容 342

9.5.3 Flink监控工具 343

9.5.4 Flink Metrics工具介绍 344

9.5.5 Flink Dashboard工具介绍 346

9.6 Flink应用场景 347

9.7 基于Flink的股票交易模拟综合实践 349

9.7.1 案例背景 349

9.7.2 数据说明 349

9.7.3 编程实践 350

本章小结 358

第10章分布式协作服务ZooKeeper

10.1 ZooKeeper概述 360

10.2 ZooKeeper基础 360

10.2.1 集群角色 361

10.2.2 数据节点 362

10.2.3 会话 364

10.2.4 事件监听器 364

10.3 ZAB协议 365

10.3.1 工作过程概述 365

10.3.2 崩溃恢复 366

10.3.3 消息广播 367

10.3.4 协议描述 367

10.4 ZooKeeper 命令 370

10.4.1 创建Znode 370

10.4.2 获取数据 371

10.4.3 更新数据 373

10.4.4 列出子项 373

10.4.5 检查状态 374

10.4.6 删除Znode 374

10.5 ZooKeeper典型应用场景 375

10.5.1 统一命名服务 375

10.5.2 数据发布/订阅 376

10.5.3 分布式协调/通知 376

10.5.4 负载均衡 377

10.5.5 分布式锁 378

10.5.6 集群管理 380

10.5.7 Master选举 381

10.6 ZooKeeper在大型分布式系统中的应用 382

10.6.1 Hadoop 382

10.6.2 HBase 383

10.6.3 Kafka 384

本章小结 386

第11章相关技术扩展　

11.1 YARN 388

11.1.1 YARN概述 388

11.1.2 YARN架构 388

11.1.3 YARN工作流程 390

11.1.4 YARN常用命令 392

11.2 Flume 393

11.2.1 Flume 概述 393

11.2.2 Flume架构 394

11.2.3 Flume的Source 397

11.2.4 Flume的Channel 398

11.2.5 Flume的Sink 398

11.2.6 配置Flume Agent 398

11.3 Kafka 400

11.3.1 Kafka概述 400

11.3.2 Kafka架构 401

11.3.3 Kafka生产者 403

11.3.4 Kafka消费者 407

11.4 TiDB 410

11.4.1 TiDB概述 410

11.4.2 TiDB架构 411

11.5 Loki 416

11.5.1 Loki概述 416

11.5.2 Loki架构 417

11.5.3 Loki的安装及配置 418

11.5.4 Loki基本功能 418

11.5.5 Loki高级功能 423

11.6 Milvus 426

11.6.1 Milvus概述 426

11.6.2 关键概念 426

11.6.3 Milvus架构 428

11.6.4 Milvus部署模式 431

11.6.5 Milvus应用示例 431

本章小结 434

第12章综合实践—日志采集分析系统

12.1 系统功能概述 436

12.1.1 Web应用 436

12.1.2 性能测试 436

12.1.3 日志采集与存储 437

12.1.4 日志分析 438

12.2 系统部署概述 439

12.3 系统构建说明 440

12.3.1 构建Web应用 440

12.3.2 实现日志采集和存储功能 443

12.3.3 构建日志分析功能 449

本章小结 453

内容摘要
本书内容涵盖分布式理论基础、大数据处理架构Hadoop、Hadoop分布式文件系统HDFS、基于Hadoop的数据仓库工具Hive、分布式数据库HBase、分布式计算框架MapReduce、基于内存的分布式计算框架Spark、分布式计算框架Flink、分布式协作服务ZooKeeper等大数据平台架构核心理论与重要组件，以及资源管理平台YARN，分布式数据采集和传输系统Flume，基于发布/订阅的消息队列Kafka，分布式NewSQL数据库TiDB，分布式日志收集、查询和展示系统Loki，向量数据库Milvus等扩展技术。

通过概念辨析、原理解析、模型介绍、流程分析、案例讲解和编程实现，结合精心设计的321个图表、19个代码示例及5种知识模块，遴选了7个综合实践案例，促进读者对内容的理解和掌握。此外，本书还提供虚拟服务器集群配置、基于Apache的Hadoop集群搭建、Spark大数据平台搭建的操作指南，并配套丰富的数字化学习资源和全套教辅资料，形成了理论与实践并重的立体化教学体系。

本书可作为大数据管理与应用、大数据技术与应用、智能科学与技术、计算机科学与技术等相关专业的本科生或研究生教材，也可以作为大数据与人工智能相关方向从业人员的自学书籍。

精彩内容
本书内容涵盖分布式理论基础、大数据处理架构Hadoop、Hadoop分布式文件系统、基于Hadoop的数据仓库工具Hive、分布式数据库HBase、分布式计算框架MapReduce、基于内存的分布式计算框架Spark、分布式计算框架Flink、分布式协作服务ZooKeeper等大数据平台架构核心理论与重要组件，以及资源管理平台YARN，分布式数据采集和传输系统Flume，基于发布/订阅的消息队列Kafka，分布式NewSQL数据库TiDB，分布式日志收集、查询和展示系统Loki，向量数据库Milvus等扩展技术。通过概念辨析、原理解析、模型介绍、流程分析、案例讲解和编程实现，结合精心设计的321个图表、19个代码示例及6大学习模块，遴选了7个实践案例，促进读者对内容的理解和掌握。此外，本书还提供虚拟机节点服务器配置、基于Apache的Hadoop集群搭建、Spark大数据平台搭建的操作指南，并配套丰富的数字化学习资源和全套教辅资料，形成了理论与实践并重的立体化教学体系。