开源大数据分析引擎Impala实战

26.4 4.5折 59 九品

仅1件

北京昌平

认证卖家担保交易快速发货售后保障

作者贾传青著

出版社清华大学出版社

出版时间2015-03

版次1

装帧平装

货号A5

上书时间2024-11-20

旧书香书城

十年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

党史热点面对面 ¥17.49

矿物加工技术经济 ¥29.79

教育部高等学校地矿学科教学指导委员会采矿工程专业规划教材：岩土边坡稳定性分析 ¥15.17

浦江一湾--上海新江湾城的前世今生 ¥16.90

从身份到契约：何兆武谈哲学 ¥22.90

一个澳大利亚人在中国 ¥65.26

上海石库门里弄房屋简史 ¥23.74

大篆千字文——王延林金文字帖 ¥48.29

2017全国硕士研究生招生考试思想政治理论冲刺背诵核心考点 ¥12.66

商品详情

品相描述：九品

图书标准信息

作者贾传青著
出版社清华大学出版社
出版时间 2015-03
版次 1
ISBN 9787302390022
定价 59.00元
装帧平装
开本 16开
纸张胶版纸
页数 329页
字数 557千字

【内容简介】: 　　Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala1.0版比原来基于MapReduce的HiveSQL查询速度提升3～90倍，因此，Impala有可能完全取代Hive。作者基于自己在本职工作中应用Impala的实践和心得编写了《开源大数据分析引擎Impala实战》。
　　《开源大数据分析引擎Impala实战》共分10章，全面介绍开源大数据分析引擎Impala的技术背景、安装与配置、架构、操作方法、性能优化，以及最富技术含量的应用设计原则和应用案例。《开源大数据分析引擎Impala实战》紧扣目前计算技术发展热点，适合所有大数据分析人员、大数据开发人员和大数据管理人员参考使用。
【目录】: 第1章Impala概述、安装与配置
1.1Impala概述
1.2ClouderaManager安装准备
1.3CM及CDH安装
1.4Hive安装
1.5Impala安装

第2章Impala入门示例
2.1数据加载
2.2数据查询
2.3分区表
2.4外部分区表
2.5笛卡尔连接
2.6更新元数据

第3章Impala概念及架构
3.1Impala服务器组件
3.1.1ImpalaDaemon
3.1.2ImpalaStatestore
3.1.3ImpalaCatalog
3.2Impala应用编程
3.2.1ImpalaSQL方言
3.2.2Impala编程接口概述
3.3与Hadoop生态系统集成
3.3.1与Hive集成
3.3.2与HDFS集成
3.3.3使用HBase

第4章SQL语句
4.1注释
4.2数据类型
4.2.1BIGINT
4.2.2BOOLEAN
4.2.3DOUBLE
4.2.4FLOAT
4.2.5INT
4.2.6REAL
4.2.7SMALLINT
4.2.8STRING
4.2.9TIMESTAMP
4.2.10TINYINT
4.3常量
4.3.1数值常量
4.3.2字符串常量
4.3.3布尔常量
4.3.4时间戳常量
4.3.5NULL
4.4SQL操作符
4.4.1BETWEEN操作符
4.4.2比较操作符
4.4.3IN操作符
4.4.4ISNULL操作符
4.4.5LIKE操作符
4.4.6REGEXP操作符
4.5模式对象和对象名称
4.5.1别名
4.5.2标示符
4.5.3数据库
4.5.4表
4.5.5视图
4.5.6函数
4.6SQL语句
4.6.1ALTERTABLE
4.6.2ALTERVIEW
4.6.3COMPUTESTATS
4.6.4CREATEDATABASE
4.6.5CREATEFUNCTION
4.6.6CREATETABLE
4.6.7CREATEVIEW
4.6.8DESCRIBE
4.6.9DROPDATABASE
4.6.10DROPFUNCTION
4.6.11DROPTABLE
4.6.12DROPVIEW
4.6.13EXPLAIN
4.6.14INSERT
4.6.15INVALIDATEMETADATA
4.6.16LOADDATA
4.6.17REFRESH
4.6.18SELECT
4.6.19SHOW
4.6.20USE
4.7内嵌函数
4.7.1数学函数
4.7.2类型转换函数
4.7.3时间和日期函数
4.7.4条件函数
4.7.5字符串函数
4.7.6特殊函数
4.8聚集函数
4.8.1AVG
4.8.2COUNT
4.8.3GROUP_CONCAT
4.8.4MAX
4.8.5MIN
4.8.6NDV
4.8.7SUM
4.9用户自定义函数UDF
4.9.1UDF概念
4.9.2安装UDF开发包
4.9.3编写UDF
4.9.4编写UDAF
4.9.5编译和部署UDF
4.9.6UDF性能
4.9.7创建和使用UDF示例
4.9.8UDF安全
4.9.9ImpalaUDF的限制
4.10ImpalaSQL&HiveQL
4.11将SQL移植到Impala上

第5章Impalashell
5.1命令行选项
5.2连接到Impalad
5.3运行命令
5.4命令参考
5.5查询参数设置

第6章Impala管理
6.1准入控制和查询队列
6.1.1准入控制概述
6.1.2准入控制和YARN
6.1.3并发查询限制
6.1.4准入控制和Impala客户端协同工作
6.1.5配置准入控制
6.1.6使用准入控制指导原则
6.2使用YARN资源管理(CDH5)
6.2.1Llama进程
6.2.2检查计算的资源和实际使用的资源
6.2.3资源限制如何生效
6.2.4启用Impala资源管理
6.2.5资源管理相关impala-shell参数
6.2.6Impala资源管理的限制
6.3为进程，查询，会话设定超时限制
6.4通过代理实现Impala高可用性
6.5管理磁盘空间

第7章Impala存储
7.1文件格式选择
7.2Text
7.2.1查询性能
7.2.2创建文本表
7.2.3数据文件
7.2.4加载数据
7.2.5LZO压缩
7.3Parquet
7.3.1创建Parquet表
7.3.2加载数据
7.3.3查询性能
7.3.4Snappy/Gzip压缩
7.3.5与其他组件交换Parquet数据文件
7.3.6Parquet数据文件组织方式
7.4Avro
7.4.1创建Avro表
7.4.2使用Hive创建的Avro表
7.4.3通过JSON指定Avro模式
7.4.4启用压缩
7.4.5模式进化
7.5RCFile
7.5.1创建RCFile表和加载数据
7.5.2启用压缩
7.6SequenceFile
7.6.1创建和加载数据
7.6.2启用压缩
7.7HBase
7.7.1支持的Hbase列类型
7.7.2性能问题
7.7.3适用场景
7.7.4数据加载
7.7.5启用压缩
7.7.6限制
7.7.7示例

第8章Impala分区
8.1分区技术适用场合
8.2分区表相关SQL语句
8.3分区修剪
8.4分区键列
8.5使用不同的文件格式

第9章Impala性能优化
9.1最佳实践
9.2连接查询优化
9.3使用统计信息
9.4基准测试
9.5控制资源使用
9.6性能测试
9.7使用EXPLAIN信息
9.8使用PROFILE信息

第10章Impala设计原则与应用案例
10.1设计原则
10.2应用案例

点击展开点击收起

— 没有更多了 —