大数据实践
全新正版 极速发货
¥
36.77
6.3折
¥
58
全新
库存4件
作者袁晓东 主编
出版社清华大学出版社
ISBN9787302494256
出版时间2018-06
装帧平装
开本16开
定价58元
货号1201725098
上书时间2024-05-30
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
袁晓东,数据库和大数据专家,1998年毕业于南京大学计算机系,获软件博士学位。曾任职于Oracle公司纽约分部、趋势科技南京研发中心,现为南京市领军型科技创业人才,云白科技创始人,江苏省计算机学会软件专委会委员,东南大学研究生院校外导师。
目录
第1章大数据概述
1.1从数据库到大数据库1
1.1.1关系型数据库1
1.1.2大数据库2
1.2大数据库的类型4
1.3大数据库的应用5
习题18
参考文献8
第2章Hadoop基础
2.1Hadoop简介9
2.2Hadoop部署14
2.2.1单节点部署14
2.2.2伪分布式部署18
2.2.3集群部署25
2.3Hadoop常用命令33
2.3.1用户命令33
2.3.2管理命令35
2.3.3启动/关闭命令36
2.4HDFS常用命令38
2.4.1用户命令38
2.4.2管理命令39
实验1Hadoop实验41
习题242
参考文献42
第3章Hadoop数据库HBase
3.1HBase简介43
3.1.1体系架构43
3.1.2数据模型46
3.1.3主要特性51
3.2HBase部署51
3.2.1准备工作51
3.2.2单节点部署53
3.2.3伪分布式部署55
3.2.4集群部署57
3.2.5版本升级61
3.3HBase配置63
3.3.1配置文件63
3.3.2主要配置项65
3.3.3配置建议69
3.3.4客户端配置72
3.4HBaseShell72
3.4.1交互模式73
3.4.2非交互模式82
3.5HBase模式设计84
3.5.1设计准则84
3.5.2列族属性88
3.5.3表属性91
3.5.4设计实例94
3.6HBase安全97
3.6.1安全访问配置97
3.6.2数据访问权限控制99
实验2HBase集群搭建100
习题3101
参考文献102
第4章数据仓库工具Hive
4.1Hive简介103
4.1.1工作原理104
4.1.2体系架构104
4.1.3数据模型106
4.2Hive部署108
4.2.1Hive部署模式109
4.2.2Hive内嵌模式部署110
4.2.3Hive本地和远程模式部署113
4.3Hive配置115
4.4Hive接口117
4.4.1HiveShell接口117
4.4.2HiveWeb接口119
4.5HiveSQL122
4.5.1数据类型122
4.5.2DDL语句122
4.5.3DML语句137
4.6Hive操作实例146
实验3Hive实验147
习题4150
参考文献150
第5章内存大数据计算框架Spark
5.1Spark简介151
5.1.1Spark概览151
5.1.2Spark生态系统BDAS152
5.1.3Spark架构与原理153
5.2Spark部署155
5.2.1准备工作155
5.2.2Spark单节点部署156
5.2.3Spark集群部署157
5.3Spark配置169
5.3.1Spark属性169
5.3.2环境变量配置171
5.3.3日志配置171
5.3.4查看配置172
5.4SparkRDD173
5.4.1RDD特征174
5.4.2RDD转换操作174
5.4.3RDD依赖175
5.4.4RDD行动操作177
5.5SparkShell177
5.5.1准备工作177
5.5.2启动SparkShell178
5.5.3创建RDD179
5.5.4转换RDD180
5.5.5执行RDD作业181
实验4SparkStandalone集群搭建184
习题5185
参考文献185
第6章SparkSQL
6.1SparkSQL简介186
6.1.1SparkSQL概览186
6.1.2SparkSQL特性188
6.1.3SparkSQL架构与原理188
6.1.4和Hive的兼容性190
6.1.5数据类型191
6.2分布式SQL引擎192
6.2.1SparkSQL配置192
6.2.2SparkSQLCLI195
6.2.3ThriftJDBC/ODBCServer的搭建与测试198
6.3使用DataFrameAPI处理结构化数据201
实验5ThriftJDBC/ODBCServer的搭建与测试205
习题6206
参考文献206
附录A大数据和人工智能实验环境
附录BHadoop环境要求
附录C名词解释
内容摘要
本书内容涵盖了目前使用很为广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统:分布式大数据处理系统Hadoop、数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL,详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式给出了详细步骤,常用命令也都有具体示例介绍,是一本实操性很强的工具书,能帮助初学者快速掌握这几款常用的大数据处理系统。 本书以浅显易懂的语言风格和图文并茂的操作示例引领读者迈入大数据实践之门,可以作为培养应用型人才的课程教材,也可作为开发人员的自学教材和参考手册。
— 没有更多了 —
以下为对购买帮助不大的评价