• hadoop与spark入门 大中专理科计算机 覃雄派,陈跃国 编 新华正版
  • hadoop与spark入门 大中专理科计算机 覃雄派,陈跃国 编 新华正版
21年品牌 40万+商家 超1.5亿件商品

hadoop与spark入门 大中专理科计算机 覃雄派,陈跃国 编 新华正版

41.9 7.1折 59 全新

库存4件

河北保定
认证卖家担保交易快速发货售后保障

作者覃雄派,陈跃国 编

出版社清华大学出版社

ISBN9787302613633

出版时间2022-11

版次1

装帧平装

开本16

页数252页

字数367千字

定价59元

货号xhwx_1202794013

上书时间2024-09-27

浩子书屋

九年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

"本书篇幅不长,内容易懂,有利于快速入门。
兼顾讲解和具体作,实践强,使读者兴趣盎然,更有成感。
利用虚拟化技术,无须搭建物理集群,在一台计算机上完成分布式部署,万事不求人,玩转hadoop和park。
"

目录:

章vmware与虚拟机1

1.1vmware简介1

1.2vmware的安装2

1.3vmware的网络配置2

1.3.1vm0网卡配置2

1.3.2vm1网卡配置3

1.3.3vm8网卡配置3

1.4windows环境下对vm8的dns进行配置6

1.5利用管理员权限编辑网卡7

1.6结7

1.7思题8

参文献8

第2章centos作系统安装9

2.1新建vmware虚拟机9

2.2安装centos14

2.3配置yum18

2.4为centos安装图形用户界面20

2.5centos的网络配置20

2.5.1虚拟机的网络配置20

2.5.2在centos作系统里对网卡进行设置21

2.6samba配置23

2.7配置sshd26

2.8重新启动虚拟机需要执行的命令27

2.9思题28

第3章hadoop入门29

3.1hadoop简介29

3.2hdfs30

3.2.1写文件31

3.2.2读文件32

3.2.3secondary namenode介绍33

3.3mapreduce工作34

3.3.1mapreduce执行引擎35

3.3.2mapreduce计算模型37

3.3.3hadoop 1.0的应用38

3.4hadoop生态系统38

3.5hadoop 2.040

3.5.1hadoop 1.0的优势和局限40

3.5.2从hadoop 1.0到hadoop 2.041

3.5.3yarn41

3.5.4yarn的优势43

3.6思题44

第4章hadoop安装与hdfs、mapreduce实验45

4.1安装k45

4.2新建虚拟机集群47

4.2.1网络配置小结47

4.2.2配置各个虚拟机别名48

4.2.3配置各个虚拟机的/etc/hosts文件48

4.3无密码ssh登录49

4.4hadoop安装、配置和启动52

4.4.1core-site.xml配置文件54

4.4.2hdfs-site.xml配置文件54

4.4.3mapred-site.xml配置文件55

4.4.4yarn-site.xml配置文件56

4.4.5配置hadoop-env.sh脚本文件59

4.4.6配置yarn-env.sh脚本文件59

4.4.7主机配置59

4.5格式化hdfs60

4.6启动hadoop60

4.7报告hdfs的基本信息62

4.8使用志62

4.9hadoop管理界面63

4.10hadoop测试63

4.10.1hdfs常用文件作命令63

4.10.2测试wordcount程序64

4.11配置history server64

4.12若干问题解决65

4.13hdfs java程序分析69

4.14wordcount程序代码简单分析73

4.15mapreduce sort76

4.16mapreduce java开发环境配置76

4.17思题79

参文献80

第5章hbase简介、部署与开发81

5.1hbase简介81

5.2hbase访问接81

5.3hbase的数据模型82

5.4hbase系统架构83

5.5hbase存储格式85

5.6在hbase系统上运行mapreduce87

5.7hbase安装、配置与运行87

5.8启动hbase并且测试90

5.9使用hbase shell92

5.10hbase java实例分析93

5.11若干问题解决97

5.12思题99

参文献99

第6章hive数据仓库100

6.1hive简介100

6.2hive数据模型102

6.3hive安装、配置和运行103

6.3.1使用mysql进行元信息管理104

6.3.2安装和配置hive105

6.3.3启动hive108

6.4若干问题解决110

6.5hiveserver2与beeline112

6.6hive安装问题115

6.7hwi服务115

6.8metastore服务116

6.9hive的java开发116

6.10tez简介119

6.10.1hadoop 2.0上的交互式查询引擎hive on tez119

6.10.2把数据处理逻辑建模成一个dag连接起来的任务121

6.11hadoop台上的列存储技术121

6.11.1列存储的优势121

6.11.2parquet列存储格式121

6.12思题126

参文献126

第7章spark及其生态系统127

7.1spark简介127

7.1.1spark软件架构127

7.1.2spark的主要优势128

7.2hadoop的局限和spark的诞生129

7.3spark的特130

7.4spark生态系统131

7.5rdd及其处理132

7.5.1dag、宽依赖与窄依赖133

7.5.2dag的调度执行134

7.6spark的部署135

7.7spark sql136

7.8spark的应用案例137

7.9结138

7.10思题138

参文献138

第8章spark的安装、部署与运行139

8.1spark的安装、配置与运行139

8.2启动spark142

8.2.1启动spark-sql shell运行sql144

8.2.2启动pyspark shell运行sql144

8.2.3用pyspark shell进行数据处理145

8.2.4启动scala shell运行wordcount145

8.2.5启动scala shell运行sql(本地文件)146

8.2.6启动scala shell运行sql(hdfs文件)147

8.2.7配置和启动thrift server147

8.2.8错误分析150

8.3在windows上用eclie调试spark java程序151

8.4在windows上安装maven和配置eclie157

8.5思题160

参文献160

第9章spark sql162

9.1spark sql简介162

9.2查询本地文件、hdfs文件以及hdfs parquet列存储格式文件163

9.3内置实例分析与java开发166

9.3.1通过sql explorer插件存取spark sql166

9.3.2bc java编程167

9.4思题170

参文献170

0章spark mllib171

10.1mllib简介171

10.2启动台软件172

10.3分类实例173

10.4聚类实例178

10.5线回归180

10.6协同过滤181

10.7思题184

参文献185

1章spark graphx186

11.1graphx简介186

11.2pagerank188

11.3思题190

参文献190

2章flume入门191

12.1flume简介191

12.2flume的特192

12.3flume的系统架构和运行机制192

12.4flume的安装、配置和运行195

12.5使用cat完成数据注入的实例197

12.6以hbase为目标数据库的实例198

12.7以hive为目标数据库的实例200

12.8java开发204

12.9如何安装cat204

12.10思题204

参文献204

3章kafka入门206

13.1kafka简介206

13.1.1话题和分区207

13.1.2数据分布与存储208

13.1.3代理209

13.1.4生产者209

13.1.5消费者209

13.1.6消息的顺序210

13.1.7kafka的应用场景211

13.1.8小结213

13.2zookeeper与kafka213

13.3kafka的流数据处理组件kafka streams214

13.4kafka在系统中的位置214

13.5kafka的安装、配置和运行215

13.5.1单broker部署215

13.5.2多broker部署217

13.5.3测试容错219

13.6安装问题220

13.7kafka的java编程220

13.8kafka的综合实例227

13.9kafka与flume的配合228

13.10流处理与批处理的结合231

13.11思题232

参文献232

内容简介:

本书为一本大数据技术的入门书籍,介绍hadoop大数据台和park大数据台及相关工具的,以及如何进行部署和简单开发。全书包含13章:、2章介绍如何为深入学hadoop和park做环境准备,包括vmware虚拟机的创建和cento作系统安装。第3~6章介绍hadoop大数据台的基本,包括hdf、mapreduce计算模型、hbae数据库,以及hive数据仓库的、部署方法和开发技术。第7~11章介绍park大数据台的基本,包括弹分布式数据集、转换与动作作、宽依赖与窄依赖、有向无环图表达的作业及其处理过程等,并且介绍了park core、park ql、park mllib、park graphx的部署和开发技术。后两章介绍了flume(2章)和kafka(3章)两个工具,flume用于大量志的收集和处理,kafka用于对大量快速到达的数据进行及时、可靠、暂时的存储。本书适合高等院校高年级本科生以及硕士使用,也可以供非计算机专业及相关领域技术人员参。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP