• Hadoop大数据开发基础
  • Hadoop大数据开发基础
21年品牌 40万+商家 超1.5亿件商品

Hadoop大数据开发基础

全新正版 极速发货

20.5 5.2折 39.8 全新

仅1件

广东广州
认证卖家担保交易快速发货售后保障

作者余明辉,张良均 主编

出版社人民邮电出版社

ISBN9787115370662

出版时间2018-02

装帧平装

开本16开

定价39.8元

货号1201648999

上书时间2024-07-12

徐小智的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
张良均,信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛的发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明12项,主编图书《神经网络实用教程》《数据挖掘:实用案例分析》《Python数据分析与挖掘》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

目录
一章Hadoop介绍1
1.1Hadoop概述1
1.1.1Hadoop简介1
1.1.2Hadoop的发展历史2
1.1.3Hadoop的特点3
1.2Hadoop核心4
1.2.1分布式文件系统——HDFS4
1.2.2分布式计算框架——MapReduce7
1.2.3集群资源管理器——YARN9
1.3Hadoop生态系统12
1.4Hadoop应用场景14
小结15
二章Hadoop集群的搭建及配置16
任务2.1安装及配置虚拟机17
2.1.1创建Linux虚拟机17
2.1.2设置固定IP25
2.1.3远程连接虚拟机27
2.1.4虚拟机在线安装软件29
2.1.5任务实现32
任务2.2安装Java32
2.2.1在Windows下安装Java33
2.2.2在Linux下安装Java35
2.2.3任务实现36
任务2.3搭建Hadoop完全分布式集群36
2.3.1修改配置文件36
2.3.2克隆虚拟机41
2.3.3配置SSH免密码登录43
2.3.4配置时间同步服务44
2.3.5启动关闭集群46
2.3.6监控集群47
小结50
实训50
实训1为Hadoop集群增加一个节点50
实训2编写Shell脚本同步集群时间51
课后练习51
第3章Hadoop基础操作53
任务3.1查看Hadoop集群的基本信息54
3.1.1查询集群的存储系统信息55
3.1.2查询集群的计算资源信息58
任务3.2上传文件到HDFS目录59
3.2.1了解HDFS文件系统59
3.2.2掌握HDFS的基本操作62
3.2.3任务实现65
任务3.3运行MapReduce任务67
3.3.1了解Hadoop官方的示例程序包67
3.3.2提交MapReduce任务给集群运行68
任务3.4管理多个MapReduce任务71
3.4.1查询MapReduce任务72
3.4.2中断MapReduce任务74
小结76
实训77
实训1统计文件中所有单词的平均长度77
实训2查询与中断MapReduce任务77
课后练习78
第4章MapReduce编程入门80
任务4.1使用Eclipse创建MapReduce工程81
4.1.1下载与安装Eclipse81
4.1.2配置MapReduce环境82
4.1.3新建MapReduce工程84
任务4.2通过源码初识MapReduce编程86
4.2.1通俗理解MapReduce原理86
4.2.2了解MR实现词频统计的执行流程88
4.2.3读懂官方提供的WordCount源码89
任务4.3编程实现按日期统计访问次数94
4.3.1分析思路与处理逻辑94
4.3.2编写核心模块代码95
4.3.3任务实现97
任务4.4编程实现按访问次数排序99
4.4.1分析思路与处理逻辑99
4.4.2编写核心模块代码100
4.4.3任务实现102
小结104
实训104
实训1获取成绩表的高分记录104
实训2对两个文件中的数据进行合并与去重105
课后练习107
第5章MapReduce进阶编程110
任务5.1筛选日志文件并生成序列化文件111
5.1.1MapReduce输入格式111
5.1.2MapReduce输出格式113
5.1.3任务实现113
任务5.2Hadoop Java API读取序列化日志文件115
5.2.1FileSystem API管理文件夹115
5.2.2FileSystem API操作文件119
5.2.3FileSystem API读写数据121
5.2.4任务实现123
任务5.3优化日志文件统计程序124
5.3.1自定义键值类型124
5.3.2初步探索Combiner128
5.3.3浅析Partitioner130
5.3.4自定义计数器132
5.3.5任务实现134
任务5.4Eclipse提交日志文件统计程序137
5.4.1传递参数137
5.4.2Hadoop辅助类ToolRunner139
5.4.3Eclipse自动打包并提交任务140
小结144
实训144
实训1统计全球每年的高气温和低气温144
实训2筛选气温在15~25℃之间的数据145
课后练习146
第6章项目案例:电影网站用户性别预测151
任务6.1认识KNN算法152
6.1.1KNN算法简介152
6.1.2KNN算法原理及流程152
任务6.2数据预处理154
6.2.1获取数据154
6.2.2数据变换155
6.2.3数据清洗160
6.2.4划分数据集163
任务6.3实现用户性别分类167
6.3.1实现思路167
6.3.2代码实现169
任务6.4评价分类结果的准确性179
6.4.1评价思路179
6.4.2实现分类评价180
6.4.3寻找优K值184
小结188
参考文献189

内容摘要
本书以任务为导向,较为全面地介绍了Hadoop大数据技术的相关知识。全书共6章,具体内容包括Hadoop介绍、Hadoop集群的搭建及配置、Hadoop基础操作、MapReduce编程入门、MapReduce进阶编程、项目案例:电影网站用户性别预测。本书的2~5章包含了实训与课后练习,通过练习和操作实践,帮助读者巩固所学的内容。本书可以作为高校大数据技术类专业的教材,也可作为大数据技术爱好者的自学用书。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP