• Hadoop应用实战
  • Hadoop应用实战
  • Hadoop应用实战
  • Hadoop应用实战
  • Hadoop应用实战
  • Hadoop应用实战
21年品牌 40万+商家 超1.5亿件商品

Hadoop应用实战

新华书店全新正版书籍图书 保证_可开发票_极速发货支持7天无理由

35 7.3折 48 全新

仅1件

浙江嘉兴
认证卖家担保交易快速发货售后保障

作者编者:谭磊//范磊

出版社清华大学

ISBN9787302459279

出版时间2017-01

装帧其他

开本其他

定价48元

货号3748995

上书时间2023-11-28

學源图书专营店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
范磊,前英特尔亚太区大数据总监,知名大数据专家,星环科技联合创始人兼CEO。
谭磊,全球互联网技术、数据运营、数据分析挖掘领域的资深专家。复旦大学计算机学士,美国杜克大学计算机硕士。中国工业设计协会CIO,曾经在美国微软总部服务13年。在数据分析、数据挖掘、云计算、产品研发及管理、互联网广告等方面有丰富的经验。《NewInternet:大数据挖掘》、《数据掘金:电商数据运营》等七本专业书的作者和译者。

目录
第1章 大数据概念的老调重弹
  1.1 互联网和物联网上的数据
    1.1.1 互联网上越来越多的数据被存储
    1.1.2 物联网带来更多的数据
  1.2 数据能为我们做的事
    1.2.1 用户画像和任何企业都需要关注的数据
    1.2.2 大数据的3V、4V和N个
    1.2.3 从数据分析到数据挖掘
    1.2.4 大数据处理的三个维度
  1.3 数据挖掘中的一些基本概念
    1.3.1 分类算法
    1.3.2 聚类算法
    1.3.3 关联算法
    1.3.4 序列算法
    1.3.5 估测和预测
    1.3.6 A/B Test
  1.4 数据仓库
    1.4.1 数据仓库是解决大数据存储的基础设施
    1.4.2 4种不同类型的数据仓库
    1.4.3 国内外数据仓库的不同使用方式
  1.5 不包含在本书中的内容
  1.6 这本书都讲些啥
第2章 Hadoop的前世今生
  2.1 Google的计算框架
    2.1.1 Google公司的三篇论文
    2.1.2 GFS文件系统
    2.1.3 MapReduce的模型和框架
    2.1.4 BigTable数据库
  2.2 Hadoop的诞生
    2.2.1 从GFS到HDFS
    2.2.2 Hadoop的基础计算框架MapReduce
    2.2.3 从BigTable到
  2.3 Hadoop的今天
  2.4 Hadoop大事记
第3章 等同于大数据的Hadoop
  3.1 Hadoop理念
  3.2 Hadoop核心基础架构
    3.2.1 Namenode和Datanode
    3.2.2 Hadoop底层的文件系统HDFS
    3.2.3 Hadoop上的数据库HBase
  3.3 Hadoop上的各种其他组件
    3.3.1 资源分配系统YARN
    3.3.2 灵活的编程语言pig
    3.3.3 数据挖掘工具Mahout
    3.3.4 专注于数据挖掘的R语言
    3.3.5 数据仓库工具Hive
    3.3.6 数据采集系统Flume
  3.4 Spark和Hadoop
    3.4.1 闪电侠出现了
    3.4.2 大数据领域的Taylor Swift
    3.4.3 Spark的架构
    3.4.4 Spark和流处理
第4章 Hadoop的价值
  4.1 大数据时代需要新的架构
    4.1.1 企业IT面临的挑战
    4.1.2 数据分析要考虑的问题
    4.1.3 新的IT架构的需求
  4.2 Hadoop能解决的问题
    4.2.1 Hadoop适合做的事情
    4.2.2 Hadoop对系统数据安全性的保障
    4.2.3 数据流与数据流处理
  4.3 去IOE
  4.4 7种最常见的Hadoop和Spark项目
第5章 Hadoop系统速成
  5.1 Hadoop系统搭建速成
    5.1.1 Hadoop系统的三种运行模式
    5.1.2 单点搭建Hadoop系统
    5.1.3 全分布式(多节点)搭建Hadoop系统
    5.1.4 在Hadoop上编程
    5.1.5 Hadoop系统的典型配置
  5.2 在云上运行
    5.2.1 在金山云上运行Hadoop
    5.2.2 微软的HDInsight
  5.3 Hadoop信息大全
第6章 数据仓库和Hadoop
  6.1 大数据时代的数据系统设计
    6.1.1 分布式系统上的CAP原理
    6.1.2 ACID和BASE概念的区别
    6.1.3 NoSQL
    6.1.4 各种数据源的整合
  6.2 传统数据仓库的瓶颈
    6.2.1 传统数据仓库的瓶颈之一:数据量的问题
    6.2.2 传统数据仓库的瓶颈之二:数据类型的问题
    6.2.3 传统数据仓库的瓶颈之三:数据处理的延时问题
    6.2.4 传统数据仓库的瓶颈之四:数据模型的变化问题
  6.3 Hadoop是解决数据仓库瓶颈的方法
    6.3.1 解决数据量的问题
    6.3.2 解决数据类型的问题
    6.3.3 数据处理的速度问题
    6.3.4 数据模型的变化问题
  6.4 基于Hadoop和Spark的数据仓库解决方案
    6.4.1 基于Hadoop/Spark结构的数据仓库系统架构
    6.4.2 分布式计算引擎
    6.4.3 标准化的编程模型
    6.4.4 数据操作方式的多样性
    6.4.5 OLAP交互式统计分析能力
    6.4.6 多类型数据的处理能力
    6.4.7 实时计算与企业数据总线
    6.4.8 数据探索与挖掘能力
    6.4.9 安全性和权限管理
    6.4.10 混合负载管理
第7章 在不同应用环境下的H
  7.1 在存储密集型环境中的Hadoop
  7.2 在网络密集型环境中的Hadoop
  7.3 在运算密集型环境中的Hadoop
  7.4 Hadoop平台的对比和选择
    7.4.1 为什么会选择商用的Hadoop系统
    7.4.2 商用Hadoop系统之间的选择
第8章 Hadoop在互联网公司的应用
  8.1 Hadoop在腾讯
  8.2 Hadoop在Facebook的应用
  8.3 金山的Hadoop
  8.4 迅雷公司对Hadoop的应用
第9章 Hadoop和行业应用之一
  9.1 Hadoop和运营商
  9.2 Hadoop和公用事业
  9.3 Hadoop和“智慧工商”
  9.4 Hadoop和政务云
第10章 Hadoop与“衣食住行”中的“食”和“行”
  10.1 Hadoop和“食”
  10.2 Hadoop和“行”
第11章 Hadoop和行业应用之三
  11.1 Hadoop和金融
    11.1.1 金融的大数据属性
    11.1.2 金融企业的风险控制
  11.2 Hadoop和医疗
  11.3 Hadoop和物流
  11.4 Hadoop和媒体
第12章 特殊场景下的Hadoop系统
  12.1 Hadoop和实时系统
  12.2 Hadoop平台的一些特殊场景实现
第13章 Hadoop系统的挑战和应对
  13.1 Hadoop系统使用须知
  13.2 Hadoop平台风险点预估
    13.2.1 Namenode 的单点故障和系统的可用性
    13.2.2 集群硬件故障导致平台可靠性与可用性大幅降低
    13.2.3 Hadoop集群大数据安全和隐私问题
  13.3 Hadoop平台硬件故障的应对机制
    13.3.1 监控软硬件故障的应对机制
    13.3.2 断电处理
  13.4 Hadoop平台如何真正做到高可用性
    13.4.1 Hadoop系统的高可用性冗余性保障
    13.4.2 Facebook的Namenode HA的方案
    13.4.3 TDH的Namenode 高可用性冗余解决方案
  13.5 Hadoop平台安全性和隐私性的应对机制
    13.5.1 关于安全和隐私问题的7个事项
    13.5.2 星环的4A级统一安全管理解决方案
    13.5.3 Hadoop系统安全Checklist
第14章 Hadoop的未来
  14.1 Hadoop未来的发展趋势
    14.1.1 对数据系统的不断升级
    14.1.2 机器学习
  14.2 Hadoop和区块链
附录A 专业词汇表
附录B 引用文献
附录C 参考网站一览
附录D HDFS命令行列表
附录E 本书引用案例索引

内容摘要
 谭磊、范磊编著的《Hadoop应用实战》全面地讲述了Hadoop相关领域的重要知识和最新的技术及应用。书中首先介绍了数据挖掘的基础知识、Hadoop的基本框架和相关信息,然后系统地描述了如何在各类行业中用好Hadoop来做数据挖掘。
本书面向的主要读者人群是想了解Hadoop与大数据的技术人员,无论他们是在互联网企业,还是在传统企业;无论他们从事的是技术或者运维工作,专业做数据分析,还是企业的策略官、市场官和运营官,都能从本书中找到各自所需要的内容。
本书可以帮助读者开阔眼界和找到方法,让他们知道如何分析实际商业场景和业务问题,构建基于Hadoop的大数据系统,通过使用数据运营,对公司业务运营带来直接的效益。当然对于学生、教师和有志于从业大数据运营的人员来说,也是一本实用的教材。

精彩内容
第3章等同于大数据的Hadoop在本章中,我们为读者们介绍:? Hadoop的核心理念是什么?
? Hadoop的核心基础框架上包含哪些组件?
? Hadoop的生态系统中还有哪些有用的组件?
? Spark有什么用?
? Spark和Hadoop系统有什么关联?
Hadoop可以处理结构化数据,同时也可以很好地处理非结构化或者半结构化数据。在今天,Hadoop已经成为存储、处理和分析大数据的标准平台。 当人们说要搭建大数据平台时,很多时候默认的就是搭建Hadoop平台。
本章介绍的是Hadoop核心系统上的各个组件,以及系统上相关的其他各种组件。由于本书的重点在于Hadoop技术的实际应用,而不是讲解Hadoop技术,所以因篇幅关系,我们并不会在本章中描述所有的Hadoop组件。
在本章的最后,我们会为读者介绍Spark系统。
3.1Hadoop理念标准的Hadoop系统存储的数据是NoSQL模式的。关于NoSQL模式,我们会在第6章专门讲述。用一句话来说,其实Hadoop可以存储以下任何类型的内容。
(1)结构化数据;(2)半结构化数据,比如日志文档;(3)完全没有结构的内容,比如文本文件;(4)二进制内容,比如音频、视频等。
Hadoop系统有以下特点,如图3-1所示。
(1)可靠性高。
(2)可扩展性好。
(3)性价比高。
(4)灵活。
图3-1Hadoop系统的特性3.2Hadoop核心基础架构Hadoop系统上有很多不同的组件,在本节中我们讨论的是对Hadoop起到重要作用的核心组件。
3.2.1Namenode和DatanodeNamenode又称为MasterNode,主节点;Datanode又称为SlaveNode,从属节点。合在一起,Namenode和Datanode之间有Master和Slave的关系,或者说从属关系①。对于Namenode和Datanode节点还有各种不同的说法,比如“管理节点”和“工作节点”等,都说明数据节点是不可以脱离主节点单独存在的。
在Datanode上,有一个后台的同名进程(Datanode),用以管理数据节点上所有的数据块。通过这个进程,数据节点会定期和主节点通信,汇报本地数据的状况。
在Hadoop系统进行设计的时候,对数据节点作了以下的假设。
(1)数据节点主要用来作存储,额外的开销越小越好;(2)对于普通的硬盘来说,任何硬盘都可能会失败;(3)文件和数据块的任何一个副本都是完全一致的。
因为数据节点上采用的一般是普通硬盘,那么每块硬盘失效的概率大概是每年4%~5%。如果我们的系统上有100个数据节点,而每一个数据节点都有12块硬盘,那么平均每周都会需要更换至少一块硬盘。
正是因为这些假设,默认Hadoop系统上每个文件和数据块都有三个副本,而当中间任何的一个副本出现问题的时候,系统都会把对文件和数据块的访问切换到其他的副本上,并会重新设置使得文件和数据块都保持有三个副本。
对于Hadoop的用户来说,他们并不需要了解数据存储的细节,也不需要知道文件的各个数据块是存储在哪些数据节点上的,他们只需要对文件进行操作,对应的拆分和多个副本的存储是由系统自动完成的。
和Datanode一样,Namenode节点上也有一个同名的后台进程(Namenode),而所有的文件匹配信息则保存在一个名为fsimage的文件中,所有新的操作修改保存在一个名为edits的文件中。edits文件中的内容会定期写入fsimage文件中。
把fsimage和edits文件中的信息综合起来,我们就可以知道所有的数据文件和对应的数据块的具体位置,而这些信息都会保存在Namenode节点的内存中。
主节点和数据节点之间的通信协议如下。
①在计算机领域,Master和Slave是常用的关系词,用来表示主导和跟随的状态。在数据库领域、网络节点上都经常用到。
(1)每隔3s,数据节点都会发送心跳(heartbeat)信息①给Namenode节点,所以Namenode永远都会实时知道哪些数据节点是在线的;(2)每隔6h,数据节点会发送完整的数据块报告给Namenode,所以Namenode会知道系统上各个文件和相关数据块的准确位置。
这里的3s和6h都可以配置,这两个数值是默认值。
文件和数据存储在数据节点的信息是保存在主节点上的,所以对于众多数据节点来说,主节点就像是一个指挥中心或者地址黄页。换句话说,只有主节点才能准确指引用户对每个文件的访问。
那么Namenode节点一旦失效该怎么办?我们会在第13章中专门讨论Namenode节点的高可用性问题。
最后我们来看一下文件是如何写入系统中的,如图3-2所示。
图3-2在Hadoop系统上创建文件的流程图3-2中提到的“合约”是Namenode上的一个小工具,确保文件和副本能够被安全创建。因为在一个Hadoop系统上只有Namenode节点才知道数据文件是如何存储的,所以所有的读请求都是发送给Namenode节点,由它来进行分配的。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP