• Hadoop应用实战
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

Hadoop应用实战

二手书,此书是一本无赠品和附件,非套装,购买套装请联系客服

10.8 2.3折 48 八五品

库存12件

山东济南
认证卖家担保交易快速发货售后保障

作者谭磊;范磊

出版社清华大学出版社

出版时间2017-01

版次1

装帧其他

货号9787302459279

上书时间2024-09-23

古籍旧书院

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
图书标准信息
  • 作者 谭磊;范磊
  • 出版社 清华大学出版社
  • 出版时间 2017-01
  • 版次 1
  • ISBN 9787302459279
  • 定价 48.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 纯质纸
  • 页数 279页
  • 字数 99999千字
【内容简介】
本书全面地讲述了Hadoop相关领域的重要知识和*的技术及应用。书中首先介绍了数据挖掘的基础知识、Hadoop的基本框架和相关信息,然后系统地描述了如何在各类行业中用好Hadoop来做数据挖掘。
  本书面向的主要读者人群是想了解Hadoop与大数据的技术人员,无论他们是在互联网企业,还是在传统企业;无论他们从事的是技术或者运维工作,专业做数据分析,还是企业的策略官、市场官和运营官,都能从本书中找到各自所需要的内容。
  本书可以帮助读者开阔眼界和找到方法,让他们知道如何分析实际商业场景和业务问题,构建基于Hadoop的大数据系统,通过使用数据运营,对公司业务运营带来直接的效益。当然对于学生、教师和有志于从业大数据运营的人员来说,也是一本实用的教材。
【作者简介】
谭磊,复旦大学计算机学士,美国杜克大学计算机硕士,《New Internet:大数据挖掘》和《区块链2.0》等8本专业书籍的作者和译者,NABA北美区块链协会联合创始人,中国工业设计协会CIO,复旦大学软件学院硕士导师,杭州数字化产业综合服务中心主任。在美国微软服务时间超过13年,曾经担任多家公司多个层级技术管理岗位,在搜索、互联网广告、数据挖掘、电子商务等方面有丰富的经验,是互联网技术领域ZI深专家。

范磊,前英特尔亚太区大数据总监,知名大数据专家,星环科技联合创始人兼CEO。
【目录】
目录

第1 章

大数据概念的老调重弹 ........ 1

1.1 互联网和物联网上的数据  2

1.1.1 互联网上越来越多的数据被存储 . 2

1.1.2 物联网带来更多的数据

................. 4

1.2 数据能为我们做的事 ........ 5

1.2.1 用户画像和任何企业都需要关注的数据

........................ 6

1.2.2 大数据的3V、4V 和N 个V ........ 7

1.2.3 从数据分析到数据挖掘

................. 8

1.2.4 大数据处理的三个维度

................. 9

1.3 数据挖掘中的一些基本概念

................... 11

1.3.1 分类算法 .... 11

1.3.2 聚类算法 .... 12

1.3.3 关联算法 .... 13

1.3.4 序列算法 .... 14

1.3.5 估测和预测  14

1.3.6 A/B Test ..... 15

1.4 数据仓库 ................

16

1.4.1 数据仓库是解决大数据存储的基础设施

...................... 17

1.4.2 4 种不同类型的数据仓库

............ 18

1.4.3 国内外数据仓库的不同使用方式

......... 19

1.5 不包含在本书中的内容 .. 21

1.6 这本书都讲些啥 .... 22

第2 章 Hadoop 的前世今生 ........... 25

2.1 Google 的计算框架 ......... 26

2.1.1 Google 公司的三篇论文

.............. 26

2.1.2 GFS 文件系统 ..... 27

2.1.3 MapReduce 的模型和框架

.......... 28

2.1.4 BigTable 数据库 .. 29

2.2 Hadoop 的诞生 ...... 30

2.2.1 从GFS 到HDFS . 30

2.2.2 Hadoop 的基础计算框架MapReduce ...

31

2.2.3 从BigTable 到HBase

.................. 33

2.3 Hadoop 的今天 ...... 33

2.4 Hadoop 大事记 ...... 35

第3 章

等同于大数据的Hadoop ... 37

3.1 Hadoop 理念 .......... 38

3.2 Hadoop 核心基础架构 .... 39

3.2.1 Namenode 和Datanode

................ 39

3.2.2 Hadoop 底层的文件系统HDFS .. 40

3.2.3 Hadoop 上的数据库HBase .........

42

3.3 Hadoop 上的各种其他组件

..................... 44

3.3.1 资源分配系统YARN

.................. 44

3.3.2 灵活的编程语言pig.....................

46

3.3.3 数据挖掘工具Mahout

................. 48

3.3.4 专注于数据挖掘的R 语言 ..........

48

3.3.5 数据仓库工具Hive

...................... 49

3.3.6 数据采集系统Flume

................... 51

3.4 Spark 和Hadoop .... 51

3.4.1 闪电侠出现了 ...... 51

3.4.2 大数据领域的Taylor Swift

......... 52

3.4.3 Spark 的架构 ....... 53

3.4.4 Spark 和流处理 ... 54

第4 章 Hadoop 的价值 .................. 57

4.1 大数据时代需要新的架构

....................... 58

4.1.1 企业IT 面临的挑战

..................... 58

4.1.2 数据分析要考虑的问题

............... 59

4.1.3 新的IT 架构的需求

..................... 60

4.2 Hadoop 能解决的问题 .... 61

4.2.1 Hadoop 适合做的事情

................. 61

4.2.2 Hadoop 对系统数据安全性的保障 .......

62

4.2.3 数据流与数据流处理

................... 62

4.3 去IOE

.................... 65

4.4 7 种最常见的Hadoop 和Spark 项目 ...... 71

第5 章 Hadoop 系统速成 .............. 75

5.1 Hadoop 系统搭建速成 .... 76

5.1.1 Hadoop 系统的三种运行模式 ..... 76

5.1.2 单点搭建Hadoop 系统

................ 76

5.1.3 全分布式(多节点)搭建Hadoop 系统 ... 80

5.1.4 在Hadoop 上编程 ........................

83

5.1.5 Hadoop 系统的典型配置 .............

83

5.2 在云上运行Hadoop ........

85

5.2.1 在金山云上运行Hadoop

............. 86

5.2.2 微软的HDInsight  89

5.3 Hadoop 信息大全 .. 90

第6 章

数据仓库和Hadoop........... 93

6.1 大数据时代的数据系统设计

................... 94

6.1.1 分布式系统上的CAP 原理 .........

94

6.1.2 ACID 和BASE 概念的区别

........ 95

6.1.3 NoSQL ....... 96

6.1.4 各种数据源的整合

..................... 100

6.2 传统数据仓库的瓶颈 .... 101

6.2.1 传统数据仓库的瓶颈之一:数据量的问题

................ 101

6.2.2 传统数据仓库的瓶颈之二:数据类型的问题

............ 102

6.2.3 传统数据仓库的瓶颈之三:数据处理的延时问题

.... 102

6.2.4 传统数据仓库的瓶颈之四:数据模型的变化问题

.... 103

6.3 Hadoop 是解决数据仓库瓶颈的方法 .. 104

6.3.1 解决数据量的问题

..................... 104

6.3.2 解决数据类型的问题

................. 105

6.3.3 数据处理的速度问题

................. 106

6.3.4 数据模型的变化问题

................. 107

6.4 基于Hadoop 和Spark 的数据仓库解决方案 .

108

6.4.1 基于Hadoop/Spark 结构的数据仓库系统架构...........

108

6.4.2 分布式计算引擎  109

6.4.3 标准化的编程模型

..................... 110

6.4.4 数据操作方式的多样性

............. 110

6.4.5 OLAP 交互式统计分析能力 ..... 110

6.4.6 多类型数据的处理能力

............. 111

6.4.7 实时计算与企业数据总线 .........

111

6.4.8 数据探索与挖掘能力

................. 111

6.4.9 安全性和权限管理

..................... 112

6.4.10 混合负载管理 .. 112

第7 章

在不同应用环境下的Hadoop .... 115

7.1 在存储密集型环境中的Hadoop

........... 116

7.2 在网络密集型环境中的Hadoop

........... 118

7.3 在运算密集型环境中的Hadoop

........... 121

7.4 Hadoop 平台的对比和选择

................... 127

7.4.1 为什么会选择商用的Hadoop 系统 .... 127

7.4.2 商用Hadoop 系统之间的选择 ..

130

第8 章 Hadoop 在互联网公司的应用 .... 133

8.1 Hadoop 在腾讯 .... 134

8.2 Hadoop 在Facebook 的应用

................. 138

8.3 金山的Hadoop .... 140

8.4 迅雷公司对Hadoop 的应用

.................. 144

第9 章 Hadoop 和行业应用之一 . 147

9.1 Hadoop 和运营商  148

9.2 Hadoop 和公用事业 ...... 163

9.3 Hadoop 和“智慧工商”

....................... 175

9.4 Hadoop 和政务云  183

第10 章 Hadoop 与“衣食住行”中的“食”和“行” .... 191

10.1 Hadoop 和“食” ........ 192

10.2 Hadoop 和“行” ........ 201

第11 章 Hadoop 和行业应用之三 ......... 209

11.1 Hadoop 和金融 .. 210

11.1.1 金融的大数据属性

................... 210

11.1.2 金融企业的风险控制

............... 211

11.2 Hadoop 和医疗 .. 221

11.3 Hadoop 和物流 .. 226

11.4 Hadoop 和媒体 .. 229

第12 章

特殊场景下的Hadoop 系统 ..... 237

12.1 Hadoop 和实时系统 .... 238

12.2 Hadoop 平台的一些特殊场景实现 ..... 243

第13 章 Hadoop 系统的挑战和应对 ...... 247

13.1 Hadoop 系统使用须知  248

13.2 Hadoop 平台风险点预估

..................... 250

13.2.1 Namenode 的单点故障和系统的可用性

................... 250

13.2.2 集群硬件故障导致平台可靠性与可用性大幅降低  251

13.2.3 Hadoop 集群大数据安全和隐私问题

........................ 252

13.3 Hadoop 平台硬件故障的应对机制 ..... 252

13.3.1 监控软硬件故障的应对机制 ... 253

13.3.2 断电处理  255

13.4 Hadoop 平台如何真正做到高可用性 . 255

13.4.1 Hadoop 系统的高可用性冗余性保障

........................ 256

13.4.2 Facebook 的Namenode HA 的方案 .. 256

13.4.3 TDH 的Namenode 高可用性冗余解决方案

............. 257

13.5 Hadoop 平台安全性和隐私性的应对机制 ...

259

13.5.1 关于安全和隐私问题的7 个事项 ..... 259

13.5.2 星环的4A 级统一安全管理解决方案

....................... 259

13.5.3 Hadoop 系统安全Checklist

..... 262

第14 章 Hadoop 的未来 .............. 263

14.1 Hadoop 未来的发展趋势

..................... 264

14.1.1 对数据系统的不断升级

........... 264

14.1.2 机器学习  264

14.2 Hadoop 和区块链 ........ 265

附录A 专业词汇表 ....................... 267

附录B 引用文献 . 271

附录C 参考网站一览 ................... 273

附录D HDFS 命令行列表 ............ 275

附录E 本书引用案例索引 ............ 278
点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP