云计算与大数据技术理论及应用(大数据技术与应用专业规划教材)
全新正版 极速发货
¥
61.13
6.9折
¥
89
全新
库存3件
作者编者:林伟伟//彭绍亮
出版社清华大学
ISBN9787302524458
出版时间2019-07
装帧其他
开本其他
定价89元
货号1201910965
上书时间2024-10-03
商品详情
- 品相描述:全新
- 商品描述
-
目录
第1章绪论
1.1分布式计算概念
1.1.1定义
1.1.2优缺点
1.1.3经典的分布式计算项目
1.2分布式计算模式
1.2.1单机计算
1.2.2并行计算
1.2.3网络计算
1.2.4对等计算
1.2.5集群计算
1.2.6网格计算
1.2.7云计算
1.2.8雾计算
1.2.9边缘计算
1.2.10大数据计算
1.3CAP定理
1.3.1CAP定理历史
1.3.2CAP定理应用
1.3.3CAP问题的实例
习题
第2章分布式计算编程基础
2.1进程间通信
2.1.1进程间通信概念
2.1.2IPC原型与示例
2.2Socket编程
2.2.1Socket概述
2.2.2流式Socket编程
2.3RMI编程
2.3.1RMI概述
2.3.2RMI基本分布式应用
2.4P2P编程
习题
第3章云计算原理与技术
3.1云计算概述
3.1.1云计算起源
3.1.2云计算的概念与定义
3.1.3云计算与分布式计算
3.1.4云计算分类
3.2云计算关键技术
3.2.1体系结构
3.2.2数据存储
3.2.3计算模型
3.2.4资源调度
3.2.5虚拟化
3.3Google云计算原理
3.3.1GFS
3.3.2MapReduce
3.3.3BigTable
3.3.4Dremel
3.4亚马逊云服务
3.4.1亚马逊云平台存储架构
3.4.2EC2、S3、SimpleDB等组件
3.5基于亚马逊云的大数据分析案例
3.5.1亚马逊云平台存储架构
3.5.2亚马逊云的Web服务器日志大数据分析案例
3.6阿里云
3.6.1飞天开放平台架构
3.6.2开放云计算服务ECS
3.6.3开放存储服务OSS和CDN
3.6.4开放结构化数据服务OTS
3.6.5关系型数据库(RDS)
3.6.6开放数据处理服务(ODPS)
习题
第4章云计算编程实践
4.1CloudSim体系结构和API介绍
4.1.1CloudSim体系结构
4.1.2CloudSim 3.0 API介绍
4.2CloudSim环境搭建和使用方法
4.2.1环境配置
4.2.2运行样例程序
4.3CloudSim扩展编程
4.3.1调度策略的扩展
4.3.2仿真核心代码
4.3.3平台重编译
4.4CloudSim的编程实践
4.4.1CloudSim任务调度编程
4.4.2CloudSim网络编程
4.4.3CloudSim能耗编程
4.5MultiRECloudSim
4.5.1MultiRECloudSim体系结构和原理
4.5.2MultiRECloudSim的API
4.5.3MultiRECloudSim的使用方法
4.6云环境任务调度编程实践
4.6.1云计算的资源管理
4.6.2云任务调度模拟实验
习题
第5章云存储技术
5.1存储基础知识
5.1.1存储组网形态
5.1.2RAID
5.1.3磁盘热备
5.1.4快照
5.1.5数据分级存储概念
5.2云存储概念与技术原理
5.2.1分布式存储
5.2.2存储虚拟化
5.3对象存储技术
5.3.1对象存储架构
5.3.2传统块存储与对象存储
5.3.3对象
5.3.4对象存储系统组成
5.4存储技术趋势
5.4.1存储虚拟化
5.4.2固态硬盘
5.4.3重复数据删除
5.4.4语义化检索
5.4.5存储智能化
5.4.6混合存储系统
习题
第6章大数据技术原理与平台
6.1大数据概述
6.1.1大数据产生的背景
6.1.2大数据的定义
6.1.3大数据的4V特征
6.2大数据存储平台
6.2.1HDFS
6.2.2HBase
6.2.3Cassandra
6.2.4Redis
6.2.5MongoDB
6.3大数据计算模式
6.3.1MapReduce
6.3.2Spark
6.3.3流式计算
6.4典型大数据分析管理平台
6.4.1Cloudera Impala
6.4.2Hortonworks Data Platform
6.4.3HadoopDB
6.5大数据并行计算编程实践
6.5.1基于MAPREDUCE程序实例(HDFS)
6.5.2基于MAPREDUCE程序实例(HBase)
6.5.3基于Spark的程序实例
6.5.4基于Impala的查询实践
6.6大数据研究与发展方向
6.6.1数据的不确定性与数据质量
6.6.2跨领域的数据处理方法的可移植性
6.6.3数据处理的时效性保证——内存计算
6.6.4对于流式数据的实时处理
6.6.5大数据应用
6.6.6大数据发展趋势
习题
第7章实时医疗大数据分析案例
7.1案例背景与需求概述
7.1.1背景介绍
7.1.2基本需求
7.2设计方案
7.2.1ETL
7.2.2非格式化存储
7.2.3流处理
7.2.4训练模型与结果预测
7.3环境准备
7.3.1节点规划
7.3.2软件选型
7.4实现方法
7.4.1使用Kettle/Sqoop等ETL工具,将数据导入HDFS
7.4.2基于Spark Streaming开发Kafka连接器组件
7.4.3基于Spark MLlib开发数据挖掘组件
7.5不足与扩展
习题
第8章保险大数据分析案例
8.1案例背景与需求概述
8.1.1背景介绍
8.1.2基本需求
8.2设计方案
8.2.1基于GraphX的并行家谱挖掘算法
8.2.2基于分片技术的随机森林算法
8.2.3基于内存计算的FPGrowth关联规则挖掘算法
8.3环境准备
8.4实现方法
8.4.1基于GraphX的并行家谱挖掘
8.4.2基于分片技术的随机森林模型用户推荐
8.4.3基于FPGrowth关联规则挖掘算法的回归检验
8.4.4结果可视化
8.5不足与扩展
习题
第9章基于Spark聚类算法的网络流量异常检测
9.1基本需求与数据说明
9.1.1基本需求
9.1.2数据说明
9.2设计方案
9.2.1聚类问题描述
9.2.2系统整体架构和算法设计
9.2.3数据预处理
9.2.4聚类算法
9.2.5聚类质量评估算法
9.2.6检测算法
9.3实现方法和程序设计
9.3.1搭建Spark集群实验平台
9.3.2程序运行说明
9.3.3数据预处理
9.3.4基于R的数据分析和可视化
9.3.5聚类算法
9.3.6聚类质量评估
9.3.7异常检测
9.4结果展示
9.4.1Spark平台说明与作业提交演示
9.4.2聚类算法及其质量评估
9.4.3有效性分析
9.4.4示例说明
9.5展望
习题
第10章基于Hadoop的宏基因组序列比对计算
10.1相关背景介绍与基本需求
10.1.1相关背景
10.1.2基本需求
10.2设计方案
10.2.1串行程序分析
10.2.2并行程序设计
10.3实现方法
10.3.1自定义Hadoop Streaming Inputformat
10.3.2修改SOAPaligner程序的输入文件函数
10.4环境建立和实验数据说明
10.4.1案例环境
10.4.2实验数据
10.5结果展示
10.5.1测试方法
10.5.2测试结果和分析
习题
第11章基于细胞反应大数据的生物效应评估计算
11.1相关背景介绍与基本需求
11.1.1相关背景
11.1.2基本需求
11.2设计方案
11.2.1基本思路
11.2.2设计框架
11.3环境建立和实验数据说明
11.3.1案例环境
11.3.2实验数据
11.4实现方法
11.4.1算法分析
11.4.2基因谱两两比对——富集积分矩阵并行化计算
11.4.3基因谱聚类分析——KMedoids算法并行化
11.5结果展示
11.5.1基因谱两两比对——计算富集积分矩阵实验分析
11.5.2基因谱聚类实验分析
习题
第12章基于Spark的海量宏基因组聚类问题分析计算
12.1相关背景介绍与基本需求
12.1.1相关背景
12.1.2基本需求
12.2问题分析与设计方案
12.2.1问题分析
12.2.2设计方案
12.3实现方法
12.3.1基于Spark的相似基因对问题的实现
12.3.2利用LSH加速相似基因对算法
12.3.3基因图的生成
12.3.4图的基本性质分析
12.3.5基因图聚类
12.4环境建立和实验数据说明
12.4.1案例环境
12.4.2实验数据
12.5结果展示
12.5.1LSH方法精确度分析
12.5.2可扩展性分析和加速效果分析
12.5.3基因图顶点的度分布和连通性分析
12.5.4基因图聚类结果分析
12.5.5总结
习题
参考文献
内容摘要
内容新颖先进;内容涉及最新的云计算与雾计算技术,大数据的新技术平台、新应用案例和生物信息计算示例等;知识系统全面:从传统的经典分布式计算原理开始,系统地、深入剖析新兴的云计算、雾计算和大数据的技术原理;技术深入易学:通过大量的编程案例和应用开发实践让读者更容易学习和深刻理解相关技术原理、技术开发与应用方法;
精彩内容
第5章云存储技术5.1存储基础知识本章在介绍存储组网、RAID、磁盘热备、快照、分级存储等存储知识的基础上,重点阐述了云存储概念和技术原理,然后讨论了对象存储技术,最后展望存储技术的发展趋势。
5.1.1存储组网形态
1.存储重要历史回顾存储技术是计算机的核心技术之一,计算机的存储技术从最早的硬盘发展到网络存储、虚拟化存储等技术,总的趋势是存储容量和IO速度的不断增加(如图51所示)。当然,随着信息技术的发展,存储行业涌现出新的存储技术,例如固态硬盘、云存储等。下面简要回顾一下存储技术的重要历史。
(1)1956年——第一台硬盘存储器世界上第一台硬盘存储器IBM350RAMAC诞生,当时它的总容量只有5MB,但总共使用了50个直径为24英寸的磁盘。
(2)1987年——RAID技术出现加州柏克大学的三位人员发表了名为“磁盘阵列控制器研究”的论文,正式提到了RAID也就是磁盘阵列控制器,论文提出廉价的5.25″及3.5″的硬盘也能如大机器上的8″盘般提供大容量、高性能和数据的一致性,并详述了RAID1至5的技术。
(3)1994年——网络存储的时代SAN技术正式出现(ANSI标准组织通过了第一个版本的光纤通道SAN),并迅速在数据苛刻型企业中获得广泛应用,而由此我们也正式迈入了网络存储的时代。
图51存储发展2.网络存储的发展网络存储的应用从网络信息技术诞生的那天就已经开始,应用的领域随着信息技术的发展而不断增加。如图52所示,根据服务器类型可以将存储分为:封闭系统的存储(主要指大型机)和开放系统的存储(指基于包括Windows、UNIX、Linux等在内的操作系统的服务器)。其中开放式系统的存储可以分为直连式存储(DAS,DirectAttachedStorage)和网络存储(FAS,FabricAttachedStorage)。根据组网形式不同,当前三种主流存储技术或存储解决方案为:直连式存储(DAS)、存储区域网络(SAN)、网络接入存储(NAS),如图53所示。
封闭系统的存储(大型机)开放系统的存储内置存储外挂存储DirectAttachedStorage直连式存储(DAS)FabricAttachedStorage网络存储(FAS)NetworkAttachedStorage网络接入存储(NAS)StorageAreaNetwork存储区域网络(SAN)图52存储分类图53组网形式DAS(DirectAttachedStorage)即直接连接存储,是指将存储设备通过SCSI接口或光纤通道直接连接到一台计算机上。直连式存储(DAS)依赖服务器主机操作系统进行数据的IO读写和存储维护管理,数据备份和恢复要求占用服务器主机资源(包括CPU、系统IO等),数据流需要回流主机再到服务器连接着的磁带机(库),数据备份通常占用服务器主机资源20%~30%。直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大。 将存储器从应用服务器中分离出来,进行集中管理。这就是所说的存储网络(StorageNetworks)。又采取了两种不同的实现手段,即NAS(NetworkAttachedStorage)网络接入存储和SAN(StorageAreaNetworks)存储区域网络。
NAS(NetworkAttachedStorage)即网络连接存储,即将存储设备通过标准的网络拓扑结构(如以太网),连接到一群计算机上。NAS是部件级的存储方法,它的重点在于帮助工作组和部门级机构解决迅速增加存储容量的需求。需要共享大型CAD文档的工程小组就是典型的例子。
存储区域网络(StorageAreaNetwork,SAN)采用光纤通道(FibreChannel,简称FC)技术,通过光纤通道交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。SAN经过十多年历史的发展,已经相当成熟,成为业界的事实标准(但各个厂商的光纤交换技术不完全相同,其服务器和SAN存储有兼容性的要求)。
NAS和SAN最本质的不同就是文件管理系统在哪里,SAN结构中,文件管理系统(FS)还是分别在每一个应用服务器上;而NAS则是每个应用服务器通过网络共享协议(如NFS、CIFS)使用同一个文件管理系统。换句话说,NAS和SAN存储系统的区别是NAS有自己的文件系统管理。
3.DASDAS(DirectAttachedStorage,直接连接存储)是指将存储设备通过SCSI接口或光纤通道直接连接到一台计算机上。SCSI的英文名称是“SmallComputerSystemInterface”,中文翻译为“小型计算机系统专用接口”;顾名思义,这是为了小型计算机设计的扩充接口,它可以让计算机加装其他外设设备以提高系统性能或增加新的功能,例如硬盘、光驱、扫描仪等。 如图54所示,DAS将存储设备(RAID系统、磁带机和磁带库、光盘库)直接连接到服务器;是最传统的、最常见的连接方式,容易理解、规划和实施。但是DAS没有独立操作系统,也不能提供跨平台的文件共享,各平台下数据需分别储存,且各DAS系统之间没有连接,数据只能分散管理。DAS的优缺点如表51所示。
图54DAS表51DAS的优缺点优势劣势1)连接简单:集成在服务器内部;点到点的连接;距离短;安装技术要求不高2)低成本需求:SCSI总线成本低3)较好的性能4)通用的解决方案:DAS的投资低,绝大多数应用可以接受1)有限的扩展性:SCSI总线的距离最大25m;最多15个设备2)专属的连接:空间资源无法与其他服务器共享3)备份和数据保护:备份到与服务器直连的磁带设备上,硬件失败将导致更高的恢复成本4)TCO(总拥有成本高):存储容量的加大导致管理成本上升,存储使用效率低4.NAS如图55所示,NAS(NetworkAttachedStorage,网络附加存储)是将存储设备连接到现有的网络上,提供数据和文件服务,应用服务器直接把FileI/O请求通过LAN传给远端NAS中的文件系统,NAS中的文件系统发起BlockI/O到与NAS直连的磁盘。主要面向高效的文件共享任务,适用于那些需要网络进行大容量文件数据传输的场合。
图55NASNAS本身装有独立的OS,通过网络协议可以实现完全跨平台共享,支持WinNT、Linux、UNIX等系统共享同一存储分区;NAS可以实现集中数据管理;一般集成本地备份软件,可以实现无服务器备份功能;NAS系统的前期投入相对较高。
NAS是在RAID的基础上增加了存储操作系统;NAS内每个应用服务器通过网络共享协议(如NFS、CIFS)使用同一个文件管理系统;NAS关注应用、用户和文件以及它们共享的数据;磁盘I/O会占用业务网络带宽。
由于局域网在技术上得以广泛实施,在多个文件服务器之间实现了互联,因此可以采用局域网加工作站族的方法为实现文件共享而建立一个统一的框架,达到互操作性和节约成本的目的,NAS的优缺点如表52所示。
表52NAS的优缺点优势劣势1)资源共享2)构架于IP网络之上3)部署简单4)较好的扩展性5)异构环境下的文件共享6)易于管理7)备份方案简单8)低的TCO1)扩展性有限2)带宽瓶颈,一些应用会占用带宽资源3)不适应某些数据库的应用5.SAN如图56所示,SAN(存储区域网络)通过光纤通道连接到一群计算机上。在该网络中提供了多主机连接,但并非通过标准的网络拓扑。它是一个用在服务器和存储资源之间的、专用的、高性能的网络体系。它为实现大量原始数据的传输而进行了专门的优化。
图56SANSAN是一种高可用性、高性能的专用存储网络,用于安全连接服务器和存储设备并具备灵活性和可扩展性;SAN对于数据库环境、数据备份和恢复存在巨大的优势;SAN是一种非常安全的快速传输、存储、保护、共享和恢复数据的方法。
SAN独立出一个数据存储网络,网络内部的数据传输率很快,但操作系统仍停留在服务器端,用户不直接访问SAN的网络;SAN关注磁盘、磁带以及连接它们的可靠的基础结构;SAN根据其传输介质的不同又可以细分为FCSAN和IPSAN。
SAN专注于企业级存储的特有问题。当前企业存储方案所遇到问题的两个根源是:数据与应用系统紧密结合所产生的结构性限制,以及目前小型计算机系统接口(SCSI)标准的限制。大多数分析都认为SAN是未来企业级的存储方案,这是因为SAN便于集成,能改善数据可用性及网络性能,而且还可以减轻管理作业,SAN的优缺点如表53所示。
表53SAN的优缺点
— 没有更多了 —
以下为对购买帮助不大的评价