正版保障 假一赔十 可开发票
¥ 25.98 4.5折 ¥ 58 全新
库存176件
作者周艳萍著
出版社西北工业大学出版社
ISBN9787561282731
出版时间2021-05
装帧平装
开本16开
定价58元
货号11920628
上书时间2024-12-25
绪论
第一节云计算时代的背景
第二节大数据的发展与挑战
第一章大数据存储技术
第一节大数据存储技术的要求
第二节主流网络存储技术分类
第三节 云存储技术
第二章大数据挖掘技术
第一节数据分析
第二节 数据挖掘
第三节关联技术
第三章大数据链接分析技术
第一节链接分析中的数据采集
第二节 PageRank 工具
第三节搜索引擎
第四章 HDFS存储海量数据技术
第一节 HDFS技术设计结构
第二节图像存储技术
第三节HDFS管理技术·
第四节 FS Shell与API技术
第五章HBase存储百科数据技术
第一节 HBase 系统框架
第二节 HBase接口
第三节 HBase存储模块设计
第六章大数据巨量分析与机器学习的应用领域·
第一节互联网领域
第二节商业领域
第三节农业信息化领域
第四节 城建领域·
第七章深度学习技术的应用
第一节 语音和音频处理中的应用
第二节 语言模型与自然语言处理中的应用
第三节 目标识别与计算机视觉中的应用…
第八章云计算时代的大数据安全
第一节 大数据安全面临的挑战
第二节 安全问题处理技术
第三节大数据隐私保护
参考文献
第一章大数据存储技术
第一节大数据存储技术的要求
存储本身就是大数据中一个很重要的组成部分,或者说存储在每一个数据中心中都是一个重要的组成部分。随着大数据的到来,结构化、非结构化、半结构化的数据存储也呈现出新的要求,特别是统一存储也有了新变化。对于企业来说,数据对于战略和业务连续性都非常重要。然而,大数据集容易消耗巨大的时间和成本,从而造成非结构化数据的雪崩。因此,合适的存储解决方案的重要性不能被低估。如果没有合适的存储,就不能轻松访问或部署大量数据。
如何平衡各种技术以支持战略性存储并保护企业的数据?组成高效的存储系统的因素是什么?通过将数据与合适的存储系统相匹配以及考虑何时、如何使用数据,企业机构可确保存储解决方案支持,而不是阻碍关键业务驱动因素(效率和连续性)。通过这种方式,企业可自信地引领这个包含大量、广泛信息的新时代。
一、数据存储面临的问题
数据存储主要面临以下三类典型的大数据问题:
第一,联机事务处理(OLTP)系统里的数据表格子集太大,计算需要的时间长,处理能力低。
第二,联机分析处理(OLAP)系统在处理分析数据的过程中,在子集之上用列的形式去抽取数据,时间太长,分析不出来,不能做比对分析。
第三,典型的非结构化数据,每一个数据块都比较大,带来了存储容量、存储带宽、I/O瓶颈等一系列问题。例如,网游、广电的数据存储在自己的数据中心里,资源耗费很大,交付周期太长,效率低下。
OLTP也被称为实时系统,其最大的优点就是可以即时地处理输入的数据,及时地回答。这在一定意义上对存储系统的要求很高,需要一级主存储,具备高性能、高安全性、良好的稳定性和可扩展性,对于资源能够实现弹性配置。现在比较流行的是基于控制器的网格架构,网格概念使架构得以横向扩展(scale-out),解决了传统存储架构的性能热点和瓶颈问题,并使存储的可靠性、管理性,自动化调优达到了一个新的水平。如 IBM的XIV、EMC的VMAX、惠普的3PAR系列都是这一类产品的典型代表。OLAP是数据仓库系统的主要应用,也是商业智能(Business Intelligent,BD的灵魂。联机分析处理的主要特点是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,展现在用户面前的是一幅幅多维视图,也可以对海量数据进行比对和多维度分析,处理数据量非常大,且很多是历史性数据,对跨平台能力要求高。OLAP的发展趋势是从传统的批量分析,到近线(近实时)分析,再向实时分析发展。
目前,解决BI挑战的策略主要分为两类:第一类,通过列结构数据库,解决表结构数据库带来的OLAP性能问题,典型的产品如EMC的Greenplum、IBM的Netezza;第二类,通过开源解决云计算和人机交互环境下的大数据分析问题,如VMware Ceta、Hadoop等。
从存储角度看,OLAP通常处理结构化、非结构化和半结构化数据。这类分析适用于大容量、大吞吐量的存储(统一存储)。此外,商业智能分析在欧美市场是云计算“含金量”最高的云服务形式之一。对欧美零售业来说,圣诞节前后8周销售额可占一年销售额的30%以上。如何通过云计算和大数据分析,在无需长期持有IT资源的前提下,从工资收入、采购习惯、家庭人员构成等BI分析,判断出优质客户可接受的价位和服务水平,提高零售高峰期资金链、物流链周转效率、最大化销售额和利润,欧美零售业就是一个最典型的大数据分析云服务的例子。
对于媒体应用来说,数据压力集中在生产和制造的两头。比如,做网游,需要一个人做背景,一个人做配音,一个人做动作、渲染等,最后需要一个人把它们全部整合起来。在数据处理过程中,一般情况下大家同时去读取一个文件,对文件处理能力要求高,通常需要能支撑大块文件在网上传输。针对这类问题,集群网络存储器(Network Attached Storage,NAS,即网络附属存储连接在网络上,具备资料存储功能的装置)是存储首选。在集群NAS中,最小的单位个体是文件,通过文件系统的调度算法,可以将整个应用隔离成较小且并行的独立任务,并将文件数据分配到各个集群节点上。集群NAS和Hadoop分布文件系统的结合对于大型的应用具有很高的实用价值。典型的例子是Isilon OS和Hadoop分布文件系统集成,它们常被应用于大型的数据库查询、密集型的计算,生命科学、能源勘探以及动画制作等领域。常见的集群NAS产品有EMC的Isilon、HP的Ibrix系列、IBM的SoNAS、NetApp的OntapGX等。
……
本书以云时代为背景,系统性地介绍了大数据分析、大数据挖掘、大数据算法、大数据链接分析技术、大规模文件系统MapReduce、HDFS海量存储数据、数据安全、大数据对中国信息化建设的核心支撑作用,并对数据科学理论做了初步探索。本书注重启发式的学习策略,便于读者理解和掌握。全书附有实际应用案例,方便读者进行自学。希望本书为研究大数据的相关人员提供帮助,促进“大数据技术”未来的发展,为社会经济带来更大的利益。
— 没有更多了 —
以下为对购买帮助不大的评价