作者简介
方建文,男,所长/教授,衢州学院电气与信息工程学院,获得浙江大学 计算机科学与技术专业 工学博士
目录
第1章 大数据概述 1 1.1 数据 1 1.1.1 数据的概念 1 1.1.2 大数据的概念 1 1.2 大数据发展的技术背景 2 1.2.1 互联网技术的发展 2 1.2.2 存储技术的发展 2 1.2.3 计算能力的发展 2 1.3 大数据的主要来源 3 1.3.1 互联网大数据 3 1.3.2 传统行业大数据 3 1.3.3 音频、视频和数据 4 1.3.4 移动设备的实时记录与跟踪 4 1.4 大数据的特征 5 1.4.1 规模性 5 1.4.2 多样性 6 1.4.3 高速性 6 1.4.4 价值密度低 6 1.5 大数据的应用 6 1.5.1 大数据的应用环境 6 1.5.2 大数据的应用领域 7 1.6 中国的大数据产业链 7 1.7 我国大数据的发展态势 10 1.8 大数据与数字经济 12 第2章 大数据思维 14 2.1 大数据的思维特点 14 2.1.1 大数据的总体思维 14 2.1.2 大数据的非准确思维 15 2.1.3 大数据的非因果性思维 15 2.1.4 以数据为中心 16 2.1.5 大数据的运营思维 16 2.1.6 数据的收集 16 2.1.7 数据的分类 16 2.2 大数据的应用思维 17 2.3 大数据的价值思维 19 2.3.1 识别与串联价值 19 2.3.2 描述价值 19 2.3.3 时间价值 19 2.3.4 组合价值 19 2.3.5 预测价值 20 2.4 大数据的分析思维 20 2.5 大数据分析的特点 21 第3章 大数据采集与获取技术 25 3.1 数据源分布 25 3.2 内部数据 26 3.2.1 政府内部数据 26 3.2.2 各利益主体自营数据 26 3.2.3 物联网数据 27 3.2.4 互联网数据 27 3.3 内部数据获取方法 28 3.3.1 内部数据的ETL技术 28 3.3.2 常用ETL工具说明 30 3.4 外部数据及获取方法 32 3.4.1 网络数据源的特性与价值 32 3.4.2 网络爬虫 33 3.4.3 网络爬虫应用注意事项 34 3.5 深网的数据及获取的方法 35 3.5.1 深网的含义 35 3.5.2 深网数据的特点 36 3.5.3 深网数据的获取方法 36 第4章 大数据存储与管理技术 38 4.1 数据存储的基本概念 38 4.1.1 存储容量 38 4.1.2 存储性能 38 4.1.3 存储可靠性和可用性 39 4.1.4 存储成本 40 4.2 常用的数据存储介质 40 4.2.1 机械硬盘 40 4.2.2 固态硬盘 41 4.2.3 可记录光盘 42 4.2.4 U盘 42 4.2.5 闪存卡 43 4.2.6 数据存储介质的选择原则 43 4.3 数据存储模式 43 4.3.1 DAS 44 4.3.2 NAS 45 4.3.3 SAN 46 4.3.4 存储模型选择 47 4.4 大数据管理技术 47 4.1.1 文件系统 47 4.4.2 分布式文件系统 48 4.4.3 数据库 51 4.4.4 键-值数据库 52 4.4.5 分布式数据库 53 4.4.6 关系型数据库 54 4.4.7 数据仓库 55 4.4.8 文档数据库 56 4.4.9 图形数据库 57 4.4.10 云存储 58 第5章 大数据处理技术 61 5.1 大数据处理框架分类 61 5.1.1 批处理框架 61 5.1.2 流式处理框架 62 5.1.3 交互式处理框架 63 5.2 Hadoop 63 5.2.1 Hadoop?项目结构及技术分布 64 5.2.2 MapReduce?模型 65 5.3 Spark 67 5.3.1 技术架构 68 5.3.2 基本流程 68 5.3.3 Spark?程序运行流程 69 第6章 大数据分析技术 71 6.1 大数据分析的概念 71 6.2 大数据的处理流程 71 6.3 大数据分析的方法 72 6.4 数据特征工程 73 6.4.1 特征构建 74 6.4.2 特征选择 75 6.4.3 特征提取 76 6.5 大数据分析的主要技术 76 6.5.1 深度学习 76 6.5.2 知识计算 80 6.6 数据可视化 89 6.6.1 数据可视化分析方法 90 6.6.2 可视化分析的常用工具 92 6.6.3 数据可视化的应用举例 93 第7章 大数据安全 94 7.1 大数据安全概述 94 7.1.1 大数据安全的意义 95 7.1.2 大数据安全面临的问题 95 7.2 大数据隐私保护 97 7.2.1 数据保护与保密 98 7.2.2 国内隐私保护相关政策法规 98 7.3 典型案例 100 7.3.1 棱镜门事件 100 7.3.2 维基解密 101 7.3.3 Facebook?数据滥用事件 101 7.3.4 手机应用软件过度采集个人信息 102 7.3.5 12306?数据泄露 103 7.3.6 免费Wi-Fi?窃取用户信息 103 7.3.7 收集个人隐私信息的“探针盒子” 104 第8章 大数据与云计算、物联网、人工智能 105 8.1 云计算 105 8.1.1 云计算的概念 105 8.1.2 云计算的特点 105 8.1.3 云计算的分类 106 8.1.4 云计算的服务模式 107 8.1.5 主流的云计算厂商 108 8.2 物联网 111 8.2.1 物联网的概念 111 8.2.2 物联网的核心技术 111 8.2.3 物联网的特点 112 8.3 人工智能 113 8.3.1 人工智能的概念 113 8.3.2 人工智能的关键技术 114 8.4 大数据与云计算、物联网和人工智能的关系 116 第9章 大数据应用 118 9.1 大数据与人工智能技术在新冠疫情防控中的应用 118 9.1.1 助力新型冠状病毒疫情防控的进展 118 9.1.2 助力新型冠状病毒智能医疗诊断服务 119 9.1.3 助力新型冠状病毒疫苗研发和药物筛选 120 9.1.4 助力抗疫资源的生产组织与调度 120 9.1.5 助力新型冠状病毒疫情溯源与监测预警 121 9.2 大数据用于非法集资预警 122 9.2.1 挑战 123 9.2.2 实施过程/解决方案 123 9.2.3 效果总结 126 9.3 大数据在大型活动安全预警中的应用 126 9.3.1 问题分析 127 9.3.2 总体架构 127 9.3.3 核心技术 129 9.3.4 实际应用 130 9.4 ?“智慧法院”数据融合分析与集成应用 130 9.4.1 应用背景 130 9.4.2 ?“智慧法院”数据融合分析及集成应用示范平台架构 131 9.4.3 共性关键技术 133 9.4.4 应用案例 135 参考文献 138
内容摘要
第1章大数据概述近几年来伴随着信息技术的发展,“大数据”时代悄然来临。大数据开始深刻影响社会生产和人类生活,并让人们深刻感受到了其对社会发展的威力。大数据已成为人类认识复杂信息系统的新手段,成为促进经济转型与增长的新思路,是提升国家综合智慧治理能力与保障国家安全的新途径。为此,世界各国政府高度重视大数据技术的研究与产业输出。本章重点介绍了数据和大数据的概念、大数据发展的技术背景、大数据的主要来源和特征、大数据的应用及大数据的相关产业。1.1数据1.1.1数据的概念数据是指描述客观事物及其相互关系的物理符号记录,如图像、声音、文字、数字、符号等。简而言之,数据是可被计算机识别与处理、存储与传输的信息载体。为此,我们可从计算机的角度来理解数据的获取、存储和使用的一般途径。(1)数据获取——将物理信号转换成计算机可以存储的数据。(2)数据存储——将数据存储在介质上进行组织和管理。(3)数据使用——利用计算机相关技术完成具体的应用目标。数据与信息是两个不同的概念,数据是构成信息的原始材料,而信息一般是指数据中所包含的意义。事实上,离散的数据没有任何的信息价值,在原始数据转换为可应用信息的过程中,需要进行数据挖掘——从大量的数据中通过算法搜索隐藏于其中的信息。1.1.2大数据的概念随着信息科学和计算机技术的发展,数据产生方式从被动式逐渐转变为主动式,人们能够感知到的数据量越来越庞大,涉及领域越来越广泛。相对于传统的数据,大数据就是指无法在一定时间范围内用常规软件工具进行获取、存储、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应的海量、高增长率和多样化的信息资产。作为一种难题,大数据暗含以下3个方面的属性。(1)规模属性。大数据在数量级上很大,数据层的大规模性及数据本身所具备的多模式性、多模态性和异构性给存取、算法、计算和应用带来了极大的挑战。
(2)技术属性。大数据价值的实现依赖一系列技术合集,涉及数据层、算法层、计算层、应用开发层等多个方面。(3)价值属性。各个角色对大数据价值都有共识和期望,不同利益角色的个体(组织)对大数据价值的理解和关注点也不同。1.2大数据发展的技术背景在移动计算、物联网、云计算等一系列新兴信息技术的支持下,社交媒体、众包、虚拟服务等新型应用模式持续拓展着人类创造和利用信息的范围与形式。当今信息技术的发展及创新正使各个产业发生改变,在信息爆炸时代产生了海量数据。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。1.2.1互联网技术的发展通常来讲,互联网发展经历了研究网络、运营网络和商业运营网3个阶段。互联网的重要性不仅在于其规模庞大,而且在于其能够提供全新的全球信息服务基础设施。此外,互联网彻底改变了人类的思维模式和工作、生活方式,促进了社会各行业的发展,成为时代的重要标志之一。截至2020年12月,我国网民规模为9.89亿,互联网普及率达70.4%。其中,农村网民规模为3.09亿,农村地区互联网普及率为55.9%。互联网产生的数据量不断增加,尤其是电子政务、社交媒体、网上购物等应用实时提供和处理越来越多的网络数据,在数据处理、传输与应用方面提出了新的问题。这种趋势加上其他网络数据源的普及,大数据的泛在化就成为必然的结果。1.2.2存储技术的发展自从世界上第一台计算机出现以来,计算机存储设备也在不断更新,从水银延迟线、磁带、磁鼓、磁芯,到当今的半导体存储器、磁盘、光盘和纳米存储器,存储容量不断扩大,而存储器的价格也在不断下降。自2005年亚马逊公司推出云服务平台后,一种新型的网络存储方式——云存储逐渐应用推广,用户可以获取更大的存储容量。云存储通过允许用户访问云中的存储资源来扩大用户的存储容量,而用户可以随时随地通过任何连接到网络的设备轻松连接到云端读取数据。1.2.3计算能力的发展信息产业的发展也正如摩尔所预言的那样,定期推出具有不断优化的操作系统和性能更强大的计算机。硬件厂商每开发一款运算能力更强的芯片,软件服务商就会开发出更加便捷的操作系统,极大地提升了信息处理速度。尤其是超级计算机和云计算的产生,使得对数据的计算能力极大加强,为大数据的实时化处理提供了可能。
主编推荐
全书共?9?章分?4?个内容来设计:大数据基础,数据采集、存储与管理,大数据处理与分析,大数据安全与应用。第?1?章介绍大数据的基本概念、发展历程,我国大数据的基本情况等。第?2?章介绍大数据思维的模式特征,以及这些思维模式在科学研究、产品开发、社会治理及创新思维等方面的应用;第?3?章介绍大数据项目中的数据采集与获取技术;第 4 章主要讲述数据存储介质及模式、分布式文件系统及主流技术 HDFS、非关系型数据库、云数据库等;第 5 章主要讲述大数据处理框架的分类、Hadoop 集群项目上 MapReduce 和 Spark 两个代表性的分布式计算架构;第 6 章主要讲述大数据分析的基本方法、数据特征工程和可视化方法,重点介绍回归分析、决策树和深度学习及其应用;第 7 章主要讲述大数据所存在的安全隐患,介绍大数据安全、大数据隐私保护、大数据在安全领域的应用、我国大数据的法律法规等;第 8 章介绍大数据与云计算、物联网、人工智能及其相关关系;第 9 章通过一些典型案例分析讲述大数据技术在各行业中的应用。
精彩内容
本书从概念、思维、存储和处理、分析与应用等方面系统介绍了大数据的相关知识,主要内容包括:大数据的基本概念,大数据思维,大数据采集与获取技术,大数据批处理、流式处理和交互式处理框架,Hadoop?项目结构与技术分布,分布式并行编程MapReduce?模型,Spark?技术架构和基本流程,数据特征工程及数据可视化等内容,通过大数据与人工智能技术助力新冠疫情防控、非法集资预警、大型活动安全预警、智慧法院数据融合分析与集成应用等案例,再现场景、数据、数据分析特征选择及分析技术应用的过程,有助于读者对大数据技术、分析及应用有更深刻的体会和了解。本书可作为高等院校计算机、大数据等相关专业的大数据课程导论教材,也可供相关技术人员参考。
以下为对购买帮助不大的评价