• 【现货速发】大数据导论宁兆龙[等]著科学出版社
21年品牌 40万+商家 超1.5亿件商品

【现货速发】大数据导论宁兆龙[等]著科学出版社

可开发票。24小时内发货。

27.7 4.8折 58 全新

库存6件

山东泰安
认证卖家担保交易快速发货售后保障

作者宁兆龙[等]著

出版社科学出版社

ISBN9787030526625

出版时间2016-07

装帧平装

开本16开

定价58元

货号8973337

上书时间2024-06-08

易安居书舍

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录

前言
第1章 大数据概述 1
1.1 大数据定义 1
1.1.1 初识大数据 1
1.1.2 大数据的特征 2
1.1.3 大数据技术 3
1.2 大数据的结构类型 6
1.2.1 结构化数据 6
1.2.2 半结构化数据 7
1.2.3 非结构化数据 7
1.2.4 其他分类方式下的数据类型 8
1.3 大数据发展 9
1.3.1 大数据概念发展 9
1.3.2 大数据浪潮下数据存储的发展 10
1.4 大数据应用及挑战 11
1.4.1 大数据应用 11
1.4.2 大数据发展面临的挑战 15
本章小结 17
思考题 18
第2章 大数据采集 19
2.1 大数据来源 19
2.2 大数据采集设备 20
2.2.1 科研数据采集设备 20
2.2.2 网络数据采集设备 21
2.3 大数据采集方法 21
2.3.1 科研大数据采集方法 21
2.3.2 网络大数据采集方法 22
2.3.3 系统日志采集方法 24
2.4 大数据预处理技术 25
2.4.1 数据预处理技术基本概述 26
2.4.2 数据清理 27
2.4.3 数据集成 30
2.4.4 数据变换与数据离散化 31
本章小结 34
思考题 34
第3章 大数据存储 35
3.1 云存储 35
3.1.1 云存储简介 35
3.1.2 云存储技术 38
3.2 大数据存储 43
3.2.1 大数据存储的特点与挑战 43
3.2.2 存储系统架构 44
3.2.3 新兴数据库技术 47
3.3 数据中心 50
3.3.1 数据中心概述 50
3.3.2 数据中心的演进 52
3.3.3 数据中心的分级 55
3.3.4 数据中心的体系结构 56
3.4 数据仓库 59
3.4.1 数据仓库的基本概念 59
3.4.2 数据仓库的体系结构 62
本章小结 62
思考题 63
第4章 大数据计算平台 64
4.1 云计算 64
4.1.1 云计算定义 64
4.1.2 云计算特点 64
4.1.3 云计算体系架构 65
4.1.4 云计算与相关计算形式 67
4.1.5 云计算的机遇与挑战 68
4.2 云计算平台 70
4.2.1 主流分布式计算系统 70
4.2.2 主流分布式计算平台 70
4.3 MapReduce平台 74
4.3.1 数据存储技术 75
4.3.2 数据管理技术 76
4.3.3 编程模型 77
4.4 Hadoop平台 78
4.4.1 Hadoop概述 78
4.4.2 Hadoop结构 79
4.4.3 Hadoop分布式文件系统HDFS 80
4.4.4 Hadoop中的MapReduce 80
4.4.5 Hadoop中MapReduce的任务调度 82
4.5 Spark平台 82
4.5.1 Spark简介 82
4.5.2 核心思想与编程模型 84
4.5.3 工作原理 85
4.5.4 Spark的优势 87
本章小结 87
思考题 88
第5章 大数据分析 89
5.1 大数据分析方法 89
5.1.1 布隆过滤器 89
5.1.2 散列法 91
5.1.3 索引法 93
5.1.4 字典树 95
5.1.5 并行计算 96
5.2 大数据分析架构 98
5.2.1 实时分析与离线分析 98
5.2.2 不同层次的分析 100
5.2.3 不同复杂度的分析 102
5.3 大数据分析应用 103
5.3.1 R语言 103
5.3.2 Excel和SQL 103
5.3.3 RapidMiner 104
5.3.4 KNIME 105
5.3.5 Weka和Pentaho 105
本章小结 106
思考题 107
第6章 大数据挖掘 108
6.1 大数据挖掘算法 109
6.1.1 关联规则 109
6.1.2 分类分析 114
6.1.3 聚类分析 119
6.2 大数据挖掘工具 123
6.2.1 RapidMiner 123
6.2.2 Weka 123
6.2.3 KNIME 124
6.2.4 Orange 124
6.2.5 R语言 125
6.3 大数据挖掘平台 125
6.3.1 基于Hadoop的平台 126
6.3.2 基于云计算的平台 128
6.3.3 基于Spark的平台 129
6.4 大数据挖掘应用 131
6.4.1 社交媒体 131
6.4.2 医学 132
6.4.3 教育 132
6.4.4 金融 133
本章小结 134
思考题 134
第7章 大数据下的机器学习算法 135
7.1 大数据特征选择 135
7.1.1 大数据特征选择的必要性 135
7.1.2 大数据特征选择方法 136
7.2 大数据分类 140
7.2.1 决策树分类 140
7.2.2 朴素贝叶斯分类 142
7.2.3 贝叶斯网络分类 143
7.2.4 支持向量机分类 144
7.3 大数据聚类 145
7.3.1 K-means算法 146
7.3.2 DBSCAN算法 150
7.3.3 层次聚类算法 151
7.4 大数据关联分析 153
7.4.1 有趣关系 154
7.4.2 Apriori算法 154
7.4.3 FP-growth算法 156
7.5 大数据并行算法 158
7.5.1 基于MapReduce的并行算法设计 158
7.5.2 超越MapReduce的并行算法设计 160
本章小结 162
思考题 162
第8章 大数据可视化 163
8.1 大数据可视化之美 163
8.1.1 数据可视化的基本概念 163
8.1.2 大数据可视化的表现形式 164
8.2 大数据可视化技术 165
8.2.1 基于图形的可视化方法 166
8.2.2 基于平行坐标法的可视化技术 168
8.2.3 其他数据可视化技术 169
8.3 大数据可视化工具 169
8.3.1 R语言在可视化中的应用 170
8.3.2 D3在可视化中的应用 171
8.3.3 Python在可视化中的应用 172
8.4 大数据可视化案例 173
8.4.1 波士顿地铁数据可视化 173
8.4.2 实时风场可视化 175
8.4.3 GapMinder 176
8.4.4 死亡率与税收 177
8.4.5 社交关系图 177
8.5 大数据可视化的未来 178
8.5.1 数据可视化面临的挑战 178
8.5.2 数据可视化技术的发展方向 178
8.5.3 数据可视化未来的主要应用 178
本章小结 179
思考题 179
第9章 社交大数据 180
9.1 社交大数据 180
9.1.1 社交数据分析让社交网站更懂用户 180
9.1.2 大数据和社交网络 181
9.2 社交大数据在国内社交网络中的应用 182
9.2.1 在腾讯大数据中的应用 182
9.2.2 在微博大数据中的应用 185
9.2.3 在淘宝大数据中的应用 188
9.2.4 在滴滴大数据中的应用 189
9.2.5 在百度大数据中的应用 190
9.3 大数据与Facebook:人们情绪的分析 192
9.3.1 用大数据分析人们对品牌的情绪 192
9.3.2 关于人们在Facebook上怀旧情绪的分析 194
9.4 大数据和Twitter:实例分析 196
9.4.1 分析用户消费习惯 196
9.4.2 预测热门股票走势 199
思考题 202
第10章 交通大数据 203
10.1 交通数据分类及其相关分析 203
10.1.1 社会信号数据 203
10.1.2 移动手机数据 205
10.1.3 刷卡数据 205
10.1.4 社交网络数据 205
10.1.5 交通数据处理 206
10.2 交通情况监测 207
10.2.1 交通事故数据集应用 208
10.2.2 监测交通情况 210
10.3 预测人类移动行为 214
10.3.1 人类移动性分析与概述 215
10.3.2 人类移动性研究的数据基础与方法 215
10.3.3 人类活动模式与移动行为预测 217
10.3.4 人类移动性研究及预测的挑战及展望 218
10.4 其他应用 220
本章小结 225
思考题 225
第11章 医疗大数据 226
11.1 医疗大数据简介 226
11.1.1 医疗大数据的来源 226
11.1.2 医疗大数据特点 226
11.1.3 大数据对医疗的影响 226
11.2 基于大数据的临床决策分析 228
11.2.1 基于大数据的临床决策支持系统的架构 228
11.2.2 基于大数据的临床决策支持系统的功能应用 228
11.2.3 大数据在临床决策中的价值 229
11.2.4 促进数据解锁的示例 230
11.3 基于大数据的医疗数据系统分析 231
11.3.1 大数据在医疗信息化行业的应用研究 231
11.3.2 医疗健康数据来源 232
11.3.3 医疗大数据体系结构 232
11.4 基于大数据的远程患者监控 235
11.4.1 远程医疗的应用领域 235
11.4.2 大数据在远程医疗产业中的应用 236
11.4.3 大数据推动远程医疗发展存在的问题 237
11.4.4 运用大数据推动远程医疗发展的前景展望 237
本章小结 238
思考题 238
第12章 金融大数据 239
12.1 摩根大通信贷市场分析 241
12.1.1 摩根大通信贷市场介绍 241
12.1.2 金融科技助力摩根大通 243
12.1.3 金融大数据面临的挑战 244
12.2 瑞士银行集合风险分析 244
12.2.1 集合风险分析 245
12.2.2 大数据分析信用风险 245
12.2.3 大数据对金融数据的处理 246
12.3 民生银行新核心业务平台分析 247
12.3.1 技术支持 248
12.3.2 新一代数据分析体系 248
12.3.3 大数据应用场景 250
12.3.4 面临的挑战 251
12.4 阿里信贷金融模式分析 251
12.4.1 阿里巴巴大数据平台支持 252
12.4.2 阿里信贷金融模式的优势 253
12.4.3 阿里信贷金融模式所面临的风险 254
本章小结 256
思考题 256
第13章 大数据教育




内容摘要
    靠前章 大数据概述

    当早上被闹铃叫醒,我们可以根据与手机互连的智能手环,从手机APP中看到昨晚睡眠的心跳、血压等健康状况信息;我们可以根据手机上即时更新的天气情况添减衣物;我们可以利用导航软件查阅实时交通状况,根据导航软件对用户以往的数据信息分析得出的出行建议进行路线规划;我们还可以利用大数据软件定位寻找附近的餐馆,甚至可以看到餐厅的用餐环境及特色菜品

    不可否认,数据应用已渗透到我们生活的方方面面。

    互联网带来的数据浪潮给我们的生活带来了极大便利。移动互联、社交网络、电子商务等应用随着互联网的兴起而产生并不断发展,同时大大拓宽了互联网的应用领域,并随之带来了海量的数据。

    1.1 大数据定义

    1.1.1 初识大数据

    20世纪以来,随着网络及计算机技术的发展,社会各行各业逐步走上了信息化的道路并积累了海量的数据。随着物联网和云计算技术的兴起,数据仍在以靠前的速度增长和积累,并超越了相应存储仓库和数据处理资源的发展。如何采用新的技术和方法实现PB级甚至ZB级海量数据的存储和分析是我们当前面临的巨大挑战。爆炸式增长的数据正在引领一场新的时代变革,大数据时代已经来临。

    什么是大数据(Big Data)?不同的研究机构基于不同的角度给出了如下定义。

    大数据是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    ——高德纳(Gartner)咨询有限公司

    大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。

    ——麦肯锡

    大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB(1TB=240B)的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。

    ——靠前数据公司

    总的来说,大数据是指所涉及的数据规模巨大到无法通过人工或计算机,在合理的时间内达到截取、管理、处理并整理成为人们所能解读的形式的信息。

    另外,总结以上几种对于大数据的不同定义,我们不难发现大数据概念所具有的两点共性。

    (1) 大数据的数据量标准是随着计算机软硬件的发展而不断增长的。如1GB的数据量在20年前可以称为大数据,而今的数据量已上升到了太字节(TB)或拍字节(PB)量级。

    (2) 大数据不仅体现在数据规模上,还包含了不同于传统数据库软件获取、存储、分析和管理能力的提升。

    1.1.2 大数据的特征

    现在我们普遍以5V特征来具体描述大数据,其反映了大数据在5个层面上的特点,如图1-1所示。

    图1-1 大数据的5V特征

    (1) Volume:数据量巨大。数据体积大是大数据的显著特征,其数据量由传统TB级的基于关系的数据库处理数据量增长为PB级及以上的数据量,且不可避免的向泽字节(ZB)发展。

    (2) Velocity:数据具有高速性。该特性包括大数据传输方式和处理方式。传输方式包括批处理传输、实时传输、近似实时传输和流传输等方式。数据处理方式包括数据处理时间和相应的时延。在具有时延的情况下,数据依旧需要以较高的速率被分析、处理、存储和管理,并遵循一秒定律 。

    (3) Variety:数据类型多样。大数据不仅包括结构化数据,如传统文本类和数据库数据,还包括各种非结构化、半结构化以及复杂结构的数据,如网页、Web日志文件、博客、微博、图片、音频、视频、地理位置信息等。

    (4) Value:数据具有潜在价值。该特性是指大数据用户从中获得的价值。大数据的这一特性在商业领域较为关键。大数据中数据的价值密度与数据总量成反比,具有价值密度低的特点,如在视频数据中,一小时的视频中有用数据可能只占几秒。

    一般而言,数据容量越大,种类越多,用户得到的信息量越大。获得的知识越多,数据能够发挥的潜在价值越大。但在实际情况中,大数据价值密度低这一特点使其数据价值往往依赖于较好的数据处理方式和工具。因此尽量减少由于数据垃圾和信息过剩造成的数据价值丢失,力求从数据中获得更高的价值回报至关重要。

    (5) Veracity:数据准确性。该特性体现了大数据的数据质量。较为典型的应用是垃圾邮件,它们给社交网络带来了严重的困扰。据统计数据显示,网络垃圾占万维网所有内容的20%以上。

    从传统数据到大数据,形象地说类似于从“池塘捕鱼”发展到“大海捕鱼”的过程,而其中的鱼则为待处理的数据。两者的区别见表1-1。

    表1-1 大数据与传统数据对比

    在大数据定义过程中,需要注意的是其数据量不一定要满足TB级。在实际情况中,我们可以根据具体的数据特征来进行判断,如只有几百GB的数据在一定情况下也可以成为大数据。此时需要考虑其他判断标准,即数据处理速度或处理数据的时间维度,如几百GB的数据可以在一秒或几秒内被全部处理,而传统数据处理方式可能需要半小时甚至几小时,那么这种处理能力的高速提升极大地增加了数据价值。因此,所谓的大数据技术可以只满足以上部分判断特征。

    同时,我们应注意区分“大数据”“大规模数据”和“海量数据”这几个概念。可以从以下两方面加以区分。

    (1) 从目标性来看,以上三者都具有数据容量大的特点。但大数据的目标是从大量数据中提取相关的价值信息,所以大数据并非只是大量数据无意义的堆积,其数据之间具有一定的直接或者间接联系。因此数据之间是否具有结构性和关联性是大数据和“海量数据”“大规模数据”的重要差别。

    (2) 就技术方面而言,大数据能够快速、高效地对多种类型的数据进行处理和整合从而获得有价值的信息,这也是大数据不同于“海量数据”和“大规模数据”的很主要特征。在数据处理过程中,大数据处理技术运用了如数据挖掘、分布式处理、聚类分析等多种方法,并对相关的硬件发展和软硬件的集成技术提出了较高要求。

    数据量的剧增伴随着数据处理要求的不断提高。因此,大数据的处理技术也得到相应发展。

    1.1.3 大数据技术

    大数据技术是新兴的,能够高速捕获、分析、处理大容量多种类数据,并从中得到相应价值的技术和架构。大数据处理的关键技术主要包括:数据采集和预处理、数据存储、基础架构、数据分析和挖掘以及大数据应用。利用大数据技术对数据处理流程如图1-2所示。

    图1-2 大数据处理流程

    1. 数据采集

    数据是通过射频识别技术、传感器、交互型社交网络以及移动互联网获得的多类型海量数据,这些数据是大数据知识服务模型的根本。

    大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系以及软硬件资源接入系统,可以实现对结构化、半结构化、非结构化海量数据的智能化识别、定位、跟踪、介入、传输、信号转换、监控、初步处理和管理等。基础支撑层主要提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网资源等基础支撑环境。本书第2章将详细介绍这些内容。

    2. 数据预处理

    数据预处理是数据分析和挖掘的基础,是将接收数据进行抽取、清洗、集成、转换、归约等并很终加载到数据仓库的过程。

    (1)&n

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP