• 全新正版大数据技术基础9787563558780
21年品牌 40万+商家 超1.5亿件商品

全新正版大数据技术基础9787563558780

正版书籍,放心下单。绝大部分是新书,个别品相折痕的,我们会主动联系哦

41.7 8.7折 48 全新

仅1件

河北保定
认证卖家担保交易快速发货售后保障

作者鄂海红,宋美娜,欧中洪

出版社北京邮电大学出版社

ISBN9787563558780

出版时间2019-10

装帧平装

开本16开

定价48元

货号J9787563558780

上书时间2024-07-02

东方宝藏一正版专营店的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
商品简介
随着大数据时代的到来,涌现出多元化海量数据。大数据背后隐藏着大量的经济利益,尤其是 通过数据整合、分析与挖掘,其所表现出的数据整合与控制力量已经远超以往。本书详细介绍了数据 科学与大数据技术的详细内容。共分为9章,主要内容包括:大数据与数据科学、数据采集与数据预 处理、数据存储、大数据处理平台、数据分析、数据可视化、数据安全与隐私、大数据应用、数据 思维。
本书适合作为数据科学与大数据专业及其相关专业本科生教材,也可供从事相关专业的教学、科 研和工程技术人员参考。
作者简介:
甘勇:教授、郑州工程技术学院副校长,长期工作在教学科研一线,主持的大学计算机和程序设计基础课程被评为河南省精品课程、河南省精品资源共享课,担任教育部计算机课程教学指导委员会委员、河南省计算机类专业和网络空间安全专业教学指导委员会副主任,兼任中国计算机学会理事、河南省计算机学会副理事长、河南省计算机教育研究会副理事长。荣获过优秀教学成果二等奖、2项河南省优秀教学成果特等奖、3项河南省优秀教学成果二等奖。陶红伟:郑州轻工业大学计算机与通信工程学院副教授、博士,主要研究方向包括大数据分析、软件可信度量与评估、信息安全。主持省部级以及横向项目5项,作为主要成员参与国家863重点项目子课题、国家自然科学基金重大研究计划集成项目子课题、国家863项目和国家自然科学基金项目等。
目录:
第1章 大数据与数据科学 / 1
1.1 大数据概述 / 1
1.1.1 大数据的概念 / 2
1.1.2 大数据的特征 / 2
1.1.3 大数据的结构类型 / 3
1.2 大数据的发展 / 4
1.3 大数据处理的挑战 / 5
1.4 数据科学的概念 / 6
1.5 数据科学的由来 / 7
1.6 数据科学的应用场景 / 9
1.6.1 行业数据 / 9
1.6.2 数据服务 / 10
小结 / 11
习题 / 11
第2章 数据采集与数据预处理 / 12
2.1 数据采集和数据预处理概述 / 12
2.1.1 数据采集概述 / 12
2.1.2 数据预处理概述 / 13
2.2 数据采集技术 / 15
2.2.1 网络数据采集技术 / 15
2.2.2 日志数据采集技术 / 23
2.3 数据预处理技术 / 28
2.3.1 数据清洗 / 28
2.3.2 数据集成 / 30
2.3.3 数据变换 / 30
2.3.4 数据规约 / 32
小结 / 33
习题 / 33
第3章 数据存储 / 34
3.1 数据存储概述 34
3.1.1 数据存储的发展历程 / 34
3.1.2 数据存储模型 / 36
3.2 大数据存储 / 36
3.2.1 海量数据存储关键技术 / 37
3.2.2 分布式文件系统 / 37
3.3 分布式数据库 / 41
3.3.1 HBase 分布式数据库 / 42
3.3.2 MongoDB 分布式 数据库 / 45
3.3.3 Hive 分布式数据 仓库 / 47
小结 / 49
习题 / 49
第4章 大数据处理平台 / 50
4.1 概述 / 50
4.2 大数据的处理平台架构 / 51
4.2.1 技术架构 / 51
4.2.2 开源平台 / 52
4.3 大数据的批量处理 / 54
4.3.1 批量计算的概念 / 54
4.3.2 批量计算的软件系统 / 55
4.4 大数据的流式计算 / 63
4.4.1 流式计算的概念 / 63
4.4.2 流式计算的软件系统 / 64
4.5 大数据的混合处理计算 / 68
4.5.1 混合处理计算的概念 / 68
4.5.2 混合处理计算的软件系统 / 69
小结 / 78
习题 / 79
第5章 数据分析 / 80
5.1 数据分析概述 / 80
5.1.1 数据分析的概念和作用 / 80
5.1.2 数据分析的类型 / 81
5.1.3 数据分析的流程 / 81
5.2 统计数据分析方法 / 83
5.2.1 描述统计 / 83
5.2.2 相关分析 / 84
5.2.3 回归分析 / 88
5.2.4 主成分分析 / 92
5.3 数据挖掘算法 / 96
5.3.1 决策树 / 96
5.3.2 K-Means 算法 / 101
5.3.3 Apriori 算法 / 106
5.3.4 神经网络 / 111
5.4 数据分析工具 / 113
小结 / 114
习题 / 114
第6章 数据可视化 / 117
6.1 数据可视化概述 / 117
6.1.1 数据可视化的基本特征 / 119
6.1.2 数据可视化的作用 / 120
6.1.3 数据可视化的流程 / 123
6.2 数据可视化方法 / 126
6.2.1 文本可视化 / 126
6.2.2 网络可视化 / 129
6.2.3 时空数据可视化 / 131
6.2.4 多维数据可视化 / 134
6.3 数据可视化软件与工具 / 136
6.3.1 Excel / 137
6.3.2 NodeXL / 137
6.3.3 Processing / 138
6.3.4 R / 139
6.3.5 ECharts / 139
6.3.6 Wolfram Mathematica / 141
小结 / 141
习题 / 142
第7章 数据安全与隐私 / 143
7.1 大数据安全概述 / 143
7.1.1 大数据安全体系结构 / 148
7.1.2 大数据安全 / 150
7.2 数据安全协议 / 157
7.3 数据隐私 / 159
7.4 数据信息共享与隐私信息融合 / 160
7.5 云环境下的大数据安全与隐私保护 / 163
小结 / 165
习题 / 165
第8章 大数据应用 / 166
8.1 互联网商业应用 / 166
8.1.1 用户画像 / 166
8.1.2 大数据精准营销 / 169
8.1.3 互联网金融 / 171
8.2 行业大数据 / 173
8.2.1 教育大数据 / 173
8.2.2 电力大数据 / 174
8.2.3 医疗大数据 / 177
8.3 人工智能应用 / 179
8.3.1 语音识别和机器翻译 / 179
8.3.2 共享经济 / 180
8.3.3 智慧城市 / 183
小结 / 187
习题 / 188
第9章 数据思维 / 189
9.1 大数据时代的挑战 / 189
9.2 大数据时代的思维变革 / 194
9.2.1 第四范式 / 194
9.2.2 数据的混杂性 / 195
9.2.3 样本与总体 / 196
9.2.4 数据的相关关系与因果关系 / 197
9.2.5 大数据与幸存者偏差 / 198
9.3 大数据激发创造力 / 199
9.3.1 大数据预测电影票房 / 199
9.3.2 利用大数据治理纽约 / 200
9.3.3 大数据助力总统竞选 / 202
9.4 数据科学展望 / 204
9.4.1 开放数据运动 / 204
9.4.2 数据科学家所需的专业技能 / 206
9.4.3 数据科学的发展前景 / 208
小结 210
习题 210
参考文献 / 211

作者简介

鄂海红,博士,北京邮电计算机学院 副教授;科技部现代服务业共性服务联盟,副秘书长;中国通信标准化协会TC11-WG1副组长。长期从事大数据工程与数据分析、机器学习与人工智能服务、云计算与分布式系统领域的研究工作,有扎实宽广的理论基础和科研项目实践能力。作为课题负责人及主研人,完成科研项目累计34项(其中,国家课题13项),累计发表SCI/EI62篇;申请国家发明专利34项,软著登记25项;正式发布国家行业标准16项。曾获得省部级特等奖奖励 “中国服务业科技创新奖”,教育部“高等学校科学研究成果奖”二等奖、“中国通信标准化协会科学技术奖”三等奖;教育部博士点基金;北京市“青年英才计划”首批。



目录
第1章大数据概述
本章思维导图
1.1大数据简介
1.1.1大数据的发展历程
1.1.2大数据的定义与特征
1.1.3大数据与传统数据的区别
1.2大数据平台应具备的能力
1.3大数据平台架构
1.4Hadoop生态系统
1.5大数据应用
1.5.1互联网大数据应用
1.5.2金融行业大数据应用
1.5.3医疗行业大数据应用
1.5.4智慧交通大数据应用
本章课后习题
本章参考文献
第2章大数据存储——分布式文件系统及NoSQL数据库
本章思维导图
2.1分布式文件系统
2.1.1HDFS相关概念
2.1.2HDFS体系结构
2.1.3HDFS存储机制
2.1.4HDFS读/写操作
2.1.5HDFS数据导入
2.2NoSQL数据库
2.2.1Key?Value模型
2.2.2Key?Document模型
2.2.3Key?Column模型
2.2.4图模型
2.3列族数据库
2.3.1列族数据库简介
2.3.2HBase的基本原理
2.3.3HBase的数据模型
2.4键值数据库
2.4.1键值数据库简介
2.4.2选择键值数据库的原因
2.4.3Redis的数据结构简介
2.4.4Redis的数据持久化
2.4.5Redis的数据复制
2.5文档数据库
2.5.1文档数据库简介
2.5.2MongoDB的数据类型
2.5.3MongoDB的数据复制
2.6图数据库
2.6.1图数据库简介
2.6.2图数据库的优势
2.6.3Neo4j的基本元素与概念
2.6.4Cypher简介
本章课后习题
本章参考文献
第3章大数据处理——MapReduce处理框架
本章思维导图
3.1MapReduce的发展背景
3.2MapReduce框架
3.3MapReduce的编程模型
3.3.1MapReduce初析
3.3.2MapReduce的运行机制
3.3.3MapReduce的相关问题
3.4MapReduce的集群调度
3.4.1Hadoop1.x的传统集群调度框架
3.4.2Hadoop2.x的集群调度框架YARN
3.4.3Hadoop作业调度器
本章课后习题
本章参考文献
第4章大数据处理——分布式内存处理框架Spark
本章思维导图
4.1Spark简介
4.1.1Spark介绍
4.1.2提出Spark的原因
4.1.3Spark中的关键术语
4.1.4Spark的优点
4.2Spark框架
4.2.1Spark框架图
4.2.2Spark运行图
4.2.3Spark任务调度方法
4.3RDD概念理解
4.3.1RDD介绍
4.3.2RDD的操作
4.3.3RDD的存储
4.3.4RDD分区
4.3.5RDD优先位置
4.3.6RDD依赖关系
4.4RDD操作
4.4.1RDD创建
4.4.2转换操作
4.4.3行动操作
4.5Scala语言
4.5.1Scala介绍
4.5.2Scala基本语法
4.5.3Scala编写Spark示例
4.6SparkSQL简介
4.6.1SparkSQL与Shark的对比
4.6.2SparkSQL的优势
4.6.3SparkSQL生态
4.7MLlib简介
4.7.1MLlib介绍
4.7.2MLlib支持机器学习算法
本章课后习题
本章参考文献
第5章大数据处理——实时处理框架
本章思维导图
5.1实时处理架构
5.1.1基本概念
5.1.2批量和流式计算
5.1.3系统生态简介
5.2Storm框架
5.2.1Storm的基本术语和概念
5.2.2Storm特性及运行原理
5.2.3消息的生命周期
5.2.4消息的可靠性保障
5.3Flume分布式日志收集
5.3.1Flume的基本术语和概念
5.3.2源
5.3.3通道
5.3.4接收器
5.4Kafka分布式消息队列
5.4.1Kafka的基本术语和概念
5.4.2生产者
5.4.3消费者
5.4.4数据传递的可靠性保障
5.5SparkStreaming框架
5.5.1SparkStreaming架构
5.5.2输入数据源
5.5.3DStream的转换操作
5.5.4输出存储
5.5.5容错机制
5.6Flink框架
5.6.1Flink架构
5.6.2Client
5.6.3JobManager
5.6.4TaskManager
本章课后习题
本章参考文献
第6章大数据查询——分布式数据查询
本章思维导图
6.1分布式数据查询简介
6.2Hive分布式数据仓库
6.2.1Hive概述
6.2.2Hive内部介绍
6.2.3Hive架构介绍
6.2.4HiveQL:数据定义
6.2.5HiveQL:数据导入
6.2.6HiveQL:查询
6.3Druid时序数据仓储
6.3.1Druid概述
6.3.2架构详解
6.3.3数据摄入
6.3.4数据查询
6.4Drill分布式实时查询
6.4.1使用ApacheDrill的原因
6.4.2Drill架构与原理
6.4.3Drill核心模块
6.4.4使用Drill实现查询
本章课后习题
本章参考文献
第7章大数据分析——Kylin分布式多维数据分析
本章思维导图
7.1使用ApacheKylin的原因
7.2Kylin学习的前奏
7.2.1数据仓库的概念与产生需求
7.2.2数据仓库与数据分析型系统
7.2.3多维数据分析
7.2.4OLAP与数据立方体
7.3Kylin工作原理
7.3.1Cube与Cuboid
7.3.2工作流程
7.4Kylin架构
7.5Kylin快速入门
7.5.1在Hive中准备数据
7.5.2设计数据模型
7.5.3创建Cube
7.5.4构建Cube
7.5.5查询Cube
7.6增量构建
7.6.1设计增量Cube
7.6.2触发增量构建
7.6.3管理Cube碎片
7.7查询和可视化
7.7.1WebGUI
7.7.2RestAPI
7.7.3ODBC
7.7.4通过Tableau访问Kylin
7.8Cube优化
本章课后习题
本章参考文献
第8章数据可视化
本章思维导图
8.1数据可视化定义及分类
8.1.1数据可视化定义
8.1.2数据可视化分类
8.2数据可视化基础
8.2.1数据可视化流程
8.2.2可视化中的数据
8.2.3可视化的基本图表
8.2.4视图的交互
8.3信息可视化分类
8.3.1时空数据可视化
8.3.2层次和网络数据可视化
8.3.3文本和文档可视化
8.4在商业智能中的数据可视化应用
8.4.1商业智能可视化的基本元素
8.4.2仪表盘的设计准则
8.5数据可视化的实现
8.5.1数据可视化工具
8.5.2ECharts
8.5.3Plotly
本章课后习题
本章参考文献
第9章大数据应用系统案例——互联网应用大数据系统构建
本章思维导图
9.1互联网业务背景介绍
9.2案例的大数据平台技术体系架构
9.2.1数据采集
9.2.2数据存储
9.2.3数据计算
9.2.4数据应用
本章课后习题
本章参考文献

内容摘要
本书围绕大数据技术基础,重点介绍了大数据存储系统(分布式文件系统和NoSQL数据库)、大数据处理框架(Hadoop的MapReduce、spark及实时处理框架Storm和Flink)、大数据仓库技术(Hive、Druid等)、大数据多维分析(Kylin)、大数据可视化技术和大数据综合应用等,以及当今主流的大数据平台构建技术和开源组件实践知识,可以指导读者全面、系统地掌握大数据各层的实现方案,开展各领域的大数据实践。本书可作为计算机学科相关专业,特别是数据科学与大数据技术专业的教材。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP