全新正版书籍,24小时发货,可开发票。
¥ 47.3 7.0折 ¥ 68 全新
库存10件
作者董进文
出版社经济管理出版社
ISBN9787509688779
出版时间2023-03
装帧其他
开本其他
定价68元
货号29550980
上书时间2024-11-27
董进文,男,内蒙古财经大学教授,内蒙古自治区高等学校教学名师。主要研究方向为数据库、数据挖掘与大数据技术。主讲课程为数据科学导论、分布式数据库技术等。主持国家与内蒙古自治区级项目多项,公开发表相关领域的学术论文20余篇。
第1章 数据科学与大数据概述
1.1 数据科学与大数据基本概念
1.1.1 数据相关的概念
1.1.2 数据科学
1.1.3 大数据及其特征
1.2 大数据时代
1.2.1 人类信息文明的发展
1.2.2 大数据时代的来临
1.3 大数据的产生与作用
1.3.1 大数据的产生
1.3.2 大数据的作用
1.4 大数据时代的新思维
1.4.1 注重全样而非抽样
1.4.2 注重效率而非精确
1.4.3 注重相关关系而非因果关系
1.5 大数据产业
1.5.1 大数据产业构成
1.5.2 全球大数据产业发展现状与应用趋势
1.5.3 我国大数据产业市场现状与前景
1.6 大数据与云计算、人工智能
1.6.1 云计算
1.6.2 人工智能
1.6.3 大数据与云计算、人工智能的关系
本章小结
第2章 大数据技术基础
2.1 Linux操作系统
2.1.1 什么是操作系统
2.1.2 Linux操作系统的特点
2.1.3 Linux操作系统与大数据
2.2 计算机编程语言
2.2.1 Java语言
2.2.2 Python语言
2.2.3 Scala语言
2.3 数据库
2.3.1 数据库的概念
2.3.2 数据库管理系统
2.3.3 数据库系统
2.3.4 SQL数据库的发展与成热
2.3.5 NoSQL数据库及其特点
2.3.6 NewSQL数据库
2.4 大数据处理系统
2.4.1 大数据处理概述
2.4.2 Hadoop系统
2.4.3 Spar*台
2.5 大数据的基本处理流程
2.5.1 数据抽取与集成
2.5.2 数据分析和挖掘
2.5.3 数据展现
本章小结
第3章 数据采集与预处理
3.1 数据采集概述
3.1.1 大数据的数据类型
3.1.2 大数据的来源分类
3.2 数据采集方法
3.2.1 系统日志的采集方法
3.2.2 网页数据的采集方法
3.2.3 其他数据的采集
3.3 数据预处理概述
3.3.1 影响数据质量的因素
3.3.2 数据预处理的流程
3.3.3 数据预处理方法
3.3.4 ETL工具Kettle
本章小结
第4章 大数据存储与管理
4.1 传统的数据存储与管理
4.1.1 数据的存储模式
4.1.2 传统的数据存储与管理技术
4.2 大数据存储与管理
4.2.1 分布式文件系统
4.2.2 Hadoop HDFS分布式文件系统
4.2.3 NoSQL数据库
4.2.4 HBase分布式NoSQL数据库
4.2.5 云存储
本章小结
第5章 大数据计算架构
5.1 概述
5.1.1 批处理计算
5.1.2 流计算
5.1.3 查询分析计算
5.2 批计算MapReduce
5.2.1 MapReduce基本思想
5.2.2 Hadoop MapReduce架构
5.2.3 Hadoop MapReduce工作流程
5.2.4 MapReduce的工作机制
5.2.5 MapReduce实例分析:单词计数
5.2.6 MapReduce编程实践
5.2.7 新一代资源管理调度框架YARN
5.3 快速计算Spark
5.3.1 Spark概述
5.3.2 Spark生态系统
5.3.3 Spark RDD概念
5.3.4 Spark总体架构和运行流程
5.3.5 Spark编程实践
5.4 交互式计算Hive
5.4.1 Hive概述
5.4.2 Hive的体系架构
5.4.3 Hive的数据类型
5.4.4 Hive的存储模型
5.4.5 Hive的操作
本章小结
第6章 数据挖掘
6.1 数据挖掘的概念
6.2 数据挖掘的对象与价值类型
6.2.1 数据挖掘的对象
6.2.2 数据挖掘的价值类型
6.3 数据挖掘常用的算法
6.3.1 数据挖掘算法的概念
6.3.2 数据科学算法的类型
6.3.3 分类和预测
6.3.4 聚类分析
6.3.5 关联分析
6.4 数据挖掘常用的工具
6.4.1 Spark MLlib
6.4.2 RapidMiner
6.4.3 华为MLS
本章小结
第7章 数据可视化
7.1 可视化概述
7.1.1 什么是数据可视化
7.1.2 数据可视化的发展历程
7.1.3 可视化的重要作用
7.1.4 数据可视化流程的核心要素
7.1.5 可视化即服务
7.2 数据可视化工具
7.2.1 入门级工具
7.2.2 信息图表工具
7.2.3 地图工具
7.2.4 高级分析工具
7.3 数据可视化典型案例
7.3.1 互联网地图
7.3.2 实时风场可视化
7.3.3 百度迁徙
7.3.4 游客热力图
7.3.5 交通实时路况展现
本章小结
第8章 大数据安全
8.1 传统数据安全
8.1.1 传统数据安全的含义
8.1.2 传统数据安全的特点
8.1.3 传统数据安全的威胁因素
8.2 大数据安全
8.2.1 大数据安全的特征
8.2.2 大数据安全技术体系
8.2.3 大数据的数据安全
8.2.4 大数据安全运维体系
8.3 大数据安全典型案例
8.3.1 “棱镜门”事件
8.3.2 Facebook数据滥用事件
8.3.3 某网站求职简历遭泄露事件
8.3.4 手机App过度采集个人信息
本章小结
第9章 大数据应用
9.1 大数据的应用价值
9.1.1 大数据的政用价值
9.1.2 大数据的商用价值
9.1.3 大数据的民用价值
9.2 大数据功能应用
9.2.1 基于大数据的精准营销
9.2.2 基于大数据的个性化推荐系统
9.2.3 大数据预测
9.3 大数据行业应用
9.3.1 大数据在金融行业的应用
9.3.2 大数据在物流行业的应用
9.4 大数据深度应用
9.4.1 疫情下大数据的应用
9.4.2 大数据深度挖掘的应用
本章小结
1.1数据科学与大数据基本概念
数据已成为新的“生产资料”和新的“资产”,数据科学的飞速发展与大数据时代的到来迫切需要人们进一步地理解和深度认识数据,以针对现有数据及不断生成的新数据进行分析、处理和应用,从而充分获取数据的潜在价值。
1.1.1数据相关的概念
数据(Data)是记录客观事物的、可以鉴别的符号,这些符号不仅指数字,而且包括字符、文字、图形等。数据经过处理仍然是数据。
信息(lnformation)是对客观世界各种事物特征的反映,是关于客观事实的可通信的知识。处理数据是为了便于更好地解释,只有经过解释,数据才有意义,才能成为信息。可以说,信息是经过加工后并对客观世界产生影响的数据。
知识(Knowledge)是反映各种事物的信息进入人类大脑,对神经细胞产生作用后留下的痕迹。知识是由信息形成的。
人们在日常生活中可以接触到大量的数据,如银行的账簿数据、学校的教学管理数据、企业的生产管理和产品销售数据等。一般来说,数据是代表真实世界的客观事物,由原始事实组成,是用来载荷信息的符号,同时是事物属性及相互关系的抽象,如1、2、3或者A、B、C等。它们木身并没有什么含义,只是当人们有目的地处理和使用它们时才有意义。
信息是有目的、有意义、有用途的数据被加工后的结果,是对数据的解释。它是按特定方式组织在一起的事实的结合,具有了超出这些事实本身之外的价值。当这些事实按照一定意义的方式被组织安排在一起时,就成为信息。例如,企业管理者可以将某些似乎不相关产品的数据加入销售数据中,从而得到按生产线划分的月销售信息。
如果说数据在某种方式上增加了价值而变为信息,那么信息通过人们的实践和思维就转变为知识了,这就是信息到知识的转变过程。反之,通过知识的使用,人们可以重新认识、改造事物,也会促进新的信息和数据产生。
显然,在数据、信息和知识三者中,尽管数据是信息产生的基础,信息是知识产生的基础,但信息与知识对人们的价值远大于数据,而知识的价值又远远超出信息的价值。正像石油一样,数据作为基础资源,需要一个挖掘并转变的过程。
1.1.2数据科学
1.1.2.1数据科学的定义
信息化是将现实世界中的事物和现象以数据的形式存储到网络空间中,是一个生产数据的过程。这些数据是自然和生命的一种表示形式,记录了人类的行为,包括工作、生活和社会发展。当前,数据被快速、大量地生产并存储在网络空间中,这种现象称为数据爆炸。数据爆炸在网络空间中形成数据自然界。数据是网络空间中的唯一存在形式,因此需要研究和探索网络空间中数据的规律和现象。另外,探索网络空间中数据的规律和现象,也是探索宇宙的规律、探索生命的规律、寻找人类行为的规律、寻找社会发展的规律的一种重要手段。例如,可以通过研究数据来研究生命(生物信息学)、研究人类行为(行为信息学)。
数据科学或数据学(Dataology)(以下统称数据科学)是关于数据的科学或者研究数据的科学,其定义为:研究、探索网络空间中数据界奥秘的理论、方法和技术。它的研究对象是数据自然界中的数据。与自然科学和社会科学不同,数据科学的研究对象是网络空间中的数据,是新的科学。数据科学主要有两个内涵:一是研究数据本身,即研究数据的各种类型、状态、属性及变化形式和变化规律;二是为自然科学和社会科学研究提供一种新的方法,即科学研究的数据方法,其目的在于揭示自然界和人类行为的现象和规律。
……
本书对数据科学与大数据研究和处理过程中涉及的各种关键理论与技术做了详细的介绍,书中内容将基本概念原理与实例相结合,努力培养读者的数据意识、数据思维、数据技术、数据能力。全书包括数据科学与大数据基本概念、大数据技术基础、大数据采集与预处理、大数据存储与管理、大数据处理架构、数据挖掘、数据可视化、大数据安全、大数据应用等各个环节,帮助初学者规划了一条完整的学习路线。本书只是一本入门指南手册,目的是给初学者指引方向,它虽然讲解了数据科学与大数据处理的各种概念、原理及技术,但并不非常深入。对于数据专业人员,还需要结合其它教程深度学习;对于大数据一般从业者,这些知识已经足够了。
— 没有更多了 —
以下为对购买帮助不大的评价