全新正版书籍,24小时发货,可开发票。
¥ 56.2 8.1折 ¥ 69 全新
库存7件
作者石川、王啸、胡琳梅
出版社清华大学出版社
ISBN9787302569688
出版时间2021-04
装帧平装
开本16开
定价69元
货号29216121
上书时间2024-12-28
近些年,各行各业聚集的“大数据”不仅对信息处理技术提出了挑战,而且深刻影响社会经济的各个方面。大数据时代的到来也催生一门新的学科——数据科学。数据科学是基于计算机科学、统计学、数学等学科的一门新兴的交叉学科,主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。作为一门新兴学科,很多学校开设了相关专业,也急需讲授其核心理论体系和应用实践的教材。本书顺应数据科学兴起的潮流,为数据科学与大数据及相关专业的学生,提供一本入门和导论性质的教材。
作者深入调研了现有的大数据教材和资料,结合十余年数据挖掘和机器学习等领域的科研实践以及“计算机导论”等计算机专业基础课程的教学实践经验,以“建立知识体系、掌握基本原理、学会初级实践、了解前沿技术”为原则,精心设计编写了本书。本书具有如下特色。
(1) 内容全面,重点突出。本书涵盖了数据科学的主要内容,包括基础理论、数学基础、分析方法、应用前沿和处理技术。同时,作者也从数据挖掘的视角着重强调了数据分析的基本方法和技能。
(2) 理论系统,实践丰富。本书比较系统地介绍了与数据科学紧密相关的基本理论和方法,并且配以丰富的实例进行讲解。作者以Python语言为例,配以大量实例详细讲解了数据分析的基本方法。
(3) 模块设计,灵活组合。本书划分为3个模块: 基础理论(第1~2章)、分析方法(第3~6章)、高级主题(第7~8章),3个模块相对独立,模块内部也是由浅入深。选择合适章节内容和讲授深度,可以支撑2~6学分的“数据科学导论”课程设置。
(4) 深入浅出,可读性强。本书尽量介绍数据科学相关的内容和基本的概念,并配以实例介绍本质含义;此外,还介绍了大量要深入学习的扩展阅读材料。本书面向具有基础的计算机相关知识的学生和科技工作者,力争概念通俗易懂,方法便于上手。
全书内容分为3部分,共8章。部分是数据科学的基本理论和数学基础,由第1~2章组成。
第1章是本书统领式的一章。主要介绍数据科学的产生背景、基础知识、基本理论以及数据科学家和数据科学的实践案例。通过串联数据和大数据的概念,阐述了人类社会的数据化进程;通过介绍数据科学的理论基础和应用实践引导读者在学习时应注重理论联系实际,学以致用。
第2章介绍数据科学研究中广泛使用的数学工具。主要介绍数据科学中需要用到的基础数学知识,包括线性代数、概率统计、优化理论和图论基础,并结合实例探讨它们的应用。
本书第二部分介绍数据科学中常用的数据分析方法,由第3~6章组成。
第3章介绍数据科学研究中主流的编程语言。全书的案例也都统一以Python语言讲解。本章涵盖Python的基本用法以及数据科学处理中重要库的使用。
第4章介绍数据科学处理中基本的数据预处理方法。本章是整个数据处理中的前期核心步骤,包括数据清洗、数据集成、数据归约、数据变换等技术,后辅以一个实践案例具体阐述预处理的各个步骤。
第5章介绍数据科学研究中的基本机器学习模型。本章介绍机器学习的基本概念及主流的机器学习库,同时讲解回归、分类、神经网络等监督学习方法及聚类等无监督学习模型,每个模型均配有实例及代码演示。
第6章以实战案例系统总结前面章节的数据处理技术。首先介绍数据分析流程,继而给出4个具体的案例,包括Titanic生存预测、时间序列预测等,每个案例从问题分析开始,阐述数据预处理、机器学习模型使用、结果分析等完整流程。
本书第三部分介绍数据科学的应用前沿和处理技术,由第7~8章组成。
第7章围绕非结构化数据,分别对文本数据、图像视频数据、图结构数据的分析与应用方法展开介绍。此外,还简要介绍了数据可视化分析技术、应用场景、常用的可视化分析工具。
第8章介绍大数据处理的主流工具。主要介绍了云计算的相关概念和特点、核心技术虚拟化和多个商用的云计算平台;讨论了大数据处理工具Hadoop与Spark这两个框架的基本概念、核心算法以及生态环境。本章还提供了一个完整的搭建并使用Hadoop集群进行数据处理的应用案例。
本书可以作为数据科学与大数据及相关专业学生的数据科学和大数据分析等课程的入门教程,也可以作为科技工作者学习大数据分析的参考材料。作为大学教材使用,可以有短学时(2~3学分)和长学时(4~6学分)两种教学计划。针对短学时教学计划,可以选择第1、3~6章讲授,其他章节选讲;针对长学时教学计划,可以讲授全部内容,并且增加上机实践环节。本书还提供了丰富的教学资料供教师教学参考和学生学习使用,包括教学幻灯片和所有实例源代码等资料。这些资料可以从www.shichuan.org下载使用。
石川负责全书框架设计和统稿,并编写了第1章;王啸负责编写第3~6章;胡琳梅负责编写第2、7、8章;王柏对全书进行了校对。本书编写过程中得到了北京邮电大学计算机学院数据科学与服务中心的老师们的大力支持和帮助;也得到了许多研究生的支持,他们收集并整理了大量的资料。没有他们的帮助,本书很难在约定的时间内完成。在此,感谢他们在本书的编写过程中做出的巨大贡献。
编者 2020年6月
本教材介绍数据科学的通识入门知识,可以作为高等院校大数据专业的专业基础课程教材。本教材以“建立知识体系、掌握基本原理、学会初级实践、了解相关技术”为原则,为计算机专业类学生深入学习数据科学和大数据技术奠定基础。本教材将系统讲授数据科学的基本概念和知识体系、数据分析的基本流程和方法(包括数据预处理,回归、聚类、分类等智能分析技术)、大数据分析的基本工具,并以Python语言为例,通过大量实例和练习讲授初级的数据分析技术。
石川,男,1978年4月生于湖北洪湖。现就职于北京邮电大学计算机学院,教授、博导。长期专注于数据挖掘与机器学习研究,发表高水平论文50余篇。获北京市“师德先锋”称号和“青年英才”计划支持。
第1章数据科学概论1
1.1数据和大数据1
1.1.1数据1
1.1.2数据化进程3
1.1.3大数据5
1.2数据科学理论基础8
1.2.1数据科学发展历程8
1.2.2数据科学的概念9
1.2.3数据科学的主要内容9
1.3数据科学应用实践13
1.3.1数据科学家13
1.3.2数据科学工作流程14
1.3.3数据科学实践案例15
1.4小结19
1.4.1本章总结19
1.4.2扩展阅读材料20
1.5习题20
1.6参考资料21
第2章数学基础23
2.1线性代数23
2.1.1向量23
2.1.2矩阵24
2.1.3矩阵导数29
2.1.4实例: 利用SVD进行评分预测31
2.2概率统计32
2.2.1随机事件与概率33
2.2.2条件概率与事件独立性342.2.3随机变量及其数字特征36
2.2.4数理统计41
2.2.5信息论42
2.2.6实例: 利用朴素贝叶斯算法进行文本分类43
2.3优化理论44
2.3.1基本概念45
2.3.2优化问题的一般形式48
2.3.3优化方法54
2.3.4实例: SVM分类器57
2.4图论基础58
2.4.1图的定义58
2.4.2图的概念59
2.4.3图的矩阵表示62
2.4.4拉普拉斯矩阵与谱64
2.4.5实例: 谱聚类算法65
2.5小结67
2.5.1本章总结67
2.5.2扩展阅读材料68
2.6习题68
2.7参考资料69
数据科学导论目录第3章Python语言初步70
3.1Python语言概述70
3.1.1Python语言简介70
3.1.2Python语言环境搭建71
3.2Python的基本用法72
3.2.1列表与元组72
3.2.2字符串77
3.2.3字典79
3.2.4条件与循环语句83
3.2.5函数88
3.2.6文件94
3.2.7综合实例96
3.3重要库的使用方法与案例100
3.3.1NumPy100
3.3.2Pandas108
3.3.3SciPy118
3.3.4Matplotlib122
3.4小结124
3.4.1本章总结124
3.4.2扩展阅读材料125
3.5习题125
3.6参考资料126
第4章数据预处理127
4.1数据预处理概述127
4.1.1数据预处理的意义与目标127
4.1.2背景知识128
4.1.3数据可视化实例130
4.2数据清洗133
4.2.1缺失值处理133
4.2.2噪声平滑136
4.2.3异常值的检测与处理137
4.3数据集成140
4.3.1实体识别问题141
4.3.2检测和解决数据值冲突141
4.3.3冗余数据与相关分析141
4.3.4元组重复143
4.4数据归约144
4.4.1数据归约策略144
4.4.2维归约145
4.4.3数量归约148
4.5数据变换150
4.5.1数据变换策略150
4.5.2规范化150
4.5.3离散化153
4.5.4标称数据的概念分层生成155
4.6数据预处理实践156
4.7小结167
4.7.1本章总结167
4.7.2扩展阅读材料168
4.8习题168
4.9参考资料169
第5章分析方法初步170
5.1机器学习基础170
5.1.1何为机器学习170
5.1.2基本术语171
5.1.3模型评估与性能度量172
5.1.4发展历程177
5.2Sklearn库基本使用178
5.2.1Sklearn库简介178
5.2.2基本使用介绍178
5.3回归184
5.3.1线性回归184
5.3.2Logistic回归187
5.3.3其他回归模型190
5.4分类191
5.4.1决策树191
5.4.2K近邻算法195
5.4.3朴素贝叶斯197
5.4.4支持向量机199
5.5聚类202
5.5.1概述202
5.5.2原型聚类203
5.5.3密度聚类207
5.5.4层次聚类209
5.6神经网络212
5.6.1神经元模型212
5.6.2感知机与多层神经网络213
5.6.3误差逆传播算法215
5.6.4深度学习217
5.7集成学习219
5.7.1概述219
5.7.2序列化方法221
5.7.3并行化方法223
5.8小结224
5.8.1本章总结225
5.8.2扩展阅读材料225
5.9习题226
5.10参考资料226
第6章数据科学实践228
6.1数据分析流程228
6.1.1数据挖掘目标228
6.1.2数据采样228
6.1.3数据预处理229
6.1.4数据探索230
6.1.5数据建模230
6.1.6数据分析工具230
6.2案例1——Kaggle Titanic生存预测231
6.2.1数据挖掘目标231
6.2.2数据导入和预处理231
6.2.3数据探索235
6.2.4模型构建236
6.3案例2——客户价值分析238
6.3.1数据挖掘目标238
6.3.2数据导入和预处理238
6.3.3数据探索242
6.3.4模型构建242
6.4案例3——时间序列预测244
6.4.1数据挖掘目标244
6.4.2数据导入244
6.4.3数据探索245
6.4.4模型构建250
6.5案例4——价格预测挑战253
6.5.1数据挖掘目标253
6.5.2数据导入和预处理253
6.5.3数据探索和模型构建255
6.6小结257
6.6.1本章总结257
6.6.2扩展阅读材料257
6.7习题257
6.8参考资料258
第7章数据科学的重要研究领域259
7.1文本分析259
7.1.1文本分析简介259
7.1.2文本分析的任务与方法261
7.1.3知识图谱266
7.1.4文本分析的应用269
7.2图像视频分析271
7.2.1图像视频分析简介272
7.2.2图像分析的任务与方法273
7.2.3视频分析的任务与方法276
7.2.4图像视频分析的应用278
7.3网络分析281
7.3.1网络结构分析281
7.3.2复杂网络283
7.3.3社交网络分析287
7.3.4异质信息网络分析292
7.4可视化分析295
7.4.1可视化分析简介295
7.4.2可视化分析应用场景296
7.4.3可视化分析工具301
7.5小结306
7.5.1本章总结306
7.5.2扩展阅读材料307
7.6习题307
7.7参考资料308
第8章大数据处理技术简介311
8.1云计算311
8.1.1云计算的概念311
8.1.2云计算的基本特点311
8.1.3云计算的服务类型312
8.1.4云计算的部署方式314
8.1.5云计算与其他计算模式的区别316
8.2云计算平台317
8.2.1虚拟化技术317
8.2.2虚拟化产品及特点319
8.2.3AWS亚马逊云服务321
8.2.4阿里云323
8.3Hadoop及其生态环境327
8.3.1Hadoop简介327
8.3.2HDFS文件系统328
8.3.3YARN资源管理器331
8.3.4MapReduce计算模型334
8.3.5Hadoop生态系统337
8.3.6Hadoop 3.0的新特性340
8.4Spark及其生态环境341
8.4.1Spark简介341
8.4.2RDD以及DAG调度342
8.4.3Spark生态系统344
8.5应用案例346
8.5.1安装虚拟机集群环境346
8.5.2运行案例代码355
8.6小结356
8.6.1本章总结357
8.6.2扩展阅读材料358
8.7习题358
8.8参考资料358
本教材介绍数据科学的通识入门知识,可以作为高等院校大数据专业的专业基础课程教材。本教材以“建立知识体系、掌握基本原理、学会初级实践、了解相关技术”为原则,为计算机专业类学生深入学习数据科学和大数据技术奠定基础。本教材将系统讲授数据科学的基本概念和知识体系、数据分析的基本流程和方法(包括数据预处理,回归、聚类、分类等智能分析技术)、大数据分析的基本工具,并以Python语言为例,通过大量实例和练习讲授初级的数据分析技术。
石川,男,1978年4月生于湖北洪湖。现就职于北京邮电大学计算机学院,教授、博导。长期专注于数据挖掘与机器学习研究,发表高水平论文50余篇。获北京市“师德先锋”称号和“青年英才”计划支持。
— 没有更多了 —
以下为对购买帮助不大的评价