前言
大数据作为一个热词,数据科学与大数据技术专业作为一个热门专业,近年来引起相关高等学校的关注,不少高校纷纷设立此专业。例如,2018年新申报的数据科学与大数据专业的高校,全国有220所,远远超过其他专业;而这个专业2016年第1批才获批了3所高校(北京大学、对外经济贸易大学和中南大学),2017年3月第二批获批高校32所,包括编著者所在的佛山科学技术学院,2018年又获批了248所,这样,到2019年将出现近500所高校在开这个新专业。在2018年,*又设置了一个大数据管理与应用的新专业。可以预计,随着大数据与人工智能相关专业建设的需要,数据科学课程的教学改革面临着诸多新的问题。注意到*2018年发布的《普通高等学校本科专业类教学质量国家标准》,对以数据科学与大数据技术专业为代表的新工科专业人才培养方案提出了挑战。编著者曾出版《数据挖掘与数学建模》教材,并在华南理工大学应用数学专业(应用软件方向)、信息管理与信息系统专业的本科生教学中使用了近十年,也曾作为中国移动通讯广东分公司的管理层培训材料,受到了广泛的欢迎,尤其是结合具体的案例,从学习者的角度,渐进式地把数据挖掘的技术和方法如画卷式地展示出来,使学习者大有跃跃欲试的激情。因此,探索大数据挖掘与数学建模的教学改革成了顺势而为研究方向。不过,大数据的挖掘所呈现出的不确定性,使得建模的价值,包括数学方法建模(简称数学建模)的价值,有些折扣。故而,本课程则从大数据的挖掘中,提炼出科学的、可教学的、有模型的内容,作为一门数据科学与大数据技术专业的基础课,呈现出来。这门课程教材,就是《数据科学与数学建模》。
导语摘要
本书内容分为八章,基本涵盖了目前较为常用的数据科学建模方法,包括现在热门的深度学习。书中不仅介绍模型的理论基础,还以大量案例结合现实数据为读者展示了数据分析中常见任务的处理流程,如分类、回归、聚类、推荐、图片识别等,帮助读者应用这些模型和方法解决实际问题。第1章首先对数据科学的任务和重要性进行了概述,接着介绍数据科学的建模流程以及Python语言开发环境与常用库;
第二章介绍了回归模型,包括线性回归和逻辑回归模型;
第三章介绍了聚类模型,包括k-means算法、DBSCAN算法和DIANA算法;
第四章介绍了关联规则分析,包括Apriori算法和FP-Growth算法;
第五章介绍了决策树模型,包括ID3、C4.5和CART算法及树的剪枝方法;
第六章介绍了支持向量机,包括线性和非线性支持向量机以及向量机的求解与多分类问题;
第七章介绍了贝叶斯网络,包括朴素贝叶斯、TAN贝叶斯和无约束贝叶斯;
第八章介绍了深度学习,包括卷积神经网络和循环神经网络。材,整理编撰了本实验指导教材,以供嵌入式系统课程的实验教学之用。
目前的嵌入式系统主要分为跑操作系统和不跑操作系统两种类型,本实验指导教材侧重于第1种类型,全书以Linux为操作系统,重点讲述了Linux基本命令、Linux下的程序开发、Linux下字符型驱动程序开发、Linux按键中断程序、Linux网络应用开发以及Linux内核定制等相关内容,为学生动手实践嵌入式Linux系统开发提供指导和帮助,力求把学生学习时的挫折感降至低。
商品简介
本书内容分为八章,基本涵盖了目前较为常用的数据科学建模方法,包括现在热门的深度学习。书中不仅介绍模型的理论基础,还以大量案例结合现实数据为读者展示了数据分析中常见任务的处理流程,如分类、回归、聚类、、图片识别等,帮助读者应用这些模型和方法解决实际问题。
第1章首先对数据科学的任务和重要性进行了概述,接着介绍数据科学的建模流程以及Python语言开发环境与常用库;
第二章介绍了回归模型,包括线性回归和逻辑回归模型;
第三章介绍了聚类模型,包括k-means算法、DBSCAN算法和DIANA算法;
第四章介绍了关联规则分析,包括Apriori算法和FP-Growth算法;
第五章介绍了决策树模型,包括ID3、C4.5和CART算法及树的剪枝方法;
第六章介绍了支持向量机,包括线性和非线性支持向量机以及向量机的求解与多分类问题;
第七章介绍了贝叶斯网络,包括朴素贝叶斯、TAN贝叶斯和无约束贝叶斯;
第八章介绍了深度学习,包括卷积神经网络和循环神经网络。材,整理编撰了本实验指导教材,以供嵌入式系统课程的实验教学之用。
目前的嵌入式系统主要分为跑操作系统和不跑操作系统两种类型,本实验指导教材侧重于第1种类型,全书以Linux为操作系统,重点讲述了Linux基本命令、Linux下的程序开发、Linux下字符型驱动程序开发、Linux按键中断程序、Linux网络应用开发以及Linux内核定制等相关内容,为学生动手实践嵌入式Linux系统开发提供指导和帮助,力求把学生学习时的挫折感降至低。
目录
章 绪论 6
1.1数据科学概述 6
1.2 数据科学的建模流程 8
1.3 Python语言开发环境与库入门 12
1.3.1 开发环境 12
1.3.2 Python基本语法 15
1.3.3 Python常用库和功能 16
1.4本书内容介绍 19
第二章 回归模型 21
2.1概述 21
2.2线性回归 22
2.2.1 一元线性回归 22
2.2.2 多元线性回归 25
2.3线性回归案例 28
2.3.1儿童体表面积预测 28
2.3.2波士顿房价因素分析 32
附录:scikit-learn库中的LinearRegression 34
2.4逻辑回归 35
2.4.1 逻辑回归模型 35
2.4.2 逻辑回归方程中回归系数的估计及含义 37
2.4.3 逻辑回归方程的统计检验 38
2.5逻辑回归案例 40
2.5.1考试成绩预测 40
2.5.2鸢尾花分类 42
附录:scikit-learn库中的LogisticsRegression 44
第三章 聚类模型 46
3.1概述 46
3.1.1聚类分析概述 46
3.1.2基于距离的聚类相似度 49
3.2 K-means聚类 50
3.2.1 K-means聚类算法 50
3.2.2 K-means聚类实例 51
3.2.3 K-means聚类的优缺点 56
3.3 密度聚类 56
3.3.1 DBSCAN密度定义 56
3.3.2 DBSCAN聚类算法 56
3.3.3 DBSCAN聚类的优缺点 57
3.4 层次聚类 57
3.4.1系统聚类 58
3.4.2 DIANA算法 64
3.4.3 层次聚类算法的优缺点 67
3.5 案例 67
3.5.1 一个二维数据集聚类 67
3.5.2一个居民家庭情况案例 69
3.5.3一个医疗建设评价案例 75
附录:scikit-learn库中的KMeans 77
第四章 关联规则 80
4.1 概述 80
4.1.1 问题概述 80
4.1.2 关联规则概述 80
4.1.3 关联分析的基本概念 81
4.2 Apriori算法 84
4.3 基于Apriori算法的改进算法 88
4.4 FP-Growth算法 90
4.5 关联规则案例 94
4.5.1一个销售记录的关联分析案例 94
4.5.2商品购买记录分析 98
4.5.3电影推荐 100
第五章 决策树 104
5.1概述 104
5.1.1 决策树基本算法 104
5.1.2 CLS算法 105
5.1.3 信息熵 106
5.2 ID3算法 107
5.2.1基本思想 107
5.2.2 ID3算法应用实例 109
5.3 C4.5算法 112
5.3.1 基本思想 112
5.3.2 基于信息增益率建模的决策树 113
5.4 CART算法 114
5.4.1 基本思想 114
5.4.2 基于CART算法建模的决策树 115
5.5 决策树的剪枝 117
5.6 案例 121
5.6.1泰坦尼克号乘客幸存预测 121
5.6.2乳腺癌诊断 125
附录:scikit-learn库中的DecisionTreeClassifier 129
第六章 支持向量机 132
6.1概述 132
6.2线性支持向量机 132
6.2.1 硬间隔线性支持向量机 133
6.2.2 软间隔线性支持向量机 135
6.3非线性支持向量机 138
6.3.1特征空间硬间隔支持向量机 140
6.3.2特征空间软间隔支持向量机 141
6.4 支持向量机的求解和多分类问题 142
6.4.1 支持向量机的求解 142
6.4.2 多分类问题 142
6.5新闻文本分类案例 144
附录:scikit-learn库中的SVM 147
第七章 贝叶斯网络 150
7.1概述 150
7.1.1 贝叶斯网络定义 150
7.1.2 贝叶斯网络的知识推理模式 151
7.1.3 贝叶斯网络建立的主要步骤 151
7.1.4贝叶斯网络的结构学习 152
7.1.5 贝叶斯网络的参数学习 153
7.1.6 主要贝叶斯网络模型 156
7.2 朴素贝叶斯网络 156
7.3 TAN贝叶斯网络 162
7.4 无约束贝叶斯网络 167
7.5 朴素贝叶斯进行垃圾邮件过滤 170
附录 scikit-learn库中的Naive-Bayes分类 174
第八章 深度学习 176
8.1概述 176
8.1.1 深度学习的发展历史 176
8.1.2 神经网络的基本模型 176
8.2多层感知机 180
8.2.1感知机 180
8.2.2多层感知机 184
8.3卷积神经网络 190
8.3.1基本网络结构 191
8.3.2反向传播训练算法 192
8.3.3 AlexNet网络结构 193
8.4循环神经网络 194
8.4.1基本网络结构 195
8.4.2反向传播训练算法 195
8.4.3长短时间记忆单元 196
8.5 构建卷积神经网络模型对CIFAR图片数据集分类 197
附录:TensorFlow基本用法 203
参考文献 207
内容摘要
本书内容分为八章,基本涵盖了目前较为常用的数据科学建模方法,包括现在热门的深度学习。书中不仅介绍模型的理论基础,还以大量案例结合现实数据为读者展示了数据分析中常见任务的处理流程,如分类、回归、聚类、推荐、图片识别等,帮助读者应用这些模型和方法解决实际问题。
第1章首先对数据科学的任务和重要性进行了概述,接着介绍数据科学的建模流程以及Python语言开发环境与常用库;
第二章介绍了回归模型,包括线性回归和逻辑回归模型;
第三章介绍了聚类模型,包括k-means算法、DBSCAN算法和DIANA算法;
第四章介绍了关联规则分析,包括Apriori算法和FP-Growth算法;
第五章介绍了决策树模型,包括ID3、C4.5和CART算法及树的剪枝方法;
第六章介绍了支持向量机,包括线性和非线性支持向量机以及向量机的求解与多分类问题;
第七章介绍了贝叶斯网络,包括朴素贝叶斯、TAN贝叶斯和无约束贝叶斯;
第八章介绍了深度学习,包括卷积神经网络和循环神经网络。材,整理编撰了本实验指导教材,以供嵌入式系统课程的实验教学之用。
目前的嵌入式系统主要分为跑操作系统和不跑操作系统两种类型,本实验指导教材侧重于第1种类型,全书以Linux为操作系统,重点讲述了Linux基本命令、Linux下的程序开发、Linux下字符型驱动程序开发、Linux按键中断程序、Linux网络应用开发以及Linux内核定制等相关内容,为学生动手实践嵌入式Linux系统开发提供指导和帮助,力求把学生学习时的挫折感降至低。
主编推荐
《数据科学与数学建模》从大数据挖掘中提炼出了科学的、可教学的、有模型的内容,本教材从立足于理论联系案例,从学习者的角度出发,渐进式地把数据挖掘的技术和方法展示出来。本教材除了介绍算法的理论,还为每一类算法配备了具有代表性的、贴近实际应用的典型案例,以大程度地帮助学生做到学以致用。
以下为对购买帮助不大的评价