• 数据挖掘原理、方法及python应用实践教程
  • 数据挖掘原理、方法及python应用实践教程
  • 数据挖掘原理、方法及python应用实践教程
  • 数据挖掘原理、方法及python应用实践教程
21年品牌 40万+商家 超1.5亿件商品

数据挖掘原理、方法及python应用实践教程

14 2.1折 68 九品

库存2件

广东广州
认证卖家担保交易快速发货售后保障

作者蒋国银 著

出版社科学出版社

出版时间2020-11

版次1

装帧平装

货号B18579

上书时间2024-07-05

浩林2的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 蒋国银 著
  • 出版社 科学出版社
  • 出版时间 2020-11
  • 版次 1
  • ISBN 9787030653543
  • 定价 68.00元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 240页
  • 字数 373千字
【内容简介】
《数据挖掘原理、方法及python应用实践教程》系统讲授数据挖掘的原理、主要方法及其Python实现,共分三部分:第一部分包含第1~2章,介绍数据挖掘的基本概念、流程和数据预处理;第二部分包含第3~11章,介绍经典的分类算法(包括朴素贝叶斯分类器、决策树、k-近邻、支持向量机等)、经典的聚类分析、关联分析、人工神经网络和Web挖掘等方法;第三部包含第12~14章,共有3个综合案例,包括泰坦尼克号生存数据分析、心脏病预测分析和旅游评论倾向性分析。
【目录】
目录 

第1章 绪论 1 

1.1 数据挖掘的含义 1 

1.2 数据挖掘、机器学习与人工智能 2 

1.3 数据挖掘基本任务 4 

1.3.1 分类与预测 4 

1.3.2 聚类分析 6 

1.3.3 关联分析 7 

1.3.4 异常检测 7 

1.3.5 其他任务 8 

1.4 数据挖掘流程 9 

1.4.1 明确目标 9 

1.4.2 数据收集 9 

1.4.3 数据探索 10 

1.4.4 数据预处理 10 

1.4.5 挖掘建模 10 

1.4.6 模型评价 11 

1.5 数据挖掘常用工具及其比较 11 

1.5.1 Python 11 

1.5.2 R 11 

1.5.3 Weka 12 

1.5.4 SPSS Modeler 12 

1.5.5 RapidMiner 12 

1.6 Python的安装及使用 13 

1.6.1 WinPython 13 

1.6.2 Anaconda 14 

1.6.3 集成开发环境 15 

1.7 本章小结 16 

思考题 17 

习题 17 

本章参考文献 17 

第2章 数据预处理 18 

2.1 概述 18 

2.2 缺失值的处理 18 

2.2.1 缺失值的查找 19 

2.2.2 缺失值的删除 20 

2.2.3 缺失值的填充 22 

2.3 异常值的处理 23 

2.4 数据的标准化 25 

2.4.1 Z-score标准化 25 

2.4.2 将特征变量缩放到指定范围 27 

2.4.3 考虑异常值的标准化 28 

2.5 数据的正则化 28 

2.6 自定义转换器 30 

2.7 生成多项式和交互特征 30 

2.8 本章小结 31 

思考题 32 

习题 32 

第3章 朴素贝叶斯分类器 33 

3.1 朴素贝叶斯分类算法相关的统计学知识 33 

3.2 极大似然估计 34 

3.3 贝叶斯估计 36 

3.4 朴素贝叶斯分类算法的Python实现 37 

3.5 本章小结 40 

思考题 41 

习题 41 

本章参考文献 41 

第4章 决策树 42 

4.1 决策树分类算法概述 42 

4.2 熵与信息增益 43 

4.3 ID3算法 46 

4.4 C4.5算法 47 

4.5 CART算法 49 

4.6 过拟合与决策树剪枝 52 

4.6.1 过拟合 52 

4.6.2 决策树剪枝 52 

4.7 分类模型的评估 54 

4.7.1 混淆矩阵 54 

4.7.2 ROC曲线 57 

4.8 实例:决策树的Python实现 59 

4.9 本章小结 62 

4.9.1 决策树ID3、C4.5和CART算法比较 62 

4.9.2 决策树算法优缺点 63 

思考题 63 

习题 63 

本章参考文献 64 

第5章 集成学习 65 

5.1 集成学习的思想 65 

5.2 集成学习模型:结合策略 67 

5.2.1 集成回归模型的结合策略 67 

5.2.2 集成分类模型的结合策略 68 

5.3 Bagging方法与随机森林 68 

5.3.1 Bagging方法 68 

5.3.2 随机森林 69 

5.4 Boosting方法与Adaboost 70 

5.4.1 Boosting方法 70 

5.4.2 Adaboost 71 

5.5 集成学习模型的Python实现 72 

5.6 实例:信用卡还贷情况预测 72 

5.7 本章小结 74 

思考题 74 

习题 75 

本章参考文献 75 

第6章 k-近邻 76 

6.1 数据在不同维度上分布的分类表现 76 

6.2 算法原理 78 

6.3 相似度与距离 79 

6.3.1 二维向量空间的KNN分类 79 

6.3.2 多维向量空间的KNN分类 80 

6.4 k值的选择 83 

6.5 分类决策规则 84 

6.6 KNN算法 84 

6.7 kd树 85 

6.8 实例:鸢尾花分类 88 

思考题 89 

习题 89 

本章参考文献 89 

第7章 支持向量机 90 

7.1 SVM算法介绍 90 

7.2 线性可分支持向量机 91 

7.2.1 原始问题 91 

7.2.2 对偶问题 95 

7.2.3 算法过程 97 

7.3 线性不可分支持向量机 97 

7.3.1 原始问题 98 

7.3.2 对偶问题 98 

7.3.3 算法过程 99 

7.4 非线性支持向量机 100 

7.4.1 对偶问题 100 

7.4.2 算法过程 101 

7.5 实例:鸢尾花分类 102 

思考题 103 

习题 103 

本章参考文献 103 

第8章 人工神经网络 105 

8.1 神经网络的基本概念 105 

8.2 神经网络的发展过程 107 

8.2.1 神经元 107 

8.2.2 单层神经网络(感知器) 109 

8.2.3 两层神经网络(多层感知器) 110 

8.2.4 神经网络训练(反向传播) 113 

8.3 实例:mnist手写数字识别 118 

思考题 119 

习题 119 

本章参考文献 120 

第9章 聚类分析 121 

9.1 聚类问题 121 

9.1.1 聚类问题的定义 121 

9.1.2 聚类的依据:距离的定义 122 

9.2 基于原型的聚类方法:k-均值聚类 123 

9.2.1 k-均值聚类的原理和过程 123 

9.2.2 k-均值聚类的特点 124 

9.3 基于密度的聚类方法:DBSCAN 125 

9.3.1 DBSCAN聚类方法的原理 126 

9.3.2 DBSCAN 聚类方法的特点 127 

9.4 基于层次的聚类方法:AGNES 127 

9.4.1 AGNES 聚类方法的原理 128 

9.4.2 AGNES聚类方法的特点 130 

9.5 聚类结果的评价 130 

9.6 使用Python进行聚类分析 132 

9.7 实例:城市发展潜力评估 133 

9.8 本章小结 134 

思考题 135 

习题 135 

本章参考文献 135 

第10章 关联分析 137 

10.1 关联分析的基本概念 137 

10.1.1 问题定义 137 

10.1.2 关联分析的基本步骤 139 

10.2 Apriori 关联分析算法 140 

10.2.1 寻找频繁项集 140 

10.2.2 生成关联规则 141 

10.3 FP增长算法 142 

10.3.1 生成FP增长树 142 

10.3.2 寻找频繁项集 144 

10.4 使用Python进行关联分析 145 

10.5 实例:电影观看记录信息挖掘 145 

10.6 本章小结 146 

思考题 147 

习题 147 

本章参考文献 147 

第11章 Web挖掘 148 

11.1 Web挖掘概述 148 

11.1.1 Web挖掘的概念 148 

11.1.2 Web挖掘的特点 148 

11.1.3 Web挖掘的分类 149 

11.2 Web挖掘技术实现 150 

11.2.1 关联规则挖掘技术 150 

11.2.2 序列模式挖掘技术 152 

11.2.3 分类挖掘技术 154 

11.2.4 聚类挖掘技术 155 

11.3 Web数据爬取 156 

11.3.1 Web数据爬虫简介 157 

11.3.2 Web数据处理过程 159 

11.3.3 Web爬虫性能及策略 160 

11.4 Web挖掘评价标准 161 

11.4.1 查准率与查全率 161 

11.4.2 F1值 162 

11.4.3 其他评价标准 162 

11.5 实例:Web日志挖掘 164 

11.6 本 章 小 结 172 

思考题 172 

习题 172 

本章参考文献 172 

第12章 应用案例一:泰坦尼克号生存数据分析 174 

12.1 案例背景及分析思路 174 

12.2 数 据 解 读 174 

12.3 数据预处理 175 

12.3.1 查看数据集 175 

12.3.2 缺失值的填充 177 

12.4 描述性统计分析 178 

12.4.1 性别与生存率之间的关系 178 

12.4.2 船舱等级、生存率与性别三者之间的关系 179 

12.4.3 年龄与生存率之间的关系 180 

12.4.4 登船港口与生存率之间的关系 181 

12.4.5 家庭大小与生存率之间的关系 183 

12.5 特征工程 186 

12.6 模型构建与评估 190 

12.6.1 随机森林 191 

12.6.2 支持向量机 191 

12.6.3 朴素贝叶斯模型 192 

12.7 本章小结 193 

思考题 193 

习题 193 

第13章 应用案例二:心脏病预测分析 194 

13.1 案例背景及分析思路 194 

13.2 数据预处理 194 

13.2.1 数据集的含义 195 

13.2.2 重复值的删除 196 

13.2.3 缺失值处理 197 

13.3 数据集的特征分析 198 

13.4 构建模型 199 

13.4.1 数据整理 199 

13.4.2 KNN 202 

13.4.3 随机森林 204 

13.4.4 logistic回归 205 

13.5 模型评估 206 

13.5.1 KNN 207 

13.5.2 随机森林 209 

13.5.3 logistic回归 211 

13.6 本章小结 212 

思考题 212 

习题 213 

第14章 应用案例三:旅游评论倾向性分析 214 

14.1 案例背景及分析思路 214 

14.1.1 案例背景 214 

14.1.2 数据分析思路与方法 214 

14.2 数据分析准备工作 216 

14.2.1 数据爬取 216 

14.2.2 数据的预处理 218 

14.2.3 描述性分析 222 

14.3 特征工程 224 

14.3.1 人工特征 224 

14.3.2 TF-IDF编码 225 

14.3.3 Word2vec编码 227 

14.4 基于传统分类器的景区评论倾向性分析 230 

14.4.1 基于传统弱分类器的倾向性分析 230 

14.4.2 基于随机森林的倾向性分析 231 

14.4.3 基于提升树的倾向性分析 232 

14.5 基于LSTM和FastText的景区评论倾向性分析 233 

14.5.1 基于自建词典的LSTM情感分析模型 233 

14.5.2 基于FastText的文本标签分类模型 235 

14.5.3 综合FastText和LSTM的情感分析模型 237 

14.6 模型评估 238 

14.7 本章小结 239 

思考题 240 

习题 240 

本章参考文献 240
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP