数据挖掘算法与应用
¥
15.1
2.2折
¥
69.8
九五品
仅1件
作者孙家泽,王曙燕 著
出版社清华大学出版社
ISBN9787302563778
出版时间2020-10
版次1
装帧平装
开本16开
纸张胶版纸
页数416页
字数99999千字
定价69.8元
上书时间2024-05-20
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:数据挖掘算法与应用
定价:69.80元
作者:孙家泽,王曙燕 著
出版社:清华大学出版社
出版日期:2020-10-01
ISBN:9787302563778
字数:599000
页码:416
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐
内容提要
本教材以数据挖掘的经典算法为主线,基础部分讲清楚数据挖掘的过程和经典算法:数据探索、数据预处理、分类与回归、聚类分析、关联规则挖掘、偏差检测等。同时增加实现应用部分,在应用实现部分,以Python作为描述语言,以解决某个应用的挖掘目标为前提,介绍案例背景,阐述分析方法与过程,完成模型构建,给出算法的具体实现,通过此项目的方法提升学生的算法理解和应用能力,适应当今大数据时代对于高级工程师的数据分析能力。
目录
章数据挖掘导论/11.1为什么进行数据挖掘21.1.1数据挖掘起源21.1.2数据挖掘是数据处理的高级阶段31.2什么是数据挖掘41.2.1广义技术角度的定义41.2.2狭义技术角度的定义51.2.3商业角度的定义61.2.4数据挖掘与机器学习61.3挖掘什么类型的数据71.3.1数据库数据71.3.2数据仓库数据81.3.3事务数据91.3.4其他类型的数据91.4能挖掘到什么知识101.4.1广义知识111.4.2关联知识121.4.3聚类知识131.4.4分类知识131.4.5预测型知识141.4.6偏差型知识141.4.7有价值的知识151.5数据挖掘方法151.5.1统计学161.5.2机器学习161.5.3数据库系统和数据仓库181.5.4智能优化191.6数据挖掘过程201.6.1Fayyad数据挖掘模型201.6.2CRISPDM模型211.6.3CRISPDM案例251.6.4数据挖掘过程的工作量261.6.5数据挖掘需要的人员261.7数据挖掘应用271.7.1数据挖掘在市场营销中的应用271.7.2数据挖掘在电信行业的应用281.7.3数据挖掘在银行业的应用291.7.4数据挖掘在社交网络分析中的应用291.7.5数据挖掘在软件工程中的应用301.8数据挖掘中的隐私权保护331.8.1侵犯隐私权的表现341.8.2保护隐私权的对策351.9数据挖掘课程学习方法和资源361.9.1数据挖掘课程学习方法361.9.2开源数据挖掘工具371.9.3经典测试数据集391.9.4著名国际会议和期刊401.10思考与练习41数据挖掘算法与应用(Python实现)目录第2章数据探索与预处理/432.1数据属性类型442.2数据的统计描述452.2.1中心趋势度量: 均值、中位数和众数452.2.2度量数据散布472.3统计描述图形492.4数据相似性度量532.4.1数据矩阵与相异性矩阵532.4.2标称属性的相异性度量542.4.3二元属性的相异性度量542.4.4数值属性的相异性562.4.5序数属性的邻近性度量582.5数据清洗592.5.1缺失值处理592.5.2噪声数据处理622.5.3异常值处理672.6数据集成682.6.1实体识别问题682.6.2冗余和相关分析692.6.3数据值冲突的检测与处理712.7数据变换722.7.1数据变换策略概述722.7.2数据规范化722.7.3数据离散化和概念分层742.8数据归约782.8.1数值归约782.8.2属性归约812.9对数据预处理的点852.10思考与练习86第3章关联规则挖掘/873.1基本概念873.2Apriori算法893.2.1Apriori算法详解903.2.2Apriori算法的例子953.2.3Apriori算法总结983.3FPGrowth算法983.3.1FPGrowth算法详解993.3.2FPGrowth算法的例子1083.4关联规则评价1093.5思考与练习112第4章聚类分析/1144.1聚类分析简介1144.2基于划分的方法1154.2.1kmeans算法1154.2.2kmedoids算法1184.3基于层次的方法1204.3.1AGNES算法1214.3.2DIANA算法1224.3.3BIRCH算法1244.4基于密度的方法1294.5基于概率的聚类1334.6聚类图数据1384.6.1聚类图数据度量1384.6.2复杂网络1404.7聚类评估1434.7.1估计聚类趋势1444.7.2确定簇数1454.7.3测定聚类质量1454.8思考与练习152第5章分类/1545.1基本概念1545.1.1什么是分类1545.1.2分类的过程1555.1.3分类器常见构造方法1575.2KNN分类1575.3贝叶斯分类1605.3.1贝叶斯定理1605.3.2朴素贝叶斯分类算法1615.4决策树分类1645.4.1相关定义1655.4.2CART算法原理1665.4.3CART算法实例1675.4.4CART算法的优缺点1695.4.5ID3算法原理1695.4.6ID3算法实例1705.4.7ID3算法的优缺点1755.4.8C4.5算法原理1765.4.9C4.5算法实例1765.4.10C4.5算法的优缺点1845.4.113种算法的比较1855.5分类算法评价1855.5.1常用术语1855.5.2评价指标1865.5.3分类器性能的表示1895.5.4分类器性能的评估方法1925.6思考与练习193第6章高级分类算法/1956.1组合分类算法1956.1.1算法起源1956.1.2AdaBoost算法基本原理1966.1.3分类器创建1976.1.4算法实例1996.1.5AdaBoost算法的优缺点2066.2粒子群分类算法2066.2.1粒子群优化算法简介2076.2.2基本粒子群优化算法2076.2.3粒子群优化算法的特点2096.2.4基于粒子群优化算法的分类器构造2106.3支持向量机分类算法2146.3.1支持向量机的基本概念2146.3.2感知机模型2156.3.3硬间隔支持向量机2156.3.4软间隔支持向量机2196.3.5非线性支持向量机2216.3.6支持向量机算法实例2226.3.7支持向量机算法的优缺点2246.4BP神经网络分类算法2246.4.1算法起源2246.4.2BP神经网络的理论基础2256.4.3BP神经网络基本原理2296.4.4BP神经网络的学习机制2306.4.5BP算法步骤2336.4.6BP算法实例2336.4.7BP算法的优缺点2356.5思考与练习235第7章Python数据分析/2377.1搭建Python开发平台2377.2Python数据分析库2387.2.1NumPy2387.2.2Pandas2467.2.3SciPy2517.2.4ScikitLearn2527.3Python数据可视化2547.3.1Matplotlib2547.3.2Seaborn2617.3.3Bokeh2657.4思考与练习267第8章Python数据挖掘/2698.1数据探索2698.2数据预处理2708.2.1数据清洗2718.2.2数据集成2758.2.3数据归约2778.2.4数据变换2788.3聚类分析算法2808.3.1kmeans算法2808.3.2DBSCAN算法2858.4关联规则算法2888.4.1Apriori算法2888.4.2FP树算法2938.5分类算法2988.5.1ID3算法2998.5.2C4.5算法3058.5.3KNN算法3118.6思考与练习317第9章泰坦尼克号乘客生存率预测/3189.1背景与挖掘目标3189.2算法介绍3189.2.1线性回归算法3189.2.2逻辑回归算法3209.2.3随机森林算法3229.3分析方法与过程3269.3.1数据抽取3269.3.2数据探索与分析3279.3.3数据预处理3309.3.4模型构建3339.3.5模型检验3359.4思考与练习3360章基于关联规则的电影推荐/33810.1选择数据源33810.2数据探索34010.2.1异常值分析34010.2.2周期性分析34110.2.3统计量分析34210.3数据预处理34410.3.1数据加载34410.3.2缺失值处理34410.3.3异常值处理34510.4数据挖掘算法实现34610.5算法评估34610.6主要代码34810.6.1频繁项集生成代码34810.6.2关联规则生成代码35010.6.3电影推荐代码35110.7思考与练习3511章航空公司客户价值分析/35311.1背景与挖掘目标35311.2分析方法与过程35311.2.1数据抽取35511.2.2数据探索35611.2.3数据预处理35711.2.4模型构建35911.2.5模型检验36011.3思考与练习3612章基于协同过滤的音乐推荐/36312.1推荐系统和协同过滤算法36312.1.1推荐系统发展概况36312.1.2基于用户的协同过滤算法36512.1.3基于项目的协同过滤算法36812.1.4两种算法的比较36912.1.5协同过滤算法和基于内容的过滤算法比较37012.1.6推荐系统的评价37012.2音乐推荐37112.2.1数据获取37112.2.2数据预处理37212.2.3数据分析及算法设计37212.2.4结果输出和模型评价37512.3思考与练习3773章基于支持向量机的手写数字识别/37813.1背景与支持向量机的概念37813.1.1优超平面37813.1.2软间隔37813.1.3线性不可分问题37913.1.4支持向量机类型37913.1.5支持向量机举例37913.1.6支持向量机的应用38113.2分析方法与过程38213.2.1数据集介绍38213.2.2数据集读取38313.2.3数据集可视化38313.3模型构建38413.4模型检验38613.5思考与练习3874章基于神经网络的代码坏味检测/38814.1神经网络38814.2代码坏味检测38914.2.1代码坏味简介38914.2.2代码坏味研究现状39114.2.3代码坏味公开数据集39214.3基于神经网络算法的代码坏味检测39214.3.1准备数据39214.3.2构建神经网络39314.3.3训练模型39514.3.4生成预测结果39814.4思考与练习399参考文献/400
作者介绍
孙家泽,男,博士,副教授,计算机软件方向硕士研究生导师。1980年7月出生,汉族。2006年至今,西安邮电大学计算机学院任教,2017-2018美国西密歇根大学访问学者,主讲数据挖掘,数据库技术,高级语言程序设计等课程,近5年先后主持多项软件工程和数据分析类的项目,获省市科技进步奖6次,授权国家发明专利2项,正在公开实审发明专利6项,软件著作权5项,学术专著2部,参编教材2部,发表论文30多篇,多篇被SCI/EI检索。主要从事数据挖掘、软件测试和群体智能算法等方面研究。
序言
— 没有更多了 —
以下为对购买帮助不大的评价