机器学习入门——基于Sklearn
正版新书 新华官方库房直发 可开电子发票
¥
38.93
7.8折
¥
49.9
全新
库存5件
作者周元哲编著
出版社清华大学出版社
ISBN9787302599982
出版时间2022-02
版次1
装帧平装
开本16开
纸张胶版纸
页数268页
字数386千字
定价49.9元
货号SC:9787302599982
上书时间2024-12-25
商品详情
- 品相描述:全新
-
全新正版 提供发票
- 商品描述
-
作者简介:
周元哲,参与国家自然科学基金“基于多阶段可用性的Web 服务组合管理关键技术、参与陕西省教育厅 “协同agent进化聚类算法研究”,参与西安市科学技术计划项目“基于windows的软件测试平台的开发”,获得2011年西安市科学技术二等奖。
主编推荐:
Python和机器学习是当今信息领域的热门领域,众多高校开设Python学习。本书以Python为基础,使用sklearn平台,封装了众多机器学习算法,回避了烦琐的数学理论知识 ,对于初学者而言,易于上手实践,能尽快对机器学习有初步认识,提早入门。本书具有如下特点:1、代码详解:区别于市场上众多机器学习教材“重理论轻代码”,往往只是给出伪代码,而本书的代码都是采用Python实现,使用sklearn平台使得机器学习算法具有实践性,从而便于学生更快地掌握机器学习的思想,加速学生入门的过程。2、突出实用性。针对每个机器学习算法都有相关案例。
内容简介:
本书以Python为基础,使用Sklearn平台,逐步带领读者熟悉并掌握机器学习的经典算法。全书共12章,主要内容包括人工智能概述、Python科学计算、数据清洗与特征预处理、数据划分与特征提取、特征降维与特征选择、模型评估与选择、KNN算法、决策树、线性模型、朴素贝叶斯算法、支持向量机和k均值聚类算法,附录介绍了课程教学大纲和Sklearn数据集。
本书内容精练,文字简洁,结构合理,案例经典且实用,综合性强,面向机器学习入门读者,侧重提高。
本书适合作为高等院校相关专业机器学习入门课程教材或教学参考书,也可以供从事机器学习应用开发的技术人员参考。
摘要:
第3章数据清洗与特征预处理
数据处理是建立机器学习模型的第一步,对最终结果有决定性的作用。本章重点介
绍数据清洗与特征预处理。其中,数据清洗是指对缺失值、异常值和重复值等进行处理;
特征预处理是指通过规范化、标准化、鲁棒化和正则化等方法将数据转化成符合算法要求
的数据。最后介绍misingno库和词云,它们用于可视化显示数据相关信息。
3.数据清洗
1
3.1
数据清洗简介
1.
在处理数据之前,需要进行数据质量分析,了解数据的功能和作用,检查原始数据中
是否存在脏数据。脏数据一般是指不符合要求以及不能直接进行相应分析的数据。
脏数据往往存在如下问题:没有列头,一个列有多个参数,列数据的单位不统一,存
在缺失值、空行、重复数据和非ASCI
字符,有些列头应该是数据而不应该是列名参数,
等等。可将这些问题大致归类为缺失值、异常值和重复值等噪声数据问题。而数据清洗
就是发现并处理这些数据问题。
3.2
评价标准
1.
对于数据的评价一般具有如下标准:
(1)准确性。描述数据是否与其对应的客观实体的特征一致。
(2)完整性。描述数据是否存在缺失记录或缺失字段。
(3)一致性。描述同一实体的同一属性的值在不同系统中是否一致。
(4)有效性。描述数据是否满足用户定义的条件或在一定的域值范围内。
(5)专享性。描述数据是否存在重复记录。
3.清洗方法
2
2.缺失值
3.1
缺失值通常是指记录的缺失和记录中某个字段信息的缺失,一般以空白、NaN或其
他占位符编码,采用删除法和数据填充进行处理。
.删除法。如果某个属性的缺失值过多,可以直接删除整个属性。
.数据填充。使用一个全局变量填充缺失值,使用属性的平均值、中间值、优选值、
57 最小值或更为复杂的概率统计函数值填充缺失值。
常用填充方法如表3.1所示。
表3.1 常用填充方法
填充方法方法描述
平均值/中位数根据属性值的类型,用该属性取值的平均值/中位数填充
固定值将缺失的属性值用一个常量替换
最近值用最接近缺失值的属性值填补
Sklearn中的Imputer类或SimpleImputer类用于处理缺失值。其中,Imputer在
preprocessing模块中,而SimpleImputer在sklearn.impute模块中。
Imputer具体语法如下:
from sklearn.preprocessing import Imputer
imp=Imputer(missing_values="NaN", strategy="mean")
SimpleImputer具体语法如下:
...
目录:
第1章人工智能概述1
1.1相关概念1
1.1.1人工智能1
1.1.2机器学习2
1.1.3深度学习2
1.1.4三者关系2
1.2机器学习三要素3
1.2.1数据3
1.2.2算法4
1.2.3模型6
1.3机器学习开发流程6
1.3.1数据采集6
1.3.2数据预处理7
1.3.3特征工程7
1.3.4模型构建和训练7
1.3.5模型优化和评估8
1.4Sklearn框架8
1.4.1Sklearn简介9
1.4.2Sklearn的安装过程10
1.4.3基于Sklearn的机器学习流程10
1.5Anaconda13
1.5.1Anaconda简介13
1.5.2Anaconda的安装过程13
1.5.3Anaconda的运行方式15
1.5.4Jupyter Notebook17
1.6学习建议与方法20
1.6.1学习建议20
1.6.2学习方法21
1.6.3Kaggle竞赛平台21
第2章Python科学计算22
2.1走进科学计算22
2.2NumPy23
2.2.1NumPy简介23
2.2.2创建数组25
2.2.3查看数组26
2.2.4索引和切片27
2.2.5矩阵运算28
2.2.6主要方法29
2.3Matplotlib30
2.3.1Matplotlib简
...
— 没有更多了 —
全新正版 提供发票
以下为对购买帮助不大的评价