作者简介
Matt Harrison经营着一家叫作MetaSnake的公司,为客户提供Python和数据科学培训和咨询服务。他自2000年起一直使用 Python,期间涉足多个领域:数据科学、BI、存储、自动化测试、开源软件技术栈管理、金融和搜索。
目录
前言
第1章 机器学习入门
本书使用的库
用pip安装库
用conda安装库
第2章 机器学习流程概览
第3章 数据分类工作流:泰坦尼克号数据集
项目布局建议
导入
提出问题
数据术语
获取数据
清洗数据
创建特征
数据采样
数据插值
规范数据
重构
基准模型
不同算法族
模型堆叠
建模
评估模型
优化模型
混淆矩阵
ROC曲线
学习曲线
部署模型
第4章 数据缺失
检查数据缺失情况
删除缺数据的行或列
插值
添加标识列
第5章 清洗数据
处理列名
替换缺失值
第6章 探索数据
数据大小
汇总统计
直方图
散点图
Joint Plot图
Pair Grid图
箱形图和小提琴图
比较两个序数型特征
相关性
RadViz图
平行坐标图
第7章 预处理数据
标准化
内容摘要
本书以详细的授课笔记、表格和示例,帮助你掌握Python机器学习基础知识,学习建模处理结构化数据。
你参加相关培训,可将这份宝贵的学习指南作为补充材料,你开始下一个机器学习项目,可将其作为便捷的参
考资源。
本书适合程序员、数据科学家和AI工程师,它不仅综述机器学习的全过程,还带你了解结构化数据处理的全过程。从本书中,你将学到分类、回归、降维和聚类等多个主题的相关方法。
本书涵盖以下主题:用泰坦尼克号数据集讲解分类。
清洗数据和处理缺失数据。
探索数据分析。
数据预处理的常用方法。
选择对模型有用的特征
。
模型选择。
度量标准和分类评估。
多种回归分析技术。
评估回归结果的度量标准。
聚类算法。
降维技术。
scikit-learn流水线。
以下为对购买帮助不大的评价