消息首页搜索举报

Python预测分析与机器学习/清华开发者书库

①全新正版，现货速发，7天无理由退换货②天津仓、成都仓、无锡仓、广东仓、武汉仓等多仓就近发货，订单最迟48小时内发出③无法指定快递④可开电子发票，不清楚的请咨询客服。

53.36 6.0折 89 全新

仅1件

浙江嘉兴

认证卖家担保交易快速发货售后保障

作者王沁晨

出版社清华大学出版社

ISBN9787302592549

出版时间2022-05

装帧平装

开本16开

定价89元

货号31447884

上书时间2024-10-02

倒爷图书专营店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

孩子写的新诗2 ¥20.74

听你的 ¥22.86

交通大数据应用技术与安全 ¥97.48

中学信息技术教学设计 ¥35.16

漫话科举 ¥58.40

数字创意 ¥28.13

计算机视觉从入门到进阶实战：基于PyTorch ¥68.63

李毓佩数学漫画系列(第三辑)(套装4册) ¥46.89

2025二级造价工程师试卷《建设工程计量与计价实务（安装工程）》 ¥2.30

商品详情

品相描述：全新

商品描述: 作者简介
王沁晨，多伦多大学圣乔治校区计算机专业，曾在加拿大零售企业LoblawCompanies担任机器学习数据分析师，从公司传统的大型数据库中筛选有效信息、清理数据、人工数据挖掘、视化，到基础建模、模型优化、数据再筛选，再到结合商业需求创造扩展性强的实用管线，让项目从理论性的头脑风暴变现为商业价值。

目录
第1章  预测分析与机器学习的实用价值
  1.1  人工智能、机器学习与数据分析的关系
  1.2  什么是预测分析
  1.3  预测分析在各行业中的应用
  1.4  预测分析流程概览
  1.5  小结
第2章  数据清理
  2.1  建立编程环境
    2.1.1  Anaconda简介及安装
    2.1.2  Jupyter Notebook简介及安装
    2.1.3  Pandas简介及安装
    2.1.4  scikit-learn简介及安装
    2.1.5  XGBoost、LightGBM、CatBoost简介及安装
    2.1.6  TensorFlow简介及安装
  2.2  面对异构数据如何下手
    2.2.1  什么是异构数据
    2.2.2  如何处理异构数据
  2.3  数据误差
    2.3.1  各类数据误差及其影响
    2.3.2  如何处理数据误差
  2.4  数据重新格式化
第3章  基础建模
  3.1  判断何为X和y
    3.1.1  X和y的定义
    3.1.2  X和y的选择对预测的影响
  3.2  训练集、验证集与测试集
    3.2.1  三者的定义及关系
    3.2.2  如何使用sklearn分离3个集
    3.2.3  如何使用Pandas手动分离3个集
  3.3  数据泄露
    3.3.1  不同类型的数据泄露
    3.3.2  发现并避免目标泄露
    3.3.3  避免训练集与测试集的相互污染
  3.4  偏差与方差
    3.4.1  定义偏差与方差
    3.4.2  过拟合与欠拟合
    3.4.3  实践中的过拟合与欠拟合
  3.5  小结
第4章  模型选择
  4.1  朴素贝叶斯分类器
  4.2  关联规则算法
  4.3  K近邻算法
  4.4  K均值聚类算法
  4.5  回归算法
    4.5.1  线性回归
    4.5.2  罗吉斯蒂回归
  4.6  深度神经网络
  4.7  决策树
  4.8  森林算法
    4.8.1  随机森林
    4.8.2  极端随机树
    4.8.3  孤立森林
  4.9  提升方法
    4.9.1  Adaboost
    4.9.2  XGBoost和LightGBM
    4.9.3  CatBoost
第5章  模型优化
  5.1  损失函数和衡量指标
    5.1.1  分类问题的衡量指标
    5.1.2  回归问题的衡量指标
    5.1.3  损失函数
  5.2  K折交叉验证
  5.3  超参数调试
    5.3.1  网格搜索法
    5.3.2  随机搜索法
    5.3.3  遗传算法
  5.4  函数正则化
第6章  数据优化
  6.1  数据规范化
  6.2  异常值清理
  6.3  平滑法
  6.4  聚类
  6.5  特征工程
第7章  时间序列
  7.1  时间序列简介
  7.2  时间序列数据探索
    7.2.1  加法模型下的可视化图
    7.2.2  乘法模型下的部分可视化图
  7.3  时间序列特征提取
    7.3.1  时间特征
    7.3.2  滞后特征
    7.3.3  基于移动窗口的特征
    7.3.4  基于展开窗口的特征
  7.4  .时间序列模型
    7.4.1  自回归模型
    7.4.2  滑动平均模型
    7.4.3  整合移动平均自回归模型
    7.4.4  季节性整合移动平均自回归模型
第8章  实战
  8.1  M5预测分析比赛介绍
    8.1.1  数据介绍
    8.1.2  评估标准
  8.2  数据清理
  8.3  基础建模
  8.4  优化

内容摘要
本书从理解问题定义、
了解数据内的高层信息、数据清理、可视化数据，到基础建模、模型优化，分享一
个数据分析师的视角与思路。在预测分析的流程中，一
步步用详细的图文和代码讲解使用到的库，如何正确使用各个库中的方法和函数，以及在遇到类似的问题时如
何套用学过的知识。
本书共8章。第1章对预测分析的流程进行一个高层
次的概述。第2章介绍本书需要使用的库，并讲解数据清理步骤的执行。第3章讲解基础建模需考虑的细节，结合第4章的模型选择，可以搭建一个基础的预测管道。第5章和第6章分别从模型和数据的角度讲解如何优化预测表现。第7章讲解时间序列这一特殊数据的预测方法。第8章总结全书的内容，解决一个实战问题。
本书面向3类读者。第1类为有编程基础但毫无数据科学背景，有意入门的读者；第2类为有数据科学理论基础，有意进入实操的读者；第3类为有数据科学理论基础与实操经验，但日常工作集中在数据分析管道中的数据分析师。

— 没有更多了 —