• 正版新书 Python数据预处理 清华大学出版社 软件工具 程序设计 教材 Python 计算机编程 数据预处理 NumPy Pandas Matplotlib

正版新书 Python数据预处理 清华大学出版社 软件工具 程序设计 教材 Python 计算机编程 数据预处理 NumPy Pandas Matplotlib

9787302649076

132 全新

库存200件

江苏扬州

作者[印] 罗伊·贾法里 著 陈 凯 译

出版社清华大学出版社

ISBN9787302649076

出版时间2020-01

装帧平装

开本16开

货号754753576592

上书时间2024-03-22

   商品详情   

品相描述:全新
商品描述
   品牌:清华大学出版社
  ISBN编号:9787302649076
  书名:Python数据预处理 作者:[印] 罗伊·贾法里 著 陈 凯 译
  定价:159.00元
  开本:16开 是否是套装:否
  出版社名称:清华大学出版社 
  图书简介:

  《Python数据预处理》详细阐述了与Python数据预处理相关的基本解决方案,主要包括NumPy和Pandas简介、Matplotlib简介、数据、数据库、数据可视化、预测、分类、聚类分析、数据清洗、数据融合与数据集成、数据归约、数据转换等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。  
  作者简介:

  罗伊·贾法里博士是美国加州雷德兰兹大学商业分析学助理教授。 Roy讲授和开发了涵盖数据清洗、决策、数据科学、机器学习和优化的大学水平课程。 Roy的教学风格是崇尚动手实践,他相信最好的学习方式是边做边学。Roy采用主动学习的教学理念,读者在本书中将体验到这种主动学习方式 

  编辑推荐: 
   数据预处理是数据可视化、数据分析和机器学习的第一步,它将为分析和预测模型准备数据以帮助分析师获得最佳见解。分析师在执行数据分析、数据可视化和机器学习项目时,大约90%的时间都花在数据预处理上。 本书将从多个角度为读者提供最佳的数据预处理技术。读者将了解数据预处理的不同技术和分析过程(包括数据收集、数据清洗、数据集成、数据归约和数据转换等),并掌握如何使用开源Python编程环境来实现它们。 

   目    录 
  第1篇  技 术 基 础 第1章  NumPy和Pandas简介 3 1.1  技术要求 3 1.2  Jupyter Notebook概述 4 1.3  通过计算机编程进行数据分析的实质含义 6 1.4  NumPy基本函数概述 6 1.4.1  np.arange()函数 8 1.4.2  np.zeros()和np.ones()函数 8 1.4.3  示例—使用占位符来容纳分析 9 1.4.4  np.linspace()函数 10 1.4.5  示例—使用np.linspace()求解 11 1.5  Pandas概述 12 1.6  Pandas数据访问 15 1.6.1  Pandas DataFrame访问 15 1.6.2  访问DataFrame行 15 1.6.3  访问DataFrame列 16 1.6.4  访问DataFrame值 17 1.6.5  访问Pandas Series 17 1.7  切片 18 1.7.1  对NumPy数组进行切片 18 1.7.2  对Pandas DataFrame进行切片 20 1.7.3  切片的实用示例 20 1.8  用于过滤DataFrame的布尔掩码 22 1.8.1  使用布尔掩码的分析示例1 23 1.8.2  使用布尔掩码的分析示例2 24 1.9  用于探索DataFrame的Pandas函数 24 1.9.1  了解数据集的结构 25 1.9.2  使用.shape属性 25 1.9.3  使用.columns属性 25 1.9.4  使用.info()函数 26 1.9.5  了解数据集的值 26 1.9.6  使用.describe()函数 26 1.9.7  用于可视化数值列的直方图和箱线图 27 1.9.8  使用.unique()函数 28 1.9.9  使用.value_counts()函数 28 1.9.10  用于可视化数值列的条形图 29 1.10  应用Pandas函数 29 1.10.1  将函数应用于Series 30 1.10.2  应用函数—分析示例1 30 1.10.3  应用Lambda函数 31 1.10.4  对DataFrame应用函数 31 1.10.5  应用函数—分析示例2 32 1.10.6  Pandas groupby函数 33 1.10.7  使用groupby的分析示例 34 1.10.8  Pandas多级索引 35 1.10.9  使用.unstack()函数 36 1.10.10  使用.stack()函数 38 1.10.11  多级访问 39 1.10.12  Pandas .pivot()和.melt()函数 40 1.11  小结 43 1.12  练习 43 第2章  Matplotlib简介 47 2.1  技术要求 47 2.2  在Matplotlib中绘图 48 2.2.1  使用直方图或箱线图可视化数值特征 48 2.2.2  使用折线图观察数据趋势 49 2.2.3  使用散点图关联两个数值属性 50 2.3  修改绘图的可视化效果 51 2.3.1  将标题添加到可视化对象并将标签添加到轴 52 2.3.2  添加图例 53 2.3.3  修改刻度 53 2.3.4  修改标记 55 2.4  绘制子图 56 2.5  调整并保存结果 58 2.5.1  调整大小 58 2.5.2  保存 58 2.6  Matplotilb辅助进行数据预处理的示例 58 2.7  小结 59 2.8  练习 60 第3章  数据 61 3.1  技术要求 61 3.2  数据的定义 61 3.2.1  HLCU的意义 62 3.2.2  DIKW金字塔 63 3.2.3  机器学习和人工智能的DIKW更新 64 3.2.4  数据分析的DIKW更新 65 3.2.5  用于数据分析的数据预处理与用于机器学习的数据预处理 67 3.2.6  大数据的3个V 67 3.2.7  3个V对数据预处理的重要性 68 3.3  最通用的数据结构—表 68 3.3.1  数据对象 69 3.3.2  强调数据对象的重要性 69 3.3.3  数据特性 70 3.4  数据值的类型 70 3.4.1  从分析的角度看数据类型 70 3.4.2  标称特性 71 3.4.3  序数特性 71 3.4.4  区间标度特性 72 3.4.5  比率标度特性 74 3.4.6  二元特性 74 3.4.7  理解特性类型的重要性 74 3.4.8  从编程的角度看数据类型 75 3.5  信息与模式 75 3.5.1  理解“信息”这个词的日常用法 76 3.5.2  “信息”一词的统计用途 76 3.5.3  分类特性的统计信息 77 3.5.4  数字特性的统计信息 77 3.5.5  数据冗余—呈现相似信息的特性 78 3.5.6  通过相关系数调查数据冗余情况 78 3.5.7  “模式”一词的统计意义 79 3.5.8  查找和使用模式的示例 79 3.6  小结 82 3.7  练习 82 3.8  参考资料 85 第4章  数据库 87 4.1  技术要求 87 4.2  数据库的定义 87 4.2.1  从数据库到数据集 87 4.2.2  理解数据库和数据集之间的区别 88 4.3  数据库类型 89 4.3.1  数据库的差异化元素 90 4.3.2  数据结构化水平 90 4.3.3  存储位置 92 4.3.4  权限 92 4.3.5  关系数据库 92 4.3.6  非结构化数据库 92 4.3.7  一个需要结合结构化和非结构化数据库的实际示例 93 4.3.8  分布式数据库 93 4.3.9  区块链 94 4.4  连接到数据库并从中提取数据 94 4.4.1  直接连接 95 4.4.2  网页连接 96 4.4.3  API连接 97 4.4.4  使用API连接和提取数据的示例 97

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP