• Python大数据分析
21年品牌 40万+商家 超1.5亿件商品

Python大数据分析

全新正版 极速发货

46.27 6.7折 69 全新

库存2件

广东广州
认证卖家担保交易快速发货售后保障

作者(美)伊万·马林|责编:杨晓方|译者:雷依冰//张晨曦

出版社北京航空航天大学

ISBN9787512440715

出版时间2023-04

装帧其他

开本其他

定价69元

货号31736700

上书时间2024-06-06

谢岳书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介

Ivan Marin是一名系统架构师和数据科学家,目前就职于位于坎皮纳斯的软件公司Daitan Group。他设计用于大量数据的大数据系统,并使用Python和Spark端到端实现机器学习管道。他还是圣保罗数据科学、机器学习和Python活跃组织者,并在大学级别教授Python数据科学课程。



目录
第1章  Python数据科学堆栈
  1.1  概述
  1.2  Python库和软件包
    1.2.1  IPython:一个功能强大的交互式shell
    1.2.2  Jupyter Notebook
    1.2.3  使用IPython还是Jupyter
    1.2.4  Numpy
    1.2.5  Scipy
    1.2.6  Matplotlib
    1.2.7  Pandas
  1.3  使用Pandas
    1.3.1  读取数据
    1.3.2  数据操作
  1.4  数据类型转换
  1.5  聚合和分组
  1.6  从Pandas导出数据
  1.7  Pandas可视化
  1.8  总结
第2章  统计数据可视化
  2.1  概述
  2.2  可视化图表
  2.3  图表的组件
  2.4  Seaborn
  2.5  图的类型
    2.5.1  折线图(Line graph)
    2.5.2  散点图(Scatter plot)
    2.5.3  直方图(Histogram)
    2.5.4  箱线图(Boxplot)
  2.6  Pandas DataFrame
  2.7  修改图的组件
    2.7.1  配置轴对象的标题和标签
    2.7.2  修改线条颜色和样式
    2.7.3  修改图的大小
  2.8  导出图像
  2.9  总结
第3章  使用大数据框架
  3.1  概述
  3.2  Hadoop
    3.2.1  使用HDFS操控数据
  3.3  Spark数据处理平台
    3.3.1  Spark SOL以及Pandas DataFrame
  3.4  Parquet文件
    3.4.1  编写Parquet文件
    3.4.2  使用Parquet和Partitions提高分析性能
  3.5  处理非结构化数据
  3.6  总结
第4章  Spark DataFrame
  4.1  概述
  4.2  使用Spark DataFrame使用方法
  4.3  从Spark DataFrame中写入输出
  4.4  探索和了解Spark DataFrame更多特点
  4.5  使用Spark DataFrame对数据进行相关操作
  4.6  Spark DataFrame绘制图形
  4.7  总结
第5章  处理缺失值以及相关性分析
  5.1  概述
  5.2  设置Jupyter Notebook
  5.3  缺失值
  5.4  处理Spark DataFrame中的缺失值
  5.5  相关性
  5.6  总结
第6章  进行探索性数据分析
  6.1  概述
  6.2  定义商业问题
    6.2.1  问题识别
    6.2.2  需求收集
    6.2.3  数据管道和工作流
    6.2.4  识别可测量的指标
    6.2.5  文档和展示
  6.3  将商业问题转化为可测量的度量标准和进行探索性数据分析(Exploratory Data Analysis, EDA)
    6.3.1  数据采集
    6.3.2  数据生成分析
    6.3.3  KPI可视化
    6.3.4  特征重要性
  6.4  数据科学项目生命周期的结构化方法
    6.4.1  第一阶段:理解和定义业务问题
    6.4.2  第二阶段:数据访问与发现
    6.4.3  第三阶段:数据工程和预处理
    6.4.4  第四阶段:模型开发
  6.5  总结
第7章  大数据分析中的再现性
  7.1  概述
  7.2  Jupyter Notebooks的再现性
    7.2.1  业务问题介绍
    7.2.2  记录方法和工作流程
    7.2.3  数据管道
    7.2.4  相关性
    7.2.5  使用源代码版本控制
    7.2.6  模块化过程
  7.3  以可复制的方式收集数据
    7.3.1  标记单元格和代码单元格中的功能
    7.3.2  解释标记语言中的业务问题
    7.3.3  提供数据源的详细介绍
    7.3.4  解释标记中的数据属性
  7.4  进行编码实践和标准编写
    7.4.1  环境文件
    7.4.2  编写带有注释的可读代码
    7.4.3  工作流程的有效分割
    7.4.4  工作流文档
  7.5  避免重复
    7.5.1  使用函数和循环优化代码
    7.5.2  为代码/算法重用开发库/包
  7.6  总结
第8章  创建完整的分析报告
  8.1  概述
  8.2  Spark可从不同的数据源读取数据
  8.3  在Spark DataFrame上进行SQL操作
  8.4  生成统计测量值
  8.5  总结
附录

内容摘要
 这本书先介绍了如何使用Ppandas在Python中进行数据操作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用Dask分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳全部数据时,为绘图聚合数据。本书还将带领您探索Hadoop(HDFS和YARN),它可帮助您处理更大的数据集。此外,这本书还介绍了Spark相关知识,并解释了它如何与其他工具进行交互。
Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统
计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。
3.作者简介IvanMarin是一名系统架构师和数据科学家,目前就职于位于坎皮纳斯的软件公司DaitanGroup。他设计用于大量数据的大数据系统,并使用Python和Spark端到端实现机器学习管道。他还是圣保罗数据科学、机器学习和Python活跃组织者,并在大学级别教授Python数据科学课程。

主编推荐

Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。



精彩内容

本书中主要讲解了如何使用Python读取数据,以及生成(转换)为其他不同格式,并将数据生成统计指标基本知识和实践等,书的结构完整,讲述条理清晰,语言流畅,内容充实,通俗易懂,实用且指导性好。



   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP