• Spark全栈数据分析
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

Spark全栈数据分析

17.89 1.8折 99 九品

仅1件

北京昌平
认证卖家担保交易快速发货售后保障

作者[美]Russell Jurney(罗素·朱尼

出版社电子工业出版社

出版时间2018-11

版次1

装帧其他

货号A16

上书时间2024-11-22

旧书香书城

十年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 [美]Russell Jurney(罗素·朱尼
  • 出版社 电子工业出版社
  • 出版时间 2018-11
  • 版次 1
  • ISBN 9787121351662
  • 定价 99.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 胶版纸
【内容简介】
本书介绍了作者提出的敏捷数据科学的方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践经验。全书基于Spark做全栈数据分析,书中展示了工业界一些常见工具的使用,包括从前端显示到后端处理的各个环节,手把手帮助数据科学家快速将理论转化为真正面向用户的应用程序,从而让读者在利用数据创造真正价值的同时,也能不断完善自己的研究。本书适合初学者阅读,数据科学家、工程师、分析师都能在本书中有所收获。
【作者简介】
Russell Jurney在赌场游戏中练出了数据分析的技能,构建了网络应用程序分析美国和墨西哥的老虎机的表现。在涉足创业、互动媒体、记者等行业后,他搬到硅谷,在Ning和LinkedIn构建分析型应用。Russell现在是Data Syndrome的首席顾问,他帮助公司使用本书所介绍的原则和方法构建分析性产品。

王道远,毕业于浙江大学,目前就职于阿里巴巴计算平台事业部,在加入阿里巴巴之前,曾在英特尔亚太研发有限公司大数据部门工作了五年。
【目录】
目录

前言 .................................................................................................. xiv

第Ⅰ部分 准备工作

第1章 理论 ..........................................................................................3

导论 .............................................................................................................................3

定义 .............................................................................................................................5

方法学 ................................................................................................................5

敏捷数据科学宣言 ............................................................................................6

瀑布模型的问题 .......................................................................................................10

研究与应用开发 ..............................................................................................11

敏捷软件开发的问题 ...............................................................................................14

最终质量:偿还技术债 ....................................................................................14

瀑布模型的拉力 ..............................................................................................15

数据科学过程 ...........................................................................................................16

设置预期 ..........................................................................................................17

数据科学团队的角色 ......................................................................................18

认清机遇与挑战 ..............................................................................................19

适应变化 ..........................................................................................................21

过程中的注意事项 ...................................................................................................23

代码审核与结对编程 ......................................................................................25

敏捷开发的环境:提高生产效率 ....................................................................25

用大幅打印实现想法 ......................................................................................27

第2章 敏捷工具 ................................................................................29

可伸缩性=易用性 ...................................................................................................30

敏捷数据科学之数据处理 .......................................................................................30

搭建本地环境 ...........................................................................................................32

配置要求 ..........................................................................................................33

配置Vagrant .....................................................................................................33

下载数据 ..........................................................................................................33

搭建EC2环境 ............................................................................................................34

下载数据 ..........................................................................................................38

下载并运行代码 .......................................................................................................38

下载代码 ..........................................................................................................38

运行代码 ..........................................................................................................38

Jupyter笔记本 ...................................................................................................39

工具集概览 ...............................................................................................................39

敏捷开发工具栈的要求 ..................................................................................39

Python 3 ...........................................................................................................39

使用JSON行和Parquet序列化事件 .................................................................42

收集数据 ..........................................................................................................45

使用Spark进行数据处理 .................................................................................45

使用MongoDB发布数据 .................................................................................48

使用Elasticsearch搜索数据 .............................................................................50

使用Apache Kafka分发流数据 .......................................................................54

使用PySpark Streaming处理流数据 ...............................................................57

使用scikit-learn与Spark MLlib进行机器学习 ................................................58

使用 Apache Airflow(孵化项目)进行调度 ....................................................59

反思我们的工作流程 ......................................................................................70

轻量级网络应用 ..............................................................................................70

展示数据 ..........................................................................................................73

本章小结 ...................................................................................................................75

第3章 数据 ........................................................................................77

飞行航班数据 ...........................................................................................................77

航班准点情况数据 ..........................................................................................78

OpenFlights数据库 ...........................................................................................79

天气数据 ...................................................................................................................80

敏捷数据科学中的数据处理 ...................................................................................81

结构化数据vs.半结构化数据 ..........................................................................81

SQL vs. NoSQL .........................................................................................................82

SQL ...................................................................................................................83

NoSQL与数据流编程 ......................................................................................83

Spark: SQL   NoSQL ......................................................................................84

NoSQL中的表结构 ..........................................................................................84

数据序列化 ......................................................................................................85

动态结构表的特征提取与呈现 ......................................................................85

本章小结 ...................................................................................................................86

第Ⅱ部分 攀登金字塔

第4章 记录收集与展示 ......................................................................89

整体使用 ...................................................................................................................90

航班数据收集与序列化 ...........................................................................................91

航班记录处理与发布 ...............................................................................................94

把航班记录发布到MongoDB ..................
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP