Spark全栈数据分析
本店所售书籍均精品二手正版书书籍,严格审核品相为9品,出库会经过高温消毒,13点前的订单一般当天发出
¥
18.84
1.9折
¥
99
九品
库存2件
作者 [美]Russell Jurney(罗素·朱尼
出版社 电子工业出版社
出版时间 2018-11
版次 1
装帧 其他
货号 1108629898605363203
上书时间 2024-11-28
商品详情
品相描述:九品
二手正版书籍,品相为9品,急速发货,高温消毒
商品描述
书名:Spark全栈数据分析9787121351662,作者:'[美]Russell Jurney(罗素·朱尼',ISBN:9787121351662,出版社:电子工业出版社
图书标准信息
作者
[美]Russell Jurney(罗素·朱尼
出版社
电子工业出版社
出版时间
2018-11
版次
1
ISBN
9787121351662
定价
99.00元
装帧
其他
开本
16开
纸张
胶版纸
【内容简介】
本书介绍了作者提出的敏捷数据科学的方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践经验。全书基于Spark做全栈数据分析,书中展示了工业界一些常见工具的使用,包括从前端显示到后端处理的各个环节,手把手帮助数据科学家快速将理论转化为真正面向用户的应用程序,从而让读者在利用数据创造真正价值的同时,也能不断完善自己的研究。本书适合初学者阅读,数据科学家、工程师、分析师都能在本书中有所收获。
【作者简介】
Russell Jurney在赌场游戏中练出了数据分析的技能,构建了网络应用程序分析美国和墨西哥的老虎机的表现。在涉足创业、互动媒体、记者等行业后,他搬到硅谷,在Ning和LinkedIn构建分析型应用。Russell现在是Data Syndrome的首席顾问,他帮助公司使用本书所介绍的原则和方法构建分析性产品。 王道远,毕业于浙江大学,目前就职于阿里巴巴计算平台事业部,在加入阿里巴巴之前,曾在英特尔亚太研发有限公司大数据部门工作了五年。
【目录】
目录 前言 .................................................................................................. xiv 第Ⅰ部分 准备工作 第1章 理论 ..........................................................................................3 导论 .............................................................................................................................3 定义 .............................................................................................................................5 方法学 ................................................................................................................5 敏捷数据科学宣言 ............................................................................................6 瀑布模型的问题 .......................................................................................................10 研究与应用开发 ..............................................................................................11 敏捷软件开发的问题 ...............................................................................................14 最终质量:偿还技术债 ....................................................................................14 瀑布模型的拉力 ..............................................................................................15 数据科学过程 ...........................................................................................................16 设置预期 ..........................................................................................................17 数据科学团队的角色 ......................................................................................18 认清机遇与挑战 ..............................................................................................19 适应变化 ..........................................................................................................21 过程中的注意事项 ...................................................................................................23 代码审核与结对编程 ......................................................................................25 敏捷开发的环境:提高生产效率 ....................................................................25 用大幅打印实现想法 ......................................................................................27 第2章 敏捷工具 ................................................................................29 可伸缩性=易用性 ...................................................................................................30 敏捷数据科学之数据处理 .......................................................................................30 搭建本地环境 ...........................................................................................................32 配置要求 ..........................................................................................................33 配置Vagrant .....................................................................................................33 下载数据 ..........................................................................................................33 搭建EC2环境 ............................................................................................................34 下载数据 ..........................................................................................................38 下载并运行代码 .......................................................................................................38 下载代码 ..........................................................................................................38 运行代码 ..........................................................................................................38 Jupyter笔记本 ...................................................................................................39 工具集概览 ...............................................................................................................39 敏捷开发工具栈的要求 ..................................................................................39 Python 3 ...........................................................................................................39 使用JSON行和Parquet序列化事件 .................................................................42 收集数据 ..........................................................................................................45 使用Spark进行数据处理 .................................................................................45 使用MongoDB发布数据 .................................................................................48 使用Elasticsearch搜索数据 .............................................................................50 使用Apache Kafka分发流数据 .......................................................................54 使用PySpark Streaming处理流数据 ...............................................................57 使用scikit-learn与Spark MLlib进行机器学习 ................................................58 使用 Apache Airflow(孵化项目)进行调度 ....................................................59 反思我们的工作流程 ......................................................................................70 轻量级网络应用 ..............................................................................................70 展示数据 ..........................................................................................................73 本章小结 ...................................................................................................................75 第3章 数据 ........................................................................................77 飞行航班数据 ...........................................................................................................77 航班准点情况数据 ..........................................................................................78 OpenFlights数据库 ...........................................................................................79 天气数据 ...................................................................................................................80 敏捷数据科学中的数据处理 ...................................................................................81 结构化数据vs.半结构化数据 ..........................................................................81 SQL vs. NoSQL .........................................................................................................82 SQL ...................................................................................................................83 NoSQL与数据流编程 ......................................................................................83 Spark: SQL NoSQL ......................................................................................84 NoSQL中的表结构 ..........................................................................................84 数据序列化 ......................................................................................................85 动态结构表的特征提取与呈现 ......................................................................85 本章小结 ...................................................................................................................86 第Ⅱ部分 攀登金字塔 第4章 记录收集与展示 ......................................................................89 整体使用 ...................................................................................................................90 航班数据收集与序列化 ...........................................................................................91 航班记录处理与发布 ...............................................................................................94 把航班记录发布到MongoDB ..................
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价