spark实战 数据库 作者
从实战角度讲解spark,实例丰富,容易理解,内容实用,适合学
¥
58.35
5.9折
¥
99
全新
库存4件
作者 作者
出版社 机械工业出版社
ISBN 9787111617488
出版时间 2019-08
版次 1
装帧 其他
开本 16
页数 372页
字数 0.6千字
定价 99元
货号 xhwx_1201935270
上书时间 2024-12-04
商品详情
品相描述:全新
正版特价新书
商品描述
主编: 本书完整系统地介绍park各模块的并兼顾使用实战及综合应用从实战角度讲解park,实例丰富,容易理解,内容实用,适合学 目录: 目录译者序致谢前言关于本书关于作者关于封面部分 步章 apache spark介绍1.1什么是spark1.1.1 spark1.1.2 mapreduce的缺点 1.1.3 spark带来了什么有价值的东西1.2 spark组件1.2.1 spark核心1.2.2 spark sql 1.2.3 spark streaming 1.2.4 spark mllib1.2.5 spark graphx1.3 spark程序流1.4 spark生态系统1.5 建立spark-in-action 虚拟机1.5.1下载启动虚拟机1.5.2 停止虚拟机1.6结第2章 spark基础2.1使用spark-in-action虚拟机2.1.1 复制spark in action github存储库2.1.2 找到java2.1.3 用虚拟机的hadoop安装2.1.4 检查虚拟机的spark安装2.2用spark shell(壳)编写个spark程序2.2.1 启动spark shell2.2.2 个spark代码示例2.2.3 弹分布式数据集的概念2.3基础rdd行为和转换2.3.1 使用用map转换 2.3.2 使用distinct和flatmap 转换 2.3.3 使用sample、take和takesample作获取rdd的元素2.4 double rdd功能2.4.1 double rdd基本统计 2.4.2 使用直方图可视化数据分布2.4.3 近似求和与均值2.5 结第3章 编写spark应用程序3.1在eclie上生成一个新的spark项目3.2开发应用程序3.2.1 准备 github 档案数据3.2.2 加载 json3.2.3 从eclie运行应用3.2.4 数据汇3.2.5 排除非公司员工3.2.6 广播变量3.2.7 使用整个数据集3.3提交应用程序3.3.1 建立uberjar3.3.2 调整应用程序3.3.3 使用spark-submit3.4 结第4章 深入spark api4.1使用键值对rdd4.1.1 创建键值对rdd4.1.2 键值对rdd的基本功能4.2了解数据分区和减少数据混排4.2.1 使用spark数据分区器4.2.2 了解和避不必要的数据混排4.2.3 rdd重新分区4.2.4 在分区中映数据4.3 连接、排序、分组数据 4.3.1 连接数据4.3.2 数据排序4.3.3 数据分组4.4 理解rdd依赖4.4.1 rdd依赖和spark执行4.4.2 spark阶段和任务4.4.3 使用检查点保存spark谱系4.5 使用累加器和广播变量与spark执行器进行沟通4.5.1 使用累加器从执行器获取数据4.5.2 使用广播变量将数据发送数据到执行器4.6结第二部分 认识spark家族第5章 spark sql查询5.1使用dataframes5.1.1 从rdd创建dataframes5.1.2 dataframe api 基础知识5.1.3 用sql函数执行数据计算5.1.4 使用缺失值5.1.5 将dataframes转换为rdd5.1.6 分组和连接数据 5.1.7 执行连接5.2dataframes:引入dataset5.3使用sql命令5.3.1 表目录和hive metastore5.3.2 执行sql查询 5.3.3 通过thrift服务器连接到spark sql5.4保存并加载dataframe 数据5.4.1 内置数据源5.4.2 保存数据5.4.3 加载数据5.5 catalyst 优化器5.6 tungsten能改进5.7结第6章 使用spark streaming提取数据6.1编写spark streaming应用程序6.1.1 介绍示例程序6.1.2 创建流上下文6.1.3 创建离散流6.1.4 使用离散流6.1.5 把结果保存到文档6.1.6 启动和停止流计算6.1.7 随着保存计算6.1.8 使用窗作进行计算6.1.9 检查其他内置输入流6.2使用外部数据源6.2.1 设置kafka6.2.2 使用kafka更改流应用程序6.3 spark streaming任务的能6.3.1 获得良好的能6.3.2 实现容错6.4结构化流6.4.1 创建流式dataframe6.4.2 输出流数据6.4.3 检查流执行6.4.4 结构化流的未来方向6.5结第7章 使用mllib变聪明7.1机器学简介7.1.1 机器学的定义7.1.2 机器学算法分类7.1.3 使用spark进行机器学7.2 spark中的线代数7.2.1 本地向量与矩阵实现7.2.2 分布式矩阵7.3线回归7.3.1 有关线回归7.3.2 简单的线回归7.3.3 将模型扩展到多元线回归7.4分析和准备数据7.4.1 分析数据分布7.4.2 分析列余弦相似7.4.3 协方差矩阵的计算7.4.4 转化为标记点7.4.5 拆分数据7.4.6 特征缩放和均归一化7.5拟合和使用线回归模型7.5.1 预测目标值7.5.2 评估模型能7.5.3 解释模型参数7.5.4 加载和保存模型7.6调整算法7.6.1 找到正确的步长和迭代次数7.6.2 添加高阶多项式7.6.3 偏差-方差权衡和模型复杂度7.6.4 绘制残差图7.6.5 利用正则化避过度拟合7.6.6 k折交验证7.7优化线回归7.7.1 小批量梯度下降7.7.2 lbfgs优化7.8结八、ml:分类和聚类8.1 spark ml 图书馆8.1.1 估计器,变压器和评估器8.1.2 ml参数8.1.3 ml管道8.2逻辑回归8.2.1 二元逻辑回归模型8.2.2准备数据在spark中使用逻辑回归8.2.3 训练模型8.2.4 评估分类模型8.2.5 执行k折交验证8.2.6 多类逻辑回归8.3决策树和森林8.3.1 决策树8.3.2 森林8.4使用k均值聚类8.4.1 k均值聚类8.5结第9章 使用graphx连接点9.1 spark图处理9.1.1 使用graphx api构造图9.1.2 转换图9.2图算法9.2.1 数据集的介绍9.2.2 短路径算法9.2.3 页面排名9.2.4 连通分量9.2.5 强连通分量9.3实现a *搜索算法9.3.1 了解a *搜索算法9.3.2 实现a *搜索算法9.3.3 测试实现9.4结第3部分 spark o0章 运行spark10.1 spark的运行时架构概述10.1.1 spark运行组件10.1.2 spark集群类型10.2作业与资源调度10.2.1 集群资源调度10.2.2 spark作业调度10.2.3 数据局部虑10.2.4 spark内存调度10.3配置spark10.3.1 spark配置文件10.3.2 命令行参数10.3.3 系统环境变量10.3.4 译编程方式设置配置10.3.5 master参数10.3.6 查看所有配置的参数10.4 spark web ui (网络用户界面)10.4.1 jobs(作业)页面10.4.2 stages(阶段)页面10.4.3 storage(存储)页面10.4.4 environment(环境)页面10.4.5 executors(执行器)页面10.5在本地机器运行spark10.5.1 本地模式10.5.2 本地集群模式10.6结1章 在spark独立集群上运行11.1 spark standalone集群组件11.1.1 启动stanalone集群11.1.2 用shell脚本启动群集11.1.3 手动启动集群11.1.4 查看spark进程11.1.5 standalone master高可用和恢复11.3 standalone集群网络用户界面11.4 在3standalone集群中运行应用程序11.4.1 驱动器的位置11.4.2 指定执行器的数量11.4.3 指定额外的类路径和文件11.4.4 终止应用程序11.4.5 应用程序自动重启11.5 spark历史记录服务器和事件志记录11.6 在 ec2上运行11.6.1 先决条件11.6.2 创建一个e2c独立集群11.6.3 使用e2c集群11.6.4 销毁集群11.7 结2章 在yarn and mesos运行12.1 在yarn上运行spark12.1.1 yarn架构12.1.2 安装配置启动yarn12.1.3 yarn中的资源调度12.1.4 向yarn提交spark应用程序12.1.5 在yarn上配置spark12.1.6 为spark工作配置资源12.1.7 yarn ui12.1.8 在yarn上寻找志12.1.9 安全注意事项12.1.10 动态资源分配12.2在mesos上运行spark12.2.1 mesos架构12.2.2 安装配置mesos12.2.3 mesos web ui12.2.4 mesos资源调度12.2.5 向mesos提交spark应用程序12.2.6 使用 docker运行spark12.3结第4部分 协同使用3章 实例学:实时仪表盘13.1了解用例13.1.1 概况13.1.2 了解应用程序组件13.2 运行应用程序13.2.1 在spark-in-action vm中运行应用程序13.2.2 手动启动应用程序13.3 理解源代码13.3.1 kafkalogssimulator项目13.3.2 streaming log analyzer项目13.3.3 web统计信息显示板项目13.3.4 建设项目13.4结4章 h20深入学spark14.1什么是深入学14.2 在spark中使用h2o和14.2.1 什么是h2o14.4.2 在spark中启动sparkling water14.4.3 启动h2o集群14.4.4 访问flow ui14.3 使用h2o的深度学进行回归14.4.3 将数据加载到h2o框架中14.4.4 使用flow ui构建和评估深度学模型14.4.5 使用sparkling water api构建和评估深度学模型14.4使用h2o的深度学进行分类14.4.1 加载和拆分数据14.4.2 通过flow ui 建造模型14.4.3 通过sparkling water api建造模型14.4.4 停止h2o集群14.5结附录a 安装apache spark附录b 了解mapreduce附录c 线代数基础 内容简介: 本书介绍了park应用程序及更应用的工作流程,主要从使用角度进行了描述,每个具体内容都有对应的代码。本书涵盖了apache park和它丰富的api,构成park的组件(包括park ql、park treaming、park mllib和park graphx),在park tandalone、 hadoop yarn以及 meo cluter上运行park应用程序的部署和安装。通过对应的实例全面、详细地介绍了整个park实战开发的流程。后,还介绍了park的应用,包括park流应用程序及可扩展和快速的机器学框架h2o。本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的大数据课程材料,可用于指导park编程实践,也可供相关技术人员参使用。 精彩内容: 回顾过去一年半,笔者不禁想到:笔者在这个地球上是如何生存的,这是笔者生命中繁忙的18个月!自从manning出版社让笔者和marko写一本关于park的书,笔者花了大部分空闲时间在apache park上。笔者这段时间过得很充实,学到了很多,并且觉得这是值得的。如今,park是一个超热门的话题。它于2009年由matei zaharia在加利福尼亚州的伯克利设想的(初是试图证明meo执行台的可行)。在2010年开源。在2013年park被捐赠给了apache软件,从那以后它以闪电般的速度发展。2015年,park是活跃的apache项目之一,有超过1000个贡献者(投稿人、捐助人)。,park是所有主要hadoop发行版的一部分,并被许多组织使用,广泛应用于或大或小的程序中。写一本关于park的书的挑战在于它发展很快。自从笔者们开始写park in action,笔者们看到了6个版本park,有许多新的、重要的功能需要覆盖。个主要版本(2.0版本)在笔者完成了大部分书的写作后推出的,笔者不得不延迟出版计划以涵盖它附带的新功能。写park的另一个挑战是主题的广度:park更多的是一个台,而不是一个框架。用户可以使用它来编写各种应用程序(用4种语言),包括批处理作业、实时处理系统和web应用程序执行park作业、用ql处理结构化数据和使用传程技术处理非结构化数据、各种机器学和数据修改任务、与分布式文件系统交互、各种关系和无ql数据库、实时系统等。安装、配置和运行park,这些运行时的工作也同样重要。笔者详细地介绍了park中的重要内容并且是本书成为使用park的指南,希望用户能够喜欢本书。
— 没有更多了 —
以下为对购买帮助不大的评价