• Spark大数据分析技术与实战/CDA数据分析师系列丛书 9787121319037
21年品牌 40万+商家 超1.5亿件商品

Spark大数据分析技术与实战/CDA数据分析师系列丛书 9787121319037

全新正版 可开票 支持7天无理由

43.29 7.3折 59 全新

仅1件

浙江嘉兴
认证卖家担保交易快速发货售后保障

作者编者:董轶群//曹正凤//赵仁乾//王安

出版社电子工业

ISBN9787121319037

出版时间2017-07

装帧其他

开本其他

定价59元

货号3881551

上书时间2024-01-21

倒爷图书专营店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
董轶群,吉林大学计算机科学与技术学院博士毕业。曾在吉林大学“符号计算与知识工程”重点实验室从事空间关系建模研究,参与了多个国家自然科学基金重点项目与面上项目的申报与研究工作,并在项目中主要负责空间方向关系建模、空间拓扑关系建模的研究王作。目前作为经管之家(原人大经济论坛)大数据讲师,主讲Spark、HbaSe、SCa0日等大数据核心课程,并从事大数据相关的理论与应用研究工作。重点关注海量数据背景下空间关系建模与智能交通的结合研究,并在国内期刊和国际会议上发表了一系列相关理论的研究成果。

目录
第1章  Spark导论
  1.1  Spark的发展
  1.2  什么是Spark
  1.3  Spark主要特征
    1.3.1  快速
    1.3.2  简洁易用
    1.3.3  通用
    1.3.4  多种运行模式
第2章  Spark集群部署
  2.1  运行环境说明
    2.1.1  软硬件环境
    2.1.2  集群网络环境
  2.2  安装VMware Workstation 11
  2.3  安装CentOS 6
  2.4  安装Hadoop
    2.4.1  克隆并启动虚拟机
    2.4.2  网络基本配置
    2.4.3  安装JDK
    2.4.4  免密钥登录配置
    2.4.5  Hadoop配置
    2.4.6  配置从节点
    2.4.7  配置系统文件
    2.4.8  启动Hadoop集群
  2.5  安装Scala
  2.6  安装Spark
    2.6.1  下载并解压Spark安装包
    2.6.2  配置Spark-env.sh
    2.6.3  配置Spark-defaults.conf
    2.6.4  配置Slaves
    2.6.5  配置环境变量
    2.6.6  发送至Slave1、Slave2
  2.7  启动Spark
第3章  RDD编程
  3.1  RDD定义
  3.2  RDD的特性
    3.2.1  分区
    3.2.2  依赖
    3.2.3  计算
    3.2.4  分区函数
    3.2.5  优先位置
  3.3  创建操作
    3.3.1  基于集合的创建操作
    3.3.2  基于外部存储的创建操作
  3.4  常见执行操作
  3.5  常见转换操作
    3.5.1  一元转换操作
    3.5.2  二元转换操作
  3.6  持久化操作
  3.7  存储操作
第4章  Spark调度管理与应用程序开发
  4.1  Spark调度管理基本概念
  4.2  作业调度流程
    4.2.1  作业的生成与提交
    4.2.2  阶段的划分
    4.2.3  调度阶段的提交
    4.2.4  任务的提交与执行
  4.3  基于IntelliJ IDEA构建Spark应用程序
    4.3.1  安装IntelliJ IDEA
    4.3.2  创建Spark应用程序
    4.3.3  集群模式运行Spark应用程序
第5章  GraphX
  5.1  GraphX概述
  5.2  GraphX基本原理
    5.2.1  图计算模型处理流程
    5.2.2  GraphX定义
    5.2.3  GraphX的特点
  5.3  GraphX设计与实现
    5.3.1  弹性分布式属性图
    5.3.2  图的数据模型
    5.3.3  图的存储模型
    5.3.4  GraphX模型框架
  5.4  GraphX操作
    5.4.1  创建图
    5.4.2  基本属性操作
    5.4.3  结构操作
    5.4.4  转换操作
    5.4.5  连接操作
    5.4.6  聚合操作
  5.5  GraphX案例解析
    5.5.1  PageRank算法与案例解析
    5.5.2  Triangle Count算法与案例解析
第6章  Spark SQL
  6.1  Spark SQL概述
  6.2  Spark SQL逻辑架构
    6.2.1  SQL执行流程
    6.2.2  Catalyst
  6.3  Spark SQL CLI
    6.3.1  硬软件环境
    6.3.2  集群环境
    6.3.3  结合Hive
    6.3.4  启动Hive
  6.4  DataFrame编程模型
    6.4.1  DataFrame简介
    6.4.2  创建DataFrames
    6.4.3  保存DataFrames
  6.5  DataFrame常见操作
    6.5.1  数据展示
    6.5.2  常用列操作
    6.5.3  过滤
    6.5.4  排序
    6.5.5  其他常见操作
  6.6  基于Hive的学生信息管理系统的SQL查询案例与解析
    6.6.1  Spark SQL整合Hive
    6.6.2  构建数据仓库
    6.6.3  加载数据
    6.6.4  查询数据
第7章  Spark Streaming
  7.1  Spark Streaming概述
  7.2  Spark Streaming基础概念
    7.2.1  批处理时间间隔
    7.2.2  窗口时间间隔
    7.2.3  滑动时间间隔
  7.3  DStream基本概念
  7.4  DStream的基本操作
    7.4.1  无状态转换操作
    7.4.2  有状态转换操作
    7.4.3  输出操作
    7.4.4  持久化操作
  7.5  数据源
    7.5.1  基础数据源
    7.5.2  数据源
  7.6  Spark Streaming编程模式与案例分析
    7.6.1  Spark Streaming编程模式
    7.6.2  文本文件数据处理案例(一)
    7.6.3  文本文件数据处理案例(二)
    7.6.4  网络数据处理案例(一)
    7.6.5  网络数据处理案例(二)
    7.6.6  stateful应用案例
    7.6.7  window应用案例
  7.7  性能考量
    7.7.1  运行时间优化
    7.7.2  内存使用与垃圾回收
第8章  Spark MLlib
  8.1  Spark MLlib概述
    8.1.1  机器学习介绍
    8.1.2  Spark MLlib简介
  8.2  MLlib向量与矩阵
    8.2.1  MLlib向量
    8.2.2  MLlib矩阵
  8.3  Spark MLlib分类算法
    8.3.1  贝叶斯分类算法
    8.3.2  支持向量机算法
    8.3.3  决策树算法
  8.4  MLlib线性回归算法
  8.5  MLlib聚类算法
  8.6  MLlib协同过滤

内容摘要
。。。

精彩内容
。。。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP