• apache spark大数据分析 基于azure databricks云台 数据库 (瑞典)罗伯特·伊利杰森
  • apache spark大数据分析 基于azure databricks云台 数据库 (瑞典)罗伯特·伊利杰森
21年品牌 40万+商家 超1.5亿件商品

apache spark大数据分析 基于azure databricks云台 数据库 (瑞典)罗伯特·伊利杰森

azure databricks数据分析实用教程,揭示在云端执行大规模集群数据分析的做法,轻松学会如何低成本有效地获取数据中的高价值,成为数据分析的专业人才。

39.5 4.9折 79.8 全新

仅1件

河北保定
认证卖家担保交易快速发货售后保障

作者(瑞典)罗伯特·伊利杰森

出版社人民邮电出版社

ISBN9787115614568

出版时间2023-06

版次1

装帧平装

开本16

页数248页

字数258千字

定价79.8元

货号304_9787115614568

上书时间2024-07-05

小矮星书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
主编:

1.轻松学掌握可快速分析大量数据的apache park和云端的databrick,低成本有效地获取数据中的高价值。
2.内容丰富详尽。不仅介绍了整合大量数据的方法,还讲解了云端分析、数据湖、数据摄取、体系结构和机器学,以及apache park、apache hadoop、apache hive、python和ql等相关工具。
3.讲解透彻易懂。理解底层技术,学会将云和apache park融入数据分析,了解数据分析工具在现实世界中的具体用法。

目录:

章 大规模数据分析简介 1

1.1 宣传中的数据分析 1

1.2 现实中的数据分析 2

1.3 大规模数据分析 3

1.4 数据——分析中的燃料 5

1.5 费的工具 6

1.6 进入云端 8

1.7 databricks——懒人的分析工具 9

1.8 如何分析数据 9

1.9 真实世界的大规模数据分析示例 11

1.9.1 volvo trucks的远程信息处理 11

1.9.2 visa的欺诈识别 11

1.9.3 target的客户分析 12

1.9.4 cambridge analytica有针对的广告投放 12

1.10 小结 12

第2章 spark和databricks 14

2.1 apache spark简介 14

2.2 databricks——受管的apache spark 16

2.3 spark的架构 18

2.3.1 apache spark如何处理作业 19

2.3.2 数据 20

2.4 内核之上的出组件 23

2.5 小结 23

第3章 databricks初步 25

3.1 只能通过云来使用 25

3.2 费的社区版 26

3.2.1 差不多够用了 26

3.2.2 使用社区版 26

3.3 梦寐以求的商业版 28

3.3.1  web services上的databricks 29

3.3.2 azure databricks 32

3.4 小结 34

第4章 工作区、集群和本 35

4.1 在ui中漫游 35

4.2 集群 38

4.3 数据 40

4.4 本 42

4.5 小结 44

第5章 将数据载入databricks 46

5.1 databricks文件系统 46

5.1.1 文件系统导航 47

5.1.2 filestore——通往自有数据的门户 49

5.2 模式、数据库和表 50

5.3 各种类型的数据源 文件 51

5.3.1 二进制格式 53

5.3.2 其他传输方式 54

5.4 从你的计算机中导入数据 54

5.5 从web获取数据 56

5.5.1 使用shell 56

5.5.2 使用python执行简单导入 58

5.5.3 使用sql获取数据 60

5.6 挂载文件系统 60

5.6.1  s3挂载示例 61

5.6.2 microsoft blog storage挂载示例 62

5.6.3 删除挂载 63

5.7 如何从databricks中获取数据 64

5.8 小结 65

第6章 使用sql查询数据 67

6.1 databricks中的sql 67

6.2 准备工作 68

6.3 选择数据 69

6.4 筛选数据 70

6.5 连接和合并 73

6.6 对数据进行排序 75

6.7 函数 76

6.8 窗函数 77

6.9 视图 79

6.10 层次型数据 80

6.11 创建数据 82

6.12 作数据 84

6.13 delta lake sql 85

6.13.1 update、delete和merge 86

6.13.2 确保delta lake状况良好 88

6.13.3 事务志 88

6.13.4 选择元数据 89

6.13.5 收集统计信息 90

6.14 小结 91

第7章 python的威力 92

7.1 python——不二的选择 92

7.2 加强版python简介 93

7.3 查找数据 96

7.4 dataframe——活动数据的居住之所 97

7.5 加载一些数据 98

7.6 从dataframe中选择数据 101

7.7 串接命令 103

7.8 使用多个dataframe 112

7.9 整理数据 118

7.10 小结 122

第8章 etl和数据整理 123

8.1 再谈etl 123

8.2 spark ui简介 124

8.3 数据清理和变换 125

8.3.1 查找null 126

8.3.2 删除null 128

8.3.3 使用值来填充null列 129

8.3.4 去重 131

8.3.5 找出并清除特别值 132

8.3.6 处理列 135

8.3.7 转置 137

8.3.8 爆裂 138

8.3.9 什么情况下惰求值有益 139

8.3.10 缓存数据 140

8.3.11 数据压缩 142

8.3.12 有关函数的简短说明 144

8.3.13 lambda函数 145

8.4 数据存储和混洗 146

8.4.1 保存模式 146

8.4.2 受管表和非受管表 148

8.4.3 处理分区 149

8.5 小结 154

第9章 在databricks和外部工具之间建立连接 155

9.1 为何要在databricks和外部工具之间建立连接 155

9.2 让odbc和bc运转起来 156

9.2.1 创建令牌 157

9.2.2 准备集群 157

9.2.3 创建测试表 158

9.2.4 在windows系统中安装odbc 158

9.2.5 在macos系统中安装odbc 159

9.3 在外部工具中连接到databricks 162

9.3.1 microsoft excel(windows) 162

9.3.2 microsoft power bi桌面版(windows) 163

9.3.3 tableau(macos) 164

9.3.4 pycharm(通过databricks connect进行连接) 165

9.4 使用rstudio server 168

9.5 访问外部系统 170

9.6 连接到外部系统 171

9.6.1 连接到azure sql 171

9.6.2 连接到oracle 172

9.6.3 连接到monb 174

9.7 小结 175

0章 在生产环境中运行解决方案 176

10.1 一般建议 176

10.1.1 设想糟的情况 177

10.1.2 编写可反复运行的代码 177

10.1.3 对代码进行注释 177

10.1.4 编写简单易懂的代码 178

10.1.5 打印相关的信息 178

10.2 作业 179

10.2.1 调度 180

10.2.2 在本中运行其他本 181

10.2.3 小部件 183

10.2.4 运行接受参数的作业 185

10.3 命令行接 186

10.3.1 安装cli 186

10.3.2 运行cli命令 187

10.4 再谈费用 193

10.5 用户、组和安全选项 194

10.5.1 用户和组 194

10.5.2 访问控制 195

10.5.3 其他特 198

10.6 小结 199

1章 杂项 200

11.1 mllib 201

11.2 频繁模式增长 201

11.2.1 创建一些数据 202

11.2.2 准备好数据 203

11.2.3 运行算法 204

11.2.4 分析结果 204

11.3 mlflow 205

11.3.1 运行代码 206

11.3.2 检查结果 208

11.4 更新表 208

11.4.1 创建源表 209

11.4.2 从databricks连接到oracle数据库 210

11.4.3 提取变更的数据 211

11.4.4 验证格式 212

11.4.5 更新表 212

11.5 pandas简介 213

11.6 koalas——spark版pandas 213

11.6.1 鼓捣koalas 214

11.6.2 koalas的未来 216

11.7 数据呈现艺术 217

11.7.1 准备数据 218

11.7.2 使用matplotlib 219

11.7.3 创建并显示仪表板 220

11.7.4 添加小部件 220

11.7.5 添加图表 221

11.7.6 调度 221

11.8 rest api和databricks 222

11.8.1 能够做什么 222

11.8.2 不能做什么 222

11.8.3 为使用api做好准备 223

11.8.4 示例:获取集群数据 223

11.8.5 示例:创建并执行作业 226

11.8.6 示例:获取本 228

11.8.7 所有api及其用途 229

11.9 delta流处理 230

11.9.1 运行流 231

11.9.2 检查和停止流 234

11.9.3 加快运行节奏 234

11.9.4 使用检查点 235

内容简介:

azure databrick是一款基于云的大数据分析和机器学台,用于实现基于apache park的数据处理,为快速增长的海量数据的处理和决策需求分析提供了良好的支撑。apache park大数据分析:基于azure databrick云台详细介绍基于azure databrick云台来使用apache park完成大规模数据处理和分析的方法。本书计11章,首先介绍大规模数据分析相关的概念;然后介绍受管的park及其与databrick的关系,以及databrick的版本差异和使用方法(涵盖工作区、集群、本、databrick文件系统、数据导入/导出等内容);接着介绍使用ql和python分别实现数据分析的过程,数据提取、变换、加载、存储、优化等高阶数据处理方法以及外部连接工具、生产环境集成等内容;后探讨了运行机器学算法、合并数据更新以及通过api运行databrick、delta流处理等高阶主题。作为数据分析领域的入门书,本书具有很强的实用,可供数据工程师、数据分析师和决策分析人员等学和参。

作者简介:

[瑞典]罗伯特伊利杰森(robert ilijaon),智能领域深耕20年的战场老兵,曾担任过欧洲一些大公司的外包人,并在零售、电信、银行、机构等领域做过大规模数据分析项目。多年来,数据分析领域的各种风尚潮起潮落,但他深信云端apache park(尤其是与databrick一起)与众不同,将是游戏规则的改变者。

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP