• Hadoop+Spark+Python大数据处理从算法到实战9787301321447
  • Hadoop+Spark+Python大数据处理从算法到实战9787301321447
21年品牌 40万+商家 超1.5亿件商品

Hadoop+Spark+Python大数据处理从算法到实战9787301321447

正版图书,可开发票,请放心购买。

62.09 6.3折 99 全新

仅1件

广东广州
认证卖家担保交易快速发货售后保障

作者朱春旭

出版社北京大学出版社有限公司

ISBN9787301321447

出版时间2020-06

装帧平装

开本16开

定价99元

货号11068525

上书时间2024-12-02

亿临书店

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
朱春旭,高级工程师,拥有多年IT技术开发经验,对多种开发语言都有深入研究,专注于python人工智能开发领域,数据分析,机器学习等;著有《Python数据分析与大数据处理从入门到精通》。

目录
第1篇 入门篇 
第 1 章  初识大数据 002 
1.2 如何处理与分析大数据 004 
1.3 大数据的产业应用 008 
第2篇 准备篇 
第 2 章  万丈高楼平地起,使用 Docker 作地基 011 
2.1 初识 Docker 011 
2.2 搭建 Docker 运行环境 016 
2.3 Docker 操作镜像 029
2.4 Docker 操作容器 036
2.5 Docker 私有仓库 045
2.6 Docker Compose 编排容器046
2.7 Portainer 可视化工具 053
2.8 实训:构建 Nginx 镜像并创建容器 055
第 3 章  团队合作好,使用 Kubernetes 来协调 057
3.1 初识 Kubernetes057
3.2 搭建集群 063
3.4 Kubernetes Dashboard 管理工具 079
3.5 实训:在集群中部署 Nginx 服务器集群 084
第3篇 技法篇
第 4 章  筑高楼,需利器,使用 Hadoop 做核心 088
4.1 Hadoop 简介 088
4.2 HDFS 分布式文件系统 092
4.3 任务调度与资源管理器 YARN 097
4.4 MapReduce 分布式计算框架104
4.5 Hadoop 环境搭建 113
4.6 Hadoop 常用操作命令 127
4.7 实训:在容器中部署 Hadoop集群 130
第 5 章  空间要灵活,使用 HBase 来管理 136
5.1 初识 HBase 136
5.2 HBase 环境搭建144
5.3 HBase Shell 操作 152
5.4 HBase Thrift 编程接口 160
5.5 Region 的拆分与合并 162
5.6 实训:构建订单管理表 165
第 6 章  数据需要规划,使用 Hive 建仓库169
6.1 初识 Hive 169
6.2 Hive 环境搭建 171
6.3 Hive 数据库与表 176
6.4 表的类型 183
6.5 分桶查询与排序 188
6.6 Sqoop 数据的导入导出 190
6.7 Hive Thrift 编程接口192
6.8 实训:构建订单分析数据仓库 193
第 7 章  处理要够快,使用 Spark 196
7.1 Spark 概述 196
7.2 Spark 核心原理 199
7.3 Spark 环境搭建 202
7.4 提交 Spark 应用 206
7.5 实训:在容器中部署 Spark集群 209
 第 8 章  数据无结构,使用 RDD 212
8.1 RDD 设计原理 212
8.2 RDD 编程 216
8.3 键值对 RDD 224
8.4 读写文件 230
8.5 集成 HBase 232
8.6 编程进阶 234
8.7 实训:分析商品销售情况 240
第 9 章  数据有结构,使用 SQL 语句 245
9.1 Spark SQL 概述 245
9.2 创建 DataFrame 对象 249
9.3 DataFrame 常用的 API 254
9.4 保存 DataFrame 262
9.5 实训:分析公司销售业绩 264
第 10 章  Spark 流式计算编程  268
10.1 流计算简介 268
10.2 Discretized Stream 271
10.3 Structured Streaming 278
10.4 实训:实时统计贷款金额 293
第4篇 算法篇
第 11 章  发掘数据价值,使用机器学习技术297
11.1 什么是机器学习 297
11.2 scikit-learn 机器学习库303
11.3 Spark 机器学习库 308
11.4 实训:简单的情感分析 310
第 12 章  处理分类问题313
12.1 分类问题概述 313
12.2 决策树 .315
12.3 随机森林 320
12.4 Logistic 回归 325
12.5 支持向量机 329
12.6 贝叶斯 334
12.7 实训:判断用户是否购买该商品 337
第 13 章  处理回归问题 340
13.1 回归问题概述 340
13.2 线性回归与多项式回归 342
13.3 决策树回归 347
13.4 实训:预测房价 352
第 14 章  处理聚类问题 355
14.1 聚类问题概述 355
14.2 基于划分聚类 356
14.3 基于模型聚类 359
14.4 实训:对客户进行聚类 363
第 15 章  关联规则与协同过滤 365
15.1 关联规则数据挖掘 365
15.2 协同过滤 368
15.3 实训:使用 Spark ALS 推荐菜单 371
第 16 章  建立智能应用 374
16.1 构建简单模型 374
16.2 自定义模型和自定义层 384
16.3 回调 386
16.4 保存与恢复模型 388
16.5 识别手写字 391
16.6 实训:猫狗识别 394
第5篇 实战篇
第 17 章  综合实战:猜你喜欢401
17.1 项目背景与解决方案介绍 401 
17.2 数据库设计 403
17.3 推荐模型 404
17.4 前端网站 406
第 18 章  综合实战:人脸识别416
18.1 项目背景与解决方案介绍 416
18.2 图像采集 418
18.3 训练模型与识别人脸 422

内容摘要
本书围绕新基建的云计算、大数据及人工智能进行介绍,分为以下五个部分。 
部分介绍大数据的概念与特点,以及典型的产业应用场景;第二部分介绍目前云计算中的一个重要的研究与应用领域—容器云,包含应用容器引擎Docker与容器编排工具Kubernetes;第三部分是大数据分析的基础,也是大数据分析技术的重点,包含Hadoop、HBase、Hive、Spark的环境搭建及开发流程;第四部分是机器学习相关算法的应用,包含scikit-learn、SparkML、TensorFlow工具的使用;第五部分,以实例介绍如何使用Spark机器学习库中的协同过滤算法,来实现一个基于Web的推荐系,以及介绍如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。 
本书轻理论,重实践,适合有一定编程基础,且对云计算、大数据、机器学习、人工智能感兴趣,希望投身到新基建这一伟大事业的读者学习。同时,本书还可作为广大院校相关专业的教材和培训参考用书。

主编推荐
1.书力求简单、实用,坚持以实例为主,理论为辅。 从应用场景切入,围绕新基建的云计算、大数据及人工智能,介绍大数据的概念与特点及典型的产业应用场景,使读者了解大数据项目和机器学习开发过程,能设计不同场景下的项目架构,并做好不同业务下的数据建模。 2.Hadoop+spark+Python三合一,内容讲解重点分明,细节具体。本书解析了每个领域内的复杂逻辑和丰富内涵,尽可能让读者用更低的成本,尽快掌握相关技术,紧跟时代步伐。本书大多数章节都包含实训模块,让读者在学完该章节的知识后能够举一反三,学以致用,早日投身新基建。 3.布局合理,循序渐进,自有章法。本书先介绍了入门级的容器化工具Docker 与 Kubernetes,然后介绍大数据的常用组件,为读者的后续实践打好基础后,开始讲解机器学习库的相关用法;随着人工智能的快速发展,神经网络及相关的开发工具也愈发强大,因此引入了能解决更复杂问题,但操作又比较简单的深度学习框架 TensorFlow。掌握TensorFlow,既弥补了 Spark、scikit-learn 的不足,又能应对更困难的场景。

精彩内容
2020年3月,国家提出要加快5G网络,数据中心等新型基础设施(简称新基建)进度。其中,信息化新型基础设施包含了云计算、大数据、人工智能、区块链、5G等内容。本书围绕新基建的云计算、机器学习及人工智能展开讲述大数据处理分析与实战应用,分为如下五个部分。第1部分:介绍了大数据的概念与特点,以及几个典型的产业应用场景。通过这些案例简介,期望读者能够了解大数据的前景,以及作为科技工作者肩负的使命。第2部分:介绍了目前云计算中的一个重要研究与应用领域----容器云。这一部分包含容器技术Docker与容器编排工具Kubernetes。Docker能封装操作系统、应用程序及其执行环境。对于整个大数据来说,Docker是Hadoop、Hbase、Spark这些组件的基础运行平台。一般大数据运行平台规模都比较宏大,因此这里使用了Kubernetes来对容器进行管理。这样,就构建了基于容器云的大数据平台。第3部分:是大数据分析的基础,也是大数据分析技术的重点。首先介绍了Hadoop的框架原理、调度原理、MapReduce原理与编程模型、环境搭建。由于Hadoop的HDFS存在一定的读写局限,因此引入了Hbase以支持实时读写。同样HDFS的数据也存在一定的分析局限,因此引入了Hive来构建数据仓库,以提高分析效率。在本篇最后,还引入了Spark这样的高性能框架,进一步提高了大数据处理能力。第4部分:是机器学习相关算法的应用篇。机器学习是一个复杂的过程,涉及到统计学、微积分、信息论等内容。考虑到学习门槛,在这一环节,首先简单介绍了相关算法的原理,然后介绍相对容易使用的机器学习工具Sklearn,使得读者建立起对机器学习开发流程的基本认知,之后介绍应用于大数据环境下Spark的机器学习库。相信通过对这一部分内容的学习,读者已经掌握了基本的机器学习问题的处理。第5部分:通过第一个实例介绍了如何使用Spark机器学习库中的协同过滤算法,来实现基于Web的推荐系统;通过第二个实例介绍了如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。
  本书内容精练、重点突出、实例丰富,是广大数据分析工作者的参考书,同时也非常适合大、中专院校师生学习阅读,还可作为高等院校统计分析及相关专业的教材。

媒体评论
1.书力求简单、实用,坚持以实例为主,理论为辅。 从应用场景切入,围绕新基建的云计算、大数据及人工智能,介绍大数据的概念与特点及典型的产业应用场景,使读者了解大数据项目和机器学习开发过程,能设计不同场景下的项目架构,并做好不同业务下的数据建模。

2.Hadoop+spark+Python三合一,内容讲解重点分明,细节具体。本书解析了每个领域内的复杂逻辑和丰富内涵,尽可能让读者用更低的成本,尽快掌握相关技术,紧跟时代步伐。本书大多数章节都包含实训模块,让读者在学完该章节的知识后能够举一反三,学以致用,早日投身新基建。

3.布局合理,循序渐进,自有章法。本书先介绍了入门级的容器化工具Docker 与 Kubernetes,然后介绍大数据的常用组件,为读者的后续实践打好基础后,开始讲解机器学习库的相关用法;随着人工智能的快速发展,神经网络及相关的开发工具也愈发强大,因此引入了能解决更复杂问题,但操作又比较简单的深度学习框架 TensorFlow。掌握TensorFlow,既弥补了 Spark、scikit-learn 的不足,又能应对更困难的场景。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP