数据科学并行计算
正版新书 新华官方库房直发 可开电子发票
¥
32.84
6.7折
¥
49
全新
库存3件
作者白琰冰编著
出版社中国人民大学出版社
ISBN9787300290591
出版时间2021-05
版次1
装帧平装
开本16开
纸张胶版纸
页数288页
字数426千字
定价49元
货号SC:9787300290591
上书时间2024-12-24
商品详情
- 品相描述:全新
-
全新正版 提供发票
- 商品描述
-
作者简介:
白琰冰,中国人民大学统计学院数据科学与大数据统计系讲师,硕士生导师,中国人民大学杰出青年学者,北京大数据协会理事会理事。主要开设课程包括大数据分布式计算、并行计算与软件设计、统计学。
内容简介:
本书通俗地讲解数据科学与并行计算的基本概念、方法和原理,系统地介绍基于典型大数据场景的并行计算解决思路,同时涵盖常用的数据并行计算工具的操作实践,使读者知其然更知其所以然。
本书的特色在于:注重对大数据科学方法核心应用的讲解,突出以并行计算思维解决大数据场景问题的案例教学。基于典型大数据场景案例数据集,循序渐进地引导读者利用Parallel、Sparklyr、Dask和PySpark等主流并行计算工具实现数据的清洗、转换、描述和建模分析。帮助读者系统全面地构建数据科学的基本知识体系,领会数据并行计算方法的精髓,掌握不同编程语言和并行计算工具针对不同规模数据集的优缺点,能够利用并行计算工具解决实际的数据分析问题。
目录:
第一部分数据科学并行计算基础
第1章并行计算基础知识
1.1什么是并行计算
1.2并行计算的起源
1.2.1为什么要进行并行计算
1.2.2如何解决大规模数据对计算能力的需求问题
1.3有关并行计算的基本概念
1.3.1并发计算、分布式计算的概念
1.3.2核、集群、中央处理器的概念
1.3.3集群计算、对等计算、网格计算、云计算和普适计算的概念
1.3.4并行计算中的常用术语
1.4并行计算的性能评价方法
1.5并行计算的数据分解方法及计算模型
1.5.1分解问题为独立块
1.5.2并行计算模型
习题
第2章大数据基础知识
2.1大数据简介
2.1.1什么是大数据
2.1.2大数据的3个V
2.1.3大数据相关概念和术语
2.1.4大数据处理系统
2.1.5Spark框架的特性
2.1.6Spark生态
2.1.7Spark部署方式
2.2Hadoop和Spark基础知识
2.2.1什么是Hadoop
2.2.2Spark产生的背景
2.2.3Spark的优点
2.2.4Spark的三大概念
2.2.5为什么要选择Spark
2.3在阿里云服务器安装和配置Hadoop和Spark
2.3.1Hadoop的安装和配置
2.3.2Spark的安装和配置
2.4Linux基础知识
2.4.1LinuxShell介绍
2.4.2Linux常用目录介绍
...
— 没有更多了 —
全新正版 提供发票
以下为对购买帮助不大的评价