• 大数据技术与机器学习Python实战
  • 大数据技术与机器学习Python实战
  • 大数据技术与机器学习Python实战
  • 大数据技术与机器学习Python实战
  • 大数据技术与机器学习Python实战
  • 大数据技术与机器学习Python实战
21年品牌 40万+商家 超1.5亿件商品

大数据技术与机器学习Python实战

全新正版 假一赔十 可开发票

36.32 7.6折 48 全新

仅1件

北京东城
认证卖家担保交易快速发货售后保障

作者张晓明

出版社清华大学出版社

ISBN9787302581321

出版时间2021-08

装帧平装

开本16开

定价48元

货号1202444658

上书时间2024-09-11

轻阅书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
张晓明,男,教授,博士,北京市教学名师,北京市中青年骨干教师,北京高校继续教育高水平教学团队带头人,计算机和大数据专业负责人。CCF分布式计算与系统专委会委员,全国高校计算机教育研究会理事,北京市高校计算机教育研究会常务理事。主讲《计算机网络》、《大数据技术及应用开发》等课程。出版《计算机网络教程(第2版)》、《C#网络通信程序设计》、《软件系统设计与体系结构》等教材7部,专著1部。荣获2018年北京市高等教育教学成果一等奖。从事网络计算与系统安全、大数据技术分析等研究,发表论文60余篇。

目录
章绪论

1.1大数据技术概述

1.1.1大数据的特点

1.1.2大数据与数据科学的关系

1.1.3大数据的关键技术

1.1.4大数据的计算模式

1.2基于Hadoop系统的大数据平台

1.2.1Hadoop的特点

1.2.2Hadoop的生态系统

1.3基于Spark系统的大数据平台

1.3.1Spark的生态系统

1.3.2Spark与Hadoop的比较

1.4面向实时计算的大数据平台

1.4.1Storm介绍

1.4.2Storm的核心组件

1.4.3Storm的特性

1.5大数据技术的发展趋势

1.6Windows1下Spark+Hadoop+Hive+Pyspark配置

第2章Hadoop系统应用开发基础

2.1HadoopYARN应用基础

2.1.1YARN的设计目标

2.1.2YARN的组件及架构

2.1.3YARN的运行流程

2.2HDFS文件系统及其应用

2.2.1HDFS体系结构

2.2.2HDFS的存储原理

2.2.3HDFS的数据读写过程

2.2.4HDFS的常用命令

2.3MapReduce计算模型及其应用

2.3.1MapReduce编程原理

2.3.2MapReduce模型的应用

2.4HBase大数据存储与访问

2.4.1HBase的体系结构

2.4.2Region的分区与列族

2.4.3HBase的数据模型

2.5基于Hadoop Streaming的应用编程技术

2.5.1Hadoop Streaming说明

2.5.2Hadoop Streaming应用入门

2.6Linux系统下Hadoop集群部署

2.6.1分布式集群配置思路

2.6.2Linux系统基础配置

2.6.3Hadoop平台配置

2.7Hadoop集群实例测试

2.7.1实例说明

2.7.2PI实例的运行

2.7.3WordCount实例的运行

第3章Spark应用开发基础

3.1Spark的Python编程环境设置

3.2Spark的工作机制

3.3弹性分布式数据集RDD基础

3.4RDD的Python程序设计

3.5SparkSQL

3.5.1Spark SQL的特点

3.5.2RDD、DataFrame和DataSet比较

3.5.3Spark SQL的核心API

3.5.4Spark SQL编程示例

3.5.5部分SparkSQL编程要点

3.6Spark Streaming的应用编程技术

3.6.1Spark Streaming的工作原理

3.6.2Spark Streaming的编程示例

第4章大数据采集与存储技术

4.1网络爬虫

4.1.1网络爬虫的基本结构及工作流程

4.1.2网络爬虫分类

4.1.3抓取策略

4.1.4网络爬虫的分析算法

4.2大数据采集平台与工具

4.2.1Apache Flume

4.2.2Sqoop

4.2.3常用网络爬虫工具

4.3网络爬虫程序设计

4.3.1Python爬虫基本流程

4.3.2Requests库入门

4.3.3Requests库用于网络爬虫设计示例

4.3.4BeautifulSoup库的应用

4.3.5Selenium的应用技术

4.4大数据存储与管理技术

4.4.1大数据存储与管理类型

4.4.2三种数据库比较

4.4.3NewSQL、NoSQL与OldSQL混合部署应用方案

第5章大数据预处理技术

5.1数据预处理概述

5.2数据清洗

5.2.1缺失值处理

5.2.2重复值处理

5.2.3异常值处理

5.3文本数据清洗

5.3.1纯文本的正则处理方法

5.3.2HTML网页数据的正则处理方法

5.3.3其他方法

5.4数据规范化处理

5.4.1数据规范化的常见方法

5.4.2零均值规范化示例

5.4.3特征归一化示例

5.4.4最小-优选规范化示例

5.4.5特征二值化示例

5.5数据平滑化处理

5.5.1移动平均法

5.5.2指数平滑法

5.5.3分箱法

5.6基于PCA的数据规约技术

5.6.1主成分分析技术

5.6.2在OpenCV中实现主成分分析

第6章数据表示与特征工程

6.1特征工程概述

6.1.1特征的概念与分类

6.1.2特征工程的含义和作用

6.1.3特征工程的组成

6.2类别变量表示

6.2.1OneHotEncoder

6.2.2DictVectorizer

6.3文本特征工程

6.3.1文本特征表示方法

6.3.2文本特征的计算

6.4图像特征表示

6.4.1OpenCV介绍

6.4.2图像特征点提取

6.4.3ORB

6.5音频特征表示

6.5.1PyAudio库的应用

6.5.2Librosa

第7章数据可视化技术及应用

7.1可视化技术概述

7.1.1数据可视化的概念

7.1.2数据可视化的重要应用示例

7.2ECharts应用入门

7.2.1ECharts的应用方法

7.2.2ECharts的简单应用

7.3pyecharts应用基础

7.3.1pyecharts的图表说明

7.3.2pyecharts的安装和使用方法

7.4文本可视化

7.4.1文本内容可视化

7.4.2文本关系可视化

7.4.3主题模型的可视化分析

7.4.4主题演变的文本可视化

7.5基于pyecharts实现多维数据可视化

7.5.1基于时间轴的数据可视化

7.5.2基于日历图的数据可视化

7.5.3三维空间的数据可视化

7.6大规模数据可视化的编程技术实例

第8章机器学习基础及应用技术

8.1机器学习概述

8.1.1机器学习的分类

8.1.2机器学习的基本流程

8.1.3机器学习的评估度量标准

8.1.4机器学习的距离计算方法

8.2K最近邻算法

8.2.1K最近邻算法概述

8.2.2KNN的应用方法

8.2.3sklearn中KNN算法实现

8.2.4利用sklearn中KNN算法实现鸢尾花分类

8.2.5K最近邻算法的K值分析

8.3K-Means算法原理及应用

8.3.1K-Means算法描述

8.3.2K-Means算法的参数设计

8.3.3K-Means算法的应用

8.4LightGBM算法及应用技术

8.4.1LightGBM介绍

8.4.2LightGBM算法介绍

8.4.3LightGBM的基本应用

8.4.4LightGBM参数说明与调参

8.4.5回归模型及其预测

第9章基于Spark机器学习库的大数据推荐技术

9.1Spark机器学习库介绍

9.1.1Spark的mllib模块库

9.1.2mllib的算法库示例说明

9.1.3Spark的ml模块库

9.2大数据推荐技术

9.2.1推荐系统概述

9.2.2基于内容的推荐算法

9.2.3基于用户的协同过滤推荐

9.2.4基于物品的协同过滤推荐

9.2.5基于模型的推荐

9.3基于Spark的ALS推荐算法

9.3.1ALS算法解析

9.3.2Spark的推荐算法说明

9.4基于Spark的电影推荐模型设计与实现

9.4.1NetflixPrize评分预测竞赛

9.4.2数据分析

9.4.3模型设计

9.4.4Python电影推荐模型设计

参考文献

内容摘要
本书基于计算机类专业对大数据平台技术和大规模数据处理的实战需求,在阐述数据科学、Hadoop和Spark配置要点和大数据处理周期的基础上,重点阐述大数据采集与存储、预处理、特征工程、数据可视化分析、机器学习基础等大数据处理技术及其Python实现,以及基于Hadoop和Spark平台的Python接口调用和机器学习编程实例分析。本书既强调了大数据处理周期的基本原理和关键技术,又突出机器学习算法及其在分布式系统中的应用编程方法。本书可作为高等院校计算机、大数据、人工智能、软件工程等专业的教材,也可作为大数据技术研发人员和研究生的学习参考用书。

主编推荐
本书是在Hadoop/Spark平台下开展Python应用开发,针对大数据处理周期,全面开展架构原理和编程实践的综合书籍。配套资源丰富,包括操作视频、PPT和实战程序。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP