Web大数据处理与分析
正版保障 假一赔十 可开发票
¥
71.56
4.7折
¥
152
全新
库存13件
作者夏换,杨秀璋,于小民
出版社科学出版社
ISBN9787030606365
出版时间2018-09
装帧平装
开本其他
定价152元
货号9491345
上书时间2024-09-07
商品详情
- 品相描述:全新
- 商品描述
-
目录
目录
部分 基础知识
章 概述 3
1.1 大数据预处理和分析 3
1.2 各章概要 8
1.3 如何阅读本书 12
第2章 数据挖掘基础知识 14
2.1 数据挖掘 14
2.2 有监督学习 16
2.3 无监督学习 17
2.4 部分监督学习 19
第3章 关系型数据库和语料知识库 21
3.1 关系型数据库 21
3.2 SQL基础知识 23
3.3 Python调用数据库 32
3.4 常见的语料知识库 39
第4章 正则表达式和基本字符串函数 48
4.1 正则表达式 48
4.2 基本字符串函数 58
4.3 字符编码简介 64
第二部分 基于Python的大数据预处理
第5章 数据预处理相关介绍 71
5.1 预处理概述 71
5.2 中文分词 72
5.3 数据清洗 74
5.4 词性标注基础 75
5.5 向量空间模型及特征提取 76
5.6 权重计算 76
第6章 中文分词技术及Jieba工具 77
6.1 中文分词技术介绍 77
6.2 常用中文分词工具 80
6.3 Jieba中文分词工具 81
6.4 案例分析:使用Jieba对百度百科摘要信息进行中文分词 91
第7章 数据清洗及停用词过滤 94
7.1 数据清洗的概念 94
7.2 数据清洗常见方法 97
7.3 停用词过滤 98
第8章 词性标注 106
8.1 词性标注概述 106
8.2 BosonNLP词性标注 109
8.3 Jieba工具词性标注 115
8.4 案例分析:基于Jieba工具的词性标注 120
第9章 向量空间模型及特征提取 124
9.1 向量空间模型 124
9.2 特征提取 126
9.3 余弦相似性 129
9.4 案例分析:基于向量空间模型的余弦相似度计算 131
0章 权重计算及TF-IDF 139
10.1 权重计算 139
10.2 TF-IDF 141
10.3 Scikit-Learn中的TF-IDF使用方法 143
10.4 案例分析:TF-IDF计算中文语料权重 146
第三部分 基于Python的大数据分析
1章 Python大数据分析的常用库介绍 157
11.1 数据挖掘概述 157
11.2 开发软件安装过程 159
11.3 Scikit-Learn库 165
11.4 NumPy、SciPy、Matplotlib库 169
2章 基于Python的聚类数据分析 175
12.1 聚类概述 175
12.2 聚类算法基本用法 178
12.3 案例分析:基于Birch层次聚类算法及PAC降维显示聚类图像 190
3章 基于Python的分类算法分析 206
13.1 分类概述 206
13.2 Python分类算法基本用法 214
13.3 案例分析:基于新闻数据分类算法的示例 229
4章 基于Python的LDA主题模型 242
14.1 LDA主题模型 242
14.2 LDA安装过程 244
14.3 LDA基本用法 245
14.4 案例分析:LDA主题模型分布计算 254
5章 基于Python的神经网络分析 265
15.1 神经网络的基础知识 265
15.2 神经网络的Python简单实现 271
15.3 Python神经网络工具包 275
15.4 案例分析:使用神经网络训练 280
参考文献 283
内容摘要
部分 基础知识
章 概述
本书主要介绍Web 大数据(Big Data)的数据预处理和数据分析,主要从三个部分进行详细讲解。部分介绍基础知识,包括数据挖掘(Data Mining)基础知识、结构化查询语言(structured query language,SQL)与关系型数据库、正则表达式和基本字符串函数等;第二部分介绍基于Python 的大数据预处理,包括中文分词、停用词过滤、特征提取、向量空间模型(vector space model,VSM)、权重计算等;第三部分讲述对数据的分析与处理。
部分主要介绍Web 大数据数据预处理与分析的基础知识,为后面的具体操作做准备,主要讲述数据挖掘基础知识、SQL 与关系型数据库、正则表达式和基本字符串函数。
1.1 大数据预处理和分析
本书主要讲解Web 大数据数据预处理和分析,是一本实战指南的书籍,内容包括三部分:基础知识、基于Python 的大数据预处理、基于Python 的大数据分析。机器学习的英文名称是直译的machine learning(简称ML),在计算界Machine 一般指计算机,这个名字使用了拟人的手法,说明了这门技术是让机器“学习”的技术。图1-1 很好形象地将数据分析和机器学习的过程与人类对历史经验进行归纳的过程做了比对,该方法是计算机利用已有的数据(经验),得出某种模型,并利用此模型预测未来的一种方法。
图1-1 数据挖掘与机器学习图示
图1-2 是源自Google 的机器学习所涉及的一些相关范围的学科与研究领域。机器学习与模式识别、数据挖掘、计算机视觉、统计学习、语音识别、自然语言处理等领域有着很深的联系。
图1-2 机器学习涉及的领域
模式识别相当于机器学习。两者的主要区别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。
数据挖掘相当于机器学习加数据库。从数据中挖出“金子”,以及将废弃的数据转化为价值。
计算机视觉相当于图像处理加机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式,如百度识图、手写字符识别、车牌识别等应用。
统计学习是与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统计学,甚至可认为统计学的发展促进了机器学习的繁荣昌盛,如有名的支持向量机(support vector machine,SVM)算法,就是源自统计学科。二者的区别在于统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践。
语音识别相当于语音处理加机器学习。语音识别就是音频处理技术与机器学习的结合,一般会结合自然语言处理的相关技术,目前的相关应用有苹果的语音助手Siri。
自然语言处理(natural language processing,NLP)相当于文本处理结合机器学习。让机器理解人类的语言,NLP 中大量使用了编译原理相关的技术,如词法分析、语法分析、语义理解等。
既然我们知晓了机器学习的大致范围,那么机器学习里面究竟有多少经典的算法呢?常见的算法包括:回归算法、神经网络、支持向量机、聚类算法、降维算法、推荐算法等。
假设我们有一组肿瘤患者的数据,如图1-3 所示。这些患者的肿瘤中有些是良性的(图中的圆圈),有些是恶性的(图中的“×”形)。这里肿瘤的圆圈和“×”形可以被称作数据的“标签”。同时每个数据包括两个“特征”:患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上,形成了图1-3。当有一个三角形点时,该判断这个肿瘤是恶性的还是良性的呢?根据圆圈和“×”形点我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据三角形点出现在分类线的左侧,我们判断它的标签应该是“×”形,即属于恶性肿瘤。这就是通过逻辑回归画出的一条分类线。
图1-3 关于肿瘤的逻辑回归
后文将详细讲述各种机器学习的方法及Python 使用的方法。
在我们的另一本书《基于Python 的Web 大数据爬取实战指南》中,详细介绍了基于Python 的网络爬取技术,通过Python 爬虫爬取得到语料后,需要对数据集进行预处理操作,才能进行下一步的数据分析和分类聚类处理。而本书主要介绍的是数据清洗、数据预处理和数据分析等方面的内容。图1-4 表示的是数据预处理的基本过程。主要包括中文分词、停用词过滤及数据清洗、特征提取与权重计算等操作,其结果以完成分词和清洗后的词序列为单位存储在本地文件中。很后得到了语料的特征向量,再分别使用不同的算法进行数据分析,包括聚类算法、分类算法、LDA(latent dirichlet allocation)主题模型、神经网络等。
图1-4 数据预处理结构图
Web 数据挖掘和数据分析涉及大量的算法和技术,数据挖掘可以分为有监督学习(分类)、无监督学习(聚类)和部分监督学习(半监督学习)三个主题。图1-5 展现了数据挖掘涉及的相关算法,包括分类模型、预测模型、关联分析、聚类分析等。
精彩内容
随着计算机和互联网技术的飞速发展和广泛普及,互联网已经成为人类获取知识的*平台。在爬取了Web网页语料后,需要通过数据预处理和数据分析来获取数据的价值,从而造福人类,推动社会发展。本书主要是Web大数据预处理和数据分析的实战指南,内容包括三部分:基础知识、基于Python的数据预处理、基于Python的数据分析
— 没有更多了 —
以下为对购买帮助不大的评价