消息首页搜索举报

WEB大数据处理与分析

全新正版极速发货

99.15 6.5折 152 全新

库存5件

广东广州

认证卖家担保交易快速发货售后保障

作者夏换，杨秀璋，于小民

出版社科学出版社

ISBN9787030606365

出版时间2019-03

装帧平装

开本其他

定价152元

货号1201856659

上书时间2024-08-05

谢岳书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

陶渊明诗 ¥1.24

毛泽东军事文集(1-6) ¥424.35

刑法学(第9版) ¥56.46

你的孤独虽败犹荣 ¥3.45

长津湖 ¥25.40

南怀瑾先生讲中国智慧系列(全3册) ¥80.54

你看月亮的脸 ¥12.22

给教师的100条建议 ¥17.59

儿童百问百答 19 食虫植物 ¥1.75

商品详情

品相描述：全新

商品描述: 目录
目录
部分基础知识
章概述 3
1.1 大数据预处理和分析 3
1.2 各章概要 8
1.3 如何阅读本书 12
第2章数据挖掘基础知识 14
2.1 数据挖掘 14
2.2 有监督学习 16
2.3 无监督学习 17
2.4 部分监督学习 19
第3章关系型数据库和语料知识库 21
3.1 关系型数据库 21
3.2 SQL基础知识 23
3.3 Python调用数据库 32
3.4 常见的语料知识库 39
第4章正则表达式和基本字符串函数 48
4.1 正则表达式 48
4.2 基本字符串函数 58
4.3 字符编码简介 64
第二部分基于Python的大数据预处理
第5章数据预处理相关介绍 71
5.1 预处理概述 71
5.2 中文分词 72
5.3 数据清洗 74
5.4 词性标注基础 75
5.5 向量空间模型及特征提取 76
5.6 权重计算 76
第6章中文分词技术及Jieba工具 77
6.1 中文分词技术介绍 77
6.2 常用中文分词工具 80
6.3 Jieba中文分词工具 81
6.4 案例分析：使用Jieba对百度百科摘要信息进行中文分词 91
第7章数据清洗及停用词过滤 94
7.1 数据清洗的概念 94
7.2 数据清洗常见方法 97
7.3 停用词过滤 98
第8章词性标注 106
8.1 词性标注概述 106
8.2 BosonNLP词性标注 109
8.3 Jieba工具词性标注 115
8.4 案例分析：基于Jieba工具的词性标注 120
第9章向量空间模型及特征提取 124
9.1 向量空间模型 124
9.2 特征提取 126
9.3 余弦相似性 129
9.4 案例分析：基于向量空间模型的余弦相似度计算 131
0章权重计算及TF-IDF 139
10.1 权重计算 139
10.2 TF-IDF 141
10.3 Scikit-Learn中的TF-IDF使用方法 143
10.4 案例分析：TF-IDF计算中文语料权重 146
第三部分基于Python的大数据分析
1章 Python大数据分析的常用库介绍 157
11.1 数据挖掘概述 157
11.2 开发软件安装过程 159
11.3 Scikit-Learn库 165
11.4 NumPy、SciPy、Matplotlib库 169
2章基于Python的聚类数据分析 175
12.1 聚类概述 175
12.2 聚类算法基本用法 178
12.3 案例分析：基于Birch层次聚类算法及PAC降维显示聚类图像 190
3章基于Python的分类算法分析 206
13.1 分类概述 206
13.2 Python分类算法基本用法 214
13.3 案例分析：基于新闻数据分类算法的示例 229
4章基于Python的LDA主题模型 242
14.1 LDA主题模型 242
14.2 LDA安装过程 244
14.3 LDA基本用法 245
14.4 案例分析：LDA主题模型分布计算 254
5章基于Python的神经网络分析 265
15.1 神经网络的基础知识 265
15.2 神经网络的Python简单实现 271
15.3 Python神经网络工具包 275
15.4 案例分析：使用神经网络训练 280
参考文献 283

内容摘要
随着计算机和互联网技术的飞速发展和广泛普及，互联网已经成为人类获取知识的很大平台。在爬取了Web网页语料后，需要通过数据预处理和数据分析来获取数据的价值，从而造福人类，推动社会发展。本书主要是Web大数据预处理和数据分析的实战指南，内容包括三部分：基础知识、基于Python的数据预处理、基于Python的数据分析

— 没有更多了 —