• 在线文本数据挖掘(算法原理与编程实现)
21年品牌 40万+商家 超1.5亿件商品

在线文本数据挖掘(算法原理与编程实现)

全新正版 极速发货

43.83 5.0折 88 全新

库存2件

广东广州
认证卖家担保交易快速发货售后保障

作者刘通

出版社电子工业

ISBN9787121356322

出版时间2019-08

装帧其他

开本16开

定价88元

货号30687204

上书时间2024-06-06

书香美美

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
第1章  概述1
1.1  网络运营与文本分析1
1.1.1  互联网运营的战略思维1
1.1.2  网络运营与大数据文本分析2
1.2  文本分析的4V特征4
1.2.1  Volume特征4
1.2.2  Variety特征5
1.2.3  Value特征6
1.2.4  Velocity特征7
1.3  在线文本分析应用8
1.3.1  在线文本分析的管理类应用9
1.3.2  在线文本分析的内容类应用12
1.4  本章小结16
第2章  预备知识18
2.1  文本挖掘的主要任务18
2.2  语义分析与语法分析20
2.3  文本的结构化分析21
2.4  文本的标准化分析24
2.5  机器学习的基本概念24
2.5.1  机器学习与深度学习25
2.5.2  机器学习的基本要素33
2.6  机器学习的重要问题36
2.6.1  概率图模型36
2.6.2  判别式模型和产生式模型39
2.6.3  机器学习模型求解40
2.6.4  模型过拟合43
2.7  本章小结45
第3章  文本建模46
3.1  文本建模的基本概念46
3.2  文本建模的应用场景48
3.2.1  主体角色识别48
3.2.2  语言风格分析49
3.2.3  智能系统49
3.2.4  文本表示50
3.2.5  文本降维50
3.2.6  话题分析50
3.3  语言学建模概述51
3.4  词标注分析52
3.5  句法分析55
3.5.1  转换生成语法56
3.5.2  依存句法56
3.6  知识库与语义网58
3.7  统计学建模概述59
3.8  向量空间模型61
3.9  LSI模型64
3.9.1  SVD64
3.9.2  基于SVD的降维分析66
3.10  Unigram模型67
3.11  pLSI模型67
3.11.1  pLSI的模型结构67
3.11.2  pLSI的参数估计68
3.12  LDA主题模型70
3.12.1  LDA的模型结构70
3.12.2  LDA的参数估计72
3.13  主题模型拓展75
3.13.1  相关主题模型76
3.13.2  层次主题模型77
3.13.3  动态主题模型80
3.13.4  句子主题模型82
3.14  基于词汇的统计学建模方法83
3.15  本章小结86
第4章  文本分类88
4.1  文本分类的基本概念88
4.2  文本分类的应用场景89
4.2.1  文档有用性判断89
4.2.2  口碑情感分析90
4.2.3  负面信息识别90
4.2.4  信息检索90
4.3  朴素贝叶斯模型91
4.3.1  贝努利模型91
4.3.2  多项式模型93
4.3.3  模型参数平滑94
4.4  向量空间模型95
4.4.1  Rocchio方法95
4.4.2  KNN方法96
4.5  SVM模型97
4.5.1  硬间隔SVM97
4.5.2  软间隔SVM100
4.6  文本分类的评价102
4.6.1  二元分类评价102
4.6.2  多类问题评价104
4.6.3  分类测试集105
4.7  分类特征优化106
4.7.1  分类特征提取106
4.7.2  分类特征转化112
4.7.3  分类特征扩展114
4.8  分类学习策略优化117
4.8.1  AdaBoost算法117
4.8.2  主动式学习118
4.8.3  迁移学习119
4.9  本章小结119
第5章  文本聚类121
5.1  文本聚类的基本概念121
5.2  文本聚类的应用场景122
5.2.1  探索分析122
5.2.2  降维123
5.2.3  信息检索123
5.3  扁平式聚类124
5.3.1  K-均值算法125
5.3.2  基于模型的聚类128
5.4  凝聚式聚类132
5.4.1  层次聚类132
5.4.2  基于簇距离的聚类过程132
5.4.3  算法停止条件135
5.5  聚类结果分析136
5.5.1  聚类算法评估136
5.5.2  聚类标签生成138
5.6  聚类特征优化140
5.6.1  基于迭代的方法141
5.6.2  无监督指标141
5.7  半监督聚类143
5.7.1  迁移学习144
5.7.2  AP算法145
5.8  短文本聚类146
5.8.1  文本特征补充146
5.8.2  TermCut算法148
5.8.3  Dirichlet多项式混合模型149
5.9  流数据聚类151
5.9.1  OSKM算法151
5.9.2  可拓展K-means算法152
5.10  本章小结153
第6章  序列标注155
6.1  序列标注的基本概念155
6.2  序列标注的应用场景157
6.2.1  词性标注157
6.2.2  命名实体识别157
6.2.3  分词157
6.3  HMM158
6.3.1  HMM的概率计算问题160
6.3.2  HMM的学习问题162
6.2.3  HMM的预测问题164
6.4  最大熵模型和最大熵马尔可夫模型166
6.4.1  最大熵模型167
6.4.2  最大熵马尔可夫模型170
6.5  条件随机场172
6.5.1  标注偏置问题172
6.5.2  条件随机场的基本原理174
6.6  本章小结176
第7章  信息检索177
7.1  信息检索的基本概念177
7.2  信息检索的应用场景180
7.2.1  搜索引擎180
7.2.2  内容推荐182
7.3  基于空间模型的信息检索184
7.3.1  文档查找184
7.3.2  文档排序185
7.3.3  系统评价187
7.4  基于概率模型的信息检索190
7.4.1  二值独立模型191
7.4.2  模型参数估计193
7.5  基于语言模型的信息检索196
7.5.1  语言模型196
7.5.2  查询似然模型198
7.6  本章小结201
第8章  文本摘要203
8.1  文本摘要的基本概念203
8.2  文本摘要的应用场景206
8.2.1  信息检索206
8.2.2  信息压缩207
8.2.3  用户画像208
8.2.4  知识管理209
8.3  关键词提取的特征设计210
8.3.1  词频特征210
8.3.2  词汇基础特征211
8.3.3  词汇位置特征212
8.3.4  词汇标记特征214
8.4  关键词提取的有监督算法214
8.5  关键词提取的无监督算法217
8.5.1  简单指标设计217
8.5.2  复合指标设计217
8.6  基于图模型的关键词提取算法218
8.6.1  图模型静态指标算法220
8.6.2  图模型动态指标算法223
8.7  关键词提取的技术优化226
8.7.1  长文本问题优化227
8.7.2  短文本问题优化228
8.7.3  多主题特征优化229
8.7.4  时序特征优化232
8.7.5  歧义问题优化233
8.8  关键短语提取234
8.8.1  短语性指标235
8.8.2  信息性指标235
8.9  关键句提取236
8.9.1  基于词汇关键性的方法236
8.9.2  基于句子特征的方法237
8.9.3  基于图模型的方法238
8.10  本章小结240
第9章  口碑分析241
9.1  口碑分析的基本概念242
9.2  口碑分析的应用场景243
9.2.1  用户视角的应用243
9.2.2  网站运营者视角的应用244
9.2.3  商家视角的应用244
9.2.4  其他应用245
9.3  基于词典的评价对象提取245
9.4  基于语料的评价对象提取246
9.5  评价水平量化252
9.5.1  整体粗粒度情感分析253
9.5.2  整体细粒度情感分析254
9.5.3  局部粗粒度情感分析258
9.5.4  局部细粒度情感分析259
9.6  基于语言模型的情感分析技术259
9.6.1  最大熵LDA主题模型:模型性质260
9.6.2  最大熵LDA主题模型:基本结构260
9.6.3  最大熵LDA主题模型:参数估计263
9.7  本章小结265
第10章  社交网络分析266
10.1  社交网络分析的基本概念266
10.2  社交网络分析的应用场景269
10.2.1  虚拟社区发现270
10.2.2  用户影响力分析271
10.2.3  情感分析271
10.2.4  话题发现与演化272
10.2.5  信息检索273
10.3  社交网络的虚拟社区发现274
10.3.1  社区发现的信息基础274
10.3.2  基于隐性位置的聚类模型275
10.4  社交网络的用户影响力分析276
10.4.1  网络结构与用户影响力276
10.4.2  TwitterRank算法277
10.5  社交网络的情感分析279
10.5.1  基于表情符号的训练集合构建279
10.5.2  基于POSTag的特征优化280
10.6  社交网络的话题发现与演化282
10.6.1  话题发现分析282
10.6.2  Twitter-LDA284

内容摘要
本书介绍了互联网环境下文本类型数据的分析方法,探讨了当前主流的文本挖掘技术,以及这些技术在商业环境中的具体应用。本书从算法原理和应用场景两方面分别对在线文本分析技术进行了介绍:从算法原理的角度,以数据挖掘和机器学习的相关知识为基础,介绍了以文本建模、文本分类、文本聚类、序列标注为主要任务的文本分析方法,并对当前主流的深度学习方法与文本分析的结合进行了讨论。从应用场景的角度,讨论了文本分析技术的几个重要实践领域,包括信息检索、内容摘要、口碑分析、社交网络分析以及智能系统。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP