基于半监督与集成学习的文本分类方法
¥
43.75
¥
29
九五品
仅1件
作者唐焕玲
出版社电子工业出版社
ISBN9787121212567
出版时间2013-08
版次1
装帧平装
开本16开
纸张胶版纸
页数188页
字数99999千字
定价29元
上书时间2024-12-02
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:基于半监督与集成学习的文本分类方法
定价:29.00元
作者:唐焕玲
出版社:电子工业出版社
出版日期:2013-08-01
ISBN:9787121212567
字数:205000
页码:188
版次:1
装帧:平装
开本:12开
商品重量:
编辑推荐
内容提要
文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息的重要手段。 本书重点探讨了利用信息论中的评估函数量化特征权值的方法;基于权值调整改进Co-training的算法;利用互信息或CHI统计量构造特征独立模型,进行特征子集划分的方法;基于投票熵维护样本权重的BoostVE分类模型;融合半监督学习和集成学习的SemiBoost-CR分类模型。其中特征选择和权值调整方法、基于特征独立模型划分特征子集的方法适用于文本分类,其他算法不仅适用于文本分类,对机器学习和数据挖掘的其他研究也有较大的参考价值和借鉴作用。
目录
章 绪论 11.1 研究背景及意义 11.1.1 数据挖掘和文本挖掘 11.1.2 文本分类及其面临的问题 31.2 国内外相关研究 71.2.1 半监督学习 71.2.2 集成学习 101.3 本书内容组织 14第2章 文本分类技术概述 172.1 文本分类预处理 172.2 文本的表示 192.3 特征选择 212.3.1 初始特征选择 222.3.2 特征选择算法 222.4 文本分类算法 242.4.1 质心向量分类算法 242.4.2 K近邻分类算法 262.4.3 贝叶斯分类算法 272.4.4 关联规则分类算法 332.4.5 支持向量机 332.4.6 其他分类算法 372.5 实验数据集 382.6 分类模型的评估方法 392.7 本章小结 41第3章 TEF-WA权值调整技术 423.1 特征选择存在的问题 423.2 TEF-WA权值调整技术 433.2.1 TEF-WA权值调整的基本思想 433.2.2 各种评估函数的TEF-WA权值调整 453.3 实验结果与分析 483.3.1 TEF-WA权值调整的有效性 483.3.2 不同评估函数的权值调整 523.3.3 评估比较 623.4 本章小结 68第4章 结合TEF-WA技术的Co-training改进算法 694.1 Co-training算法及其存在的问题 694.2 基于TEF-WA的特征多视图 704.2.1 TEF-WA技术 704.2.2 基于TEF-WA的特征多视图 714.3 基分类器间的差异性评估 724.4 TV-SC算法与TV-DC算法 744.5 实验结果及其分析 764.6 本章小结 80第5章 基于特征独立模型的Co-training改进算法 815.1 特征独立模型 825.1.1 基于条件互信息的相互独立性 825.1.2 基于条件2统计量的相互独立性 835.1.3 特征独立模型 845.2 特征子集划分算法PMID 855.3 基于MID-Model的改进算法SC-PMID 885.4 实验结果及其分析 895.4.1 PMID-MI与PART-Rnd的实验比较 905.4.2 PMID-CHI与PART-Rnd的实验比较 935.4.3 PMID-MI、PMID-CHI和PART-Rnd的实验比较 955.4.4 SC-PMID-MI、SC-PMID-CHI和SC-PART-Rnd的实验比较 965.5 本章小结 98第6章 基于投票信息熵和多视图的AdaBoost改进算法 996.1 AdaBoost算法 1006.1.1 AdaBoost算法描述 1006.1.2 AdaBoost提升NB文本分类器的问题 1016.2 利用特征评估函数构造多视图 1026.3 基于投票信息熵的样本权重维护新策略 1036.3.1 投票信息熵 1046.3.2 基于投票信息熵的样本权重维护新策略 1056.3.3 样本权重对NB文本分类器的扰动 1066.4 BoostVE算法 1086.4.1 BoostVE算法描述 1086.4.2 BoostVE算法的训练错误上界 1096.5 实验结果及其分析 1136.5.1 参数 对BoostVE算法性能的影响 1156.5.2 Boost VE算法与AdaBoost-MV算法、AdaBoost算法的实验比较 1186.5.3 BoostVE 算法提升NB文本分类器的有效性 1246.6 本章小结 126第7章 结合半监督学习的SemiBoost-CR分类模型 1287.1 SemiBoost-CR模型的目标函数 1297.2 未标注样本的置信度 1317.2.1 基于K近邻的置信度 1317.2.2 基于差距的置信度 1327.3 基于置信度的重取样策略 1337.4 样本权重维护策略 1357.5 SemiBoost-CR分类算法 1367.6 实验结果及其分析 1377.6.1 未标注近邻样本对置信度conf1的影响 1397.6.2 两种置信度方法conf1和conf2的实验比较 1407.6.3 topN和bottomN对SemiBoost-CR模型的影响 1447.7 本章小结 154第8章 文本自动分类系统SECTCS 1558.1 系统简介 1558.2 系统总体结构 1568.3 系统的用户界面 1578.4 实验数据集 1638.5 本章小结 165结束语 166参考文献 169
作者介绍
山东工商学院计算机科学与技术学院
序言
— 没有更多了 —
以下为对购买帮助不大的评价