文本数据挖掘(第2版)
¥
62.37
6.3折
¥
99
全新
库存2件
作者 宗成庆;夏睿;张家俊
出版社 清华大学出版社
出版时间 2022-11
版次 2
装帧 其他
货号 607 12-23
上书时间 2024-12-23
商品详情
品相描述:全新
图书标准信息
作者
宗成庆;夏睿;张家俊
出版社
清华大学出版社
出版时间
2022-11
版次
2
ISBN
9787302612957
定价
99.00元
装帧
其他
开本
16开
纸张
胶版纸
页数
352页
字数
522千字
【内容简介】
文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法,理解、分析和挖掘文本的内 容,从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。《文本数据挖掘(第2版)》主 要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法,包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等,最后通过 具体实例展示相关技术在实际应用中的使用方法。《文本数据挖掘(第2版)》书可作为高等院校计算机、自动化、网络安全、大数据分析等专业,以及利用到文本信息处理的交 叉学科(如金融财经、社会人文、生物医药等)的高年级本科生或研究生从事相关研究的入门参考书,也可供相关技术研发人员阅读和参考。
【作者简介】
宗成庆,中国科学院自动化所研究员、博士生导师,中国科学院大学岗位教授,ACL/CAAI/CCF Fellow,主要从事自然语言处理、机器翻译和语言认知计算等研究,主持国家项目10余项,发表论文200余篇,出版《统计自然语言处理》、《文本数据挖掘》和Text Data Mining三部专著及两部译著。担任国际计算语言学委员会(ICCL)委员,中国中文信息学会副理事长,曾任亚洲自然语言处理学会(AFNLP)主席,国际一流学术会议ACL’2015和COLING’2020程序委员会主席、ACL’2021大会主席。荣获国家科技进步奖二等奖和多个省部级及国家一级学会的科技奖励,获得北京市优秀教师、中科院优秀导师和国科大李佩教学名师等若干荣誉。享受国务院特殊津贴。张家俊,中国科学院自动化研究所研究员、中国科学院大学岗位教授、博士生导师,主要研究方向为机器翻译和自然语言处理,获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程、中国科学院青年创新促进会优秀会员和北京智源青年科学家。发表CCF-A/B类论文80余篇,出版学术专著2部,译著1部。获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖和2020年北京市科学技术奖一等奖等。担任中国中文信息学会青年工作委员会主任和机器翻译专委会副主任。担任ACL/EMNLP/COLING的(资深)领域主席和《自动化学报》等期刊的编委。夏睿,南京理工大学计算机学院教授、博士生导师,研究领域为人工智能、自然语言处理、文本数据挖掘,在国内外重要期刊和会议发表论文60余篇,出版学术专著2部,主持国家和省部级项目近10项,获得国际计算语言学会年会ACL2019杰出论文奖、中国中文信息学会青年创新奖一等奖等荣誉,获得江苏省杰出青年基金资助。
【目录】
第 1章绪论 1 11基本概念 1 12文本挖掘任务 2 13文本挖掘面临的困难 5 14方法概述与本书的内容组织 8 15进一步阅读 10 习题 11 第 2章数据预处理和标注 12 21概述 12 22数据获取 12 23数据预处理 16 24数据标注 18 25基本工具 20 251汉语自动分词与词性标注 20 252句法分析 22 253 n元语法模型 23 26进一步阅读 24 习题 24 第 3章文本表示 25 31概述 25 32向量空间模型 25 321向量空间模型的基本概念 25 322特征项的构造与权重 26 323文本长度规范化 27 324特征工程 28 325其他文本表示方法 30 33词的分布式表示 31 文本数据挖掘 (第 2版) 331神经网络语言模型 32 332 C&W模型 36 333 CBOW与 Skip-gram模型 38 334噪声对比估计与负采样 39 335字词混合的分布式表示方法 41 34短语的分布式表示 43 341基于词袋的分布式表示 43 342基于自动编码器的分布式表示 43 35句子的分布式表示 46 351通用的句子表示 46 352任务相关的句子表示 49 36文档的分布式表示 52 361通用的文档分布式表示 53 362任务相关的文档分布式表示 55 37进一步阅读 56 习题 57 第 4章预训练语言模型 58 41概述 58 42 ELMo:源自语言模型的语境化分布式向量表示 58 421基于双向 LSTM的语言模型 59 422适应下游任务的语境化 ELMo词向量 60 43 GPT:生成式预训练模型 61 431 Transformer62 432 GPT预训练 63 433 GPT微调 64 44 BERT:双向 Transformer编码表示 65 441 BERT预训练 66 442 BERT微调 68 443 XLNet:广义自回归预训练模型 68 444 UniLM 71 45进一步阅读 72 习题 72 第 5章文本分类 74 51概述 74 52传统文本表示 75 目录 XI 53特征选择 76 531互信息法 76 532信息增益法 79 533卡方统计量法 80 534其他方法 81 54传统分类算法 82 541朴素贝叶斯模型 82 542 logistic回归、 softmax回归与最大熵模型 84 543支持向量机 86 544集成学习 88 55深度神经网络方法 89 551基于前馈神经网络的文本分类方法 89 552基于卷积神经网络的文本分类方法 89 553基于循环神经网络的文本分类方法 91 56文本分类性能评估 94 57进一步阅读 97 习题 97 第 6章文本聚类 99 61概述 99 62文本相似性度量 99 621样本间的相似性 100 622簇间的相似性 102 623样本与簇之间的相似性 103 63文本聚类算法 103 631 K-均值聚类 103 632单遍聚类 107 633层次聚类 108 634密度聚类 111 64性能评估 113 641外部标准 113 642内部标准 115 65进一步阅读 115 习题 116 第 7章主题模型 117 71概述 117 文本数据挖掘 (第 2版) 72潜在语义分析 118 721词项-文档矩阵的奇异值分解 118 722词项和文档的概念表示及相似度计算 121 73概率潜在语义分析 123 731模型假设 123 732参数学习 124 74潜在狄利克雷分布 125 741模型假设 125 742词项和主题序列的联合概率 127 743模型推断 129 744新文档的推断 131 745 PLSA与 LDA的联系与区别 132 75进一步阅读 132 习题 133 第 8章情感分析与观点挖掘 135 81概述 135 82情感分析任务类型 136 821按目标形式划分 136 822按分析粒度划分 137 83文档或句子级情感分析方法 139 831基于规则的无监督情感分类 140 832基于传统机器学习的监督情感分类 141 833深度神经网络方法 144 84词语级情感分析与情感词典构建 146 841基于语义知识库的方法 147 842基于语料库的方法 147 843情感词典性能评估 149 85属性级情感分析 150 851属性抽取 150 852属性情感分类 153 853主题与情感的生成式建模 157 86情感分析中的特殊问题 159 861情感极性转移问题 159 862领域适应问题 160 87文本情绪分析 163 871心理学情绪理论 163 目录 XIII 872文本情绪识别 163 873情绪原因挖掘 165 88进一步阅读 167 习题 168 第 9章话题检测与跟踪 170 91概述 170 92术语与任务 172 921术语 172 922任务 173 93报道或话题的表示与相似性计算 175 94话题检测 177 941话题在线检测 177 942话题回溯检测 179 95话题跟踪 179 96评估方法 181 97社交媒体话题检测与跟踪 182 971社交媒体话题检测 182 972社交媒体话题跟踪 184 98突发话题检测 184 981突发状态识别 185 982以文档为中心的方法 187 983以特征为中心的方法 188 99进一步阅读 190 习题 190 第 10章信息抽取 191 101概述 191 102命名实体识别 193 1021基于规则的命名实体识别方法 194 1022基于有监督学习的命名实体识别方法 195 1023半监督的命名实体识别方法 201 1024命名实体识别方法评价 203 103共指消解 204 1031基于规则的共指消解方法 205 1032数据驱动的共指消解方法 207 1033共指消解评价 210 文本数据挖掘 (第 2版) 104实体消歧 213 1041基于聚类的实体消歧方法 213 1042基于链接的实体消歧 217 1043实体消歧任务的评价方法 223 105关系抽取 224 1051基于离散特征的关系分类方法 226 1052基于分布式特征的关系分类方法 232 1053基于远程监督的关系分类方法 234 1054关系分类性能评价 235 1055知识图谱 235 106事件抽取 236 1061事件描述模板 236 1062事件抽取方法 238 1063事件抽取评价 245 1064事理图谱 245 107进一步阅读 246 习题 247 第 11章文本自动摘要 248 111概述 248 112抽取式自动摘要 249 1121句子重要性评估 250 1122基于约束的摘要生成方法 258 113压缩式自动摘要方法 259 1131句子压缩方法 259 1132基于句子压缩的自动摘要方法 263 114理解式自动摘要 265 1141基于信息融合的生成式摘要方法 265 1142基于编码-解码的生成式摘要方法 270 115基于查询的自动摘要 272 1151基于语言模型的相关性计算方法 272 1152基于关键词语重合度的相关性计算方法 273 1153基于图模型的相关性计算方法 273 116跨语言和多语言自动摘要方法 274 1161跨语言自动摘要 274 1162多语言自动摘要 277 目录 XV 117摘要质量评估方法和相关评测 279 1171摘要质量评估方法 279 1172相关评测活动 283 118进一步阅读 285 习题 285 第 12章技术应用 288 121概述 288 122电子病历分析与挖掘系统 289 1221任务目标 289 1222数据准备和标注 290 1223系统实现 292 123多语言政策法规分析与挖掘系统 300 1231任务目标 300 1232数据采集和标注 301 1233系统实现 302 习题 302 参考文献 303 名词术语索引 327
点击展开
点击收起
— 没有更多了 —
本店暂时无法向该地区发货
以下为对购买帮助不大的评价