消息首页搜索举报

文本数据挖掘/宗成庆等

正版保障假一赔十可开发票

63.99 8.5折 75 全新

仅1件

广东广州

认证卖家担保交易快速发货售后保障

作者宗成庆、夏睿、张家俊

出版社清华大学出版社

ISBN9787302519904

出版时间2019-06

装帧平装

开本16开

定价75元

货号27890400

上书时间2024-10-27

兴文书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 14小时
好评率暂无

最新上架

唐朝入仕生存指南 ¥20.05

绝世英雄：多尔衮传奇 ¥15.39

我不要被吃掉/不一样的卡梅拉(平装绘本)(英文版) ¥7.18

下肢静脉曲张治疗精要 ¥47.01

人气玫瑰月季盆栽入门 ¥23.81

大成功!木村卓功的玫瑰月季栽培手册 ¥24.62

老照片(珍藏版21)(精) ¥44.81

短线高手：T+0波段战法 ¥20.89

社会工作价值与伦理 ¥14.91

商品详情

品相描述：全新

商品描述: 前言
随着互联网和移动通信技术的快速发展和普及应用，文本数据挖掘技术备受关注，尤其随着云计算、大数据和深度学习等一系列新技术的广泛使用，文本挖掘技术已经在众多领域（如舆情分析、医疗和金融数据分析等）发挥了重要作用，表现出广阔的应用前景。
虽然十多年前我就指导博士生开展文本分类和自动文摘等相关技术的研究，但对文本数据挖掘的整体概念并没有一个清晰的认识，只是将研究的单项技术视为自然语言处理的具体应用。韩家炜教授主笔的《数据挖掘 ——概念与技术》和刘兵教授撰写的“Web Data Mining”等专著曾让我大获裨益，每次聆听他们的学术报告和与他们当面交谈也都受益匪浅。促使我萌生撰写这部专著念头的是中国科学院大学让我开设的“文本数据挖掘”课程。 2015年底我接受中国科学院大学计算机与控制学院的邀请，开始准备“文本数据挖掘”课程的内容设计和课件编写工作，我不得不静下心来查阅大量的文献资料，认真思考这一术语所蕴藏的丰富内涵和外延，经过几年的学习、思考和教学实践，文本数据挖掘的概念轮廓渐渐清晰起来。
夏睿和张家俊两位青年才俊的加盟让我萌生的写作计划得以实现。夏睿于 2007年硕士毕业，以优异成绩考入中科院自动化所跟随我攻读博士学位，从事情感文本分析研究，在情感分析和观点挖掘领域以作者身份在国际一流学术期刊和会议上发表了一系列有影响力的论文，其中两篇论文入选 ESI高被引论文，攻读博士学位期间完成的关于情感分类特征发现与集成学习的论文被引 400余次。此外，他在文本分类与聚类、主题模型、话题检测与跟踪等多个领域都颇有见地。张家俊于 2006年本科毕业后被免试推荐到中科院自动化所跟随我攻读博士学位，主要从事机器翻译研究，之后在多语言自动摘要、信息获取和人机对话等多个研究方向都有出色的表现。自 2016年起他同我一道在中国科学院大学讲授“自然语言处理”课程的机器翻译、自动文摘和文本分类等部分内容，颇受学生的欢迎。仰仗两位弟子扎实的理论功底和敏锐的科研悟性，很多的技术方法和研究成果能够得到及时的验证和实践，并被收入本书，使我倍感欣慰。
自 2016年初动笔，到此时收官，全书耗时两年多，当然大部分写作都是在节假日、周末和其他本该休息的时间里完成的，其间进行了无数次的修改、补充和调整，所花费的时间和精力及其感受到的快乐和烦恼难以言表，正所谓“痛并快乐着”。在写作过程中和初稿完成之后，得到了很多同行专家的大力支持和帮助，他们是（以姓氏拼音顺序排列）：韩先培、洪宇、李寿山、刘康、万小军、徐康、章成志、赵鑫、周玉。他们分别审阅了部分章节的内容，提出了宝贵的修改意见和建议。另外，部分研究生和博士生也为本
文本数据挖掘
书的写作提供了力所能及的帮助，他们是：白赫、蔡鸿杰、丁子祥、何烩烩、金晓、李俊杰、马聪、王乐义、向露、郑士梁、朱军楠。他们帮助作者收集整理了部分文献资料，绘制了书中的部分图表，为作者节省了宝贵的时间。在此一并向他们表示衷心的感谢！
由衷地感谢韩家炜教授对本书提出的指导性意见和建议！他能够在百忙之中为本书撰序，是我们的荣幸，不胜感激！本书的撰写工作得到了中国科学院大学教材出版中心的资助和国家自然科学基金重点项目的资助（项目编号： 61333018）。另外，不得不说的是，由于作者的水平和能力所限，加之时间和精力的不足，书中一定存在疏漏或错误，衷心地欢迎读者给予批评指正！
宗成庆 2018年国庆节期间

导语摘要
本书阐述文本数据挖掘的理论模型、实现算法和相关应用，主要内容包括：信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅，深入浅出，通过实例说明实现相关任务的理论方法和技术思路，而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献，也可作为从事相关技术研发的开发人员的参考资料。

作者简介
宗成庆，中国科学院自动化研究所研究员，博士生导师。主要从事自然语言处理、机器翻译和文本情感分析等相关研究，主持国家科研项目10余项，发表论文150余篇，出版专著一部、译著一部。2013年获国务院政府特殊津贴，2014年获钱伟长中文信息处理科学技术奖一等奖（获奖人），现为国际计算语言学委员会（ICCL）委员，2015年担任本领域国际会议ACL-IJCNLP 程序委员会共同主席（PC Co-chair），是多个国际学术期刊的编委或副主编（Associate Editor）。

夏睿，南京理工大学副教授，硕士生导师。主要从事自然语言处理、机器学习、情感分析与观点挖掘等方面的研究工作，在领域期刊和会议上（如IEEE TKDE、IEEE IS、INS、IPM、IJCAI、AAAI、ACL、COLING等）发表论文20余篇，曾任多个国际会议和研讨会（如IJCAI、ACL、SENTIRE、WISDOM、MABSDA）的程序委员会委员和 Session Chair，并担任多个国际期刊（如IEEE TKDE、DMKD、IEEE IS、IEEE CIM、ACM TALIP、CogCom、JCST、计算机学报、自

目录
第 1章绪论 .1

1.1基本概念 1

1.2文本挖掘任务 .2

1.3文本挖掘面临的困难 .5

1.4方法概述与本书的内容组织 .7

1.5进一步阅读 .9

第 2章数据预处理和标注 . 11

2.1数据获取  11

2.2数据预处理 . 15

2.3数据标注  17

2.4基本工具  19

2.4.1汉语自动分词与词性标注  19

2.4.2句法分析 . 20

2.4.3 n元语法模型 . 21

2.5进一步阅读 . 22

第 3章文本表示 . 23

3.1向量空间模型 . 23

3.1.1向量空间模型的基本概念  23

3.1.2特征项的构造与权重 . 24

3.1.3文本长度规范化 . 25

3.1.4特征工程 . 26

3.1.5其他文本表示方法  27

3.2词的分布式表示  29

3.2.1神经网络语言模型  29

3.2.2 C&W模型 . 32

3.2.3 CBOW与 Skip-gram模型  34

3.2.4噪声对比估计与负采样 . 35

3.2.5字词混合的分布式表示方法 . 37

3.3短语的分布式表示 . 38

3.3.1基于词袋的分布式表示 . 39

3.3.2基于自动编码器的分布式表示 . 39

3.4句子的分布式表示 . 42

3.4.1通用的句子表示 . 42

3.4.2任务相关的句子表示 . 45

3.5文档的分布式表示 . 48

3.5.1通用的文档分布式表示 . 48

3.5.2任务相关的文档分布式表示 . 49

3.6进一步阅读 . 52

第 4章文本分类 . 53

4.1概述 . 53

4.2传统文本表示 . 54

4.3特征选择  55

4.3.1互信息法 . 55

4.3.2信息增益法  58

4.3.3卡方统计量法 . 59

4.3.4其他方法 . 60

4.4传统分类算法 . 61

4.4.1朴素贝叶斯模型 . 61

4.4.2 Logistic回归、 Softmax回归与熵模型 . 63

4.4.3支持向量机  65

4.4.4集成学习 . 67

4.5深度神经网络方法 . 68

4.5.1多层前馈神经网络  68

4.5.2卷积神经网络 . 69

4.5.3循环神经网络 . 71

4.6文本分类性能评估 . 78

4.7进一步阅读 . 81

第 5章文本聚类 . 83

5.1概述 . 83

5.2文本相似性度量  83

5.2.1样本间的相似性 . 83

5.2.2簇间的相似性 . 86

目录 IX
5.2.3样本与簇之间的相似性 . 87

5.3文本聚类算法 . 87

5.3.1 K-均值聚类 . 87

5.3.2单遍聚类 . 91

5.3.3层次聚类 . 92

5.3.4密度聚类 . 95

5.4性能评估  97

5.4.1外部标准 . 97

5.4.2内部标准 . 99

5.5进一步阅读 . 99

第 6章主题模型 . 101

6.1概述 . 101

6.2潜在语义分析 . 102

6.2.1奇异值分解  102

6.2.2词项 -文档矩阵的奇异值分解  103

6.2.3词项和文档的概念表示及相似度计算 . 104

6.3概率潜在语义分析 . 106

6.3.1模型假设 . 106

6.3.2参数学习 . 107

6.4潜在狄利克雷分布 . 108

6.4.1模型假设 . 108

6.4.2词项和主题序列的联合概率 . 110

6.4.3模型推断 . 112

6.4.4新文档的推断 . 114

6.4.5 PLSA与 LDA的联系与区别 . 115

6.5进一步阅读 . 115

第 7章情感分析与观点挖掘  117

7.1概述 . 117

7.2情感分析任务类型 . 118

7.2.1按目标形式划分 . 118

7.2.2按分析粒度划分 . 119

7.3文档或句子级情感分析方法 . 121

7.3.1基于规则的无监督情感分类 . 122

7.3.2基于传统机器学习的监督情感分类 . 123

7.3.3深度神经网络方法  126

文本数据挖掘
7.4词语级情感分析与情感词典构建 . 131

7.4.1基于语义知识库的方法 . 131

7.4.2基于语料库的方法  131

7.4.3情感词典性能评估  134

7.5属性级情感分析  134

7.5.1属性抽取 . 135

7.5.2属性情感分类 . 138

7.5.3主题与情感的生成式建模  141

7.6情感分析中的特殊问题  143

7.6.1情感极性转移问题  143

7.6.2领域适应问题 . 145

7.7进一步阅读 . 147

第 8章话题检测与跟踪 . 149

8.1概述 . 149

8.2术语与任务 . 151

8.2.1术语  151

8.2.2任务  152

8.3报道或话题的表示与相似性计算 . 154

8.4话题检测  156

8.4.1话题在线检测 . 157

8.4.2话题回溯检测 . 158

8.5话题跟踪  159

8.6评估方法  160

8.7社交媒体话题检测与跟踪 . 161

8.7.1社交媒体话题检测  162

8.7.2社交媒体话题跟踪  163

8.8突发话题检测 . 163

8.8.1突发状态识别 . 164

8.8.2以文档为中心的方法：先检测话题后评估突发性 . 167

8.8.3以特征为中心的方法：先识别突发特征后生成突发话题 . 168

8.9进一步阅读 . 169

第 9章信息抽取 . 171

9.1概述 . 171

9.2命名实体识别 . 173

9.2.1基于规则的命名实体识别方法 . 174

目录 XI
9.2.2有监督的命名实体识别方法 . 175

9.2.3半监督的命名实体识别方法 . 181

9.2.4命名实体识别方法评价 . 183

9.3共指消解  184

9.3.1基于规则的共指消解方法  185

9.3.2数据驱动的共指消解方法  187

9.3.3共指消解评价 . 190

9.4实体消歧  193

9.4.1基于聚类的实体消歧方法  193

9.4.2基于链接的实体消歧 . 197

9.4.3实体消歧任务的评价方法  203

9.5关系抽取  204

9.5.1基于离散特征的关系分类方法 . 206

9.5.2基于分布式特征的关系分类方法  212

9.5.3基于远程监督的关系分类方法 . 214

9.5.4关系分类性能评价  215

9.6事件抽取  215

9.6.1事件描述模板 . 215

9.6.2事件抽取方法 . 217

9.6.3事件抽取评价 . 224

9.7进一步阅读 . 224

第 10章文本自动摘要  227

10.1概述 . 227

10.2抽取式自动摘要  228

10.2.1句子重要性评估  229

10.2.2基于约束的摘要生成方法 . 237

10.3压缩式自动摘要方法  238

10.3.1句子压缩方法  238

10.3.2基于句子压缩的自动摘要方法  242

10.4生成式自动摘要  244

10.4.1基于信息融合的生成式摘要方法 . 244

10.4.2基于编码 -解码的生成式摘要方法  249

10.5基于查询的自动摘要  251

10.5.1基于语言模型的相关性计算方法 . 251

10.5.2基于关键词语重合度的相关性计算方法 . 252

10.5.3基于图模型的相关性计算方法  252

10.6跨语言和多语言自动摘要方法  253

10.6.1跨语言自动摘要  253

10.6.2多语言自动摘要  256

10.7摘要质量评估方法和相关评测  258

10.7.1摘要质量评估方法 . 258

10.7.2相关评测活动  262

10.8进一步阅读 . 263

参考文献 . 265

名词术语索引 . 285

内容摘要
本书阐述文本数据挖掘的理论模型、实现算法和相关应用，主要内容包括：信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅，深入浅出，通过实例说明实现相关任务的理论方法和技术思路，而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献，也可作为从事相关技术研发的开发人员的参考资料。

主编推荐
宗成庆，中国科学院自动化研究所研究员，博士生导师。主要从事自然语言处理、机器翻译和文本情感分析等相关研究，主持国家科研项目10余项，发表论文150余篇，出版专著一部、译著一部。2013年获国务院政府特殊津贴，2014年获钱伟长中文信息处理科学技术奖一等奖（获奖人），现为国际计算语言学委员会（ICCL）委员，2015年担任本领域国际会议ACL-IJCNLP 程序委员会共同主席（PC Co-chair），是多个国际学术期刊的编委或副主编（Associate Editor）。

夏睿，南京理工大学副教授，硕士生导师。主要从事自然语言处理、机器学习、情感分析与观点挖掘等方面的研究工作，在领域期刊和会议上（如IEEE TKDE、IEEE IS、INS、IPM、IJCAI、AAAI、ACL、COLING等）发表论文20余篇，曾任多个国际会议和研讨会（如IJCAI、ACL、SENTIRE、WISDOM、MABSDA）的程序委员会委员和 Session Chair，并担任多个国际期刊（如IEEE TKDE、DMKD、IEEE IS、IEEE CIM、ACM TALIP、CogCom、JCST、计算机学报、自

精彩内容
第 1章绪论

数据挖掘（ data mining）技术近年来备受关注，在快速发展的大数据时代展现了极其重要和广泛的应用前景。根据文献 [Han et al., 2012]给出的广义解释，数据挖掘是指从大量数据中挖掘有趣模式和知识的过程。其中，数据源包括数据库、数据仓库、 Web、其他信息存储库或动态地流入系统的数据。由于这项技术早起源于从数据库中发现和提炼有用的知识，因此这一术语的英文通常写作 knowledge discovery in database（KDD）。
本书介绍从自然语言文本中挖掘用户所感兴趣的模式和知识的方法和技术，这项技术我们称之为文本数据挖掘（ text data mining），有时候也简称为文本挖掘（ text mining）。这里所说的文本包括普通 TXT文件、 doc/docx文件、 PDF文件和 HTML文件等各类以语言文字为主要内容的数据文件。
1.1基本概念
与广义的数据挖掘技术相比较，除了解析各类文件（如 doc/docx文件、 PDF文件和 HTML文件等）的结构所用到的专门技术以外，文本数据挖掘的挑战在于对非结构化自然语言文本内容的分析和理解。这里需要强调两个方面：一是文本内容几乎都是非结构化的，而不像数据库和数据仓库，都是结构化的；二是文本内容是由自然语言描述的，而不是纯用数据描述的，通常也不考虑图形和图像等其他非文字形式。当然，文档中含有图表和数据也是正常的，但文档的主体内容是文本。因此，文本数据挖掘是自然语言处理（ natural language processing, NLP）、模式分类（ pattern classi?cation）和机器学习（ machine learning, ML）等相关技术密切结合的一项综合性技术。
所谓的挖掘通常带有“发现、寻找、归纳、提炼”的含义。既然需要去发现和提炼，那么，所要寻找的内容往往都不是显而易见的，而是隐蔽和藏匿在文本之中的，或者是人无法在大范围内发现和归纳出来的。这里所说的“隐蔽”和“藏匿”既是对计算机系统而言，也是对用户而言。但无论哪一种情况，从用户的角度，肯定都希望系统能够直接给出所关注的问题的答案和结论，而不是像传统的检索系统一样，针对用户输入的关键词送出无数多可能的搜索结果，让用户自己从中分析和寻找所要的答案。粗略地讲，文本挖掘类型可以归纳成两种，一种是用户的问题非常明确、具体，只是不知道问题的答案是什么，如用户希望从大量的文本中发现某人与哪些组织机构存在什么样的关系。另一种情况是用户只是知道大概的目的，但并没有非常具体、明确的问题，如医务人员希望从大量的病例记录中发现某些疾病发病的规律和与之相关的因素。在这种情况下，可能并非指某一种疾病，也不知道哪些因素，完全需要系统自动地从病例记录中发现、归纳和提炼出相关的信息。当然，这两种类型有时并没有明显的界限。
文本挖掘技术在国民经济、社会管理、信息服务和国家安全等各个领域中都有非常重要的应

— 没有更多了 —