• 文本数据挖掘(第2版)
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

文本数据挖掘(第2版)

62.37 6.3折 99 全新

库存2件

山东泰安
认证卖家担保交易快速发货售后保障

作者宗成庆;夏睿;张家俊

出版社清华大学出版社

出版时间2022-11

版次2

装帧其他

货号607 12-23

上书时间2024-12-23

邹鲁文化书店

十一年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
图书标准信息
  • 作者 宗成庆;夏睿;张家俊
  • 出版社 清华大学出版社
  • 出版时间 2022-11
  • 版次 2
  • ISBN 9787302612957
  • 定价 99.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 胶版纸
  • 页数 352页
  • 字数 522千字
【内容简介】
文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法,理解、分析和挖掘文本的内 容,从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。《文本数据挖掘(第2版)》主 要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法,包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等,最后通过 具体实例展示相关技术在实际应用中的使用方法。《文本数据挖掘(第2版)》书可作为高等院校计算机、自动化、网络安全、大数据分析等专业,以及利用到文本信息处理的交 叉学科(如金融财经、社会人文、生物医药等)的高年级本科生或研究生从事相关研究的入门参考书,也可供相关技术研发人员阅读和参考。
【作者简介】
宗成庆,中国科学院自动化所研究员、博士生导师,中国科学院大学岗位教授,ACL/CAAI/CCF Fellow,主要从事自然语言处理、机器翻译和语言认知计算等研究,主持国家项目10余项,发表论文200余篇,出版《统计自然语言处理》、《文本数据挖掘》和Text Data Mining三部专著及两部译著。担任国际计算语言学委员会(ICCL)委员,中国中文信息学会副理事长,曾任亚洲自然语言处理学会(AFNLP)主席,国际一流学术会议ACL’2015和COLING’2020程序委员会主席、ACL’2021大会主席。荣获国家科技进步奖二等奖和多个省部级及国家一级学会的科技奖励,获得北京市优秀教师、中科院优秀导师和国科大李佩教学名师等若干荣誉。享受国务院特殊津贴。张家俊,中国科学院自动化研究所研究员、中国科学院大学岗位教授、博士生导师,主要研究方向为机器翻译和自然语言处理,获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程、中国科学院青年创新促进会优秀会员和北京智源青年科学家。发表CCF-A/B类论文80余篇,出版学术专著2部,译著1部。获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖和2020年北京市科学技术奖一等奖等。担任中国中文信息学会青年工作委员会主任和机器翻译专委会副主任。担任ACL/EMNLP/COLING的(资深)领域主席和《自动化学报》等期刊的编委。夏睿,南京理工大学计算机学院教授、博士生导师,研究领域为人工智能、自然语言处理、文本数据挖掘,在国内外重要期刊和会议发表论文60余篇,出版学术专著2部,主持国家和省部级项目近10项,获得国际计算语言学会年会ACL2019杰出论文奖、中国中文信息学会青年创新奖一等奖等荣誉,获得江苏省杰出青年基金资助。
【目录】
第 1章绪论 1 

11基本概念 1 

12文本挖掘任务 2 

13文本挖掘面临的困难 5 

14方法概述与本书的内容组织 8 

15进一步阅读  10

习题  11

第 2章数据预处理和标注  12 

21概述  12 

22数据获取  12 

23数据预处理  16 

24数据标注  18 

25基本工具  20 

251汉语自动分词与词性标注  20 

252句法分析  22 

253 n元语法模型  23 

26进一步阅读  24

习题  24

第 3章文本表示  25 

31概述  25 

32向量空间模型  25 

321向量空间模型的基本概念  25 

322特征项的构造与权重  26 

323文本长度规范化  27 

324特征工程  28 

325其他文本表示方法  30 

33词的分布式表示  31 

文本数据挖掘 (第 2版) 

331神经网络语言模型  32 

332 C&W模型  36 

333 CBOW与 Skip-gram模型  38 

334噪声对比估计与负采样  39 

335字词混合的分布式表示方法  41 

34短语的分布式表示  43 

341基于词袋的分布式表示  43 

342基于自动编码器的分布式表示  43 

35句子的分布式表示  46 

351通用的句子表示  46 

352任务相关的句子表示  49 

36文档的分布式表示  52 

361通用的文档分布式表示  53 

362任务相关的文档分布式表示  55 

37进一步阅读  56

习题  57

第 4章预训练语言模型  58 

41概述  58 

42 ELMo:源自语言模型的语境化分布式向量表示  58 

421基于双向 LSTM的语言模型  59 

422适应下游任务的语境化 ELMo词向量  60 

43 GPT:生成式预训练模型  61 

431 Transformer62 

432 GPT预训练  63 

433 GPT微调  64 

44 BERT:双向 Transformer编码表示  65 

441 BERT预训练  66 

442 BERT微调  68 

443 XLNet:广义自回归预训练模型  68 

444 UniLM  71 

45进一步阅读  72

习题  72

第 5章文本分类  74 

51概述  74 

52传统文本表示  75 

目录 XI 

53特征选择  76 

531互信息法  76 

532信息增益法  79 

533卡方统计量法  80 

534其他方法  81 

54传统分类算法  82 

541朴素贝叶斯模型  82 

542 logistic回归、 softmax回归与最大熵模型  84 

543支持向量机  86 

544集成学习  88 

55深度神经网络方法  89 

551基于前馈神经网络的文本分类方法  89 

552基于卷积神经网络的文本分类方法  89 

553基于循环神经网络的文本分类方法  91 

56文本分类性能评估  94 

57进一步阅读  97

习题  97

第 6章文本聚类  99 

61概述  99 

62文本相似性度量  99 

621样本间的相似性  100 

622簇间的相似性  102 

623样本与簇之间的相似性  103 

63文本聚类算法  103 

631 K-均值聚类  103 

632单遍聚类  107 

633层次聚类  108 

634密度聚类  111 

64性能评估  113 

641外部标准  113 

642内部标准  115 

65进一步阅读  115

习题  116

第 7章主题模型  117 

71概述  117 

文本数据挖掘 (第 2版) 

72潜在语义分析  118 

721词项-文档矩阵的奇异值分解  118 

722词项和文档的概念表示及相似度计算  121 

73概率潜在语义分析  123 

731模型假设  123 

732参数学习  124 

74潜在狄利克雷分布  125 

741模型假设  125 

742词项和主题序列的联合概率  127 

743模型推断  129 

744新文档的推断  131 

745 PLSA与 LDA的联系与区别  132 

75进一步阅读  132

习题  133

第 8章情感分析与观点挖掘  135 

81概述  135 

82情感分析任务类型  136 

821按目标形式划分  136 

822按分析粒度划分  137 

83文档或句子级情感分析方法  139 

831基于规则的无监督情感分类  140 

832基于传统机器学习的监督情感分类  141 

833深度神经网络方法  144 

84词语级情感分析与情感词典构建  146 

841基于语义知识库的方法  147 

842基于语料库的方法  147 

843情感词典性能评估  149 

85属性级情感分析  150 

851属性抽取  150 

852属性情感分类  153 

853主题与情感的生成式建模  157 

86情感分析中的特殊问题  159 

861情感极性转移问题  159 

862领域适应问题  160 

87文本情绪分析  163 

871心理学情绪理论  163 

目录 XIII 

872文本情绪识别  163 

873情绪原因挖掘  165 

88进一步阅读  167

习题  168

第 9章话题检测与跟踪 170 

91概述  170 

92术语与任务  172 

921术语  172 

922任务  173 

93报道或话题的表示与相似性计算  175 

94话题检测  177 

941话题在线检测  177 

942话题回溯检测  179 

95话题跟踪  179 

96评估方法  181 

97社交媒体话题检测与跟踪  182 

971社交媒体话题检测  182 

972社交媒体话题跟踪  184 

98突发话题检测  184 

981突发状态识别  185 

982以文档为中心的方法  187 

983以特征为中心的方法  188 

99进一步阅读  190

习题  190

第 10章信息抽取 191 

101概述  191 

102命名实体识别  193 

1021基于规则的命名实体识别方法  194 

1022基于有监督学习的命名实体识别方法  195 

1023半监督的命名实体识别方法  201 

1024命名实体识别方法评价  203 

103共指消解  204 

1031基于规则的共指消解方法  205 

1032数据驱动的共指消解方法  207 

1033共指消解评价  210 

文本数据挖掘 (第 2版) 

104实体消歧  213 

1041基于聚类的实体消歧方法  213 

1042基于链接的实体消歧  217 

1043实体消歧任务的评价方法  223 

105关系抽取  224 

1051基于离散特征的关系分类方法  226 

1052基于分布式特征的关系分类方法  232 

1053基于远程监督的关系分类方法  234 

1054关系分类性能评价  235 

1055知识图谱  235 

106事件抽取  236 

1061事件描述模板  236 

1062事件抽取方法  238 

1063事件抽取评价  245 

1064事理图谱  245 

107进一步阅读  246

习题  247

第 11章文本自动摘要  248 

111概述  248 

112抽取式自动摘要  249 

1121句子重要性评估  250 

1122基于约束的摘要生成方法  258 

113压缩式自动摘要方法  259 

1131句子压缩方法  259 

1132基于句子压缩的自动摘要方法  263 

114理解式自动摘要  265 

1141基于信息融合的生成式摘要方法  265 

1142基于编码-解码的生成式摘要方法  270 

115基于查询的自动摘要  272 

1151基于语言模型的相关性计算方法  272 

1152基于关键词语重合度的相关性计算方法  273 

1153基于图模型的相关性计算方法  273 

116跨语言和多语言自动摘要方法  274 

1161跨语言自动摘要  274 

1162多语言自动摘要  277 

目录 XV 

117摘要质量评估方法和相关评测  279 

1171摘要质量评估方法  279 

1172相关评测活动  283 

118进一步阅读  285

习题  285

第 12章技术应用  288 

121概述  288 

122电子病历分析与挖掘系统  289 

1221任务目标  289 

1222数据准备和标注  290 

1223系统实现  292 

123多语言政策法规分析与挖掘系统  300 

1231任务目标  300 

1232数据采集和标注  301 

1233系统实现  302

习题  302

参考文献  303

名词术语索引  327 

 

 
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP