消息首页搜索举报

图书条目标准图

基于NLP的内容理解

正版书籍如有疑问请咨询客服支持开票书友放心购买

57.42 5.8折 99 全新

库存6件

江苏无锡

认证卖家担保交易快速发货售后保障

作者李明琦谷雪孟子尧著

出版社机械工业出版社

出版时间2023-03

版次1

装帧其他

货号文轩6.22

上书时间2024-06-22

千正旗舰版一正版促销

九年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 19小时
好评率暂无

店主推荐
最新上架

窗边的小豆豆合集（1-6）（爱心树童书） ¥190.00

正版现货如果历史是一群喵12:元末民初篇 ¥29.90

可复制的领导力 ¥32.00

如果历史是一群喵6-魏晋南北篇(限量历史喵折立卡片） ¥39.00

如果历史是一群喵9·五代十国篇 ¥29.00

如果历史是一群喵2·春秋战国篇 ¥29.00

如果历史是一群喵4·东汉末年篇 ¥29.00

如果历史是一群喵5·乱世三国篇 ¥29.00

众阅典藏馆--中医四大名著（套装共4册） ¥68.00

双赢：提升项目管理者的职业高度与情商 ¥39.56

电力系统继电保护 ¥27.73

三网融合 ¥132.60

综合能源服务:系统与模式 ¥37.40

火电机组典型事件案例分析 ¥48.40

“十四五”普通高等教育本科系列教材建筑力学与建筑结构（第四版） ¥43.45

电机学 ¥17.61

电力调度自动化培训教材电力调度数据网及二次安全防护 ¥38.50

电力系统继电保护习题精选与解析（上、下册） ¥108.10

商品详情

品相描述：全新

图书标准信息

作者李明琦谷雪孟子尧著
出版社机械工业出版社
出版时间 2023-03
版次 1
ISBN 9787111720690
定价 99.00元
装帧其他
开本 16开
纸张胶版纸
页数 252页
字数 266千字

【内容简介】: 这是一本讲述如何用NLP技术进行文本内容理解的著作，也是一本系统讲解NLP算法的著作，是作者在NLP和内容理解领域多年经验的总结。
  本书结合内容理解的实际业务场景，系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题，主要包括如下几个方面的内容：
  （1）文本特征表示
  文本特征表示是NLP的基石，也是内容理解的基础环节，本书详细讲解了离散型表示方法和分布型表示方法等特征表示方法及其应用场景，还讲解了词向量的评判标准。
  （2）内容重复理解
  详细讲解了标题重复、段落重复、文章重复的识别方法和去重算法。
  （3）内容通顺度识别及纠正
  详细讲解了内容通顺度的识别方法以及纠正不通顺内容的方法。
  （4）内容质量
  详细讲解了多种内容质量相关的算法，以及如何搭建高质量的知识问答体系的流程。
  （5）标签体系构建
  详细讲解了针对内容理解的标签体系的建设流程和方法，以及多种相关算法。
  （6）文本摘要生成
  详细讲解了抽取式文本摘要和生成式文本摘要两种流行的文本摘要生成方法，以及文本摘要的常用数据集和文本摘要评价方法。
  （7）文本纠错
  详细讲解了文本纠错的传统方法、深度学习方法、工业界解决方案，以及常用的文本纠错工具的安装和使用。
【作者简介】: 李明琦

资深AI技术专家，现就职于BAT，担任高级算法工程师。长期致力于机器学习、深度学习、NLP等技术在实际业务场景中的落地，在内容理解方面有丰富的经验，主导的内容质量项目曾获得最佳项目奖。

先后发表人工智能相关的学术论文2篇，申请人工智能领域的发明专利5项。在GitHub上贡献了大量内容质量、问答系统、NLP等方面的代码，在CSDN撰写了一些与算法、机器学习、内容理解相关的文章，深受欢迎。

谷　雪

现为葡萄牙米尼奥大学博士生，涉及的研究领域为神经架构搜索、自然语言处理、情感分析，博士期间着力于细粒度情感原因提取。先后发表过学术论文2篇，其中一篇是神经架构搜索的综述，另一篇是基于进化策略的神经架构演化方法。在GitHub上贡献了大量深度学习、机器学习代码，在CSDN上分享了服务器配置、数据分析、图像去噪、情感分析等方向的多篇文章。

孟子尧

在人工智能技术领域有非常深厚的积累，擅长机器学习和深度学习，尤其是深度学习中的图像分类和自然语言处理等技术。热衷于开源的应用和推广，在GitHub和CSDN上贡献了许多代码和文章。在《计算机研究与发展》上发表过1篇人工智能相关论文。
【目录】: CONTENTS

目　　录

前言

第1章　文本特征表示　1

1.1　语料与语料预处理　1

1.1.1　语料和语料库　1

1.1.2　语料预处理　2

1.2　文本特征表示方法　6

1.2.1　离散型特征表示方法　6

1.2.2　分布型特征表示方法　13

1.3　词向量的评判标准　29

1.3.1　内部评估　29

1.3.2　外在评估　31

1.4　本章小结　34

第2章　内容重复理解　35

2.1　标题重复　35

2.1.1　标题符号规整化处理　36

2.1.2　Jieba分词　39

2.1.3　LAC分词　43

2.1.4　基于分词及字符串等

方式进行重复识别　45

2.2　段落重复识别实例　47

2.2.1　段落重复识别　47

2.2.2　基于N-gram算法进行

内容去重　48

2.2.3　平滑处理技术　54

2.3　基于相似度计算的文章判重　57

2.3.1　文本相似度计算任务

的分析　57

2.3.2　距离度量方式　58

2.3.3　基于SimHash算法进行

文本重复检测　62

2.4　本章小结　66

第3章　内容通顺度识别及纠正　67

3.1　数据增强　67

3.2　基于FastText算法的句子

通顺度识别　73

3.2.1　CBOW模型　74

3.2.2　FastText算法原理　75

3.2.3　FastText算法实战　81

3.3　基于TextCNN算法的分类

任务实现　93

3.3.1　专有名词简介　93

3.3.2　算法介绍　94

3.3.3　参数调优经验总结　96

3.3.4　基于Keras工具实现TextCNN算法　96

3.4　基于TextRNN算法的分类

任务实现　98

3.4.1　LSTM和BiLSTM　98

3.4.2　TextCNN和TextRNN

识别效果对比　105

3.5　基于Seq2Seq模型的

纠正策略　106

3.5.1　Seq2Seq模型原理　106

3.5.2　纠正不通顺句子的方法　108

3.6　本章小结　114

第4章　内容质量　116

4.1　GBDT算法　116

4.1.1　GBDT算法概述　117

4.1.2　负梯度拟合　117

4.1.3　GBDT回归算法　118

4.1.4　GBDT分类算法　119

4.2　XGBoost算法　121

4.2.1　从GBDT到XGBoost　121

4.2.2　XGBoost损失函数　122

4.2.3　XGBoost损失函数的

优化求解　124

4.2.4　XGBoost算法流程　125

4.2.5　XGBoost算法参数

及调优　127

4.3　知识问答质量体系的搭建　129

4.3.1　知识问答质量体系

建立的意义　130

4.3.2　整体的项目实施方案　130

4.3.3　知识问答质量体系

搭建流程　133

4.4　本章小结　142

第5章　标签体系构建　143

5.1　标签体系　143

5.1.1　标签体系的重要性　143

5.1.2　标签体系的分类　144

5.1.3　构建标签体系　146

5.2　TF-IDF算法　151

5.2.1　TF-IDF算法介绍　151

5.2.2　TF-IDF算法实现　152

5.3　PageRank算法　155

5.4　TextRank算法　163

5.4.1　TextRank算法的使用

场景　164

5.4.2　TextRank算法的

优缺点　168

5.5　本章小结　168

第6章　文本摘要生成　169

6.1　文本摘要相关介绍　169

6.1.1　文本摘要问题定义　169

6.1.2　文本摘要分类　170

6.1.3　文本摘要的技术和方法　170

6.2　基于无监督的抽取式文本摘要　172

6.2.1　基于经验的文本摘要　173

6.2.2　基于主题模型的

文本摘要　175

6.2.3　基于图的文本摘要　182

6.2.4　基于特征评分的

文本摘要　185

6.2.5　基于聚类的文本摘要　188

6.3　基于有监督的抽取式文本摘要　191

6.4　基于深度神经网络的生成式

文本摘要　201

6.5　文本摘要常用数据集　210

6.6　文本摘要评价方法　211

6.6.1　自动评价方法　211

6.6.2　人工评价方法　213

6.7　本章小结　213

第7章　文本纠错　214

7.1　错误来源及类型　214

7.2　文本纠错的3种传统方法　215

7.2.1　模板匹配　215

7.2.2　编辑距离匹配　216

7.2.3　HANSpeller 框架　217

7.3　文本纠错深度学习方法　220

7.3.1　英文文本纠错方法　220

7.3.2　中文文本纠错方法　224

7.4　工业界解决方法　233

7.4.1　3阶段级联的纠错方案　234

7.4.2　符合多种场景的通用

纠错方案　236

7.4.3　保险文本的纠错方案　237

7.5　文本纠错工具　239

7.5.1　pycorrector　239

7.5.2　xmnlp　240

7.6　本章小结　242

点击展开点击收起

— 没有更多了 —

基于NLP的内容理解

千正旗舰版一正版促销

商品详情

图书标准信息

相关推荐