消息首页搜索举报

驾驭文本：文本的发现、组织和处理

0.94 九品

仅1件

河北保定

认证卖家担保交易快速发货售后保障

作者Grant S.（格兰特·英格索尔）、Thomas S.（托马斯·莫顿）、Andrew L. Farris（安德鲁·法里斯）著；王斌译

出版社电子工业出版社

出版时间2015-07

版次1

装帧平装

上书时间2024-11-19

晴天的图书店

八年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 9小时
好评率暂无

最新上架

软笔字帖 ¥63.00

怎样活过百岁健康长寿因素200谈 ¥4.08

市场营销 ¥8.49

当时忍住就好了：哈佛大学性格自修课 ¥0.09

永字八法 ¥63.00

爆笑三十六计胜战计之阿豆的小聪明 ¥18.33

爆笑三十六计败战计之阿美教师的生日 ¥18.33

高原的回声 ¥11.99

王永庆谈中国式管理 ¥10.48

商品详情

品相描述：九品

图书标准信息

作者 Grant S.（格兰特·英格索尔）、Thomas S.（托马斯·莫顿）、Andrew L. Farris（安德鲁·法里斯）著；王斌译
出版社电子工业出版社
出版时间 2015-07
版次 1
ISBN 9787121252303
定价 79.00元
装帧平装
开本 16开
纸张胶版纸
页数 340页
字数 350千字
正文语种简体中文
原版书名 Taming Text

【内容简介】: 文本处理是目前互联网内容应用(如搜索引擎、推荐引擎)的关键技术。本书涵盖了文本处理概念和技术的多个方面，包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分类、聚类、标签生成、摘要、问答等。本书的特点在于通过实例来理解文本处理的这些概念和技术，读者利用现有的开源工具就可以自己实现这些实例。
【作者简介】: 王斌，博士，中国科学院信息工程研究所研究员，博士生导师，研究方向为信息检索与自然语言处理。主持科研项目20余项，发表学术论文120余篇，译有《信息检索导论》、《大数据：互联网大规模数据挖掘与分布式处理》、《机器学习实战》、《Mahout实战》等书籍。现为中国中文信息学会理事、信息检索专委会、社会媒体处理专委会及语言与知识计算专业委员会委员，《中文信息学报》编委，中国计算机学会高级会员及中文信息处理专委会委员。
【目录】: 第1章　开始驾驭文本 1
11　驾驭文本重要的原因 2
12　预览：一个基于事实的问答系统 4
121　嗨，弗兰肯斯坦医生 5
13　理解文本很困难 8
14　驾驭的文本 11
15　文本及智能应用：搜索及其他 13
151　搜索和匹配 13
152　抽取信息 14
153　对信息分组 15
154　一个智能应用 15
16　小结 15
17　相关资源 16
第2章　驾驭文本的基础 17
21　语言基础知识 18
211　词语及其类别 19
212　短语及子句 20
213　词法 21
22　文本处理常见工具 23
221　字符串处理工具 23
222　词条及切词 23
223　词性标注 25
224　词干还原 27
225　句子检测 29
226　句法分析和文法 31
227　序列建模 33
23　从常见格式文件中抽取内容并做预处理 34
231　预处理的重要性 35
232　利用Apache Tika抽取内容 37
24　小结 39
25　相关资源 40
第3章　搜索 41
31　搜索和多面示例：Amazoncom 42
32　搜索概念入门 44
321　索引内容 45
322　用户输入 47
323　利用向量空间模型对文档排名 51
324　结果展示 54
33　Apache Solr搜索服务器介绍 57
331　首次运行Solr 58
332　理解Solr中的概念 59
34　利用Apache Solr对内容构建索引 63
341　使用XML构建索引 64
342　利用Solr和Apache Tika对内容进行抽取和索引 66
35　利用Apache Solr来搜索内容 69
351　Solr查询输入参数 71
352　抽取内容的多面展示 74
36　理解搜索性能因素 77
361　数量判定 77
362　判断数量 81
37　提高搜索性能 82
371　硬件改进 82
372　分析的改进 83
373　提高查询性能 85
374　其他评分模型 88
375　提升Solr性能的技术 89
38　其他搜索工具 91
39　小结 93
310　相关资源 93
第4章　模糊字符串匹配 94
41　模糊字符串匹配方法 96
411　字符重合度度量方法 96
412　编辑距离 99
413　n元组编辑距离 102
42　寻找模糊匹配串 105
421　在Solr中使用前缀来匹配 105
422　利用trie树进行前缀匹配 106
423　使用n元组进行匹配 111
43　构建模糊串匹配应用 112
431　在搜索中加入提前输入功能 113
432　搜索中的查询拼写校正 117
433　记录匹配 122
44　小结 127
45　相关资源 128
第5章　命名实体识别 129
51　命名实体的识别方法 131
511　基于规则的实体识别 131
512　基于统计分类器的实体识别 132
52　基于OpenNLP的基本实体识别 133
521　利用OpenNLP寻找人名 134
522　OpenNLP识别的实体解读 136
523　基于概率过滤实体 137
53　利用OpenNLP进行深度命名实体识别 137
531　利用OpenNLP识别多种实体类型 138
532　OpenNLP识别实体的背后机理 141
54　OpenNLP的性能 143
541　结果的质量 144
542　运行性能 145
543　OpenNLP的内存使用 146
55　对新领域定制OpenNLP实体识别 147
551　训练模型的原因和方法 147
552　训练OpenNLP模型 148
553　改变建模输入 150
554　对实体建模的新方法 152
56　小结 154
57　进一步阅读材料 155
第6章　文本聚类 156
61　Google News中的文档聚类 157
62　聚类基础 158
621　三种聚类的文本类型 158
622　选择聚类算法 160
623　确定相似度 161
624　给聚类结果打标签 162
625　聚类结果的评估 163
63　搭建一个简单的聚类应用 165
64　利用Carrot2对搜索结果聚类 166
641　使用Carrot2API 166
642　使用Carrot2对Solr的搜索结果聚类 168
65　利用Apache Mahout对文档集聚类 171
651　对聚类的数据进行预处理 172
652　K-means聚类 175
66　利用Apache Mahout进行主题建模 180
67　考察聚类性能 183
671　特征选择与特征约简 183
672　Carrot2的性能和质量 186
673　Mahout基准聚类算法 187
68　致谢 192
69　小结 192
610　参考文献 193
第7章　分类及标注 195
71　分类及归类概述 197
72　分类过程 200
721　选择分类机制 201
722　识别文本分类中的特征 202
723　训练数据的重要性 203
724　评估分类器性能 206
725　将分类器部署到生产环境 208
73　利用Apache Lucene构建文档分类器 209
731　利用Lucene对文本进行分类 210
732　为MoreLikeThis分类器准备训练数据 212
733　训练MoreLikeThis分类器 214
734　利用MoreLikeThis分类器对文档进行分类 217
735　测试MoreLikeThis分类器 220
736　将MoreLikeThis投入生产环境 223
74　利用Apache Mahout训练朴素贝叶斯分类器 223
741　利用朴素贝叶斯算法进行文本分类 224
742　准备训练数据 225
743　留存测试数据 229
744　训练分类器 229
745　测试分类器 231
746　改进自举过程 232
747　将Mahout贝叶斯分类器集成到Solr 234
75　利用OpenNLP进行文档分类 238
751　回归模型及最大熵文档分类 239
752　为最大熵文档分类器准备训练数据 241
753　训练最大熵文档分类器 242
754　测试最大熵文档分类器 248
755　生产环境下的最大熵文档分类器 249
76　利用Apache Solr构建标签推荐系统 250
761　为标签推荐收集训练数据 253
762　准备训练数据 255
763　训练Solr标签推荐系统 256
764　构建推荐标签 258
765　对标签推荐系统进行评估 261
77　小结 263
78　参考文献 265
第8章　构建示例问答系统 266
81　问答系统基础知识 268
82　安装并运行QA代码 270
83　一个示例问答系统的架构 271
84　理解问题并产生答案 274
841　训练答案类型分类器 275
842　对查询进行组块分析 279
843　计算答案类型 280
844　生成查询 283
845　对候选段落排序 285
85　改进系统的步骤 287
86　本章小结 287
87　相关资源 288
第9章　未驾驭的文本：探索未来前沿 289
91　语义、篇章和语用：探索高级NLP 290
911　语义 291
912　篇章 292
913　语用 294
92　文档及文档集自动摘要 295
93　关系抽取 298
931　关系抽取方法综述 299
932　评估 302
933　关系抽取工具 303
94　识别重要内容和人物 303
941　全局重要性及权威度 304
942　个人重要性 305
943　与重要性相关的资源及位置 306
95　通过情感分析来探测情感 306
951　历史及综述 307
952　工具及数据需求 308
953　一个基本的极性算法 309
954　高级话题 311
955　用于情感分析的开源库 312
96　跨语言检索 313
97　本章小结 315
98　相关资源 315

点击展开点击收起

— 没有更多了 —

驾驭文本：文本的发现、组织和处理

晴天的图书店

商品详情

图书标准信息

相关推荐