• 信息检索导论(修订版)
21年品牌 40万+商家 超1.5亿件商品

信息检索导论(修订版)

全新正版 极速发货

61.13 6.2折 99 全新

库存8件

广东广州
认证卖家担保交易快速发货售后保障

作者(美)克里斯托夫·曼宁(Christopher Manning),(美)普拉巴卡尔·拉格万(Prabhakar Raghavan),(德)欣里希·舒策(Hinrich Schutze)

出版社人民邮电出版社

ISBN9787115514080

出版时间2019-07

装帧平装

开本16开

定价99元

货号1201917671

上书时间2024-09-18

谢岳书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
克里斯托夫·曼宁 (Christopher Manning),计算机科学家,斯坦福大学教授,斯坦福大学人工智能实验室主任,ACM会士、AAAI会士、ACL会士。目前的研究目标为计算机如何智能地处理、理解和生成.人类语言资料。曼宁博士是深度学习在自然语言处理应用方面的先锋人物,在树递归神经网络、语义分析、神经机器翻译、深度语言理解等方面均有令业界瞩目的研究成果。
普拉巴卡尔·拉格万(Prabhakar Raghavan),Google不错副总裁,目前负责谷歌的广告与商业产品、基础设施团队。之前作为Google App和Google Cloud的副总裁,带领团队做出了突出业绩。在加入Google前任职于Yahoo!,是Yahoo!实验室的创建者和负责人。拉格万博士毕业于加州大学伯克利分校,长期担任斯坦福大学计算机科学系顾问教授,主要研究方向是文本及Web数据挖掘、随机算法等,是美国国家工程院院士、ACM会士、IEEE会士。
欣里希·舒策(Hinrich Schutze),德国慕尼黑大学信息与语言处理中心主任,计算语言学家,斯坦福大学博士。曾在美国硅谷工作多年。
王斌,博士,小米公司AI实验室NLP方向首席科学家,前中国科学院信息工程研究所研究员、博导,中国科学院大学教授。
,博士,中国科学院信息工程研究所不错工程师,硕士生导师。

目录
章布尔检索1
1.1一个信息检索的例子2
1.2构建倒排索引的初体验5
1.3布尔查询的处理8
1.4对基本布尔操作的扩展及有序检索11
1.5参考文献及补充读物13
第2章词项词典及倒排记录表14
2.1文档分析及编码转换14
2.1.1字符序列的生成14
2.1.2文档单位的选择16
2.2词项集合的确定16
2.2.1词条化16
2.2.2去除停用词19
2.2.3词项归一化20
2.2.4词干还原和词形归并23
2.3基于跳表的倒排记录表快速合并算法26
2.4含位置信息的倒排记录表及短语查询28
2.4.1二元词索引28
2.4.2位置信息索引29
2.4.3混合索引机制31
2.5参考文献及补充读物32
第3章词典及容错式检索34
3.1词典搜索的数据结构34
3.2通配符查询36
3.2.1一般的通配符查询37
3.2.2支持通配符查询的k-gram索引38
3.3拼写校正39
3.3.1拼写校正的实现39
3.3.2拼写校正的方法40
3.3.3编辑距离40
3.3.4拼写校正中的k-gram索引42
3.3.5上下文敏感的拼写校正43
3.4基于发音的校正技术44
3.5参考文献及补充读物45
第4章索引构建46
4.1硬件基础46
4.2基于块的排序索引方法47
4.3内存式单遍扫描索引构建方法50
4.4分布式索引构建方法51
4.5动态索引构建方法54
4.6其他索引类型56
4.7参考文献及补充读物57
第5章索引压缩59
5.1信息检索中词项的统计特性59
5.1.1Heaps定律:词项数目的估计61
5.1.2Zipf定律:对词项的分布建模62
5.2词典压缩63
5.2.1将词典看成单一字符串的压缩方法63
5.2.2按块存储64
5.3倒排记录表的压缩66
5.3.1可变字节码67
5.3.2γ编码68
5.4参考文献及补充读物74
第6章文档评分、词项权重计算及向量空间模型76
6.1参数化索引及域索引76
6.1.1域加权评分78
6.1.2权重学习79
6.1.3最优权重g的计算80
6.2词项频率及权重计算81
6.2.1逆文档频率81
6.2.2tf-idf权重计算82
6.3向量空间模型83
6.3.1内积83
6.3.2查询向量86
6.3.3向量相似度计算87
6.4其他tf-idf权重计算方法88
6.4.1tf的亚线性尺度变换方法88
6.4.2基于优选值的tf归一化88
6.4.3文档权重和查询权重机制89
6.4.4文档长度的回转归一化89
6.5参考文献及补充读物92
第7章一个完整搜索系统中的评分计算93
7.1快速评分及排序93
7.1.1非精确返回前K篇文档的方法94
7.1.2索引去除技术94
7.1.3胜者表95
7.1.4静态得分和排序95
7.1.5影响度排序96
7.1.6簇剪枝方法97
7.2信息检索系统的组成98
7.2.1层次型索引98
7.2.2查询词项的邻近性98
7.2.3查询分析及文档评分函数的设计99
7.2.4搜索系统的组成100
7.3向量空间模型对各种查询操作的支持101
7.3.1布尔查询101
7.3.2通配符查询102
7.3.3短语查询102
7.4参考文献及补充读物102
第8章信息检索的评价103
8.1信息检索系统的评价103
8.2标准测试集104
8.3无序检索结果集合的评价105
8.4有序检索结果的评价方法108
8.5相关性判定112
8.6更广的视角看评价:系统质量及用户效用115
8.6.1系统相关问题115
8.6.2用户效用115
8.6.3对已有系统的改进116
8.7结果片段116
8.8参考文献及补充读物118
第9章相关反馈及查询扩展120
9.1相关反馈及伪相关反馈120
9.1.1Rocchio相关反馈算法122
9.1.2基于概率的相关反馈方法125
9.1.3相关反馈的作用时机125
9.1.4Web上的相关反馈126
9.1.5相关反馈策略的评价127
9.1.6伪相关反馈127
9.1.7间接相关反馈128
9.1.8小结128
9.2查询重构的全局方法128
9.2.1查询重构的词汇表工具128
9.2.2查询扩展129
9.2.3同义词词典的自动构建130
9.3参考文献及补充读物131
0章XML检索133
10.1XML的基本概念134
10.2XML检索中的挑战性问题137
10.3基于向量空间模型的XML检索140
10.4XML检索的评价144
10.5XML检索:以文本为中心与以数据为中心的对比146
10.6参考文献及补充读物148
1章概率检索模型150
11.1概率论基础知识150
11.2概率排序原理151
11.2.110风险的情况151
11.2.2基于检索代价的概率排序原理152
11.3二值独立模型152
11.3.1排序函数的推导153
11.3.2理论上的概率估计方法155
11.3.3实际中的概率估计方法156
11.3.4基于概率的相关反馈方法157
11.4概率模型的相关评论及扩展158
11.4.1概率模型的评论158
11.4.2词项之间的树型依赖159
11.4.3OkapiBM25:一个非二值的模型160
11.4.4IR中的贝叶斯网络方法161
11.5参考文献及补充读物162
2章基于语言建模的信息检索模型163
12.1语言模型163
12.1.1有穷自动机和语言模型163
12.1.2语言模型的种类165
12.1.3词的多项式分布166
12.2查询似然模型167
12.2.1IR中的查询似然模型167
12.2.2查询生成概率的估计167
12.2.3Ponte和Croft进行的实验169
12.3语言建模的方法与其他检索方法的比较171
12.4扩展的LM方法172
12.5参考文献及补充读物173
3章文本分类及朴素贝叶斯方法175
13.1文本分类问题177
13.2朴素贝叶斯文本分类178
13.3伯努利模型182
13.4NB的性质183
13.5特征选择188
13.5.1互信息188
13.5.22统计量191
13.5.3基于频率的特征选择方法192
13.5.4多类问题的特征选择方法193
13.5.5不同特征选择方法的比较193
13.6文本分类的评价194
13.7参考文献及补充读物199
4章基于向量空间模型的文本分类200
14.1文档表示及向量空间中的关联度计算201
14.2Rocchio分类方法202
14.3k近邻分类器205
14.4线性及非线性分类器209
14.5多类问题的分类212
14.6偏差—方差折中准则214
14.7参考文献及补充读物219
5章支持向量机及文档机器学习方法221
15.1二类线性可分条件下的支持向量机221
15.2支持向量机的扩展226
15.2.1软间隔分类226
15.2.2多类情况下的支持向量机228
15.2.3非线性支持向量机228
15.2.4实验结果230
15.3有关文本文档分类的考虑231
15.3.1分类器类型的选择232
15.3.2分类器效果的提高233
15.4adhoc检索中的机器学习方法236
15.4.1基于机器学习评分的简单例子236
15.4.2基于机器学习的检索结果排序238
15.5参考文献及补充读物239
6章扁平聚类241
16.1信息检索中的聚类应用242
16.2问题描述244
16.3聚类算法的评价246
16.4K-均值算法248
16.5基于模型的聚类254
16.6参考文献及补充读物258
7章层次聚类260
17.1凝聚式层次聚类260
17.2单连接及全连接聚类算法263
17.3组平均凝聚式聚类268
17.4质心聚类269
17.5层次凝聚式聚类的最优性270
17.6分裂式聚类272
17.7簇标签生成273
17.8实施中的注意事项274
17.9参考文献及补充读物275
8章矩阵分解及隐性语义索引277
18.1线性代数基础277
18.2词项—文档矩阵及SVD280
18.3低秩逼近282
18.4LSI284
18.5参考文献及补充读物288
9章Web搜索基础289
19.1背景和历史289
19.2Web的特性290
19.2.1Web图291
19.2.2作弊网页293
19.3广告经济模型294
19.4搜索用户体验296
19.5索引规模及其估计297
19.6近似重复及搭叠300
19.7参考文献及补充读物303
第20章Web采集及索引304
20.1概述304
20.1.1采集器必须提供的功能特点304
20.1.2采集器应该提供的功能特点304
20.2采集305
20.2.1采集器架构305
20.2.2DNS解析308
20.2.3待采集URL池309
20.3分布式索引311
20.4连接服务器312
20.5参考文献及补充读物314
第21章链接分析316
21.1Web图316
21.2PageRank318
21.2.1马尔科夫链318
21.2.2PageRank的计算320
21.2.3面向主题的PageRank322
21.3Hub网页及Authority网页325
21.4参考文献及补充读物329
参考文献331
索引356

内容摘要
本书是信息检索的教材,旨在从计算机科学的视角提供一种现代的信息检索方法。书中从基本概念讲解网络搜索以及文本分类和文本聚类等,对收集、索引和搜索文档系统的设计和实现的方方面面、评估系统的方法、机器学习方法在文本收集中的应用等给出了近期新的讲解。

主编推荐
 

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP