自制搜索引擎
¥
10.08
2.6折
¥
39
九五品
仅1件
作者(日)山田浩之,(日)末永匡 著,胡屹 译
出版社人民邮电出版社
ISBN9787115411709
出版时间2000-01
版次1
装帧平装
开本16开
纸张胶版纸
页数190页
字数99999千字
定价39元
上书时间2024-12-17
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:自制搜索引擎
定价:39.00元
作者:(日)山田浩之,(日)末永匡 著,胡屹 译
出版社:人民邮电出版社
出版日期:2000-01-01
ISBN:9787115411709
字数:187000
页码:190
版次:1
装帧:平装
开本:32开
商品重量:
编辑推荐
2600行代码,真实体验搜索引擎的开发过程 开源搜索引擎Senna/Groonga的开发者亲自执笔 探明Google、百度背后的工作机制 1. 专业:开源搜索引擎Senna/Groonga开发者、Yahoo!搜索引擎研发者执笔。 2. 实战易上手:2600行代码,从零开始写一个简易搜索引擎,然后进行优化。 3. 讲解细致:浓缩搜索引擎的关键知识点 ,源码可下载,边学习边实践。 4. 平缓进阶:书末介绍更专业的搜索引擎技术,为读者的深入学习做准备。
内容提要
《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。
目录
章 搜索引擎是如何工作的 11-1 理解搜索引擎的构成 3什么是搜索引擎 3构成搜索引擎的组件 4与搜索引擎相关的组件 51-2 实现了快速全文搜索的索引结构 7全文搜索的两种方法 7倒排索引的结构 8倒排索引的构建方法 9倒排索引中的术语 101-3 深入理解倒排索引 12倒排索引=词典 倒排文件 12从倒排索引中查找单词 13将单词的位置信息加入倒排文件中 13章 搜索引擎是如何工作的 11-1 理解搜索引擎的构成 3什么是搜索引擎 3构成搜索引擎的组件 4与搜索引擎相关的组件 51-2 实现了快速全文搜索的索引结构 7全文搜索的两种方法 7倒排索引的结构 8倒排索引的构建方法 9倒排索引中的术语 101-3 深入理解倒排索引 12倒排索引=词典 倒排文件 12从倒排索引中查找单词 13将单词的位置信息加入倒排文件中 13从倒排索引中查找短语 141-4 制作中文文档的倒排索引 16分割中文句子的方法 16权衡分割方法 171-5 实现倒排索引 19实现词典 19实现倒排文件 221-6 使用倒排索引进行检索 24布尔检索 24使用倒排索引的检索处理流程 24关联度的计算方法 26信息检索中的检索 271-7 构建倒排索引 29使用内存构建倒排索引 29使用二级存储构建倒排索引 29静态索引构建和动态索引构建 321-8 准备要检索的文档 34收集数据 34数据规范化 35第2章 准备全文搜索引擎的检索样本 372-1 全文搜索引擎wiser 39wiser的构成 39准备用于检索的文档 402-2 安装wiser 42构建wiser 42启动wiser 43解压缩Wikipedia的副本 442-3 运行wiser 45构建倒排索引 45使用倒排索引查询 46比较grep和wiser的运行速度 46第3章 构建倒排索引 493-1 复习有关倒排索引的知识 51提取词元 51为每个词元创建倒排列表 533-2 构建倒排索引 54在存储器上创建倒排列表 54倒排列表和倒排文件的数据结构 54从源代码级别梳理倒排索引的构建顺序 56进一步阅读源代码 59专栏 根据实际情况设计搜索引擎(系统) 68第4章 开始检索吧 714-1 检索处理的大致流程 73充分理解检索处理的流程 734-2 使用倒排索引进行检索 75从源代码级别梳理检索处理的流程 75解读split_query_to_tokens函数的具体实现 76使用具体示例加深对检索处理流程的理解 77解读函数search_docs的实现细节 80解读函数search_phrase的实现 84专栏 如何实现标签检索 88第5章 压缩倒排索引 895-1 压缩的基础知识 90压缩倒排索引的好处 90专栏 压缩的目的 90倒排索引的压缩方法 91倒排文件的压缩方法 91压缩的原理 945-2 实现wiser中的压缩功能 97压缩功能源代码的概要 97了解无需进行压缩时的操作 99抓住Golomb编码的要点 101解读Golomb编码中的编码处理 105解读Golomb编码的解码处理 108第6章 挑战wiser的优化及参数的调整 1136-1 提高检索处理的效率 115优化检索处理 115将查询分割为无重复部分的词元序列 1166-2 禁用短语检索 119分析对2字符的字符串进行检索时的行为 119分析对3字符的字符串进行检索时的行为 1206-3 改变检索结果的输出顺序 122作为检索结果排序核心的指标 122按照文档大小降序排列的检索结果 124专栏 排名欺诈 1286-4 让1个字符的查询也能检索出结果 29获取以特定字符开头的词元的列表 129合并检索到的结果 131专栏 如何实现相似文档的检索 1316-5 调整控制倒排索引更新的缓冲区容量 133确认由缓冲区容量的差异带来的不同效果 133用sar命令分析负载 1346-6 调整只有英文字母的词元的分割方法 135如何避免用英文单词检索时准确率下降的问题 135如何判断某字符是否属于索引对象 135修改负责分割词元的函数 1366-7 确认压缩的效果 138观察Golomb编码的效果 138对比压缩启用前后的索引大小 138专栏 避免滥用全文搜索引擎 139第7章 为今后更加深入的学习做准备 1417-1 wiser没能实现的功能 143倒排索引之外的全文搜索索引 143高效处理大规模数据的存储器 143利用缓存提高检索的速度 143使用各种各样的压缩方法 144优化搜索结果的排名 144调整准确率和召回率 145降低检索结果排序处理的负载 147并行处理 147结合对属性的筛选过滤 148分面搜索 148专栏 时延和吞吐量 1497-2 全文搜索引擎Groonga的特点 150通过词元的部分一致检索提升召回率 150使用内存映射文件 151片段 152专栏 宣传活动的重要性 1527-3 实现出考虑到用户意图的搜索引擎 153引入停用词 153应对词素解析的错误 153专栏 断句错误 154处理全角字符和半角字符 155对查询进行归一化 156留意布尔检索的解析过程 156通过词素解析器适当地解析查询 157对错误的输入进行修正 157输入补全 158建议用户检索相关的关键词 1597-4 收集、提取文档时的要点 160制作爬虫时的处理要点 160在提取文本时需要处理的要点 163Appendix 附录 165A-1 深度话题 166近几年的压缩方法 166动态索引构建 169分布式索引 174A-2 wiser中的文本提取和存储 178用于处理XML的2 种API――DOM和SAX 178提取文档的标题和正文 179掌握状态的迁移 182构建文档数据库 187后记 191显示全部信息
作者介绍
序言
— 没有更多了 —
以下为对购买帮助不大的评价