• 自制搜索引擎
21年品牌 40万+商家 超1.5亿件商品

自制搜索引擎

10.08 2.6折 39 九五品

仅1件

北京通州
认证卖家担保交易快速发货售后保障

作者(日)山田浩之,(日)末永匡 著,胡屹 译

出版社人民邮电出版社

ISBN9787115411709

出版时间2000-01

版次1

装帧平装

开本16开

纸张胶版纸

页数190页

字数99999千字

定价39元

上书时间2024-12-17

纵列風

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九五品
商品描述
基本信息
书名:自制搜索引擎
定价:39.00元
作者:(日)山田浩之,(日)末永匡 著,胡屹 译
出版社:人民邮电出版社
出版日期:2000-01-01
ISBN:9787115411709
字数:187000
页码:190
版次:1
装帧:平装
开本:32开
商品重量:
编辑推荐
2600行代码,真实体验搜索引擎的开发过程 开源搜索引擎Senna/Groonga的开发者亲自执笔 探明Google、百度背后的工作机制 1. 专业:开源搜索引擎Senna/Groonga开发者、Yahoo!搜索引擎研发者执笔。 2. 实战易上手:2600行代码,从零开始写一个简易搜索引擎,然后进行优化。 3. 讲解细致:浓缩搜索引擎的关键知识点 ,源码可下载,边学习边实践。 4. 平缓进阶:书末介绍更专业的搜索引擎技术,为读者的深入学习做准备。
内容提要
《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。
目录
章 搜索引擎是如何工作的  11-1 理解搜索引擎的构成  3什么是搜索引擎  3构成搜索引擎的组件  4与搜索引擎相关的组件  51-2  实现了快速全文搜索的索引结构  7全文搜索的两种方法  7倒排索引的结构  8倒排索引的构建方法  9倒排索引中的术语  101-3 深入理解倒排索引  12倒排索引=词典 倒排文件  12从倒排索引中查找单词  13将单词的位置信息加入倒排文件中  13章 搜索引擎是如何工作的  11-1 理解搜索引擎的构成  3什么是搜索引擎  3构成搜索引擎的组件  4与搜索引擎相关的组件  51-2  实现了快速全文搜索的索引结构  7全文搜索的两种方法  7倒排索引的结构  8倒排索引的构建方法  9倒排索引中的术语  101-3 深入理解倒排索引  12倒排索引=词典 倒排文件  12从倒排索引中查找单词  13将单词的位置信息加入倒排文件中  13从倒排索引中查找短语  141-4 制作中文文档的倒排索引  16分割中文句子的方法  16权衡分割方法  171-5 实现倒排索引  19实现词典  19实现倒排文件  221-6 使用倒排索引进行检索  24布尔检索  24使用倒排索引的检索处理流程  24关联度的计算方法  26信息检索中的检索  271-7 构建倒排索引  29使用内存构建倒排索引  29使用二级存储构建倒排索引  29静态索引构建和动态索引构建  321-8 准备要检索的文档  34收集数据  34数据规范化  35第2章 准备全文搜索引擎的检索样本  372-1 全文搜索引擎wiser  39wiser的构成  39准备用于检索的文档  402-2 安装wiser  42构建wiser  42启动wiser  43解压缩Wikipedia的副本  442-3 运行wiser  45构建倒排索引  45使用倒排索引查询  46比较grep和wiser的运行速度  46第3章 构建倒排索引  493-1 复习有关倒排索引的知识  51提取词元  51为每个词元创建倒排列表  533-2 构建倒排索引  54在存储器上创建倒排列表  54倒排列表和倒排文件的数据结构  54从源代码级别梳理倒排索引的构建顺序  56进一步阅读源代码  59专栏 根据实际情况设计搜索引擎(系统)  68第4章 开始检索吧  714-1 检索处理的大致流程  73充分理解检索处理的流程  734-2 使用倒排索引进行检索  75从源代码级别梳理检索处理的流程  75解读split_query_to_tokens函数的具体实现  76使用具体示例加深对检索处理流程的理解  77解读函数search_docs的实现细节  80解读函数search_phrase的实现  84专栏 如何实现标签检索  88第5章 压缩倒排索引  895-1 压缩的基础知识  90压缩倒排索引的好处  90专栏 压缩的目的  90倒排索引的压缩方法  91倒排文件的压缩方法  91压缩的原理  945-2 实现wiser中的压缩功能  97压缩功能源代码的概要  97了解无需进行压缩时的操作  99抓住Golomb编码的要点  101解读Golomb编码中的编码处理  105解读Golomb编码的解码处理  108第6章 挑战wiser的优化及参数的调整  1136-1 提高检索处理的效率  115优化检索处理  115将查询分割为无重复部分的词元序列  1166-2 禁用短语检索  119分析对2字符的字符串进行检索时的行为  119分析对3字符的字符串进行检索时的行为  1206-3 改变检索结果的输出顺序  122作为检索结果排序核心的指标  122按照文档大小降序排列的检索结果  124专栏 排名欺诈  1286-4  让1个字符的查询也能检索出结果  29获取以特定字符开头的词元的列表  129合并检索到的结果  131专栏 如何实现相似文档的检索  1316-5  调整控制倒排索引更新的缓冲区容量  133确认由缓冲区容量的差异带来的不同效果  133用sar命令分析负载  1346-6  调整只有英文字母的词元的分割方法  135如何避免用英文单词检索时准确率下降的问题  135如何判断某字符是否属于索引对象  135修改负责分割词元的函数  1366-7 确认压缩的效果  138观察Golomb编码的效果  138对比压缩启用前后的索引大小  138专栏 避免滥用全文搜索引擎  139第7章 为今后更加深入的学习做准备  1417-1 wiser没能实现的功能  143倒排索引之外的全文搜索索引  143高效处理大规模数据的存储器  143利用缓存提高检索的速度  143使用各种各样的压缩方法  144优化搜索结果的排名  144调整准确率和召回率  145降低检索结果排序处理的负载  147并行处理  147结合对属性的筛选过滤  148分面搜索  148专栏 时延和吞吐量  1497-2  全文搜索引擎Groonga的特点  150通过词元的部分一致检索提升召回率  150使用内存映射文件  151片段  152专栏 宣传活动的重要性  1527-3  实现出考虑到用户意图的搜索引擎  153引入停用词  153应对词素解析的错误  153专栏 断句错误  154处理全角字符和半角字符  155对查询进行归一化  156留意布尔检索的解析过程  156通过词素解析器适当地解析查询  157对错误的输入进行修正  157输入补全  158建议用户检索相关的关键词  1597-4 收集、提取文档时的要点  160制作爬虫时的处理要点  160在提取文本时需要处理的要点  163Appendix 附录  165A-1 深度话题 166近几年的压缩方法  166动态索引构建  169分布式索引  174A-2 wiser中的文本提取和存储  178用于处理XML的2 种API――DOM和SAX  178提取文档的标题和正文  179掌握状态的迁移  182构建文档数据库  187后记  191显示全部信息
作者介绍

序言

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP