消息首页搜索举报

自制搜索引擎

10.08 2.6折 39 九五品

仅1件

北京通州

认证卖家担保交易快速发货售后保障

作者(日)山田浩之,(日)末永匡　著,胡屹　译

出版社人民邮电出版社

ISBN9787115411709

出版时间2000-01

版次1

装帧平装

开本16开

纸张胶版纸

页数190页

字数99999千字

定价39元

上书时间2024-12-17

纵列風

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 22小时
好评率暂无

最新上架

2008电脑软装备 ¥13.89

PC宝贝2008：windows XP操作就这500招 ¥9.75

2008数码大家庭 ¥16.00

大数据分析与应用基础 ¥27.16

解码智能时代 ¥15.38

解码智能时代 ¥17.75

融合多源异构数据的推荐与检索 ¥45.24

C语言程序设计与实践 ¥34.55

数据库基础 ¥21.16

商品详情

品相描述：九五品

商品描述: 基本信息
书名:自制搜索引擎
定价：39.00元
作者:(日)山田浩之,(日)末永匡　著,胡屹　译
出版社：人民邮电出版社
出版日期：2000-01-01
ISBN：9787115411709
字数：187000
页码：190
版次：1
装帧：平装
开本：32开
商品重量：
编辑推荐
2600行代码，真实体验搜索引擎的开发过程开源搜索引擎Senna/Groonga的开发者亲自执笔探明Google、百度背后的工作机制 1. 专业：开源搜索引擎Senna/Groonga开发者、Yahoo!搜索引擎研发者执笔。 2. 实战易上手：2600行代码，从零开始写一个简易搜索引擎，然后进行优化。 3. 讲解细致：浓缩搜索引擎的关键知识点，源码可下载，边学习边实践。 4. 平缓进阶：书末介绍更专业的搜索引擎技术，为读者的深入学习做准备。
内容提要
《自制搜索引擎》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统，首先讲解了搜索引擎的基础知识和原理，接着以现实中的开源搜索引擎Senna/Groonga为示例，使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点，为读者今后进一步学习打下了基础。
目录
章　搜索引擎是如何工作的　　11-1　理解搜索引擎的构成　　3什么是搜索引擎　　3构成搜索引擎的组件　　4与搜索引擎相关的组件　　51-2　实现了快速全文搜索的索引结构　　7全文搜索的两种方法　　7倒排索引的结构　　8倒排索引的构建方法　　9倒排索引中的术语　　101-3　深入理解倒排索引　　12倒排索引=词典倒排文件　　12从倒排索引中查找单词　　13将单词的位置信息加入倒排文件中　　13章　搜索引擎是如何工作的　　11-1　理解搜索引擎的构成　　3什么是搜索引擎　　3构成搜索引擎的组件　　4与搜索引擎相关的组件　　51-2　实现了快速全文搜索的索引结构　　7全文搜索的两种方法　　7倒排索引的结构　　8倒排索引的构建方法　　9倒排索引中的术语　　101-3　深入理解倒排索引　　12倒排索引=词典倒排文件　　12从倒排索引中查找单词　　13将单词的位置信息加入倒排文件中　　13从倒排索引中查找短语　　141-4　制作中文文档的倒排索引　　16分割中文句子的方法　　16权衡分割方法　　171-5　实现倒排索引　　19实现词典　　19实现倒排文件　　221-6　使用倒排索引进行检索　　24布尔检索　　24使用倒排索引的检索处理流程　　24关联度的计算方法　　26信息检索中的检索　　271-7　构建倒排索引　　29使用内存构建倒排索引　　29使用二级存储构建倒排索引　　29静态索引构建和动态索引构建　　321-8　准备要检索的文档　　34收集数据　　34数据规范化　　35第2章　准备全文搜索引擎的检索样本　　372-1　全文搜索引擎wiser　　39wiser的构成　　39准备用于检索的文档　　402-2　安装wiser　　42构建wiser　　42启动wiser　　43解压缩Wikipedia的副本　　442-3　运行wiser　　45构建倒排索引　　45使用倒排索引查询　　46比较grep和wiser的运行速度　　46第3章　构建倒排索引　　493-1　复习有关倒排索引的知识　　51提取词元　　51为每个词元创建倒排列表　　533-2　构建倒排索引　　54在存储器上创建倒排列表　　54倒排列表和倒排文件的数据结构　　54从源代码级别梳理倒排索引的构建顺序　　56进一步阅读源代码　　59专栏　根据实际情况设计搜索引擎（系统）　　68第4章　开始检索吧　　714-1　检索处理的大致流程　　73充分理解检索处理的流程　　734-2　使用倒排索引进行检索　　75从源代码级别梳理检索处理的流程　　75解读split_query_to_tokens函数的具体实现　　76使用具体示例加深对检索处理流程的理解　　77解读函数search_docs的实现细节　　80解读函数search_phrase的实现　　84专栏　如何实现标签检索　　88第5章　压缩倒排索引　　895-1　压缩的基础知识　　90压缩倒排索引的好处　　90专栏　压缩的目的　　90倒排索引的压缩方法　　91倒排文件的压缩方法　　91压缩的原理　　945-2　实现wiser中的压缩功能　　97压缩功能源代码的概要　　97了解无需进行压缩时的操作　　99抓住Golomb编码的要点　　101解读Golomb编码中的编码处理　　105解读Golomb编码的解码处理　　108第6章　挑战wiser的优化及参数的调整　　1136-1　提高检索处理的效率　　115优化检索处理　　115将查询分割为无重复部分的词元序列　　1166-2　禁用短语检索　　119分析对2字符的字符串进行检索时的行为　　119分析对3字符的字符串进行检索时的行为　　1206-3　改变检索结果的输出顺序　　122作为检索结果排序核心的指标　　122按照文档大小降序排列的检索结果　　124专栏　排名欺诈　　1286-4　让1个字符的查询也能检索出结果　　29获取以特定字符开头的词元的列表　　129合并检索到的结果　　131专栏　如何实现相似文档的检索　　1316-5　调整控制倒排索引更新的缓冲区容量　　133确认由缓冲区容量的差异带来的不同效果　　133用sar命令分析负载　　1346-6　调整只有英文字母的词元的分割方法　　135如何避免用英文单词检索时准确率下降的问题　　135如何判断某字符是否属于索引对象　　135修改负责分割词元的函数　　1366-7　确认压缩的效果　　138观察Golomb编码的效果　　138对比压缩启用前后的索引大小　　138专栏　避免滥用全文搜索引擎　　139第7章　为今后更加深入的学习做准备　　1417-1　wiser没能实现的功能　　143倒排索引之外的全文搜索索引　　143高效处理大规模数据的存储器　　143利用缓存提高检索的速度　　143使用各种各样的压缩方法　　144优化搜索结果的排名　　144调整准确率和召回率　　145降低检索结果排序处理的负载　　147并行处理　　147结合对属性的筛选过滤　　148分面搜索　　148专栏　时延和吞吐量　　1497-2　全文搜索引擎Groonga的特点　　150通过词元的部分一致检索提升召回率　　150使用内存映射文件　　151片段　　152专栏　宣传活动的重要性　　1527-3　实现出考虑到用户意图的搜索引擎　　153引入停用词　　153应对词素解析的错误　　153专栏　断句错误　　154处理全角字符和半角字符　　155对查询进行归一化　　156留意布尔检索的解析过程　　156通过词素解析器适当地解析查询　　157对错误的输入进行修正　　157输入补全　　158建议用户检索相关的关键词　　1597-4　收集、提取文档时的要点　　160制作爬虫时的处理要点　　160在提取文本时需要处理的要点　　163Appendix　附录　　165A-1　深度话题 166近几年的压缩方法　　166动态索引构建　　169分布式索引　　174A-2　wiser中的文本提取和存储　　178用于处理XML的2 种API――DOM和SAX　　178提取文档的标题和正文　　179掌握状态的迁移　　182构建文档数据库　　187后记　　191显示全部信息
作者介绍

序言

【封面】

— 没有更多了 —