• 自制搜索引擎
21年品牌 40万+商家 超1.5亿件商品

自制搜索引擎

10 2.6折 39 八五品

仅1件

湖北咸宁
认证卖家担保交易快速发货售后保障

作者山田浩之

出版社人民邮电出版社

ISBN9787115411709

出版时间2016-01

装帧其他

开本32开

定价39元

货号9787115411709

上书时间2024-12-16

墨紫轩图书的书店

五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
商品描述
作者简介
山田浩之,信息工程学博士。先后于日本IBM、雅虎从事分布式搜索引擎的研发工作。目前在东京大学生产技术研究所从事高性能并行数据库的研发工作。

末永匡,开源搜索引擎Senna/Groonga的开发者。每天都在奋斗,梦想着能创建一个更加自由、更加无拘无束的,而不是一家独大的应用程序平台。

胡屹,多年从事Web开发工作。热爱编程,关注设计模式,致力于提升软件开发的质量。曾获得SCJP和PHP ZCE证书。译有《计算机是怎样跑起来的》。

目录
第1章  搜索引擎是如何工作的
  1-1  理解搜索引擎的构成
    什么是搜索引擎
    构成搜索引擎的组件
    与搜索引擎相关的组件
  1-2  实现了快速全文搜索的索引结构
    全文搜索的两种方法
    倒排索引的结构
    倒排索引的构建方法
    倒排索引中的术语
  1-3  深入理解倒排索引
    倒排索引=词典+倒排文件
    从倒排索引中查找单词
    将单词的位置信息加入倒排文件中
    从倒排索引中查找短语
  1-1  理解搜索引擎的构成
    什么是搜索引擎
    构成搜索引擎的组件
    与搜索引擎相关的组件
  1-2  实现了快速全文搜索的索引结构
    全文搜索的两种方法
    倒排索引的结构
    倒排索引的构建方法
    倒排索引中的术语
  1-3  深入理解倒排索引
    倒排索引=词典+倒排文件
    从倒排索引中查找单词
    将单词的位置信息加入倒排文件中
    从倒排索引中查找短语
  1-4  制作中文文档的倒排索引
    分割中文句子的方法
    权衡分割方法
  1-5  实现倒排索引
    实现词典
    实现倒排文件
  1-6  使用倒排索引进行检索
    布尔检索
    使用倒排索引的检索处理流程
    关联度的计算方法
    信息检索中的检索
  1-7  构建倒排索引
    使用内存构建倒排索引
    使用二级存储构建倒排索引
    静态索引构建和动态索引构建
  1-8  准备要检索的文档
    收集数据
    数据规范化
第2章  准备全文搜索引擎的检索样本
  2-1  全文搜索引擎wiser
    wiser的构成
    准备用于检索的文档
  2-2  安装wiser
    构建wiser
    启动wiser
    解压缩Wikipedia的副本
  2-3  运行wiser
    构建倒排索引
    使用倒排索引查询
    比较grep和wiser的运行速度
第3章  构建倒排索引
  3-1  复习有关倒排索引的知识
    提取词元
    为每个词元创建倒排列表
  3-2  构建倒排索引
    在存储器上创建倒排列表
    倒排列表和倒排文件的数据结构
    从源代码级别梳理倒排索引的构建顺序
    进一步阅读源代码
    专栏根据实际情况设计搜索引擎(系统)
第4章  开始检索吧
  4-1  检索处理的大致流程
    充分理解检索处理的流程
  4-2  使用倒排索引进行检索
    从源代码级别梳理检索处理的流程
    解读split_query_to_tokens()函数的具体实现
    使用具体示例加深对检索处理流程的理解
    解读函数search_docs()的实现细节
    解读函数search_phrase()的实现
    专栏如何实现标签检索
第5章  压缩倒排索引
  5-1  压缩的基础知识
    压缩倒排索引的好处
    专栏压缩的目的
    倒排索引的压缩方法
    倒排文件的压缩方法
    压缩的原理
  5-2  实现wiser中的压缩功能
    压缩功能源代码的概要
    了解无需进行压缩时的操作
    抓住Golomb编码的要点
    解读Golomb编码中的编码处理
    解读Golomb编码的解码处理
第6章  挑战wiser的优化及参数的调整
  6-1  提高检索处理的效率
    优化检索处理
    将查询分割为无重复部分的词元序列
  6-2  禁用短语检索
    分析对2字符的字符串进行检索时的行为
    分析对3字符的字符串进行检索时的行为
  6-3  改变检索结果的输出顺序
    作为检索结果排序核心的指标
    按照文档大小降序排列的检索结果
    专栏排名欺诈
  6-4  让1个字符的查询也能检索出结果
    获取以特定字符开头的词元的列表
    合并检索到的结果
    专栏如何实现相似文档的检索
  6-5  调整控制倒排索引更新的缓冲区容量
    确认由缓冲区容量的差异带来的不同效果
    用sar命令分析负载
  6-6  调整只有英文字母的词元的分割方法
    如何避免用英文单词检索时准确率下降的问题
    如何判断某字符是否属于索引对象
    修改负责分割词元的函数
  6-7  确认压缩的效果
    观察Golomb编码的效果
    对比压缩启用前后的索引大小
    专栏避免滥用全文搜索引擎
第7章  为今后更加深入的学习做准备
  7-1  wiser没能实现的功能
    倒排索引之外的全文搜索索引
    高效处理大规模数据的存储器
    利用缓存提高检索的速度
    使用各种各样的压缩方法
    优化搜索结果的排名
    调整准确率和召回率
    降低检索结果排序处理的负载
    并行处理
    结合对属性的筛选过滤
    分面搜索
    专栏时延和吞吐量
  7-2  全文搜索引擎Groonga的特点
    通过词元的部分一致检索提升召回率
    使用内存映射文件片段
    专栏宣传活动的重要性
  7-3  实现出考虑到用户意图的搜索引擎
    引入停用词
    应对词素解析的错误
    专栏断句错误
    处理全角字符和半角字符
    对查询进行归一化
    留意布尔检索的解析过程
    通过词素解析器适当地解析查询
    对错误的输入进行修正
    输入补全
    建议用户检索相关的关键词
  7-4  收集、提取文档时的要点
     制作爬虫时的处理要点
     在提取文本时需要处理的要点
     Appendix附录
     A-1深度话题
     近几年的压缩方法
     动态索引构建
     分布式索引
     A-2wiser中的文本提取和存储
     用于处理XML的2种API――DOM和SAX
     提取文档的标题和正文
     掌握状态的迁移
     构建文档数据库
后记

内容摘要
 由山田浩之、末永匡编著的《自制搜索引擎/图灵程序设计丛书》聚焦于Google和Yahoo!等Web搜索服务幕后的搜索引擎系统,首先讲解了搜索引擎的基础知识和原理,接着以现实中的开源搜索引擎Senna/Groonga为示例,使用该引擎的源代码引导读者亲自体验搜索引擎的开发过程。这部分讲解涉及了倒排索引的制作和压缩、检索的处理流程以及搜索引擎的优化等内容。又简单介绍了一些更加专业的搜索引擎的知识和要点,为读者今后进一步学习打下了基础。本书适合做有对搜索引擎感兴趣的技术人员阅读。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP