• Lucene实战(第2版)
  • Lucene实战(第2版)
  • Lucene实战(第2版)
  • Lucene实战(第2版)
21年品牌 40万+商家 超1.5亿件商品

Lucene实战(第2版)

5.99 八五品

仅1件

河北衡水
认证卖家担保交易快速发货售后保障

作者[美]麦肯德利斯(McCandless M.) 著;牛长流、肖宇 译

出版社人民邮电出版社

出版时间2011-06

版次1

装帧平装

货号B12-6-2

上书时间2023-02-24

西海图书

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
图书标准信息
  • 作者 [美]麦肯德利斯(McCandless M.) 著;牛长流、肖宇 译
  • 出版社 人民邮电出版社
  • 出版时间 2011-06
  • 版次 1
  • ISBN 9787115251770
  • 定价 69.00元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 454页
  • 字数 669千字
  • 正文语种 简体中文,英语
【内容简介】
  《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。

  《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。
【作者简介】
Michael Mccandless已从事了10年以上搭建搜索引擎相关工作。在1999年,他和其他三人创立了iPhrase Technologies公司,开始推出基于用户为中心的商业搜索软件,该软件是用Python和C++编写的。在2005年IBM公司接收iPhrase项目后,Michael便投入了Lucene项目并开始贡献相应补丁,2006年他成为该项目的提交者之一并在2008年成为PMC成员。Michael曾在MIT获得过本科、硕士和博士学位,现在与妻子Jane和4个可爱的孩子Mia、Kyra、Joel和Kyle居住在马萨诸塞州的Lexington。Michael的博客地址为http://chbits.blogspot.com。Erik Hatcher在自己感兴趣且颇具挑战性的技术领域进行了大量编码、写作和演讲。他曾经使用不同的技术和计算机语言编写过多种不同行业的软件。Erik和Steve Loughran曾合著了《使用Ant进行Java开发》(Java Development with Ant,Manning出版社2002年出版),该书曾得到业内人士的广泛赞誉。从Erik的第一本书出版以来,他已经在大量的行业会议上发表了演讲,这些会议包括:No Fluff、Just Stuff巡回研讨会、JavaOne、O’Reilly’s Open Source Convention、JavaZone、devoxx、用户组以及有时还有网上研讨会。作为Apache软件基金(Apache Software Foundation)成员之一,他在包括Lucene和Solr等项目中是一个活跃的贡献者和提交者。Erik热情地呈现了自己喜爱的技术,最近值得一提的是Solr、Solritas、Flare、Blacklight和solr-ruby──他喜欢研究用户体验和Solr之间的交集。Erik还加入了Lucid Imagination,在那里努力地投入开源搜索产品的开发中。Erik已逐步适应了弗吉尼亚州中部的宁静生活。Otis Gospodnetic在Lucene成为Apache Lucene项目前就已经是Lucene开发人员了。他是Sematext公司的共同创始人,该公司专注于有关搜索(侧重于Lucene、Solr和Nutch)和分析(请参考BigData、Hadoop等)方面的个人服务及产品。Otis已从事Lucne和Solr项目多年,一些他以前的包括Lucene等技术著作已由O’Reilly Network和IBM developerWorks发表。多年前,Otis还撰写了《To Choose and Be Chosen: Pursuing Education in America》一书,该书为想在美国念书的外国人提供了参考手册;其内容是基于作者自己的经历而撰写的。Otis目前居住于纽约,负责NY Search & Discovery Meetup。
【目录】

第1部分 lucene核心 

第1章 初识lucene

1.1 应对信息爆炸

1.2 lucene是什么

1.2.1 lucene能做些什么

1.2.2 lucene的历史

1.3 lucene和搜索程序组件

1.3.1 索引组件

1.3.2 搜索组件

1.3.3 搜索程序的其他模块

1.3.4 lucene与应用程序的整合点

1.4 lucene实战:程序示例

1.4.1 建立索引

1.4.2 搜索索引

1.5 理解索引过程的核心类 

1.5.1 indexwriter 

1.5.2 directory 

1.5.3 analyzer

1.5.4 document

1.5.5 field 

1.6 理解搜索过程的核心类 

1.6.1 indexsearcher 

1.6.2 term 

1.6.3 query 

1.6.4 termquery 

1.6.5 topdocs 

1.7 小结 

第2章 构建索引

2.1 lucene如何对搜索内容进行建模 

2.1.1 文档和域 

2.1.2 灵活的架构 

2.1.3 反向规格化(denormalization) 

2.2 理解索引过程 

2.2.1 提取文本和创建文档 

2.2.2 分析文档 

2.2.3 向索引添加文档 

2.3 基本索引操作 

2.3.1 向索引添加文档 

2.3.2 删除索引中的文档 

2.3.3 更新索引中的文档 

2.4 域选项 

2.4.1 域索引选项 

2.4.2 域存储选项 

2.4.3 域的项向量选项 

2.4.4 reader、tokenstream和byte[ ]域值 

2.4.5 域选项组合 

2.4.6 域排序选项 

2.4.7 多值域 

2.5 对文档和域进行加权操作 

2.5.1 文档加权操作 

2.5.2 域加权操作 

2.5.3 加权基准(norms) 

2.6 索引数字、日期和时间 

2.6.1 索引数字 

2.6.2 索引日期和时间 

2.7 域截取(field truncation) 

2.8 近实时搜索(near-real-time search) 

2.9 优化索引 

2.10 其他directory子类 

2.11 并发、线程安全及锁机制 

2.11.1 线程安全和多虚拟机安全 

2.11.2 通过远程文件系统访问索引 

2.11.3 索引锁机制 

2.12 调试索引 

2.13 高级索引概念 

2.13.1 用indexreader删除文档 

2.13.2 回收被删除文档所使用过的磁盘空间 

2.13.3 缓冲和刷新 

2.13.4 索引提交 

2.13.5 acid事务和索引连续性 

2.13.6 合并段 

2.14 小结 

第3章 为应用程序添加搜索功能

3.1 实现简单的搜索功能 

3.1.1 对特定项的搜索 

3.1.2 解析用户输入的查询表达式:queryparser 

3.2 使用indexsearcher类 

3.2.1 创建indexsearcher类 

3.2.2 实现搜索功能 

3.2.3 使用topdocs类 

3.2.4 搜索结果分页 

3.2.5 近实时搜索 

3.3 理解lucene的评分机制 

3.3.1 lucene如何评分 

3.3.2 使用explain()理解搜索结果评分 

3.4 lucene的多样化查询 

3.4.1 通过项进行搜索:termquery类 

3.4.2 在指定的项范围内搜索:termrangequery类 

3.4.3 在指定的数字范围内搜索:numericrangequery类 

3.4.4 通过字符串搜索:prefixquery类 

3.4.5 组合查询:booleanquery类 

3.4.6 通过短语搜索:phrasequery类 

3.4.7 通配符查询:wildcardquery类 

3.4.8 搜索类似项:fuzzyquery类 

3.4.9 匹配所有文档:matchalldocsquery类 

3.5 解析查询表达式:queryparser 

3.5.1 query.tostring方法 

3.5.2 termquery 

3.5.3 项范围查询 

3.5.4 数值范围搜索和日期范围搜索 

3.5.5 前缀查询和通配符查询 

3.5.6 布尔操作符

3.5.7 短语查询

3.5.8 模糊查询 

3.5.9 matchalldocsquery 

3.5.10 分组查询 

3.5.11 域选择 

3.5.12 为子查询设置加权 

3.5.13 是否一定要使用queryparse 

3.6 小结 

第4章 lucene的分析过程 

4.1 使用分析器 

4.1.1 索引过程中的分析

4.1.2 queryparser分析 

4.1.3 解析vs分析:分析器何时不再适用 

4.2 剖析分析器 

4.2.1 语汇单元的组成 

4.2.2 语汇单元流揭秘 

4.2.3 观察分析器 

4.2.4 语汇单元过滤器:过滤顺序的重要性 

4.3 使用内置分析器 

4.3.1 stopanalyzer 

4.3.2 standardanalyzer 

4.3.3 应当采用哪种核心分析器 

4.4 近音词查询 

4.5 同义词、别名和其他表示相同意义的词 

4.5.1 创建synonymanalyzer 

4.5.2 显示语汇单元的位置 

4.6 词干分析 

4.6.1 stopfilter保留空位 

4.6.2 合并词干操作和停用词移除操作 

4.7 域分析 

4.7.1 多值域分析 

4.7.2 特定域分析 

4.7.3 搜索未被分析的域 

4.8 语言分析 

4.8.1 unicode与字符编码 

4.8.2 非英语语种分析 

4.8.3 字符规范化处理 

4.8.4 亚洲语种分析 

4.8.5 有关非英语语种分析的其他问题 

4.9 nutch分析 

4.10 小结 

第5章 高级搜索技术

5.1 lucene域缓存 

5.1.1 为所有文档加载域值 

5.1.2 段对应的reader 

5.2 对搜索结果进行排序 

5.2.1 根据域值进行排序 

5.2.2 按照相关性进行排序 

5.2.3 按照索引顺序进行排序 

5.2.4 通过域进行排序 

5.2.5 倒排序 

5.2.6 通过多个域进行排序 

5.2.7 为排序域选择类型 

5.2.8 使用非默认的locale方式进行排序 

5.3 使用multiphrasequery 

5.4 针对多个域的一次性查询 

5.5 跨度查询 

5.5.1 跨度查询的构建模块:spantermquery 

5.5.2 在域的起点查找跨度 

5.5.3 彼此相邻的跨度 

5.5.4 在匹配结果中排除重叠的跨度 

5.5.5 spanorquery类 

5.5.6 spanquery类和queryparser类 

5.6 搜索过滤 

5.6.1 termrangefilter 

5.6.2 numericrangefilter 

5.6.3 fieldcacherangefilter 

5.6.4 特定项过滤 

5.6.5 使用querywrapperfilter类 

5.6.6 使用spanqueryfilter类 

5.6.7 安全过滤器 

5.6.8 使用booleanquery类进行过滤 

5.6.9 prefixfilter 

5.6.10 缓存过滤结果 

5.6.11 将filter封装成query 

5.6.12 对过滤器进行过滤 

5.6.13 非lucene内置的过滤器 

5.7 使用功能查询实现自定义评分 

5.7.1 功能查询的相关类 

5.7.2 使用功能查询对最近修改过的文档进行加权 

5.8 针对多索引的搜索 

5.8.1 使用multisearch类 

5.8.2 使用parallelmultisearcher进行多线程搜索 

5.9 使用项向量 

5.9.1 查找相似书籍 

5.9.2 它属于哪个类别 

5.9.3 termvectormapper类 

5.10 使用fieldselector加载域 

5.11 停止较慢的搜索 

5.12 小结 

第6章 扩展搜索

6.1 使用自定义排序方法 

6.1.1 针对地理位置排序方式进行文档索引 

6.1.2 实现自定义的地理位置排序方式

6.1.3 访问自定义排序中的值 

6.2 开发自定义的collector 

6.2.1 collector基类 

6.2.2 自定义collector:booklinkcollector 

6.2.3 alldoccollector类

6.3 扩展queryparser类

6.3.1 自定义queryparser的行为

6.3.2 禁用模糊查询和通配符查询 

6.3.3 处理数值域的范围查询 

6.3.4 处理日期范围 

6.3.5 对已排序短语进行查询 

6.4 自定义过滤器 

6.4.1 实现自定义过滤器 

6.4.2 搜索期间使用自定义过滤器 

6.4.3 另一种选择:filterquery类 

6.5 有效载荷(payloads) 

6.5.1 分析期间生成有效载荷 

6.5.2 搜索期间使用有效载荷 

6.5.3 有效载荷和跨度查询 

6.5.4 通过termpositions来检索有效载荷 

6.6 小结 

第2部分 lucene应用 

第7章 使用tika提取文本

7.1 tika是什么 

7.2 tika的逻辑设计和api 

7.3 安装tika 

7.4 tika的内置文本提取工具 

7.5 编程实现文本提取 

7.5.1 索引lucene文档 

7.5.2 tika工具类 

7.5.3 选择自定义分析器 

7.6 tika的局限 

7.7 索引自定义的xml文件 

7.7.1 使用sax进行解析 

7.7.2 使用apache commons digester进行解析和索引 

7.8 其他选择 

7.9 小结 

第8章 lucene基本扩展

8.1 luke:lucene的索引工具箱 

8.1.1 overview标签页:索引的全局视图 

8.1.2 浏览文档 

8.1.3 使用queryparser进行搜索 

8.1.4 files and plugins标签页 

8.2 分析器、语汇单元器和语汇单元过滤器 

8.2.1 snowballanalyzer 

8.2.2 ngram过滤器 

8.2.3 shingle过滤器 

8.2.4 获取捐赠分析器 

8.3 高亮显示查询项 

8.3.1 高亮显示模块 

8.3.2 独立的高亮显示示例 

8.3.3 使用css进行高亮显示处理 

8.3.4 高亮显示搜索结果 

8.4 fastvector highlighter类 

8.5 拼写检查 

8.5.1 生成提示列表 

8.5.2 选择最佳提示 

8.5.3 向用户展示搜索结果 

8.5.4 一些加强拼写检查的考虑 

8.6 引人注目的查询扩展功能 

8.6.1 morelikethis 

8.6.2 fuzzylikethisquery 

8.6.3 boostingquery 

8.6.4 termsfilter 

8.6.5 duplicatefilter 

8.6.6 regexquery 

8.7 构建软件捐赠模块(contrib module) 

8.7.1 源代码获取方式 

8.7.2 contrib目录的ant插件 

8.8 小结 

第9章 lucene高级扩展

9.1 链式过滤器 

9.2 使用berkeley db存储索引 

9.3 wordnet同义词 

9.3.1 建立同义词索引 

9.3.2 将wordnet同义词链接到分析器中 

9.4 基于内存的快速索引 

9.5 xml queryparser:超出“one box”的搜索接口 

9.5.1 使用xmlqueryparser 

9.5.2 扩展xml查询语法 

9.6 外围查询语言 

9.7 spatial lucene 

9.7.1 索引空间数据 

9.7.2 搜索空间数据 

9.7.3 spatial lucene的性能特点 

9.8 远程进行多索引搜索 

9.9 灵活的queryparser 

9.10 其他内容 

9.11 小结 

第10章 其他编程语言使用lucene

10.1 移植入门 

10.1.1 移植取舍 

10.1.2 选择合适的移植版本 

10.2 clucene(c++) 

10.2.1 移植目的 

10.2.2 api和索引兼容 

10.2.3 支持的平台 

10.2.4 当前情况以及未来展望 

10.3 lucene.net(c#和其他.net编程语言) 

10.3.1 api兼容 

10.3.2 索引兼容 

10.4 kinosearch和lucy(perl) 

10.4.1 kinosearch 

10.4.2 lucy 

10.4.3 其他perl选项 

10.5 ferret(ruby) 

10.6 php 

10.6.1 zend framework 

10.6.2 php bridge 

10.7 pylucene(python) 

10.7.1 api兼容 

10.7.2 其他python选项 

10.8 solr(包含多种编程语言) 

10.9 小结 

第11章 lucene管理和性能调优

11.1 性能调优 

11.1.1 简单的性能调优步骤 

11.1.2 测试方法 

11.1.3 索引-搜索时延调优 

11.1.4 索引操作吞吐量调优 

11.1.5 搜索时延和搜索吞吐量调优 

11.2 多线程和并行处理 

11.2.1 使用多线程进行索引操作 

11.2.2 使用多线程进行搜索操作 

11.3 资源消耗管理 

11.3.1 磁盘空间管理 

11.3.2 文件描述符管理 

11.3.3 内存管理 

11.4 热备份索引 

11.4.1 创建索引备份 

11.4.2 恢复索引 

11.5 常见错误 

11.5.1 索引损坏 

11.5.2 修复索引 

11.6 小结 

第3部分 案例分析 

第12章 案例分析1:krugle

12.1 krugle介绍 

12.2 应用架构 

12.3 搜索性能 

12.4 源代码解析 

12.5 子串搜索 

12.6 查询vs搜索 

12.7 改进空间 

12.7.1 fieldcache内存使用 

12.7.2 合并索引 

12.8 小结 

第13章 案例分析2:siren

13.1 siren介绍 

13.2 siren优势 

13.2.1 通过所有域进行搜索 

13.2.2 一种高效词典 

13.2.3 可变域 

13.2.4 对多值域的高效处理 

13.3 使用siren索引实体 

13.3.1 数据模型 

13.3.2 实现问题 

13.3.3 索引概要 

13.3.4 索引前的数据准备 

13.4 使用siren搜索实体 

13.4.1 搜索内容 

13.4.2 根据单元限制搜索范围 

13.4.3 将单元合并成元组 

13.4.4 针对实体描述进行查询 

13.5 在solr中集成siren 

13.6 benchmark 

13.7 小结 

第14章 案例分析3:linkedin

14.1 使用bobo browse进行分组搜索 

14.1.1 bobo browse的设计

14.1.2 深层次分组搜索 

14.2 使用zoie进行实时搜索 

14.2.1 zoie架构 

14.2.2 实时vs近实时 

14.2.3 文档与索引请求 

14.2.4 自定义indexreaders 

14.2.5 与lucene的近实时搜索进行比较 

14.2.6 分布式搜索 

14.3 小结 

附录a 安装lucene

a.1 二进制文件安装 

a.2 运行命令行演示程序 

a.3 运行web应用演示程序 

a.4 编译源代码 

a.5 排错 

附录b lucene索引格式

b.1 逻辑索引视图 

b.2 关于索引结构 

b.2.1 理解多文件索引结构 

b.2.2 理解复合索引结构 

b.2.3 转换索引结构 

b.3 倒排索引 

b.4 小结 

附录c lucene/contrib benchmark

c.1 运行测试脚本 

c.2 测试脚本的组成部分 

c.2.1 内容源和文档生成器 

c.2.2 查询生成器 

c.3 控制结构 

c.4 内置任务 

c.4.1 建立和使用行文件 

c.4.2 内置报表任务 

c.5 评估搜索质量 

c.6 出错处理 

c.7 小结 

附录d 资源

d.1 lucene知识库 

d.2 国际化 

d.3 语言探测 

d.4 项向量 

d.5 lucene移植版本 

d.6 案例分析 

d.7 其他 

d.8 信息检索软件 

d.9 doug cutting的著作 

d.9.1 会议论文 

d.9.2 美国专利

点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP