搜索引擎——原理技术与系统(第二版)
¥
16.47
2.5折
¥
65
九品
仅1件
作者李晓明、闫宏飞、王继民 著
出版社科学出版社
出版时间2017-01
版次31
装帧平装
货号A7
上书时间2024-12-25
商品详情
- 品相描述:九品
图书标准信息
-
作者
李晓明、闫宏飞、王继民 著
-
出版社
科学出版社
-
出版时间
2017-01
-
版次
31
-
ISBN
9787030342584
-
定价
65.00元
-
装帧
平装
-
开本
32开
-
纸张
其他
-
页数
348页
-
字数
99999千字
-
正文语种
简体中文
- 【目录】
-
第二版前言版前言章 引论节 搜索引擎的概念第二节 搜索引擎的发展历史第三节 一些的搜索引擎第四节 小结上篇 Web搜索引擎基本原理和技术第二章 Web搜索引擎工作原理和体系结构节 基本要求第二节 网页搜集第三节 预处理第四节 查询服务第五节 体系结构第六节 小结第三章 Web信息的搜集节 概述一、超文本传输协议二、一个小型搜索引擎系统第二节 网页搜集一、定义URL类和Page类二、与服务器建立连接三、发送请求和接收数据四、网页信息存储的天网格式第三节 多道搜集程序并行工作一、多线程并发工作二、控制对一个站点并发搜集线程的数目第四节 如何避免网页的重复搜集一、记录未访问、已访问URL和网页内容摘要信息二、域名与IP的对应问题第五节 搜集信息的类型第六节 小结第四章 对搜集信息的预处理节 索引网页库第二节 网页编码识别一、基本而重要的概念二、常用字符编码三、常用字符编码算法四、字符的输入和显示五、编码识别第三节 中文自动分词第四节 分析网页和建立倒排文件第五节 小结第五章 信息查询服务节 检索的定义第二节 查询服务的实现一、结果集合的形成二、查询结果显示第三节 小结中篇 对质量和性能的追求第六章 可扩展搜集子系统节 天网系统概述和集中式搜集系统结构一、天网系统结构二、集中式搜集系统第二节 利用并行处理技术高效搜集网页的一种方案一、节点间URL的划分策略二、关于性能的讨论三、性能测试和评价四、系统的动态可配置性设计第三节 天网分布式搜集系统第四节 对Deep Web的认识一、Deep Web的成因二、搜索Deep Web的方法第五节 小结第七章 网页净化与消重节 网页净化与元数据提取一、DocView模型二、网页的表示三、提取DocView模型要素的方法四、模型应用及实验研究第二节 网页消重算法一、消重算法二、算法评测第三节 小结第八章 高性能检索子系统节 检索系统基本技术一、系统设计与结构二、索引创建三、检索过程第二节 适于查询的网页索引结构一、倒排索引结构二、平面位置索引第三节 倒排索引压缩一、倒排索引压缩技术二、词典与倒排表的压缩第四节 索引剪枝一、静态索引剪枝方法二、动态索引剪枝方法第五节 混合索引技术一、混合索引的原理二、混合索引的实现第六节 倒排文件缓存机制一、倒排文件缓存二、负载特性三、缓存策略的选择第七节 小结第九章 相关排序与系统质量评估节 传统IR的相关排序技术第二节 链接分析与相关排序一、链接分析二、Web查询模式下的新信息第三节 相关排序的一种实现方案一、形成网页中词项的基本权重二、利用链接的结构三、收集用户反馈信息四、计算终的权重第四节 信息检索技术评估一、信息检索技术评估指标二、TREC和CWIRF信息检索评估三、搜索引擎技术评估第五节 小结下篇 Web信息资源的组织与应用服务第十章 大规模Web历史网页仓储系统的构建节 国外Web历史网页保存现状一、Internet Archive二、PANDORA三、其他相关Web保存项目第二节 中国Web信息博物馆的系统设计一、Web InfoMall的设计目标二、Web InfoMall的体系结构第三节 历史网页的存储一、数据的组织二、存储结构三、数据管理与压缩四、存储性能第四节 数据访问一、PageID的索引二、URL的索引三、数据服务四、性能与优化第五节 网页的格式保存第六节 小结第十一章 大规模Web非网页信息仓储系统的构建节 网络资源库藏相关工作一、Ibiblio二、Internet Archive三、Wikimedia四、中国互联网数字资源财富库藏第二节 CDAL系统概况第三节 CDAL系统设计一、系统体系结构二、可扩展的存储组织方案第四节 网络资源描述信息获取一、Ontology概述二、描述信息获取机制三、改进查询的方法四、改进排序的方法第五节 基于局部聚类思想的共现词汇算法一、基本定义二、FDC共现词汇算法第六节 小结第十二章 中文网页自动分类与聚类节 文档自动分类算法的类型第二节 实现中文网页自动分类的一般过程第三节 影响分类器性能的关键因素分析一、实验设置二、训练样本三、特征选取四、分类算法五、截尾算法六、中文网页分类器的设计方案第四节 天网导航服务一、问题的提出二、天网导航服务的体系结构三、天网的运行实例第五节 文本聚类方法一、文本聚类的一般过程二、文本间相似性的度量三、常用聚类算法四、聚类结果的评估五、搜索引擎返回结果的聚类第六节 小结第十三章 开放域问答系统节 概述一、问答系统的历史二、开放域问答系统介绍三、开放域问答系统的通用体系结构第二节 问句的分析一、问句中的指代消解二、问句分类三、问句主题提取第三节 文档和段落检索一、检索模型的选用二、查询生成三、查询结果排序四、增强索引的功能第四节 答案提取和验证模块一、生成候选答案集合二、答案提取第五节 问答系统的改进方法一、问答系统中外部资源的利用二、寻找特殊类问题的解决方案三、通过系综方法构建问答系统第六节 问答系统的评测一、TREC问答系统评测二、问答系统评测指标第七节 实例:天网开放域问答系统第八节 小结参考文献附录 术语图图1-1 2012年3月在Google上检索“伊拉克战争”的结果图1-2 2012年3月在Open Directory上检索“伊拉克战争”的结果图2-1 搜索引擎示意图图2-2 搜索引擎三段式工作流程图2-3 搜索引擎的体系结构图3-1 TSE搜索引擎界面图3-2 TSE查询结果页面图3-3 TSE网页快照页面图3-4 TSE系统结构图3-5 Web信息的搜集图3-6 Sockets和端口图3-7 通过Socket建立连接图4-1 网页预处理系统结构图4-2 原始网页库中的记录格式图4-3 索引网页库算法图4-4 字符的输入和显示流程图4-5 GB2312,Big5和GBK字符编码分布图4-6 正向减字匹配算法流程图4-7 切词算法流程图4-8 分析网页与建立倒排文件流程图4-9 过滤网页中非正文信息算法图4-10 正向索引表记录格式图4-11 由正向索引建立反向索引图5-1 信息查询的系统结构图5-2 基本检索算法图5-3 动态摘要算法图5-4 用户查询日志的记录格式图6-1 天网系统概貌图6-2 搜集系统的主控结构图6-3 协调进程工作算法图6-4 分布式Web搜集系统结构图6-5 负载方差图6-6 并行搜集系统与集中式搜集系统的性能对比图6-7 分布式系统效率图6-8 URL两阶段映射图6-9 天网分布式搜集系统P_Arthur体系结构图6-10 人才招聘网站首页图7-1 用DocView模型提取的网页要素图7-2 净化后的网页图7-3 HTML Tree结构图7-4 内容块权值传递过程图7-5 有主题网页DocView模型生成过程图7-6 计算网页特征项权值的算法图7-7 正文段落识别过程图7-8 基于anchor text的超链选取算法图7-9 网页净化前后分类效果对比图7-10 查全率随选取关键词个数的变化图8-1 检索系统集成框架结构图8-2 天网WWW检索分布式系统构架图8-3 倒排索引结构示意图图8-4 按块组织的倒排链的结构图8-5 位置索引的结构图8-6 CLPS结构示意图图8-7 倒排链中文档号之间的d-gaps分布图图8-8 不同文档号分配下平均每个查询对应文档号序列的压缩大小图8-9 不同压缩算法对文档号的解压速度图8-10 不同文档号分配下平均每个查询对应词频序列的压缩大小图8-11 不同压缩算法对词频的解压速度图8-12 平均每个查询对应的位置信息需要的存储空间图8-13 索引剪枝方法的分类图8-14 MAXSCORE算法的示例图8-15 WAND算法选择候选文档的过程图8-16 基于块索引的支点文档号的选择示例图8-17 Interval-Base剪枝方法中文档子区间划分的示例图8-18 SAAT方法处理查询处理模式及分数累加器数量的变化图8-19 当前支持高效SR IR剪枝的索引结构图8-20 扩展词典树结构示例图8-21 扩展词典匹配查找算法图8-22 搜索引擎检索系统缓存结构图8-23 文档数据访问对象大小分布图8-24 I/O与PAGE序列序号-频度分布图8-25 I/O与PAGE序列时间间隔分布图8-26 I/O和PAGE序列中唯一模式串图9-1 Inktomi提供的几种搜索引擎技术的比较图9-2 词典在系统中的地位图9-3 新词学习图9-4 网页的互联结构示意图9-5 信息获取技术评估的“森林”图9-6 查准率和召回率基础定义图示图9-7 查准率和召回率例子图9-8 “省事的”11点标准召回率例子图9-9 实践中召回率例子图9-10 实际中的44个查询词的评价统计表和P-R图图9-11 测试集在检索评估中的角色图9-12 帮助判断相关结果页面的计算机辅助程序入口图9-13 帮助判断相关结果页面的计算机辅助程序操作界面图10-1 Web InfoMall体系结构图10-2 网页数据的分割图10-3 Web InfoMall的存储结构图10-4 网页的引用压缩示意图图11-1 CDAL提供的资源访问方式图11-2 CDAL系统结构图图11-3 基于Ontology的网络资源描述信息获取图11-4 概念的属性及其词汇扩展(以电影类资源为例)图11-5 获得描述信息的改进排序算法图11-6 网络资源描述信息展示图12-1 自动文档分类算法的分类图12-2 中文网页自动分类的一般过程图12-3 中文网页分类器的工作原理图图12-4 WebSmart——一个网页实例集搜集和整理工具图12-5 一种中文网页的分类体系图12-6 Macro-F1值随样本数的变化图12-7 Micro-F1值随样本数的变化图12-8 CHI、IG、DF、MI的比较(Macro-F1)图12-9 CHI、IG、DF、MI的比较(Micro-F1)图12-10 kNN与NB分类结果的比较图12-11 k的取值对分类器质量的影响(Marco-F1)图12-12 k的取值对分类器质量的影响(Micro-F1)图12-13 兰式距离法与欧式距离法对12个不同类别的分类情况图12-14 基于层次模型的kNN与基本kNN的比较图12-15 RCut和SCut截尾算法的比较图12-16 天网的体系结构图12-17 天网导航服务图12-18 文本聚类的一般过程图12-19 层次聚类实例图12-20 k-均值算法进行文本聚类的过程图12-21 搜索结果聚类系统Carrot2图13-1 START系统界面图13-2 Ask Jeeves查询结果图13-3 问答系统的通用体系结构图13-4 天网开放域系统的体系结构表表4-1 网页索引文件表4-2 URL索引文件表6-1 SOIF数据描述表6-2 SOIF具体语法表6-3 参照序列,假设节点数为2表7-1 类别编号对照表表7-2 消重实验结果表7-3 当N=10、δ=0.01时5种算法的查全率和准确率表7-4 考察δ的取值对算法3和4的影响表7-5 分段算法的时间复杂度及性能表7-6 基于关键词的各算法的时间复杂度及性能(N=10,δ=0.01)表8-1 MTF对序列进行转换的过程表8-2 对包含100万词条的词典使用不同编码所需要的空间表8-3 平均每个查询对应词频链的空间大小(文档号按URL序分配)表8-4 不同索引的组织结构及其支持的查询处理方式表8-5 数据集基本统计信息表9-1 新词学习对检索准确率的影响表9-2 影响权值的HTML标签表9-3 补偿因子定义表表9-4 2004中文Web信息检索评测提交结果表9-5 主题提取表9-6 导航搜索表9-7 用户查询信息类别表10-1 网页存储性能(个/秒)表10-2 网页访问性能(个/秒)表11-1 几个网络资源库藏系统的特征表11-2 CDAL中的资源分布表12-1 样本集中类别及实例数量的分布情况表表12-2 kNN和NB算法的分类质量和分类效率比较表12-3 欧式距离与兰式距离的比较表12-4 基于层次模型的kNN与基本kNN的比较表12-5 RCut和SCut截尾算法的比较表12-6 一个分类器的设计方案表13-1 问题分类体系结构及TREC问答任务中问题的分布表13-2 天网开放域系统在TREC2005中的表现
作者介绍
序言
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价