搜索引擎——原理技术与系统（第二版）

16.47 2.5折 65 九品

仅1件

北京昌平

认证卖家担保交易快速发货售后保障

作者李晓明、闫宏飞、王继民著

出版社科学出版社

出版时间2017-01

版次31

装帧平装

货号A7

上书时间2024-12-25

旧书香书城

十年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

微距摄影与商业案例 ¥20.28

2010南非世界杯32强争霸传奇 ¥23.77

听英文金曲学英语（高级版） ¥27.23

听英文金曲学英语（中级版） ¥14.34

名人演讲:响彻世界的声音 ¥13.51

男科疾病诊断治疗指南（2022 版） ¥41.33

共和国音乐记忆（1949-2019） ¥19.91

共和国文学记忆（1949-2019） ¥17.49

红色经典—嘎子新传中国红色儿童文学经典系列小学生四五六年级课外书少年励志红色经典书籍故事书革命传统教育读本爱国 ¥12.26

商品详情

品相描述：九品

图书标准信息

作者李晓明、闫宏飞、王继民著
出版社科学出版社
出版时间 2017-01
版次 31
ISBN 9787030342584
定价 65.00元
装帧平装
开本 32开
纸张其他
页数 348页
字数 99999千字
正文语种简体中文

【目录】: 第二版前言版前言章引论节搜索引擎的概念第二节搜索引擎的发展历史第三节一些的搜索引擎第四节小结上篇 Web搜索引擎基本原理和技术第二章 Web搜索引擎工作原理和体系结构节基本要求第二节网页搜集第三节预处理第四节查询服务第五节体系结构第六节小结第三章 Web信息的搜集节概述一、超文本传输协议二、一个小型搜索引擎系统第二节网页搜集一、定义URL类和Page类二、与服务器建立连接三、发送请求和接收数据四、网页信息存储的天网格式第三节多道搜集程序并行工作一、多线程并发工作二、控制对一个站点并发搜集线程的数目第四节如何避免网页的重复搜集一、记录未访问、已访问URL和网页内容摘要信息二、域名与IP的对应问题第五节搜集信息的类型第六节小结第四章对搜集信息的预处理节索引网页库第二节网页编码识别一、基本而重要的概念二、常用字符编码三、常用字符编码算法四、字符的输入和显示五、编码识别第三节中文自动分词第四节分析网页和建立倒排文件第五节小结第五章信息查询服务节检索的定义第二节查询服务的实现一、结果集合的形成二、查询结果显示第三节小结中篇对质量和性能的追求第六章可扩展搜集子系统节天网系统概述和集中式搜集系统结构一、天网系统结构二、集中式搜集系统第二节利用并行处理技术高效搜集网页的一种方案一、节点间URL的划分策略二、关于性能的讨论三、性能测试和评价四、系统的动态可配置性设计第三节天网分布式搜集系统第四节对Deep Web的认识一、Deep Web的成因二、搜索Deep Web的方法第五节小结第七章网页净化与消重节网页净化与元数据提取一、DocView模型二、网页的表示三、提取DocView模型要素的方法四、模型应用及实验研究第二节网页消重算法一、消重算法二、算法评测第三节小结第八章高性能检索子系统节检索系统基本技术一、系统设计与结构二、索引创建三、检索过程第二节适于查询的网页索引结构一、倒排索引结构二、平面位置索引第三节倒排索引压缩一、倒排索引压缩技术二、词典与倒排表的压缩第四节索引剪枝一、静态索引剪枝方法二、动态索引剪枝方法第五节混合索引技术一、混合索引的原理二、混合索引的实现第六节倒排文件缓存机制一、倒排文件缓存二、负载特性三、缓存策略的选择第七节小结第九章相关排序与系统质量评估节传统IR的相关排序技术第二节链接分析与相关排序一、链接分析二、Web查询模式下的新信息第三节相关排序的一种实现方案一、形成网页中词项的基本权重二、利用链接的结构三、收集用户反馈信息四、计算终的权重第四节信息检索技术评估一、信息检索技术评估指标二、TREC和CWIRF信息检索评估三、搜索引擎技术评估第五节小结下篇 Web信息资源的组织与应用服务第十章大规模Web历史网页仓储系统的构建节国外Web历史网页保存现状一、Internet Archive二、PANDORA三、其他相关Web保存项目第二节中国Web信息博物馆的系统设计一、Web InfoMall的设计目标二、Web InfoMall的体系结构第三节历史网页的存储一、数据的组织二、存储结构三、数据管理与压缩四、存储性能第四节数据访问一、PageID的索引二、URL的索引三、数据服务四、性能与优化第五节网页的格式保存第六节小结第十一章大规模Web非网页信息仓储系统的构建节网络资源库藏相关工作一、Ibiblio二、Internet Archive三、Wikimedia四、中国互联网数字资源财富库藏第二节 CDAL系统概况第三节 CDAL系统设计一、系统体系结构二、可扩展的存储组织方案第四节网络资源描述信息获取一、Ontology概述二、描述信息获取机制三、改进查询的方法四、改进排序的方法第五节基于局部聚类思想的共现词汇算法一、基本定义二、FDC共现词汇算法第六节小结第十二章中文网页自动分类与聚类节文档自动分类算法的类型第二节实现中文网页自动分类的一般过程第三节影响分类器性能的关键因素分析一、实验设置二、训练样本三、特征选取四、分类算法五、截尾算法六、中文网页分类器的设计方案第四节天网导航服务一、问题的提出二、天网导航服务的体系结构三、天网的运行实例第五节文本聚类方法一、文本聚类的一般过程二、文本间相似性的度量三、常用聚类算法四、聚类结果的评估五、搜索引擎返回结果的聚类第六节小结第十三章开放域问答系统节概述一、问答系统的历史二、开放域问答系统介绍三、开放域问答系统的通用体系结构第二节问句的分析一、问句中的指代消解二、问句分类三、问句主题提取第三节文档和段落检索一、检索模型的选用二、查询生成三、查询结果排序四、增强索引的功能第四节答案提取和验证模块一、生成候选答案集合二、答案提取第五节问答系统的改进方法一、问答系统中外部资源的利用二、寻找特殊类问题的解决方案三、通过系综方法构建问答系统第六节问答系统的评测一、TREC问答系统评测二、问答系统评测指标第七节实例:天网开放域问答系统第八节小结参考文献附录术语图图1-1 2012年3月在Google上检索“伊拉克战争”的结果图1-2 2012年3月在Open Directory上检索“伊拉克战争”的结果图2-1 搜索引擎示意图图2-2 搜索引擎三段式工作流程图2-3 搜索引擎的体系结构图3-1 TSE搜索引擎界面图3-2 TSE查询结果页面图3-3 TSE网页快照页面图3-4 TSE系统结构图3-5 Web信息的搜集图3-6 Sockets和端口图3-7 通过Socket建立连接图4-1 网页预处理系统结构图4-2 原始网页库中的记录格式图4-3 索引网页库算法图4-4 字符的输入和显示流程图4-5 GB2312,Big5和GBK字符编码分布图4-6 正向减字匹配算法流程图4-7 切词算法流程图4-8 分析网页与建立倒排文件流程图4-9 过滤网页中非正文信息算法图4-10 正向索引表记录格式图4-11 由正向索引建立反向索引图5-1 信息查询的系统结构图5-2 基本检索算法图5-3 动态摘要算法图5-4 用户查询日志的记录格式图6-1 天网系统概貌图6-2 搜集系统的主控结构图6-3 协调进程工作算法图6-4 分布式Web搜集系统结构图6-5 负载方差图6-6 并行搜集系统与集中式搜集系统的性能对比图6-7 分布式系统效率图6-8 URL两阶段映射图6-9 天网分布式搜集系统P_Arthur体系结构图6-10 人才招聘网站首页图7-1 用DocView模型提取的网页要素图7-2 净化后的网页图7-3 HTML Tree结构图7-4 内容块权值传递过程图7-5 有主题网页DocView模型生成过程图7-6 计算网页特征项权值的算法图7-7 正文段落识别过程图7-8 基于anchor text的超链选取算法图7-9 网页净化前后分类效果对比图7-10 查全率随选取关键词个数的变化图8-1 检索系统集成框架结构图8-2 天网WWW检索分布式系统构架图8-3 倒排索引结构示意图图8-4 按块组织的倒排链的结构图8-5 位置索引的结构图8-6 CLPS结构示意图图8-7 倒排链中文档号之间的d-gaps分布图图8-8 不同文档号分配下平均每个查询对应文档号序列的压缩大小图8-9 不同压缩算法对文档号的解压速度图8-10 不同文档号分配下平均每个查询对应词频序列的压缩大小图8-11 不同压缩算法对词频的解压速度图8-12 平均每个查询对应的位置信息需要的存储空间图8-13 索引剪枝方法的分类图8-14 MAXSCORE算法的示例图8-15 WAND算法选择候选文档的过程图8-16 基于块索引的支点文档号的选择示例图8-17 Interval-Base剪枝方法中文档子区间划分的示例图8-18 SAAT方法处理查询处理模式及分数累加器数量的变化图8-19 当前支持高效SR IR剪枝的索引结构图8-20 扩展词典树结构示例图8-21 扩展词典匹配查找算法图8-22 搜索引擎检索系统缓存结构图8-23 文档数据访问对象大小分布图8-24 I/O与PAGE序列序号-频度分布图8-25 I/O与PAGE序列时间间隔分布图8-26 I/O和PAGE序列中唯一模式串图9-1 Inktomi提供的几种搜索引擎技术的比较图9-2 词典在系统中的地位图9-3 新词学习图9-4 网页的互联结构示意图9-5 信息获取技术评估的“森林”图9-6 查准率和召回率基础定义图示图9-7 查准率和召回率例子图9-8 “省事的”11点标准召回率例子图9-9 实践中召回率例子图9-10 实际中的44个查询词的评价统计表和P-R图图9-11 测试集在检索评估中的角色图9-12 帮助判断相关结果页面的计算机辅助程序入口图9-13 帮助判断相关结果页面的计算机辅助程序操作界面图10-1 Web InfoMall体系结构图10-2 网页数据的分割图10-3 Web InfoMall的存储结构图10-4 网页的引用压缩示意图图11-1 CDAL提供的资源访问方式图11-2 CDAL系统结构图图11-3 基于Ontology的网络资源描述信息获取图11-4 概念的属性及其词汇扩展(以电影类资源为例)图11-5 获得描述信息的改进排序算法图11-6 网络资源描述信息展示图12-1 自动文档分类算法的分类图12-2 中文网页自动分类的一般过程图12-3 中文网页分类器的工作原理图图12-4 WebSmart——一个网页实例集搜集和整理工具图12-5 一种中文网页的分类体系图12-6 Macro-F1值随样本数的变化图12-7 Micro-F1值随样本数的变化图12-8 CHI、IG、DF、MI的比较(Macro-F1)图12-9 CHI、IG、DF、MI的比较(Micro-F1)图12-10 kNN与NB分类结果的比较图12-11 k的取值对分类器质量的影响(Marco-F1)图12-12 k的取值对分类器质量的影响(Micro-F1)图12-13 兰式距离法与欧式距离法对12个不同类别的分类情况图12-14 基于层次模型的kNN与基本kNN的比较图12-15 RCut和SCut截尾算法的比较图12-16 天网的体系结构图12-17 天网导航服务图12-18 文本聚类的一般过程图12-19 层次聚类实例图12-20 k-均值算法进行文本聚类的过程图12-21 搜索结果聚类系统Carrot2图13-1 START系统界面图13-2 Ask Jeeves查询结果图13-3 问答系统的通用体系结构图13-4 天网开放域系统的体系结构表表4-1 网页索引文件表4-2 URL索引文件表6-1 SOIF数据描述表6-2 SOIF具体语法表6-3 参照序列,假设节点数为2表7-1 类别编号对照表表7-2 消重实验结果表7-3 当N=10、δ=0.01时5种算法的查全率和准确率表7-4 考察δ的取值对算法3和4的影响表7-5 分段算法的时间复杂度及性能表7-6 基于关键词的各算法的时间复杂度及性能(N=10,δ=0.01)表8-1 MTF对序列进行转换的过程表8-2 对包含100万词条的词典使用不同编码所需要的空间表8-3 平均每个查询对应词频链的空间大小(文档号按URL序分配)表8-4 不同索引的组织结构及其支持的查询处理方式表8-5 数据集基本统计信息表9-1 新词学习对检索准确率的影响表9-2 影响权值的HTML标签表9-3 补偿因子定义表表9-4 2004中文Web信息检索评测提交结果表9-5 主题提取表9-6 导航搜索表9-7 用户查询信息类别表10-1 网页存储性能(个/秒)表10-2 网页访问性能(个/秒)表11-1 几个网络资源库藏系统的特征表11-2 CDAL中的资源分布表12-1 样本集中类别及实例数量的分布情况表表12-2 kNN和NB算法的分类质量和分类效率比较表12-3 欧式距离与兰式距离的比较表12-4 基于层次模型的kNN与基本kNN的比较表12-5 RCut和SCut截尾算法的比较表12-6 一个分类器的设计方案表13-1 问题分类体系结构及TREC问答任务中问题的分布表13-2 天网开放域系统在TREC2005中的表现
作者介绍

序言

点击展开点击收起