消息首页搜索举报

使用C#开发搜索引擎

11.55 2.4折 49 九五品

仅1件

北京通州

认证卖家担保交易快速发货售后保障

作者罗刚　编著

出版社清华大学出版社

ISBN9787302270706

出版时间2012-02

版次1

装帧平装

开本16开

纸张胶版纸

页数346页

字数99999千字

定价49元

上书时间2024-07-02

灵感飞驰

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 22小时
好评率暂无

最新上架

猪病防治图册 ¥7.50

鱼病防治图册 ¥7.00

野葛研究与栽培利用 ¥10.78

未来50年 ¥8.72

一个数学家的自白 ¥83.85

莎士比亚、牛顿和贝多芬 ¥7.75

素数的音乐 ¥49.48

草业技术手册 ¥7.36

时空的大尺度结构 ¥136.24

商品详情

品相描述：九五品

商品描述: 基本信息
书名:使用C#开发搜索引擎
定价：49.00元
作者:罗刚　编著
出版社：清华大学出版社
出版日期：2012-02-01
ISBN：9787302270706
字数：556000
页码：346
版次：1
装帧：平装
开本：16开
商品重量：
编辑推荐
介绍业界热门的Lucene.Net、使用WebBrowser做爬虫　　以及结合Solr开发ASP.NET搜索的本图书
内容提要
从c#基础开始，逐渐深入，是学习搜索引擎开发的。应众多公司的实际需求，《使用c#开发搜索引擎》介绍如何以c#作为工具开发搜索引擎。全书以完成一个网站搜索\垂直搜索作为目标，从网络爬虫抓取数据开始，然后到中文分词、文本排重等文本挖掘技术和搜索结果展现。本书是市面上介绍业界热门的lucene.net、使用webbrowser做爬虫以及结合solr开发asp.net搜索的书。　　《使用c#开发搜索引擎》适合专业软件开发人员，也适合于希望学习搜索引擎工作原理的读者学习使用。本书对于在校学生学习复杂数据结构和应用动态规划等常用算法也有参考价值。
目录
章使用c#开发搜索引擎快速入门1.1 各种搜索引擎1.1.1 通用搜索1.1.2 垂直搜索1.1.3 站内搜索1.2 搜索引擎整体结构1.3 搜索引擎基本技术1.3.1 网络爬虫1.3.2 文本挖掘1.3.3 全文索引1.3.4 搜索语法介绍1.3.5 搜索用户界面1.4 c#开发快速入门1.4.1 准备开发环境1.4.2 基本语法1.4.3 多维数组1.4.4 位运算1.4.5 枚举类型1.4.6 面向对象1.4.7 集合类1.4.8 泛型1.4.9 委托和事件1.4.10 类库1.5 本章小结1.6 术语表第2章使用c#开发网络爬虫2.1 网络爬虫抓取原理2.2 爬虫架构2.2.1 基本架构2.2.2 分布式爬虫架构2.2.3 垂直爬虫架构2.3 下载网页2.3.1 http协议2.3.2 下载静态网页2.3.3 下载动态网页2.4 网络爬虫遍历与实现2.5 网站地图2.6 连接池2.7 url地址查新2.7.1 嵌入式数据库2.7.2 布隆过滤器2.8 抓取rss2.9 解析相对地址2.10 网页更新2.11 信息过滤2.12 垂直行业抓取2.13 抓取限制应对方法2.13.1 更地址2.13.2 抓取需要登录的网页2.13.3 抓取asp.net网页2.14 保存信息2.14.1 存入数据库2.14.2 存成图像2.15 日志2.16 本章小结2.17 术语表第3章索引各种格式文档3.1 从文件中提取信息3.1.1 识别网页的编码3.1.2 正则表达式3.1.3 agility pack介绍3.1.4 网页正文提取3.1.5 结构化信息提取3.1.6 查看网页的dom结构3.1.7 网页结构相似度计算3.2 从非文件中提取文本3.2.1 text文件3.2.2 pdf文件3.2.3 office文件3.2.4 rtf文件3.3 本章小结3.4 术语表第4章自然语言处理4.1 统计机器学习4.2 文档排重4.3 中文关键词提取4.3.1 关键词提取的基本方法4.3.2 从网页中提取关键词4.4 相关搜索4.5 拼写检查4.5.1 拼写检查的概率模型4.5.2 模糊匹配问题4.5.3 英文拼写检查4.5.4 中文拼写检查4.6 文本摘要4.6.1 文本摘要的设计4.6.2 实现文本摘要技术4.6.3 lucene.net中的动态摘要4.7 文本分类4.7.1 自动分类的接口定义4.7.2 自动分类的实现4.8 自动聚类4.8.1 文档相似度4.8.2 k均值聚类方法4.8.3 k均值实现4.9 拼音转换4.10 句法分析树4.11 信息提取4.12 本章小结4.13 术语表第5章用c#实现中文分词5.1 汉语中的词5.2 文本切分的基本方法5.3 有限状态机5.4 查找词典算法5.4.1 标准trie树5.4.2 三叉trie树5.5 中文分词的原理5.6 中文分词流程与结构5.7 切分词图5.7.1 保存切分词图5.7.2 生成全切分词图5.8 概率语言模型的分词方法5.8.1 一元模型5.8.2 n元模型5.9 熵5.10 未登录词识别5.11 词性标注5.12 地名切分5.12.1 地址类性标注5.12.2 未登录词识别5.13 本章小结5.14 术语表第6章 lucene.net原理与应用6.1 lucene.net快速入门6.1.1 索引文档6.1.2 搜索文档6.1.3 lucene.net结构6.2 lucene.net深入介绍6.2.1 索引原理6.2.2 分析文本6.2.3 遍历索引库6.2.4 检索模型6.2.5 收集相关的文档6.3 索引中的压缩算法6.3.1 变长压缩6.3.2 差分编码6.4 创建和维护索引库6.4.1 设计一个简单的索引库6.4.2 创建索引库6.4.3 向索引库中添加索引文档6.4.4 删除索引库中的索引文档6.4.5 更新索引库中的索引文档6.4.6 索引的优化与合并6.5 查找索引库6.5.1 布尔查询6.5.2 同时查询多列6.5.3 跨度查询6.5.4 通配符查询6.5.5 过滤6.5.6 按指定列排序6.5.7 查询大容量索引6.5.8 函数查询6.5.9 定制相似性6.5.10 评价搜索结果6.6 中文信息检索6.6.1 lucene.net中的中文处理6.6.2 lietu中文分词的使用6.6.3 定制tokenizer6.6.4 解析查询串6.6.5 实现字词混合索引6.7 抓取数据库中的内容6.7.1 读取数据6.7.2 数据同步6.8 概念搜索6.9 本章小结6.10 术语表第7章实现搜索用户界面7.1 搜索页面设计7.1.1 用于显示搜索结果的asp.net7.1.2 搜索结果分页7.1.3 设计一个简单的搜索页面7.2 实现搜索接口7.2.1 lucene.net搜索接口7.2.2 指定范围搜索7.2.3 搜索页面的索引缓存与更新7.3 实现关键词高亮显示7.4 实现分类统计视图7.4.1 搜索结果分类统计与导航7.4.2 层次树7.5 相关搜索词7.6 实现ajax自动完成7.6.1 总体结构7.6.2 服务器端处理7.6.3 浏览器端处理7.7 集成其他功能7.7.1 拼写检查7.7.2 再次查找7.7.3 黑名单7.7.4 搜索日志7.8 本章小结第8章使用solr开发网站搜索8.1 搜索服务器端8.8.olr结构8.1.2 启动solr服务器8.1.3 配置支持中文的solr8.1.4 索引数据8.1.5 查询功能8.1.6 高亮8.2 solr的.net客户端8.2.1 使用solrnet8.2.2 实现多分类8.2.3 分类统计8.3 查询语法8.3.1 对空格的支持8.3.2 日期加权8.4 索引分布8.5 本章小结
作者介绍
作者: 罗刚　　罗刚猎兔搜索(http：／／www．lietu．com)创始人，当前猎兔搜索在北京和上海均设有研发部。带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等，实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》，获得广泛好评。
序言

【封面】

— 没有更多了 —