使用C#开发搜索引擎
¥
25.8
3.8折
¥
68
九五品
仅1件
作者罗刚
出版社清华大学出版社
ISBN9787302484462
出版时间2018-01
版次1
装帧平装
开本16开
纸张胶版纸
页数454页
字数99999千字
定价68元
上书时间2024-05-01
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:使用C#开发搜索引擎
定价:68.00元
作者:罗刚
出版社:清华大学出版社
出版日期:2018-01-01
ISBN:9787302484462
字数:705000
页码:454
版次:2
装帧:平装
开本:16开
商品重量:
编辑推荐
《使用C#开发搜索引擎(第2版)》是介绍业界热门的Lucene.Net、使用WebBrowser做爬虫以及结合Solr/ElasticSearch开发ASP.NET搜索的书籍。《使用C#开发搜索引擎(第2版)》还介绍了在线智能客服(聊天机器人)开发框架。从C#语法开始,逐渐深入,是零基础实践面向未来的智能软件开发的。对于学习复杂数据结构和自然语言处理相关应用开发也有参考价值。
内容提要
《使用C#开发搜索引擎(第2版)》介绍如何以C#作为工具开发智能搜索引擎系统。 《使用C#开发搜索引擎(第2版)》是一本介绍业界热门的Lucene.Net、使用WebBrowser做爬虫以及结合Solr/ElasticSearch开发ASP.NET搜索的书籍。书中从网络爬虫抓取数据开始;然后介绍中文分词、文本排重等文本挖掘技术和搜索结果展现;最后介绍在线智能客服(聊天机器人)开发框架。从C#语法开始,逐渐深入,是零基础实践面向未来的智能软件开发。 对于学习复杂数据结构和自然语言处理相关应用开发也有参考价值。
目录
目 录章 使用C#开发搜索引擎快速入门 11.1 各种搜索引擎 21.1.1通用搜索 31.1.2垂直搜索 31.1.3站内搜索 41.2 搜索引擎的整体结构 41.3 搜索引擎的基本技术 51.3.1网络爬虫 51.3.2文本挖掘 51.3.3全文索引 61.3.4搜索语法介绍 81.3.5搜索用户界面 81.4C#开发快速入门 91.4.1准备开发环境 91.4.2基本语法 91.4.3多维数组 111.4.4位运算 111.4.5枚举类型 121.4.6面向对象 131.4.7字符串 151.4.8读写文件 161.4.9集合类 171.4.10泛型 201.4.11委托和事件 211.4.12lambda表达式 241.4.13单元测试 241.4.14扩展方法 251.4.15类库 261.5 算法基础 261.5.1双端队列 271.5.2散列表 311.5.3单链表 361.5.4标准Trie树 371.5.5二叉搜索树 391.5.6三叉Trie树 411.5.7平衡Trie树 461.6 本章小结 481.7 术语表 48第2章 使用C#开发网络爬虫 512.1 网络爬虫抓取原理 522.2 爬虫架构 542.2.1基本架构 542.2.2分布式爬虫架构 562.2.3垂直爬虫架构 572.3 下载网页 582.3.1HTTP协议 582.3.2下载静态网页 612.3.3下载动态网页 652.4 线程池 732.5 网络爬虫的遍历与实现 752.6 网站地图 772.7 连接池 782.8URL地址查新 792.8.1嵌入式数据库 792.8.2布隆过滤器 822.9 抓取RSS 842.10解析相对地址 862.11网页更新 862.12信息过滤 892.13垂直行业抓取 942.14抓取限制应对方法 942.14.1更换IP地址 942.14.2抓取需要登录的网页 982.14.3抓取ASP.net网页 1002.15保存信息 1032.15.1存入数据库 1032.15.2存成图像 1042.16日志 1052.17本章小结 1082.18术语表 108第3章 索引各种格式文档 1133.1 从HTML文件中提取信息 1143.1.1识别网页的编码 1143.1.2正则表达式 1163.1.3Html Agility Pack介绍 1203.1.4NSoup介绍 1243.1.5网页正文提取 1243.1.6结构化信息提取 1373.1.7查看网页的DOM结构 1403.1.8网页结构相似度计算 1413.2 从非HTML文件中提取文本 1433.2.1TEXT文件 1443.2.2PDF文件 1443.2.3Office文件 1463.2.4Rtf文件 1473.3OCR 1483.3.1字形识别 1493.3.2图像二值化 1493.4 本章小结 1533.5 术语表 154第4章 自然语言处理 1554.1 统计机器学习 1564.2 协同推荐 1574.3 文档排重 1634.3.1生成SimHash 1644.3.2查找SimHash 1664.3.3用于短文本排重 1704.4 中文关键词提取 1704.4.1关键词提取的基本方法 1714.4.2从网页中提取关键词 1744.5 相关搜索 1744.6 拼写检查 1754.6.1拼写检查的概率模型 1764.6.2模糊匹配问题 1764.6.3英文拼写检查 1804.6.4中文拼写检查 1834.7 文本摘要 1844.7.1文本摘要的设计 1844.7.2实现文本摘要技术 1854.7.3Lucene.net中的动态摘要 1904.8 文本分类 1914.8.1自动分类的接口定义 1914.8.2自动分类的实现 1914.9 自动聚类 1974.9.1文档相似度 1974.9.2K均值聚类方法 2014.9.3K均值实现 2024.10拼音转换 2044.11句法分析树 2044.12信息提取 2114.12.1信息提取的规则及其实现 2114.12.2提取地域信息 2194.13本章小结 2214.14术语表 221第5章 用C#实现中文分词 2235.1 词 2245.2 文本切分的基本方法 2245.3 地名切分 2265.3.1地址类型标注 2275.3.2未登录词识别 2275.4 有限状态机 2295.5 查找词典算法 2315.6 中文分词的原理 2325.6.1正向最大长度匹配法 2325.6.2逆向最大长度匹配法 2365.6.3处理未登录串 2405.7 中文分词的流程与结构 2415.8 切分词图 2435.8.1保存切分词图 2435.8.2生成全切分词图 2475.9 概率语言模型的分词方法 2505.9.1准备数据 2515.9.2一元模型 2525.9.3N元模型 2575.10最大熵 2625.11未登录词识别 2645.12词性标注 2645.12.1隐马尔科夫模型 2665.12.2实现词性标注 2715.13本章小结 2755.14术语表 276第6章 Lucene.net原理与应用 2776.1Lucene.net快速入门 2786.1.1索引文档 2786.1.2搜索文档 2806.1.3Lucene.net结构 2816.2Lucene.net深入介绍 2826.2.1索引原理 2826.2.2分析文本 2856.2.3遍历索引库 2886.2.4布尔查询原理 2896.2.5检索模型 2906.2.6收集最相关的文档 2916.3 索引中的压缩算法 2966.3.1 变长压缩 2966.3.2差分编码 2986.4 创建和维护索引库 2996.4.1设计一个简单的索引库 2996.4.2创建索引库 3006.4.3向索引库中添加索引文档 3016.4.4删除索引库中的索引文档 3036.4.5更新索引库中的索引文档 3046.4.6索引的优化与合并 3046.5 查找索引库 3056.5.1布尔查询 3066.5.2同时查询多列 3076.5.3跨度查询 3086.5.4通配符查询 3126.5.5过滤 3126.5.6按指定列排序 3136.5.7查询大容量索引 3186.5.8函数查询 3206.5.9定制相似度 3236.5.10评价搜索结果 3256.6 中文信息检索 3256.6.1Lucene.net中的中文处理 3266.6.2Lietu中文分词的使用 3266.6.3定制Tokenizer 3286.6.4解析查询串 3296.6.5实现字词混合索引 3336.7 抓取数据库中的内容 3366.7.1读取数据 3376.7.2数据同步 3386.8 与爬虫集成 3386.9 概念搜索 3416.10本章小结 3446.11术语表 345第7章 实现搜索用户界面 3477.1 搜索页面设计 3487.1.1用于显示搜索结果的ASP.net 3487.1.2搜索结果条 3517.1.3搜索结果分页 3517.1.4设计一个简单的搜索页面 3527.2 实现搜索接口 3537.2.1Lucene.net搜索接口 3537.2.2指定范围搜索 3577.2.3搜索页面的索引缓存与更新 3587.3 实现关键词高亮显示 3617.4 实现分类统计视图 3627.4.1搜索结果分类统计与导航 3637.4.2层次树 3667.5 相关搜索词 3687.6 实现AJax自动完成 3697.6.1总体结构 3707.6.2服务器端处理 3717.6.3浏览器端处理 3727.7 集成其他功能 3747.7.1拼写检查 3747.7.2再次查找 3747.7.3黑名单 3757.7.4搜索日志 3767.8 本章小结 377第8章 使用Solr开发网站搜索 3798.1 搜索服务器端 3808.1.1Solr的结构 3808.1.2启动Solr服务器 3818.1.3开发支持Solr的中文分词 3848.1.4中文的Solr 3858.1.5索引数据 3888.1.6查询功能 3898.1.7高亮显示 3928.2Solr的.NET客户端 3938.2.1使用Solrnet 3938.2.2查询 3968.2.3分类统计 3978.2.4ASP.NET中使用Solrnet 4018.2.5删除数据 4058.2.6从数据库索引数据 4058.2.7翻页 4088.2.8实现多分类 4118.3 查询语法 4128.3.1对空格的支持 4138.3.2日期加权 4138.4 索引分布 4158.5 本章小结 417第9章 Elasticsearch开发分布式搜索 4199.1 搜索集群 4219.2 安装 4229.3ES的.net客户端 4299.3.1连接搜索服务器 4299.3.2创建索引 4309.3.3插入数据 4319.4 查询 4329.4.1布尔查询 4339.4.2嵌套类型和嵌套查询 4349.4.3查询结果 4379.4.4过滤器 4379.5 高亮显示 4379.6 分页 4429.7 本章小结 4420章 在线客服案例分析 44510.1使用WebSocket 44610.2知识库 44710.3自动问答 44910.4本章小结 453参考资源 455
作者介绍
罗刚,计算机软件硕士,毕业于吉林工业大学。2005年创立北京盈智星科技发展有限公司,2008年联合创立上海数聚软件公司。猎兔搜索创始人,当前猎兔搜索在北京和上海以及石家庄均设有研发部。带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔文本挖掘系统,智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测,其开发的搜索软件日用户访问量达万次以上。
序言
— 没有更多了 —
以下为对购买帮助不大的评价