• Webbots、Spiders和ScreenScrapers:技术解析与应用实践
21年品牌 40万+商家 超1.5亿件商品

Webbots、Spiders和ScreenScrapers:技术解析与应用实践

5.01 九品

仅1件

广东东莞
认证卖家担保交易快速发货售后保障

作者[美]Michael Schrenk 著

出版社机械工业出版社

出版时间2013-04

版次1

装帧平装

上书时间2024-11-01

忻博的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 [美]Michael Schrenk 著
  • 出版社 机械工业出版社
  • 出版时间 2013-04
  • 版次 1
  • ISBN 9787111417682
  • 定价 69.00元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 282页
  • 正文语种 简体中文
  • 原版书名 Webbots, Spiders, and Screen Scrapers a Guide to Developing Internet Agents With PHP/CURL,second Edition
【内容简介】
  《Webbots、Spiders和ScreenScrapers:技术解析与应用实践》是Webbots(网络机器人)、Spiders(蜘蛛)、ScreenScrapers(抓屏器)领域的权威著作,在国际安全领域被广泛认可,是资深网络安全专家15年工作经验的结晶。不仅全面而详细地解析了Webbots、Spiders和ScreenScrapers的技术原理和高级技巧,而且以案例的方式讲解了9种常用网络机器人的设计和开发方法,可操作性极强。除了有丰富的理论和实践内容外,《Webbots、Spiders和ScreenScrapers:技术解析与应用实践》还介绍了商业用途的思路,不厌其烦地告诫开发者如何开发出遵纪守法且不干扰网络的具有建设性的网络机器人。
  《Webbots、Spiders和ScreenScrapers:技术解析与应用实践》31章,分为4个部分:第一部分(1~7章),系统全面地介绍了与Webbots、Spiders、ScreenScrapers相关的各种概念和技术原理,是了解和使用它们必须掌握的基础知识;第二部分(8~16章),以案例的形式仔细地讲解了价格监控、图片抓取、搜索排名检测、信息聚合、FTP信息、阅读与发送电子邮件等9类常见机器人的设计与开发方法,非常具备实战指导意义;第三部分(17~25章),总结和归纳了大量的高级技巧,包括蜘蛛程序的设计方法、采购机器人和秒杀器、相关的密码学、认证方法、高级cookie管理、如何计划运行网络机器人和蜘蛛、使用浏览器宏抓取怪异的网站、修改iMacros,等等;第四部分(26~31章)是拓展知识,包含如何设计隐蔽的网络机器人和蜘蛛、编写容错的网络机器人、设计网络机器人青睐的网站、消灭蜘蛛、相关的法律知识等。
【作者简介】
作者:(美国)斯昆克(Michael Schrenk) 译者:张磊 沈鑫    Michael Schrenk,资深网络安全专家和软件开发专家,在网络机器人领域有15年的研究和开发经验,他的工作足迹从美国的硅谷到莫斯科,曾服务于BBc、政府机构、世界500强等很多企业和机构,积累了丰富的实战经验。…
【目录】
译者序
前言
第一部分基础概念和技术
第1章本书主要内容
1.1发现互联网的真正潜力
1.2对开发者来说
1.2.1网络机器人开发者是紧缺人才
1.2.2编写网络机器人是有趣的
1.2.3网络机器人利用了“建设性黑客”技术
1.3对企业管理者来说
1.3.1为业务定制互联网
1.3.2充分利用公众对网络机器人的经验不足
1.3.3事半功倍
1.4结论

第2章网络机器人项目创意
2.1浏览器局限性的启发
2.1.1聚合并过滤相关信息的网络机器人
2.1.2解释在线信息的网络机器人
2.1.3个人代理网络机器人
2.2从疯狂的创意开始
2.2.1帮助繁忙的人解脱
2.2.2自动执行,节省开支
2.2.3保护知识产权
2.2.4监视机会
2.2.5在网站上验证访问权限
2.2.6创建网上剪报服务
2.2.7寻找未授权的Wi-Fi网络
2.2.8跟踪网站技术
2.2.9让互不兼容的系统通信
2.3结论

第3章下载网页
3.1当它们是文件,而不是网页
3.2用PHP的内置函数下载文件
3.2.1用fopen()和fgets()下载文件
3.2.2用file()函数下载文件
3.3PHP/CURL库介绍
3.3.1多种传输协议
3.3.2表单提交
3.3.3基本认证技术
3.3.4cookie
3.3.5重定向
3.3.6代理名称欺诈
3.3.7上链管理
3.3.8套接字管理
3.4安装PHP/CURL
3.5LIB_http库
3.5.1熟悉默认值
3.5.2使用LIB_http
3.5.3了解更多HTTP标头信息
3.5.4检查LIB_http的源代码
3.6结论

第4章基本解析技术
4.1内容与标签相混合
4.2解析格式混乱的HTML文件
4.3标准解析过程
4.4使用LIB_parse库
4.4.1用分隔符分解字符串:split_string()函数
4.4.2提取分隔符之间的部分:return_between()函数
4.4.3将数据集解析到数组之中:parse_array()函数
4.4.4提取属性值:get_attribute()函数
4.4.5移除无用文本:remove()函数
4.5有用的PHP函数
4.5.1判断一个字符串是否在另一个字符串里面
4.5.2用一个字符串替换另一个字符串中的一部分
4.5.3解析无格式文本
4.5.4衡量字符串的相似度
4.6结论
4.6.1别相信编码混乱的网页
4.6.2小步解析
4.6.3不要在调试的时候渲染解析结果
4.6.4少用正则表达式

第5章使用正则表达式的高级解析技术
5.1模式匹配——正则表达式的关键
5.2PHP的正则表达式类型
5.2.1PHP正则表达式函数
5.2.2与PHP内置函数的相似之处
5.3从例子中学习模式匹配
5.3.1提取数字
5.3.2探测字符串序列
5.3.3字母字符匹配
5.3.4通配符匹配
5.3.5选择匹配
5.3.6分组和范围匹配的正则表达式
5.4与网络机器人开发者相关的正则表达式
5.4.1提取电话号码
5.4.2下一步学习什么
5.5何时使用正则表达式
5.5.1正则表达式的长处
5.5.2模式匹配用于解析网页的劣势
5.5.3哪个更快,正则表达式还是PHP的内置函数
5.6结论

第6章自动表单提交
6.1表单接口的反向工程
6.2表单处理器、数据域、表单方法和事件触发器
6.2.1表单处理器
6.2.2数据域
6.2.3表单方法
6.2.4多组件编码
6.2.5事件触发器
6.3无法预测的表单
6.3.1JavaScript能在提交之前修改表单
6.3.2表单HTML代码通常无法阅读
6.3.3cookie在表单里不存在,却会影响其操作
6.4分析表单
6.5结论
6.5.1不要暴露身份
6.5.2正确模拟浏览器
6.5.3避免表单错误

第7章处理大规模数据
7.1组织数据
7.1.1命名规范
7.1.2在结构化文件里存储数据
7.1.3在数据库里存储文本数据
7.1.4在数据库里存储图片
7.1.5用数据库,还是用文件系统
7.2减小数据规模
7.2.1保存图片文件的地址
7.2.2压缩数据
7.2.3移除格式信息
7.3生成图片的缩略图
7.4结论

第二部分网络机器人项目
第8章价格监控网络机器人
8.1目标网站
8.2设计解析脚本
8.3初始化以及下载目标网页
8.4进一步探讨

第9章图片抓取网络机器人
9.1图片抓取网络机器人例子
9.2创建图片抓取网络机器人
9.2.1二进制安全下载过程
9.2.2目录结构
9.2.3主脚本
9.3进一步探讨
9.4结论

第10章链接校验网络机器人
10.1创建链接校验网络机器人
10.1.1初始化网络机器人并下载目标网页
10.1.2设置页面基准
10.1.3提取链接
10.1.4运行校验循环
10.1.5生成URL完整路径
10.1.6下载全链接路径
10.1.7展示页面状态
10.2运行网络机器人
10.2.1LIB_http_codes
10.2.2LIB_resolve_addresses
10.3进一步探讨

第11章搜索排名检测网络机器人
11.1搜索结果页介绍
11.2搜索排名检测网络机器人做什么工作
11.3运行搜索排名检测网络机器人
11.4搜索排名检测网络机器人的工作原理
11.5搜索排名检测网络机器人脚本
11.5.1初始化变量
11.5.2开始循环
11.5.3获取搜索结果
11.5.4解析搜索结果
11.6结论
11.6.1对数据源要厚道
11.6.2搜索网站对待网络机器人可能会不同于浏览器
11.6.3爬取搜索引擎不是好主意
11.6.4熟悉GoogleAPI
11.7进一步探讨

第12章信息聚合网络机器人
12.1给网络机器人选择数据源
12.2信息聚合网络机器人举例
12.2.1熟悉RSS源
12.2.2编写信息聚合网络机器人
12.3给信息聚合网络机器人添加过滤机制
12.4进一步探讨

第13章FTP网络机器人
13.1FTP网络机器人举例
13.2PHP和FTP
13.3进一步探讨

第14章阅读电子邮件的网络机器人
14.1POP3协议
14.1.1登录到POP3邮件服务器
14.1.2从POP3邮件服务器上读取邮件
14.2用网络机器人执行POP3命令
14.3进一步探讨
14.3.1电子邮件控制的网络机器人
14.3.2电子邮件接口

第15章发送电子邮件的网络机器人
15.1电子邮件、网络机器人以及垃圾邮件
15.2使用SMTP和PHP发送邮件
15.2.1配置PHP发送邮件
15.2.2使用mail()函数发送电子邮件
15.3编写发送电子邮件通知的网络机器人
15.3.1让合法的邮件不被过滤掉
15.3.2发送HTML格式的电子邮件
15.4进一步探讨
15.4.1使用回复邮件剪裁访问列表
15.4.2使用电子邮件作为你的网络机器人运行的通知
15.4.3利用无线技术
15.4.4编写发送短信的网络机器人

第16章将一个网站转变成一个函数
16.1编写一个函数接口
16.1.1定义函数接口
16.1.2分析目标网页
16.1.3使用describe_zipcode()函数
16.2结论
16.2.1资源分发
16.2.2使用标准接口
16.2.3设计定制的轻量级“Web服务”

第三部分高级设计技巧
第17章蜘蛛
17.1蜘蛛的工作原理
17.2蜘蛛脚本示例
17.3LIB_simple_spider
17.3.1harvest_links()
17.3.2archive_links()
17.3.3get_domain()
17.3.4exclude_link()
17.4使用蜘蛛进行实验
17.5添加载荷
17.6进一步探讨
17.6.1在数据库中保存链接
17.6.2分离链接和载荷
17.6.3在多台计算机上分配任务
17.6.4管理页面请求

第18章采购机器人和秒杀器
18.1采购机器人的原理
18.1.1获取采购标准
18.1.2认证买家
18.1.3核对商品
18.1.4评估购物触发条件
18.1.5执行购买
18.1.6评估结果
18.2秒杀器的原理
18.2.1获取采购标准
18.2.2认证竞拍者
18.2.3核对拍卖商品
18.2.4同步时钟
18.2.5竞价时间
18.2.6提交竞价
18.2.7评估结果
18.3测试自己的网络机器人和秒杀器
18.4进一步探讨
18.5结论

第19章网络机器人和密码学
19.1设计使用加密的网络机器人
19.1.1SSL和PHP内置函数
19.1.2加密和PHP/CURL
19.2网页加密的简要概述
19.3结论

第20章认证
20.1认证的概念
20.1.1在线认证的类型
20.1.2用多种方式加强认证
20.1.3认证和网络机器人
20.2示例脚本和实践页面
20.3基本认证
20.4会话认证
20.4.1使用cookie会话的认证
20.4.2使用查询会话进行认证
20.5结论

第21章高级cookie管理
21.1cookie的工作原理
21.2PHP/CURL和cookie
21.3网络机器人设计中面临的cookie难题
21.3.1擦除临时性cookie
21.3.2管理多用户的cookie
21.4进一步探讨

第22章计划运行网络机器人和蜘蛛
22.1为网络机器人配置计划任务
22.2WindowsXP任务调度程序
22.2.1计划网络机器人按日运行
22.2.2复杂的计划
22.3Windows7任务调度程序
22.4非日历事件触发器
22.5结论
22.5.1如何决定网络机器人的最佳运行周期
22.5.2避免单点故障
22.5.3在计划中加入变化性

第23章使用浏览器宏抓取怪异的网站
23.1高效网页抓取的阻碍
23.1.1AJAX
23.1.2怪异的JavaScript和cookie行为
23.1.3Flash
23.2使用浏览器宏解决网页抓取难题
23.2.1浏览器宏的定义
23.2.2模拟浏览器的终极网络机器人
23.2.3安装和使用iMacros
23.2.4创建第一个宏
23.3结论
23.3.1宏的必要性
23.3.2其他用途

第24章修改iMacros
24.1增强iMacros的功能
24.1.1不使用iMacros脚本引擎的原因
24.1.2创建动态宏
24.1.3自动装载iMacros
24.2进一步探讨

第25章部署和扩展
25.1一对多环境
25.2一对一环境
25.3多对多环境
25.4多对一环境
25.5扩展和拒绝服务攻击
25.5.1简易的网络机器人也会产生大量数据
25.5.2目标的低效
25.5.3过度扩展的弊端
25.6创建多个网络机器人的实例
25.6.1创建进程
25.6.2利用操作系统
25.6.3在多台计算机上分发任务
25.7管理僵尸网络
25.8进一步探讨

第四部分拓展知识
第26章设计隐蔽的网络机器人和蜘蛛
26.1设计隐蔽网络机器人的原因
26.1.1日志文件
26.1.2日志监控软件
26.2模拟人类行为实现隐蔽
26.2.1善待资源
26.2.2在繁忙的时刻运行网络机器人
26.2.3在每天不同时刻运行网络机器人
26.2.4不要在假期和周末运行网络机器人
26.2.5使用随机的延迟时间
26.3结论

第27章代理
27.1代理的概念
27.2虚拟世界中的代理
27.3网络机器人开发者使用代理的原因
27.3.1使用代理实现匿名
27.3.2使用代理改变位置
27.4使用代理服务器
27.4.1在浏览器中使用代理
27.4.2通过PHP/CURL使用代理
27.5代理服务器的类型
27.5.1公共代理
27.5.2Tor
27.5.3商业代理
27.6结论
27.6.1匿名是过程,不是特性
27.6.2创建自己的代理服务

第28章编写容错的网络机器人
28.1网络机器人容错的类型
28.1.1适应URL变化
28.1.2适应页面内容的变化
28.1.3适应表单的变化
28.1.4适应cookie管理的变化
28.1.5适应网络中断和网络拥堵
28.2错误处理器
28.3进一步探讨

第29章设计受网络机器人青睐的网站
29.1针对搜索引擎蜘蛛优化网页
29.1.1定义明确的链接
29.1.2谷歌轰炸和垃圾索引
29.1.3标题标签
29.1.4元标签
29.1.5标头标签
29.1.6图片的alt属性
29.2阻碍搜索引擎蜘蛛的网页设计技巧
29.2.1JavaScript
29.2.2非ASCII内容
29.3设计纯数据接口
29.3.1XML
29.3.2轻量级数据交换
29.3.3简单对象访问协议
29.3.4表征状态转移
29.4结论

第30章消灭蜘蛛
30.1合理地请求
30.1.1创建服务协议条款
30.1.2使用robots.txt文件
30.1.3使用robots元标签
30.2创造障碍
30.2.1选择性地允许特定的网页代理
30.2.2使用混淆
30.2.3使用cookie、加密、JavaScript和重定向
30.2.4认证用户
30.2.5频繁升级网站
30.2.6在其他媒体中嵌入文本
30.3设置陷阱
30.3.1创建蜘蛛陷阱
30.3.2处理不速之客的方法
30.4结论

第31章远离麻烦
31.1尊重
31.2版权
31.2.1请善用资源
31.2.2不要纸上谈兵
31.3侵犯动产
31.4互联网法律
31.5结论

附录APHP/CURL参考
附录B状态码
附录C短信网关
点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP