• Python3反爬虫原理与绕过实战
  • Python3反爬虫原理与绕过实战
  • Python3反爬虫原理与绕过实战
21年品牌 40万+商家 超1.5亿件商品

Python3反爬虫原理与绕过实战

全新正版 极速发货

61.63 6.9折 89 全新

库存3件

广东广州
认证卖家担保交易快速发货售后保障

作者韦世东

出版社人民邮电

ISBN9787115528735

出版时间2020-01

装帧其他

开本其他

定价89元

货号30808863

上书时间2024-06-13

书香美美

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
导语摘要
【人气推荐】《Python3网络爬虫开发实战》作者、微软小冰工程师崔庆才作序,腾讯、马蜂窝工程师倾力推荐。
【干货满满】爬虫工程师不可错过的“武功秘籍”,内容包括但不限于Cookie反爬虫、WebSocket反爬虫、字体反爬虫、WebDriver反爬虫、App反爬虫、验证码反爬虫。
【反爬虫原理+爬虫实战】从实战出发,印证国内互联网企业内部加密原理,侧重讲解反爬虫的原理以及绕过方法。
【21个反爬虫示例】结合练习平台Steamboat,帮助读者随时复现书中的21个爬虫示例,巩固所学知识。
名人推荐本书内容十分详尽,几乎涵盖了市面上所有的反爬虫类型,包括但不限于Cookie反爬虫、WebSocket反爬虫、字体反爬虫、WebDriver反爬虫、App反爬虫、验证码反爬虫。书中首先对各类反爬虫技术进行了合理的归类,然后通过剖析多个案例帮助大家理解各类反爬虫技术的原理。另外,书中还针对各类反爬虫给出了对应的绕过和破解方案。这本书干货满满,可以帮助大家全面了解爬虫和反爬虫的各类技术,强烈推荐给大家。
——崔庆才微软小冰工程师《Python3网络爬虫开发实战》作者在大数据时代,所有公司都离不开数据,而获取数据非常快的方式就是利用爬虫去爬取。随着爬虫的增多,反爬虫水平也在不断提高。本书作者自己搭建了21个示例,深入解析了CSS偏移、字体反爬虫、JavaScript混淆、App逆向、验证码破解和加密算法等知识,并用详细的代码手把手教你如何实现反爬虫以及如何破解反爬虫,让大家真正做到“知其然,知其所以然”。强烈推荐给每一位想要从事爬虫工作,以及希望提高爬虫技术水平的朋友们。
——陈祥安马蜂窝高级工程师我见证了作者从一个零基础小白逐渐成长为一名出色的爬虫工程师的过程。相信本书不仅是技术满满的干货集,也是他记录成长历程的诚意之作!
——BruceDone腾讯后端开发工程师

目录
第 1章 开发环境配置1
1.1 操作系统的选择1
1.1.1 Ubuntu 简介1
1.1.2 VirtualBox 的安装2
1.1.3 安装 Ubuntu3
1.1.4 全屏设置8
1.1.5 Python 设置9
1.2 练习平台 Steamboat10
1.2.1 安装 Docker11
1.2.2 安装 Steamboat12
1.2.3 Steamboat 使用说明14
1.3 第三方库的安装15
1.3.1 Requests15
1.3.2 Selenium15
1.3.3 浏览器驱动16
1.3.4 Splash18
1.3.5 Puppeteer18
1.3.6 PyTesseract20
1.4 常用软件的安装21
1.4.1 nginx21
1.4.2 Charles22
1.4.3 PC端 SSL 证书23
1.4.4 iOS 系统的证书设置26
1.4.5 Andriod 模拟器的安装与证书设置27
1.4.6 Postman29
1.4.7 Google Chrome32
1.4.8 JADX33
1.5 深度学习环境配置35
1.5.1 NVIDIA显卡驱动安装35
1.5.2 CUDA Toolkit 的安装38
1.5.3 cuDNN 的安装40
1.5.4 深度学习库 PyTorch41
1.5.5 深度学习框架 Darknet42
1.5.6 图片标注工具 LabelImg43
1.6 Node.js 环境配置44
1.6.1 Node.js 的安装44
1.6.2 UglifyJS 的安装45
第 2章 Web网站的构成和页面渲染47
2.1 nginx服务器47
2.1.1 nginx的信号48
2.1.2 nginx配置文件49
2.1.3 简单的代理服务50
2.1.4 nginx模块与指令52
2.1.5 nginx日志57
2.1.6 小结58
2.2 浏览器58
2.2.1 浏览器的主要结构59
2.2.2 页面渲染60
2.2.3 HTML DOM62
2.2.4 浏览器对象BOM65
2.2.5 小结70
2.3 网络协议71
2.3.1 认识HTTP71
2.3.2 资源与资源标识符72
2.3.3 HTTP请求与响应74
2.3.4 Cookie77
2.3.5 了解HTTPS80
2.3.6 认识WebSocket81
2.3.7 WebSocket握手81
2.3.8 数据传输与数据帧83
2.3.9 WebSocket连接85
2.3.10 连接保持87
2.3.11 小结88
本章总结88
第3章 爬虫与反爬虫89
3.1 动态网页与网页源代码89
3.2 爬虫知识回顾90
3.3 反爬虫的概念与定义95
本章总结96
第4章 信息校验型反爬虫97
4.1 User-Agent 反爬虫97
4.1.1 User-Agent 反爬虫绕过实战97
4.1.2 User-Agent 反爬虫的原理与实现100
4.1.3 小结103
4.2 Cookie 反爬虫103
4.2.1 Cookie 反爬虫绕过实战103
4.2.2 Cookie 反爬虫原理与实现109
4.2.3 Cookie 与 JavaScript 结合110
4.2.4 用户过滤112
4.2.5 小结113
4.3 签名验证反爬虫114
4.3.1 签名验证反爬虫绕过实战114
4.3.2 签名验证反爬虫原理与实现121
4.3.3 有道翻译反爬虫案例123
4.3.4 小结125
4.4 WebSocket 握手验证反爬虫125
4.5 WebSocket 消息校验反爬虫129
4.5.1 WebSocket 消息校验反爬虫示例130
4.5.2 乐鱼体育反爬虫案例132
4.6 WebSocket Ping反爬虫133
本章总结134
第5章 动态渲染反爬虫135
5.1 常见的动态渲染反爬虫案例135
5.1.1 自动执行的异步请求案例135
5.1.2 点击事件和计算138
5.1.3 下拉加载和异步请求142
5.1.4 小结144
5.2 动态渲染的通用解决办法144
5.2.1 Selenium 套件144
5.2.2 异步渲染库 Puppeteer148
5.2.3 异步渲染服务 Splash150
5.2.4 通用不一定适用154
5.2.5 渲染工具知识扩展156
5.2.6 小结160
本章总结160
第6章 文本混淆反爬虫161
6.1 图片伪装反爬虫161
6.1.1 图片伪装反爬虫绕过实战161
6.1.2 广西人才网反爬虫案例164
6.1.3 小结165
6.2 CSS 偏移反爬虫165
6.2.1 CSS 偏移反爬虫绕过实战166
6.2.2 去哪儿网反爬虫案例172
6.2.3 小结174
6.3 SVG 映射反爬虫174
6.3.1 SVG 映射反爬虫绕过实战174
6.3.2 大众点评反爬虫案例177
6.3.3 SVG 反爬虫原理179
6.3.4 小结186
6.4 字体反爬虫186
6.4.1 字体反爬虫示例186
6.4.2 字体文件 WOFF189
6.4.3 字体反爬虫绕过实战196
6.4.4 小结198
6.5 文本混淆反爬虫通用解决办法199
6.5.1 光学字符识别 OCR199
6.5.2 PyTesseract 的缺点201
6.5.3 文字识别 API202
6.5.4 小结206
本章总结206
第7章 特征识别反爬虫207
7.1 WebDriver 识别207
7.1.1 WebDriver 识别示例207
7.1.2 WebDriver 识别原理210
7.1.3 WebDriver 识别的绕过方法211
7.1.4 淘宝网 WebDriver 案例214
7.1.5 小结215
7.2 浏览器特征215
7.3 爬虫特征219
7.3.1 访问频率限制绕过实战219
7.3.2 访问频率限制的原理与实现222
7.3.3 浏览器指纹知识扩展223
7.3.4 淘宝网浏览器指纹案例227
7.3.5 小结228
7.4 隐藏链接反爬虫228
7.4.1 隐藏链接反爬虫示例228
7.4.2 隐藏链接反爬虫原理与实现231
7.4.3 小结233
本章总结234
第8章 App反爬虫235
8.1 App 抓包235
8.1.1 HTTP 抓包示例235
8.1.2 掌上英雄联盟抓包案例(HTTP)240
8.1.3 京东商城抓包案例(HTTPS)243
8.1.4 小结246
8.2 APK文件反编译246
8.2.1 App 签名验证反爬虫示例246
8.2.2 APK文件反编译实战248
8.2.3 小结251
8.3 代码混淆反爬虫251
8.3.1 Android 代码混淆原理252
8.3.2 掘金社区 App 代码混淆案例255
8.3.3 小结257
8.4 App 应用加固知识扩展257
8.5 了解应用程序自动化测试工具260
8.5.1 了解 Appium260
8.5.2 了解 Airtest Project260
8.5.3 小结262
本章总结262
第9章 验证码263
9.1 字符验证码263
9.1.1 字符验证码示例263
9.1.2 实现字符验证码266
9.1.3 深度学习的概念269
9.1.4 卷积神经网络的概念272
9.1.5 使用卷积神经网络预测验证码276
9.1.6 小结286
9.2 计算型验证码286
9.2.1 计算型验证码示例286
9.2.2 实现计算型验证码288
9.2.3 小结291
9.3 滑动验证码291
9.3.1 滑动验证码示例291
9.3.2 实现滑动验证码295
9.3.3 小结298
9.4 滑动拼图验证码298
9.4.1 滑动拼图验证码示例299
9.4.2 实现滑动拼图验证码302
9.4.3 难度升级307
9.4.4 图片中的缺口位置识别308
9.4.5 小结310
9.5 文字点选验证码310
9.5.1 文字点选验证码示例310
9.5.2 实现文字点选验证码312
9.5.3 目标检测的概念316
9.5.4 深度学习实现文字定位317
9.5.5 批量检测与坐标输出323
9.5.6 小结330
9.6 鼠标轨迹的检测和原理330
9.7 验证码产品赏析336
9.7.1 滑动验证码336
9.7.2 图标验证码337
9.7.3 空间推理验证码338
9.7.4 小结338
本章总结338
第 10章 综合知识339
10.1 编码与加密339
10.1.1 ASCII 编码339
10.1.2 详解 Base64342
10.1.3 基于编码的反爬虫设计344
10.1.4  MD5消息摘要算法347
10.1.5 对称加密与 AES352
10.1.6 非对称加密与 RSA357
10.1.7 小结360
10.2 JavaScript 代码混淆360
10.2.1 常见的混淆方法361
10.2.2 混淆代码的还原363
10.2.3 混淆原理365
10.2.4 实现一个简单的混淆器366
10.2.5 小结369
10.3 前端禁止事件369
10.3.1 禁止鼠标事件370
10.3.2 禁止键盘事件371
10.3.3 小结372
10.4 法律法规372
10.4.1 数据安全管理办法征求意见稿374
10.4.2 爬虫协议 Robots375
10.4.3 与爬虫相关的法律法规376
10.4.4 小结377
本章总结377

内容摘要
本书首先介绍了开发环境的配置,接着讨论了Web网站的构成和页面渲染、动态网页和静态网页对爬虫造成的影响,紧接着详细介绍了信息校验型反爬虫、动态渲染反爬虫、文本混淆反爬虫知识、特征识别反爬虫的原理、实现和绕过,然后概览了App数据爬取的关键和常用的反爬虫手段,最后介绍了常见的编码和加密原理、JavaScript代码混淆知识、前端禁止事件以及与爬虫相关的法律知识和风险点。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP