Python网络爬虫技术与实战
¥
31
3.5折
¥
89
全新
仅1件
作者赵国生 王健
出版社机械工业出版社
出版时间2021-02
版次1
装帧平装
货号25-6
上书时间2024-11-15
商品详情
- 品相描述:全新
图书标准信息
-
作者
赵国生 王健
-
出版社
机械工业出版社
-
出版时间
2021-02
-
版次
1
-
ISBN
9787111674115
-
定价
89.00元
-
装帧
平装
-
开本
16开
-
纸张
胶版纸
-
页数
472页
-
字数
288千字
- 【内容简介】
-
本书是一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。在内容编排上,一步步地剖析算法背后的概念与原理,提供大量简洁的代码实现,助你从零基础开始编程实现深度学习算法。
全书按照学习爬虫所涉及的核心技术从易到难,再到应用的顺序分为14章。第1章介绍Python的安装配置和基础语法。 第2章介绍爬虫类型、抓取策略以及网络基础知识。第3章介绍Python常用库。第4章介绍正则表达式的语法、匹配规则。第5章讲解PIL库、Tesseract库和TensorFlow库的语法、类型和识别方法。第6章介绍抓包利器Fiddler。第7章介绍数据存储。第8章介绍Scrapy爬虫框架。第9章介绍多线程爬虫。第10章介绍动态网页爬虫。第11章介绍分布式爬虫。第12章介绍电商网站商品信息爬虫项目。第13章介绍生活娱乐点评类信息爬虫。第14章介绍图片信息类爬虫项目。
- 【作者简介】
-
赵国生,哈尔滨师范大学教授,工学博士,硕士生导师,黑龙江省网络安全技术领域特殊人才。
- 【目录】
-
前言
第1章 Python环境搭建及基础学习1
1.1 Python 3.6的安装与配置1
1.1.1 Windows下的安装1
1.1.2 Linux下的安装5
1.1.3 macOS下的安装6
1.2 IDE工具:PyCharm的安装7
1.3 基础语法11
1.3.1 第一个Python程序11
1.3.2 Python命名规范13
1.3.3 行和缩进15
1.3.4 注释和续行15
1.3.5 Python输出16
1.4 字符串18
1.4.1 字符串运算符18
1.4.2 字符串内置函数19
1.5 数据结构22
1.5.1 列表22
1.5.2 元组25
1.5.3 集合27
1.5.4 字典29
1.6 控制语句31
1.6.1 条件表达式31
1.6.2 选择结构32
1.6.3 循环结构33
1.7 函数、模块和包36
1.7.1 函数36
1.7.2 模块40
1.7.3 包42
1.8 文件的读写操作 45
1.8.1 文件读写步骤与打开模式46
1.8.2 文件的基本操作48
1.8.3 文件写入操作52
1.9 面向对象53
1.9.1 类和对象54
1.9.2 封装性58
1.9.3 继承性59
1.9.4 多态性60
1.10 本章小结61
练习题61
第2章 爬虫原理和网络基础62
2.1 爬虫是什么62
2.2 爬虫的意义62
2.3 爬虫的原理64
2.4 爬虫技术的类型66
2.4.1 聚焦爬虫技术66
2.4.2 通用爬虫技术67
2.4.3 增量爬虫技术69
2.4.4 深层网络爬虫技术70
2.5 爬虫抓取策略71
2.5.1 深度优先遍历策略 71
2.5.2 广度优先遍历策略71
2.5.3 Partial PageRank策略72
2.5.4 大站优先策略72
2.5.5 反向链接数策略73
2.5.6 OPIC策略 73
2.6 反爬虫和反反爬虫73
2.6.1 反爬虫73
2.6.2 反反爬虫77
2.7 网络基础79
2.7.1 网络体系结构79
2.7.2 网络协议79
2.7.3 Socket编程86
2.8 本章小结88
练习题88
第3章 Python常用库89
3.1 Python库的介绍89
3.1.1 常用标准库89
3.1.2 安装使用第三方库91
3.2 urllib库92
3.2.1 urlopen()函数用法93
3.2.2 urlretrieve()函数用法95
3.2.3 URL编码和URL解码96
3.2.4 urlparse()和urlsplit()函数用法97
3.3 request库99
3.3.1 request库的基本使用99
3.3.2 request库的高级用法109
3.4 lxml库113
3.4.1 lxml库的安装和使用113
3.4.2 XPath介绍114
3.4.3 XPath语法116
3.4.4 lxml和XPath的结合使用119
3.5 Beautiful Soup库122
3.5.1 Beautiful Soup库的安装和使用123
3.5.2 提取数据125
3.5.3 CSS选择器131
3.6 实战案例134
3.6.1 使用Beautiful Soup解析网页134
3.6.2 微信公众号爬虫135
3.6.3 爬取豆瓣读书TOP500136
3.6.4 使用urllib库爬取百度贴吧137
3.7 本章小结139
练习题139
第4章 正则表达式140
4.1 概念介绍140
4.2 正则表达式语法141
4.2.1 正则模式的字符141
4.2.2 运算符优先级142
4.3 匹配规则143
4.3.1 单字符匹配规则143
4.3.2 多字符匹配规则144
4.3.3 边界匹配146
4.3.4 分组匹配147
4.4 re模块常用函数150
4.4.1 re.match函数150
4.4.2 re.search函数152
4.4.3 re.compile函数153
4.4.4 re.sub函数155
4.4.5 re.findall函数156
4.4.6 re.finditer函数157
4.4.7 re.split函数157
4.5 本章小结158
练习题158
第5章 验证码159
5.1 PIL库159
5.1.1 PIL库的安装159
5.1.2 PIL库的常用函数160
5.1.3 PIL库的应用163
5.1.4 应用PIL到实际开发169
5.2 Tesseract库172
5.2.1 Tesseract库的安装172
5.2.2 Tesseract库的使用174
5.2.3 Tesseract库的识别训练174
5.3 TensorFlow库180
5.3.1 TensorFlow库的安装180
5.3.2 TensorFlow基本操作184
5.3.3 TensorFlow基础架构186
5.3.4 TensorFlow创建线性回归模型189
5.3.5 TensorFlow识别知乎验证码190
5.4 4种验证码的解决思路191
5.5 OCR处理验证码194
5.6 实战案例195
5.7 本章小结199
练习题199
第6章 抓包利器Fiddler200
6.1 Fiddler简介200
6.2 Fiddler的安装和配置200
6.2.1 Fiddler的安装201
6.2.2 Fiddler的配置202
6.3 Fiddler捕获会话205
6.4 QuickExec命令行的使用207
6.5 Fiddler断点功能209
6.6 Fiddler的实用工具210
6.7 实战案例212
6.7.1 使用Fiddler抓取数据并分析212
6.7.2 使用Fiddler抓取HTTPS流量214
6.7.3 使用Fiddler抓取手机应用215
6.8 本章小结219
练习题219
第7章 数据存储220
7.1 数据的基本存储220
7.1.1 数据存储至TXT220
7.1.2 数据存储至CSV222
7.1.3 数据存储至JSON223
7.2 数据存储至MySQL数据库227
7.2.1 配置MySQL服务227
7.2.
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价