实战Python网络爬虫
全新正版 极速发货
¥
75.6
7.6折
¥
99
全新
库存2件
作者黄永祥
出版社清华大学出版社
ISBN9787302524892
出版时间2019-05
装帧平装
开本16开
定价99元
货号30629325
上书时间2024-10-21
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
黄永祥,CSDN博客专家和签约讲师,多年软件研发经验,主要从事机器人流程系统研发、大数据系统研发、网络爬虫研发以及自动化运维系统研发。擅长使用Python编写高质量代码,对Python有深入研究,热爱分享和新技术的探索。
目录
第1章 理解网络爬虫1
1.1 爬虫的定义1
1.2 爬虫的类型2
1.3 爬虫的原理2
1.4 爬虫的搜索策略4
1.5 爬虫的合法性与开发流程5
1.6 本章小结6
第2章 爬虫开发基础7
2.1 HTTP与HTTPS7
2.2 请求头9
2.3 Cookies10
2.4 HTML11
2.5 JavaScript12
2.6 JSON14
2.7 Ajax14
2.8 本章小结15
第3章 Chrome分析网站16
3.1 Chrome开发工具16
3.2 Elements标签17
3.3 Network标签18
3.4 分析QQ音乐20
3.5 本章小结23
第4章 Fiddler抓包24
4.1 Fiddler介绍24
4.2 Fiddler安装配置24
4.3 Fiddler抓取手机应用26
4.4 Toolbar工具栏29
4.5 Web Session列表30
4.6 View选项视图32
4.7 Quickexec命令行33
4.8 本章小结34
第5章 爬虫库Urllib35
5.1 Urllib简介35
5.2 发送请求36
5.3 复杂的请求37
5.4 代理IP38
5.5 使用Cookies39
5.6 证书验证40
5.7 数据处理41
5.8 本章小结42
第6章 爬虫库Requests43
6.1 Requests简介及安装43
6.2 请求方式44
6.3 复杂的请求方式45
6.4 下载与上传47
6.5 本章小结49
第7章 Requests-Cache爬虫缓存50
7.1 简介及安装50
7.2 在Requests中使用缓存50
7.3 缓存的存储机制53
7.4 本章小结54
第8章 爬虫库Requests-HTML55
8.1 简介及安装55
8.2 请求方式56
8.3 数据清洗56
8.4 Ajax动态数据抓取59
8.5 本章小结61
第9章 网页操控与数据爬取62
9.1 了解Selenium62
9.2 安装Selenium63
9.3 网页元素定位66
9.4 网页元素操控70
9.5 常用功能73
9.6 实战:百度自动答题80
9.7 本章小结85
第10章 手机App数据爬取86
10.1 Appium简介及原理86
10.2 搭建开发环境87
10.3 连接Android系统92
10.4 App的元素定位97
10.5 App的元素操控99
10.6 实战:淘宝商品采集102
10.7 本章小结107
第11章 Splash、Mitmproxy与Aiohttp109
11.1 Splash动态数据抓取109
11.1.1 简介及安装109
11.1.2 使用Splash的API接口112
11.2 Mitmproxy抓包116
11.2.1 简介及安装116
11.2.2 用Mitmdump抓取爱奇艺视频116
11.3 Aiohttp高并发抓取119
11.3.1 简介及使用119
11.3.2 Aiohttp异步爬取小说排行榜123
11.4 本章小结126
第12章 验证码识别128
12.1 验证码的类型128
12.2 OCR技术129
12.3 第三方平台131
12.4 本章小结134
第13章 数据清洗136
13.1 字符串操作136
13.1.1 截取136
13.1.2 替换137
13.1.3 查找137
13.1.4 分割138
13.2 正则表达式139
13.2.1 正则语法140
13.2.2 正则处理函数141
13.3 BeautifulSoup数据清洗144
13.3.1 BeautifulSoup介绍与安装144
13.3.2 BeautifulSoup的使用示例146
13.4 本章小结149
第14章 文档数据存储150
14.1 CSV数据的写入和读取150
14.2 Excel数据的写入和读取151
14.3 Word数据的写入和读取154
14.4 本章小结156
第15章 ORM框架158
15.1 SQLAlchemy介绍与安装158
15.1.1 操作数据库的方法158
15.1.2 SQLAlchemy框架介绍158
15.1.3 SQLAlchemy的安装159
15.2 连接数据库160
15.3 创建数据表162
15.4 添加数据164
15.5 更新数据165
15.6 查询数据166
15.7 本章小结168
第16章 MongoDB数据库操作169
16.1 MongoDB介绍169
16.2 MogoDB的安装及使用170
16.2.1 MongoDB的安装与配置170
16.2.2 MongoDB可视化工具172
16.2.3 PyMongo的安装173
16.3 连接MongoDB数据库173
16.4 添加文档174
16.5 更新文档175
16.6 查询文档176
16.7 本章小结178
第17章 实战:爬取51Job招聘信息180
17.1 项目分析180
17.2 获取城市编号180
17.3 获取招聘职位总页数182
17.4 爬取每个职位信息184
17.5 数据存储188
17.6 爬虫配置文件190
17.7 本章小结191
第18章 实战:分布式爬虫——QQ音乐193
18.1 项目分析193
18.2 歌曲下载194
18.3 歌手的歌曲信息198
18.4 分类歌手列表201
18.5 全站歌手列表203
18.6 数据存储204
18.7 分布式爬虫205
18.7.1 分布式概念205
18.7.2 并发库concurrent.futures206
18.7.3 分布式策略207
18.8 本章小结209
第19章 实战:12306抢票爬虫211
19.1 项目分析211
19.2 验证码验证211
19.3 用户登录与验证214
19.4 查询车次219
19.5 预订车票225
19.6 提交订单227
19.7 生成订单233
19.8 本章小结236
第20章 实战:玩转微博244
20.1 项目分析244
20.2 用户登录244
20.3 用户登录(带验证码)253
20.4 关键词搜索热门微博259
20.5 发布微博264
20.6 关注用户268
20.7 点赞和转发评论271
20.8 本章小结277
第21章 实战:微博爬虫软件开发278
21.1 GUI库及PyQt5的安装与配置278
21.1.1 GUI库278
21.1.2 PyQt5安装及环境搭建279
21.2 项目分析281
21.3 软件主界面284
21.4 相关服务界面288
21.5 微博采集界面292
21.6 微博发布界面297
21.7 微博爬虫功能308
21.8 本章小结315
第22章 Scrapy爬虫开发317
22.1 认识与安装Scrapy317
22.1.1 常见爬虫框架介绍317
22.1.2 Scrapy的运行机制318
22.1.3 安装Scrapy319
22.2 Scrapy爬虫开发示例320
22.3 Spider的编写326
22.4 Items的编写329
22.5 Item Pipeline的编写330
22.5.1 用MongoDB实现数据入库330
22.5.2 用SQLAlchemy实现数据入库332
22.6 Selectors的编写333
22.7 文件下载336
22.8 本章小结339
第23章 Scrapy扩展开发341
23.1 剖析Scrapy中间件341
23.1.1 SpiderMiddleware中间件342
23.1.2 DownloaderMiddleware中间件344
23.2 自定义中间件347
23.2.1 设置代理IP服务347
23.2.2 动态设置请求头350
23.2.3 设置随机Cookies353
23.3 实战:Scrapy+Selenium爬取豆瓣电影评论355
23.3.1 网站分析355
23.3.2 项目设计与实现357
23.3.3 定义Selenium中间件359
23.3.4 开发Spider程序360
23.4 实战:Scrapy+Splash爬取B站动漫信息362
23.4.1 Scrapy_Splash实现原理363
23.4.2 网站分析363
23.4.3 项目设计与实现365
23.4.4 开发Spider程序367
23.5 实战:Scrapy+Redis分布式爬取猫眼排行榜369
23.5.1 Scrapy_Redis实现原理369
23.5.2 安装Redis数据库371
23.5.3 网站分析372
23.5.4 项目设计与实现373
23.5.5 开发Spider程序375
23.6 分布式爬虫与增量式爬虫377
23.6.1 基于管道实现增量式378
23.6.2 基于中间件实现增量式381
23.7 本章小结384
第24章 实战:爬取链家楼盘信息386
24.1 项目分析386
24.2 创建项目389
24.3 项目配置389
24.4 定义存储字段391
24.5 定义管道类392
24.6 编写爬虫规则396
24.7 本章小结400
第25章 实战:QQ音乐全站爬取402
25.1 项目分析402
25.2 项目创建与配置403
25.2.1 项目创建403
25.2.2 项目配置403
25.3 定义存储字段和管道类405
25.3.1 定义存储字段405
25.3.2 定义管道类405
25.4 编写爬虫规则408
25.5 本章小结413
第26章 爬虫的上线部署415
26.1 非框架式爬虫部署415
26.1.1 创建可执行程序415
26.1.2 制定任务计划程序417
26.1.3 创建服务程序421
26.2 框架式爬虫部署424
26.2.1 Scrapyd部署爬虫服务424
26.2.2 Gerapy爬虫管理框架429
26.3 本章小结434
第27章 反爬虫的解决方案435
27.1 常见的反爬虫技术435
27.2 基于验证码的反爬虫436
27.2.1 验证码出现的情况437
27.2.2 解决方案438
27.3 基于请求参数的反爬虫439
27.3.1 请求参数的数据来源439
27.3.2 请求参数的查找440
27.4 基于请求头的反爬虫441
27.5 基于Cookies的反爬虫443
27.6 本章小结447
第28章 自己动手开发爬虫框架449
28.1 框架设计说明449
28.2 异步爬取方式450
28.3 数据清洗机制455
28.4 数据存储机制457
28.5 实战:用自制框架爬取豆瓣电影463
28.6 本章小结468
内容摘要
本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。
本书使用Python3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。
— 没有更多了 —
以下为对购买帮助不大的评价