Python网络爬虫项目式教程
¥
30.97
5.5折
¥
56
全新
库存5件
作者钱游
出版社电子工业出版社
出版时间2023-08
版次1
装帧其他
货号R4库 12-18
上书时间2024-12-19
商品详情
- 品相描述:全新
图书标准信息
-
作者
钱游
-
出版社
电子工业出版社
-
出版时间
2023-08
-
版次
1
-
ISBN
9787121461972
-
定价
56.00元
-
装帧
其他
-
开本
16开
-
页数
286页
-
字数
457.6千字
- 【内容简介】
-
网络爬虫是按照一定规则自动请求服务器上的网页,并采集网页数据的一种程序或脚本,它可以代替人进行数据采集,也可以自动采集网页数据、高效利用互联网数据,因此在市场应用中占据了重要位置。本书以Windows操作系统为主要开发平台,系统、全面地讲解了网络爬虫的相关知识。本书的主要内容包括保存服务器网页到本地、使用正则表达式提取网页内容、爬取豆瓣电影TOP250栏目、使用requests库爬取电影网站、通过模拟用户登录爬取网站、使用Scrapy框架爬取图片网站、使用分布式爬虫爬取腾讯招聘频道,主要知识点囊括网络爬虫基础知识、网页请求原理、抓取静态网页数据、解析网页数据、抓取动态网页数据、网络爬虫的优化、数据的持久化存储、识别验证码、搭建网络爬虫框架、网络分布式爬虫Scrapy-Redis的开发和部署等。本书内容通俗易懂,案例丰富,实用性强,特别适合Python语言的基础学习者和进阶学习者,也适合Python程序员、爬虫工程师等编程爱好者。本书不仅可以作为高校教材,也可以作为相关培训机构的教材,还可以作为广大网络爬虫开发者的参考书。此外,本书开发了丰富的教学资源库,并免费提供所有素材。
- 【作者简介】
-
钱游,副教授,重庆市名师工作室学员,主要从事人工智能、数据挖掘研究。主持市级项目2项、校级在线课程1门。发表论文16篇,其中中文核心期刊论文3篇,教研教改论文5篇。编写教材5部,获国家级实用新型专利5项,软件著作权4项,软件开发社会服务项目近30项,荣获市级教学成果奖、全国嵌入式竞赛优秀指导老师奖、全国大学生电子设计竞赛(重庆赛区\"TI杯”)一等奖等十余项奖项。
- 【目录】
-
目 录
项目一 保存服务器网页到本地1
任务1 认识网络爬虫2
任务演示2
知识准备2
1. 初步认识网络爬虫2
2. 网络爬虫的结构及其工作原理4
3. 爬虫技术的风险与Robots协议5
4. Python的安装6
5. Pygame的简单使用11
任务实施12
任务拓展13
1. 反爬虫的目的与手段13
2. Windows环境下的MongoDB数据库安装和配置14
3. Linux环境下的MongoDB数据库安装和配置16
任务2 将请求到的网页保存到本地18
任务演示18
知识准备19
1. 使用urllib请求网页19
2. 安装和配置MySQL数据库20
任务实施28
任务拓展29
小结30
复习题31
项目二 使用正则表达式提取网页内容32
任务1 在网页上展示伟大抗疫精神33
任务演示33
知识准备33
1. HTML基础知识33
2. CSS基础知识35
3. CSS样式选择器38
任务实施44
任务拓展45
1. JavaScript的引入45
2. JavaScript的基本语法48
任务2 使用正则表达式提取文本中的指定内容53
任务演示53
知识准备53
1. 正则表达式的基本语法54
2. 正则表达式的使用57
任务实施61
任务拓展62
小结63
复习题63
项目三 爬取豆瓣电影TOP250栏目65
任务1 使用urllib框架请求网页66
任务演示66
知识准备66
1. 网络爬虫开发的基本流程66
2. urllib框架的基本模块66
3. 字符的编码和解码74
任务实施76
1. URL分析76
2. 编码规范77
3. 爬取豆瓣电影TOP250栏目77
任务拓展81
任务2 使用BeautifulSoup4解析网页82
任务演示82
知识准备82
1. BeautifulSoup4的四个对象82
2. 文档的遍历86
3. 文档的搜索91
任务实施95
任务拓展97
任务3 使用XPath解析网页数据99
任务演示99
知识准备99
任务实施105
任务拓展106
任务4 数据的持久化存储108
任务演示108
知识准备108
任务实施116
任务拓展118
小结121
复习题121
项目四 使用requests库爬取电影网站123
任务1 使用requests库请求网页124
任务演示124
知识准备124
1. requests库的安装124
2. GET请求125
3. POST请求126
任务实施129
任务拓展131
任务2 使用requests-html库解析网页136
任务演示136
知识准备136
1. requests-html库的新功能136
2. requests-html库的安装136
3. requests-html库的使用137
任务实施139
任务拓展142
1. 网络爬虫的优化142
2. 将请求到的数据保存到MySQL数据库中145
小结149
复习题149
项目五 通过模拟用户登录爬取网站151
任务1 模拟用户登录152
任务演示152
知识准备152
1. 使用ddddocr模块识别验证码153
2. 使用在线平台进行打码153
任务实施160
1. 对古诗文网的登录验证码进行验证160
2. 实现模拟用户登录163
任务拓展167
1. 携带Cookies请求网页167
2. 古诗文网登录实现169
3. 在登录成功后进行数据采集174
任务2 使用Selenium模拟用户登录豆瓣网175
任务演示175
知识准备176
1. 什么是Selenium176
2. Selenium的安装176
任务实施180
任务拓展182
小结184
复习题185
项目六 使用Scrapy框架爬取图片网站186
任务1 Scrapy开发环境搭建187
任务演示187
知识准备187
1. 常见的爬虫框架187
2. Scrapy框架概述188
任务实施189
任务拓展196
任务2 使用Scrapy框架爬取代理IP200
任务演示200
知识准备200
1. XPath选择器200
2. CSS选择器201
任务实施202
任务拓展210
任务3 Scrapy数据的持久化存储211
任务演示211
知识准备211
1. 基于终端命令存储212
2. 基于管道存储212
任务实施214
1. 实现基于终端命令的数据持久化存储214
2. 实现基于管道的数据持久化存储——使用文本存储数据215
3. 实现基于管道的数据持久化存储—使用MySQL数据库存储数据219
4. 实现基于管道的数据持久化存储——使用Redis数据库存储数据221
5. 实现基于管道的数据持久化存储——使用MongoDB数据库存储数据224
任务拓展227
任务4 爬取图片网站230
任务演示230
知识准备230
任务实施231
任务拓展235
1. 将爬取的图片名及其路径保存到MySQL数据库中235
2. 使用Scrapy框架爬取图说历史栏目236
小结239
复习题239
项目七 使用分布式爬虫爬取腾讯招聘频道241
任务1 搭建Scrapy-Redis开发环境242
任务演示242
知识准备242
1. 分布式爬虫的基本概念242
2. 分布式环境的搭建243
3. 在Ubuntu系统上安装Scrapy247
4. 在CentOS 7系统上安装Scrapy249
任务实施250
任务拓展251
任务2 开发分布式爬虫252
任务演示252
知识准备253
任务实施254
1. 创建Scrapy爬虫254
2. 初始化配置256
3. 网站结构分析256
4. 爬虫的核心代码261
5. 部署分布式爬虫266
任务拓展271
1. 随机请求头271
2. 爬取视频273
小结277
复习题277
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价