作者简介
龚卫,1980年8月出生,男,重庆黔江人,工学硕士,现为重庆工商职业学院电子信息工程学院副教授,国家"双高计划”高水平专业群建设小组核心成员,校骨 。主要从事算法分析与设计,数据挖掘等方向研究。曾主持国家职业教育教学资源库子项目、校网络课程资源建设3项,发表论文10余篇,承担校级及以上项目建设10余项,出版教材3部。
目录
导言
单元1 爬取静态网页
学习情境1.1 使用Requests+BeautifulSoup4+CSV爬取天气预报数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
学习情境1.2 使用Mechanize+BeautifulSoup4+CSV爬取百度搜索结果数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
学习情境1.3 使用Scrapy+XPath+PyMySQL爬取汽车销售分页数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元2 爬取动态网页
学习情境2.1 使用Scrapy+JSON+PyMySQL爬取百度图片数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
学习情境2.2 使用Selenium+PhantomJS爬取漫画数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元3 爬取App数据
学习情境3.1 使用Fiddler+Requests爬取新闻类App接口数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元4 反爬虫策略及解决办法
学习情境4.1 常见反爬虫策略及解决办法
学习情境描述
学习目标
教学引导
知识准备
拓展思考
学习情境4.2 处理输入式验证码校验
学习情境描述
学习目标
任务书
获取信息
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元5 爬虫优化策略
学习情境 Scrapy+Redis分布式爬取电影数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
附录A 《Python网络爬虫》1+X对照表
内容摘要
本教材是一门基于工作过程开发出来的学习领域教材,主要讲解了爬取静态网页、爬取动态网页、爬取APP数据、反爬虫策略及解决办法、爬虫优化策略,面向不同工作场景,划分为若干个学习情境,内容由浅入深,囊括了目前行业爬取数据的全部主流技术。第一部分是爬取静态网页,由三个学习情境讲述:使用Requests+BeautifulSoup4+CSV,使用Mechanize+BeautifulSoup4+CSV,使用Scrapy+XPath+MySQL爬取数据。第二部分是爬取动态网页,使用两个学习情境描述:使用Scrapy+JSON+MySQL使用Selenium+PhantomJS爬取数据。第三部分是爬取APP数据由使用Fiddler+Requests爬取新闻类APP接口数据描述。第四部分反爬虫策略及解决办法。由常见反爬虫策略及解决办法,处理输入式验证码校验讲述。第五部分是爬虫优化策略,讲述了Scrapy+Redis分布式爬取数据。
精彩内容
本教材是一门基于工作过程开发出来的学习领域教材,主要讲解了爬取静态网页、爬取动态网页、爬取APP数据、反爬虫策略及解决办法、爬虫优化策略,面向不同工作场景,划分为若干个学习情境,内容由浅入深,囊括了目前行业爬取数据的全部主流技术。第一部分是爬取静态网页,由三个学习情境讲述:使用Requests+BeautifulSoup4+CSV,使用Mechanize+BeautifulSoup4+CSV,使用Scrapy+XPath+MySQL爬取数据。第二部分是爬取动态网页,使用两个学习情境描述:使用Scrapy+JSON+MySQL使用Selenium+PhantomJS爬取数据。第三部分是爬取APP数据由使用Fiddler+Requests爬取新闻类APP接口数据描述。第四部分反爬虫策略及解决办法。由常见反爬虫策略及解决办法,处理输入式验证码校验讲述。第五部分是爬虫优化策略,讲述了Scrapy+Redis分布式爬取数据。
以下为对购买帮助不大的评价