• Python网络爬虫项目式教程
21年品牌 40万+商家 超1.5亿件商品

Python网络爬虫项目式教程

正版保障 假一赔十 可开发票

35.18 6.3折 56 全新

库存59件

广东广州
认证卖家担保交易快速发货售后保障

作者钱游主编

出版社电子工业出版社

ISBN9787121461972

出版时间2023-08

装帧平装

开本其他

定价56元

货号13542621

上书时间2024-12-21

灵感书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
钱游,重庆城市职业学院副教授,重庆市名师工作室学员,从事人工智能、数据挖掘研究,主持市级项目2项,主持校级在线课程1门,发表论文16篇,其中中文核心期刊论文3篇,教研教改论文5篇。编写教材5部,获重量实用新型专利5项,软件著作权4项,软件开发社会服务项目近30项。获市级教学成果奖、全国嵌入式竞赛优秀指导老师奖1项、全国大学生电子设计竞赛(重庆赛区“TI杯”)一等奖等十余项。

目录
目    录 项目一  保存服务器网页到本地 1 任务1  认识网络爬虫 2 任务演示 2 知识准备 2 1. 初步认识网络爬虫 2 2. 网络爬虫的结构及其工作原理 4 3. 爬虫技术的风险与Robots协议 5 4. Python的安装 6 5. Pygame的简单使用 11 任务实施 12 任务拓展 13 1. 反爬虫的目的与手段 13 2. Windows环境下的MongoDB数据库安装和配置 14 3. Linux环境下的MongoDB数据库安装和配置 16 任务2  将请求到的网页保存到本地 18 任务演示 18 知识准备 19 1. 使用urllib请求网页 19 2. 安装和配置MySQL数据库 20 任务实施 28 任务拓展 29 小结 30 复习题 31 项目二  使用正则表达式提取网页内容 32 任务1  在网页上展示伟大抗疫精神 33 任务演示 33 知识准备 33 1. HTML基础知识 33 2. CSS基础知识 35 3. CSS样式选择器 38 任务实施 44 任务拓展 45 1. JavaScript的引入 45 2. JavaScript的基本语法 48 任务2  使用正则表达式提取文本中的指定内容 53 任务演示 53 知识准备 53 1. 正则表达式的基本语法 54 2. 正则表达式的使用 57 任务实施 61 任务拓展 62 小结 63 复习题 63 项目三  爬取豆瓣电影TOP250栏目 65 任务1  使用urllib框架请求网页 66 任务演示 66 知识准备 66 1. 网络爬虫开发的基本流程 66 2. urllib框架的基本模块 66 3. 字符的编码和解码 74 任务实施 76 1. URL分析 76 2. 编码规范 77 3. 爬取豆瓣电影TOP250栏目 77 任务拓展 81 任务2  使用BeautifulSoup4解析网页 82 任务演示 82 知识准备 82 1. BeautifulSoup4的四个对象 82 2. 文档的遍历 86 3. 文档的搜索 91 任务实施 95 任务拓展 97 任务3  使用XPath解析网页数据 99 任务演示 99 知识准备 99 任务实施 105 任务拓展 106 任务4  数据的持久化存储 108 任务演示 108 知识准备 108 任务实施 116 任务拓展 118 小结 121 复习题 121 项目四  使用requests库爬取电影网站 123 任务1  使用requests库请求网页 124 任务演示 124 知识准备 124 1. requests库的安装 124 2. GET请求 125 3. POST请求 126 任务实施 129 任务拓展 131 任务2  使用requests-html库解析网页 136 任务演示 136 知识准备 136 1. requests-html库的新功能 136 2. requests-html库的安装 136 3. requests-html库的使用 137 任务实施 139 任务拓展 142 1. 网络爬虫的优化 142 2. 将请求到的数据保存到MySQL数据库中 145 小结 149 复习题 149 项目五  通过模拟用户登录爬取网站 151 任务1  模拟用户登录 152 任务演示 152 知识准备 152 1. 使用ddddocr模块识别验证码 153 2. 使用在线平台进行打码 153 任务实施 160 1. 对古诗文网的登录验证码进行验证 160 2. 实现模拟用户登录 163 任务拓展 167 1. 携带Cookies请求网页 167 2. 古诗文网登录实现 169 3. 在登录成功后进行数据采集 174 任务2  使用Selenium模拟用户登录豆瓣网 175 任务演示 175 知识准备 176 1. 什么是Selenium 176 2. Selenium的安装 176 任务实施 180 任务拓展 182 小结 184 复习题 185 项目六  使用Scrapy框架爬取图片网站 186 任务1  Scrapy开发环境搭建 187 任务演示 187 知识准备 187 1. 常见的爬虫框架 187 2. Scrapy框架概述 188 任务实施 189 任务拓展 196 任务2  使用Scrapy框架爬取代理IP 200 任务演示 200 知识准备 200 1. XPath选择器 200 2. CSS选择器 201 任务实施 202 任务拓展 210 任务3  Scrapy数据的持久化存储 211 任务演示 211 知识准备 211 1. 基于终端命令存储 212 2. 基于管道存储 212 任务实施 214 1. 实现基于终端命令的数据持久化存储 214 2. 实现基于管道的数据持久化存储――使用文本存储数据 215 3. 实现基于管道的数据持久化存储―使用MySQL数据库存储数据 219 4. 实现基于管道的数据持久化存储――使用Redis数据库存储数据 221 5. 实现基于管道的数据持久化存储――使用MongoDB数据库存储数据 224 任务拓展 227 任务4  爬取图片网站 230 任务演示 230 知识准备 230 任务实施 231 任务拓展 235 1. 将爬取的图片名及其路径保存到MySQL数据库中 235 2. 使用Scrapy框架爬取图说历史栏目 236 小结 239 复习题 239 项目七  使用分布式爬虫爬取腾讯招聘频道 241 任务1  搭建Scrapy-Redis开发环境 242 任务演示 242 知识准备 242 1. 分布式爬虫的基本概念 242 2. 分布式环境的搭建 243 3. 在Ubuntu系统上安装Scrapy 247 4. 在CentOS 7系统上安装Scrapy 249 任务实施 250 任务拓展 251 任务2 开发分布式爬虫 252 任务演示 252 知识准备 253 任务实施 254 1. 创建Scrapy爬虫 254 2. 初始化配置 256 3. 网站结构分析 256 4. 爬虫的核心代码 261 5. 部署分布式爬虫 266 任务拓展 271 1. 随机请求头 271 2. 爬取视频 273 小结 277 复习题 277

内容摘要
网络爬虫是按照一定规则自动请求服务器上的网页,并采集网页数据的一种程序或脚本,它可以代替人进行数据采集,也可以自动采集网页数据、高效利用互联网数据,因此在市场应用中占据了重要位置。本书以Windows操作系统为主要开发平台,系统、全面地讲解了网络爬虫的相关知识。本书的主要内容包括保存服务器网页到本地、使用正则表达式提取网页内容、爬取豆瓣电影TOP250栏目、使用requests库爬取电影网站、通过模拟用户登录爬取网站、使用Scrapy框架爬取图片网站、使用分布式爬虫爬取腾讯招聘频道,主要知识点囊括网络爬虫基础知识、网页请求原理、抓取静态网页数据、解析网页数据、抓取动态网页数据、网络爬虫的优化、数据的持久化存储、识别验证码、搭建网络爬虫框架、网络分布式爬虫Scrapy-Redis的开发和部署等。本书内容通俗易懂,案例丰富,实用性强,特别适合Python语言的基础学习者和进阶学习者,也适合Python程序员、爬虫工程师等编程爱好者。本书不仅可以作为高校教材,也可以作为相关培训机构的教材,还可以作为广大网络爬虫开发者的参考书。此外,本书开发了丰富的教学资源库,并免费提供所有素材。

精彩内容
网络爬虫是按照一定规则自动请求服务器上的网页,并采集网页数据的一种程序或脚本,它可以代替人进行数据采集,也可以自动采集网页数据、高效利用互联网数据,因此在市场应用中占据了重要位置。本书以Windows操作系统为主要开发平台,系统、全面地讲解了网络爬虫的相关知识。本书的主要内容包括保存服务器网页到本地、使用正则表达式提取网页内容、爬取豆瓣电影TOP250栏目、使用requests库爬取电影网站、通过模拟用户登录爬取网站、使用Scrapy框架爬取图片网站、使用分布式爬虫爬取腾讯招聘频道,主要知识点囊括网络爬虫基础知识、网页请求原理、抓取静态网页数据、解析网页数据、抓取动态网页数据、网络爬虫的优化、数据的持久化存储、识别验证码、搭建网络爬虫框架、网络分布式爬虫Scrapy-Redis的开发和部署等。本书内容通俗易懂,案例丰富,实用性强,特别适合Python语言的基础学习者和进阶学习者,也适合Python程序员、爬虫工程师等编程爱好者。本书不仅可以作为高校教材,也可以作为相关培训机构的教材,还可以作为广大网络爬虫开发者的参考书。此外,本书开发了丰富的教学资源库,并免费提供所有素材。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP