Python网络爬虫案例实战
正版新书 新华官方库房直发 可开电子发票
¥
62.3
7.0折
¥
89
全新
库存7件
作者李晓东编著
出版社清华大学出版社
ISBN9787302562283
出版时间2021-01
版次1
装帧平装
开本16开
纸张胶版纸
页数376页
字数573千字
定价89元
货号SC:9787302562283
上书时间2024-10-27
商品详情
- 品相描述:全新
-
全新正版 提供发票
- 商品描述
-
主编推荐:
"(1)以案例项目为主线讲述Python爬虫开发中所需的知识和技能
(2)具有超强的实用性,项目随着图书内容的推进不断趋于工程化
(3)书中给出了80多个实例让读者理解概念、原理和算法
"
内容简介:
《Python网络爬虫案例实战》介绍如何利用Python开发网络爬虫,实用性较强。《Python网络爬虫案例实战》以案例项目为驱动,由浅入深地讲解爬虫开发中所需要的知识和技能。从静态网站到动态网站,从单机爬虫到分布式爬虫,既包含基础知识点,又讲解了关键问题和重难点问题,包含从入门到进阶的所有知识。《Python网络爬虫案例实战》主要包括爬虫网络概述、Web前端、静态网络抓取、动态网页抓取、解析网页、Python并发、数据库、反爬虫、乱码问题、登录与验证码、采集服务器、基础爬虫、App爬取、分布式爬虫、爬虫的综合实战等内容。《Python网络爬虫案例实战》适合Python初学者,也适合研究Python的广大科研人员、学者、工程技术人员。
摘要:
第3章
CHAPTER 3
静态网页爬取
在网站设计中,纯粹HTML(标准通用标记语言下的一个应用)格式的网页通常被称为“静态网页”。静态网页是相对于动态网页而言的,是指没有后台数据库、不含程序和不可交互的网页。静态网页的更新相对比较麻烦,适用于一般更新较少的展示型网站。容易让人产生误解的是静态页面都是HTML这类页面,实际上静态也不是接近静态,它也可以出现各种动态的效果,如GIF格式的动画、Flash、滚动字幕等。
在网络爬虫中,静态网页的数据比较容易获取,因为所有数据都呈现在网页的HTML代码中。相对而言,使用AJAX动态加载网络的数据不一定会出现在HTML代码中,这就给爬虫增加了困难。
在静态网页中,有一个强大的Requests库能够让我们方便地发送HTTP请求,这个库功能完善,而且操作非常简单。
3.1Requests的安装
在Windows系统下,Requests库可以通过pip安装。打开cmd或terminal,输入:
pip install requests
即可完成安装,可以输入 import requests 命令来试试是否安装成功,如图31所示即显示安装成功。
图31成功安装Requests
在Requests中,最常用的功能就是获取某个网页内容。现在使用Requests获取个人博客主页的内容。
>>> import requests
>>> r = requests.get('http://www.zhidaow.com')# 发送请求
>>> r.status_code# 返回码
200
>>> r.headers['content-type'] # 返回头部信息
'text/html; charset=utf-8'
>>> r.encoding # 编码信息
'utf-8'
>>> r.text #内容部分(PS,由于编码问题,建议这里使用r.content)
'\n\n\n \n …
其中,
(1) r.text是服务器响应的内容,会自动根据响应头部的字符编码进行解码。
(2) r.encoding是服务器的内容所使用的文本编码。
(3) r.status_code用于检测响应的状态码,如果返回200,则表示请求成功; 如果返回的是4xx,则表示客户端错误; 如果返回5xx,则表示服务器错误响应。可以用r.status_code来检测请求是否正确响应。
(4) r.content是字节方式的响应体,会自动解码gzip和deflate编码的响应数据。
3.2获取响应内容
在Python爬虫网络中,可以使用r
...
目录:
第1章爬虫网络概述
1.1HTTP基本原理
1.1.1URL和URL
1.1.2超文本
1.1.3HTTP和HTTPS
1.1.4HTTP请求过程
1.1.5请求
1.1.6响应
1.2网页基础
1.2.1网页的组成
1.2.2节点树及节点间的关系
1.2.3选择器
1.3网络爬虫合法性
1.3.1Robots协议
1.3.2网络爬虫的约束
1.4网络爬虫技术
1.4.1网络爬虫的概述
1.4.2网络爬虫原理
1.4.3网络爬虫系统的工作原理
1.4.4Python爬虫的架构
1.4.5爬虫对互联网进行划分
1.5爬取策略
1.6爬虫网络更新策略
1.7会话和Cookie
1.7.1静态网页和动态网页
1.7.2无状态HTTP
1.7.3常见误区
1.8代理的基本原理
1.8.1基本原理
1.8.2代理的作用
1.8.3爬虫代理
1.8.4代理分类
1.8.5常见代理设置
1.9习题
第2章Python平台及Web前端
2.1Python软件概述
2.2Python的安装
2.2.1在Linux系统中搭建Python环境
2.2.2在Windows系统中搭建Python环境
2.2.3使用pip安装第三方库
2.3Python的入门
2.3.1基本命令
2.3.2数据类型
...
— 没有更多了 —
全新正版 提供发票
以下为对购买帮助不大的评价