Python爬虫实战基础
①全新正版,现货速发,7天无理由退换货②天津、成都、无锡、广东等多仓就近发货,订单最迟48小时内发出③无法指定快递④可开电子发票,不清楚的请咨询客服。
¥
68.57
6.3折
¥
109
全新
仅1件
作者李科均|责编:安妮//李燕
出版社清华大学
ISBN9787302626565
出版时间2023-06
装帧平装
开本其他
定价109元
货号31750281
上书时间2024-10-13
商品详情
- 品相描述:全新
- 商品描述
-
目录
第1章 基础开发环境
1.1 Docker环境的搭建
1.1.1 安装Docker
1.1.2 用Docker安装MySQL
1.1.3 用Docker安装Redis
1.1.4 用Docker安装MongoDB
1.1.5 用Docker安装Selenium Grid
1.2 Python的开发环境
1.2.1 Python的优点、缺点
1.2.2 Python解释器
1.2.3 Python IDE
1.3 JavaScript的运行环境
1.4 辅助工具的安装
1.4.1 安装Git
1.4.2 安装ADB驱动
1.4.3 安装Fiddler
1.4.4 安装Postman
1.4.5 XPath测试插件
第2章 HTML页面的信息提取
2.1 HTML页面解析概述
2.1.1 HTML页面的构成原理
2.1.2 Python提取HTML页面信息的方式
2.2 XPath提取HTML页面信息
2.2.1 XPath基础
2.2.2 XPath教程
2.2.3 XPath技巧
2.3 正则表达式
2.3.1 基本语法
2.3.2 表达式全集
2.3.3 表达式字符组、优先权
2.3.4 表达式的分组与引用
2.3.5 Python re模块
2.4 案例
2.4.1 正则校验公民身份号码的合法性
2.4.2 下载微信文章及其静态资源
第3章 日志模块
3.1 日志基础
3.1.1 应用场景及重要性
3.1.2 日志的使用
3.2 四大组件之Logger(记录器)
3.2.1 Logger的作用
3.2.2 Logger的属性和方法
3.2.3 Logger的常用配置方法
3.2.4 案例: 为日志记录器添加自定义过滤器
3.3 四大组件之Handler(处理器)
3.3.1 Handle的作用
3.3.2 Handle的属性和方法
3.3.3 Handle的常用方法
3.3.4 内置Handler类型及功能
3.3.5 案例一: 将日志写入磁盘文件
3.3.6 案例二: 将日志文件按时间分割
3.3.7 案例三: 将日志文件按大小分割
3.3.8 案例四: 给指定邮箱发送日志消息
3.3.9 案例五: Web日志服务器的传参、认证和调用
3.4 四大组件之Formatter(格式化器)
3.4.1 Formatter的属性和方法
3.4.2 可选格式化字段
3.5 四大组件之Filters(过滤器)
3.5.1 Filters的属性和方法
3.5.2 自定义Filters
3.6 LogRecord对象
3.6.1 LogRecord的属性和方法
3.6.2 构造LogRecord实例化对象
3.6.3 案例: Web日志服务器恢复LogRecord对象
3.7 日志的配置
3.7.1 显式配置
3.7.2 通过fileConfig配置
3.7.3 通过dictConfig配置
第4章 数据库操作
4.1 通过ORM模型操作MySQL
4.1.1 什么是ORM模型
4.1.2 SQLAlchemy是什么
4.1.3 SQLAlchemy基础
4.1.4 数据库引擎配置
4.1.5 创建会话
4.1.6 创建声明性类
4.1.7 定义数据列及类型
4.1.8 增、改、查、删
4.1.9 ORM事务操作
4.1.10 常用关系表的创建
4.1.11 关系表数据的插入
4.1.12 连接查询
4.1.13 关系表数据的删除
4.2 MongoDB数据库
4.2.1 MongoDB基础
4.2.2 MongoDB文档的增、删、改
4.2.3 MongoDB文档查询
4.2.4 MongoDB的聚合
4.2.5 MongoDB索引操作
4.2.6 MongoDB的复制
4.2.7 MongoDB的备份与恢复
4.2.8 Python与MongoDB交互
4.3 Redis操作
4.3.1 Redis基础
4.3.2 Python操作Redis的流程
4.3.3 Python中常用的Redis命令
4.3.4 Python中使用Redis去重
4.3.5 Redis内置布隆过滤器
4.3.6 使用Redis作消息队列
4.3.7 打造Redis发布订阅框架
第5章 机制与协议
5.1 TCP/IP协议簇
5.1.1 互联网协议套件
5.1.2 TCP/IP协议簇的组成
5.1.3 TCP/IP参考模型
5.2 TCP与UDP协议
5.2.1 socket通信
5.2.2 UDP协议
5.2.3 TCP协议
5.2.4 TCP的三次握手
5.2.5 TCP的四次挥手
5.2.6 TCP长连接
5.3 HTTP与HTTPS协议
5.3.1 HTTP协议的实现
5.3.2 使用socket实现HTTP协议服务器
5.3.3 HTTPS协议的实现
5.3.4 关于TLS与SSL协议
5.3.5 一次爬虫请求的过程
5.3.6 HTTP响应状态码
5.3.7 HTTP请求头与响应头
5.4 WebSocket协议
5.4.1 协议内容
5.4.2 Python连接WebSocket
5.4.3 案例: 虚拟货币实时价格爬虫
5.5 SMTP协议与IMAP协议
5.5.1 SMTP协议
5.5.2 IMAP协议
5.5.3 Python使用SMTP关键接口
5.5.4 Python使用IMAP关键接口
5.5.5 案例一: 发送HTML格式的邮件
5.5.6 案例二: 发送带附件的邮件
5.5.7 案例三: 发送显示图片的HTML格式的邮件
5.5.8 案例四: 自动读取邮箱验证码
5.6 Robots协议
5.7 安全与会话机制
5.7.1 CSRF攻击与保护
5.7.2 CSRF验证过程
5.7.3 Cookie机制
5.7.4 会话
5.7.5 Token与JWT
5.
内容摘要
本书介绍Python网络爬虫开发从业者应掌握的基础技能。本书以网络爬虫为核心,涉及大大小小数十个能力体系。本书的前半部分介绍爬虫开发的基础知识,包括爬虫开发必备的环境搭建方法、开
发中常用工具的使用方法和技巧、网页的构成原理和网页信息提取的方法、常用数据库的使用方法和应用场景,如通过Redis内置的布隆过滤器实现大规模URL地址的去重任务。本书的后半部分主要讲解网络爬虫开发所需的必要能力,包括网络通信的底层
原理、背后涉及的互联网协议标准及如何对这些协议进行分析并加以利用,使用Docker部署网络爬虫所需的环境和爬虫项目的打包部署,使用网络爬虫的核心请求库实现与服务器端和客户端的通信和交互,使用自动化神器Selenium对复杂的爬虫需求进行快速实现,以及网络爬虫的多任务开发,重点是通过多线程和多进程来提高爬虫效率。
本书面向准备从事或正在从事网络爬虫开发的从业者以及对网络爬虫有浓厚兴趣的爱好者。
— 没有更多了 —
以下为对购买帮助不大的评价