实战Python网络爬虫
¥
12.47
1.3折
¥
99
九五品
仅1件
作者黄永祥 著
出版社清华大学出版社
ISBN9787302524892
出版时间2019-05
版次1
装帧平装
开本16开
纸张胶版纸
页数468页
字数99999千字
定价99元
上书时间2024-05-20
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:实战Python网络爬虫
定价:99.00元
作者:黄永祥 著
出版社:清华大学出版社
出版日期:2019-05-01
ISBN:9787302524892
字数:774000
页码:468
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐
从爬虫软件开发到自己动手开发爬虫框架从原理到实践,深入浅出,热门爬虫核心技术全掌握涵盖丰富的爬虫工具、库、框架,十余个实战项目资深爬虫工程师倾力奉献,入门、进阶、求职
内容提要
本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。本书使用Pytho3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。
目录
目 录章 理解网络爬虫 11.1 爬虫的定义 11.2 爬虫的类型 21.3 爬虫的原理 21.4 爬虫的搜索策略 41.5 爬虫的合法性与开发流程 51.6 本章小结 6第2章 爬虫开发基础 72.1 HTTP与HTTPS 72.2 请求头 92.3 Cookies 102.4 HTML 112.5 JavaScript 122.6 JSON 142.7 Ajax 142.8 本章小结 15第3章 Chrome分析网站 163.1 Chrome开发工具 163.2 Elements标签 173.3 Network标签 183.4 分析音乐 203.5 本章小结 23第4章 Fiddler抓包 244.1 Fiddler介绍 244.2 Fiddler安装配置 244.3 Fiddler抓取手机应用 264.4 Toolbar工具栏 294.5 Web Session列表 304.6 View选项视图 324.7 Quickexec命令行 334.8 本章小结 34第5章 爬虫库Urllib 355.1 Urllib简介 355.2 发送请求 365.3 复杂的请求 375.4 代理IP 385.5 使用Cookies 395.6 证书验证 405.7 数据处理 415.8 本章小结 42第6章 爬虫库Requests 436.1 Requests简介及安装 436.2 请求方式 446.3 复杂的请求方式 456.4 下载与上传 476.5 本章小结 49第7章 Requests-Cache爬虫缓存 507.1 简介及安装 507.2 在Requests中使用缓存 507.3 缓存的存储机制 537.4 本章小结 54第8章 爬虫库Requests-HTML 558.1 简介及安装 558.2 请求方式 568.3 数据清洗 568.4 Ajax动态数据抓取 598.5 本章小结 61第9章 网页操控与数据爬取 629.1 了解Selenium 629.2 安装Selenium 639.3 网页元素定位 669.4 网页元素操控 709.5 常用功能 739.6 实战:百度自动答题 809.7 本章小结 850章 手机App数据爬取 8610.1 Appium简介及原理 8610.2 搭建开发环境 8710.3 连接Android系统 9210.4 App的元素定位 9710.5 App的元素操控 9910.6 实战:淘宝商品采集 10210.7 本章小结 1071章 Splash、Mitmproxy与Aiohttp 10911.1 Splash动态数据抓取 10911.1.1 简介及安装 10911.1.2 使用Splash的API接口 11211.2 Mitmproxy抓包 11611.2.1 简介及安装 11611.2.2 用Mitmdump抓取爱奇艺视频 11611.3 Aiohttp高并发抓取 11911.3.1 简介及使用 11911.3.2 Aiohttp异步爬取小说排行榜 12311.4 本章小结 1262章 验证码识别 12812.1 验证码的类型 12812.2 OCR技术 12912.3 第三方平台 13112.4 本章小结 1343章 数据清洗 13613.1 字符串操作 13613.1.1 截取 13613.1.2 替换 13713.1.3 查找 13713.1.4 分割 13813.2 正则表达式 13913.2.1 正则语法 14013.2.2 正则处理函数 14113.3 BeautifulSoup数据清洗 14413.3.1 BeautifulSoup介绍与安装 14413.3.2 BeautifulSoup的使用示例 14613.4 本章小结 1494章 文档数据存储 15014.1 CSV数据的写入和读取 15014.2 Excel数据的写入和读取 15114.3 Word数据的写入和读取 15414.4 本章小结 1565章 ORM框架 15815.1 SQLAlchemy介绍与安装 15815.1.1 操作数据库的方法 15815.1.2 SQLAlchemy框架介绍 15815.1.3 SQLAlchemy的安装 15915.2 连接数据库 16015.3 创建数据表 16215.4 添加数据 16415.5 更新数据 16515.6 查询数据 16615.7 本章小结 1686章 MongoDB数据库操作 16916.1 MongoDB介绍 16916.2 MogoDB的安装及使用 17016.2.1 MongoDB的安装与配置 17016.2.2 MongoDB可视化工具 17216.2.3 PyMongo的安装 17316.3 连接MongoDB数据库 17316.4 添加文档 17416.5 更新文档 17516.6 查询文档 17616.7 本章小结 1787章 实战:爬取51Job招聘信息 18017.1 项目分析 18017.2 获取城市编号 18017.3 获取招聘职位总页数 18217.4 爬取每个职位信息 18417.5 数据存储 18817.6 爬虫配置文件 19017.7 本章小结 1918章 实战:分布式爬虫——音乐 19318.1 项目分析 19318.2 歌曲下载 19418.3 歌手的歌曲信息 19818.4 分类歌手列表 20118.5 全站歌手列表 20318.6 数据存储 20418.7 分布式爬虫 20518.7.1 分布式概念 20518.7.2 并发库concurrent.futures 20618.7.3 分布式策略 20718.8 本章小结 2099章 实战:12306抢票爬虫 21119.1 项目分析 21119.2 验证码验证 21119.3 用户登录与验证 21419.4 查询车次 21919.5 预订车票 22519.6 提交订单 22719.7 生成订单 23319.8 本章小结 236第20章 实战:玩转微博 24420.1 项目分析 24420.2 用户登录 24420.3 用户登录(带验证码) 25320.4 关键词搜索热门微博 25920.5 发布微博 26420.6 关注用户 26820.7 点赞和转发评论 27120.8 本章小结 277第21章 实战:微博爬虫软件开发 27821.1 GUI库及PyQt5的安装与配置 27821.1.1 GUI库 27821.1.2 PyQt5安装及环境搭建 27921.2 项目分析 28121.3 软件主界面 28421.4 相关服务界面 28821.5 微博采集界面 29221.6 微博发布界面 29721.7 微博爬虫功能 30821.8 本章小结 315第22章 Scrapy爬虫开发 31722.1 认识与安装Scrapy 31722.1.1 常见爬虫框架介绍 31722.1.2 Scrapy的运行机制 31822.1.3 安装Scrapy 31922.2 Scrapy爬虫开发示例 32022.3 Spider的编写 32622.4 Items的编写 32922.5 Item Pipeline的编写 33022.5.1 用MongoDB实现数据入库 33022.5.2 用SQLAlchemy实现数据入库 33222.6 Selectors的编写 33322.7 文件下载 33622.8 本章小结 339第23章 Scrapy扩展开发 34123.1 剖析Scrapy中间件 34123.1.1 SpiderMiddleware中间件 34223.1.2 DownloaderMiddleware中间件 34423.2 自定义中间件 34723.2.1 设置代理IP服务 34723.2.2 动态设置请求头 35023.2.3 设置随机Cookies 35323.3 实战:Scrapy+Selenium爬取豆瓣电影评论 35523.3.1 网站分析 35523.3.2 项目设计与实现 35723.3.3 定义Selenium中间件 35923.3.4 开发Spider程序 36023.4 实战:Scrapy+Splash爬取B站动漫信息 36223.4.1 Scrapy_Splash实现原理 36323.4.2 网站分析 36323.4.3 项目设计与实现 36523.4.4 开发Spider程序 36723.5 实战:Scrapy+Redis分布式爬取猫眼排行榜 36923.5.1 Scrapy_Redis实现原理 36923.5.2 安装Redis数据库 37123.5.3 网站分析 37223.5.4 项目设计与实现 37323.5.5 开发Spider程序 37523.6 分布式爬虫与增量式爬虫 37723.6.1 基于管道实现增量式 37823.6.2 基于中间件实现增量式 38123.7 本章小结 384第24章 实战:爬取链家楼盘信息 38624.1 项目分析 38624.2 创建项目 38924.3 项目配置 38924.4 定义存储字段 39124.5 定义管道类 39224.6 编写爬虫规则 39624.7 本章小结 400第25章 实战:音乐全站爬取 40225.1 项目分析 40225.2 项目创建与配置 40325.2.1 项目创建 40325.2.2 项目配置 40325.3 定义存储字段和管道类 40525.3.1 定义存储字段 40525.3.2 定义管道类 40525.4 编写爬虫规则 40825.5 本章小结 413
作者介绍
黄永祥,CSDN博客专家和签约讲师,多年软件研发经验,主要从事机器人流程系统研发、大数据系统研发、网络爬虫研发以及自动化运维系统研发。擅长使用Python编写高质量代码,对Python有深入研究,热爱分享和新技术的探索。
序言
— 没有更多了 —
以下为对购买帮助不大的评价