• Python网络爬虫权威指南(第2版) [美]瑞安·米切尔 9787115509260 人民邮电出版社
21年品牌 40万+商家 超1.5亿件商品

Python网络爬虫权威指南(第2版) [美]瑞安·米切尔 9787115509260 人民邮电出版社

当天发货,正版,品相一般都没问题。凡是套书,价格异常便宜的,可能是一本书的价格。

21.4 2.7折 79 九品

库存3件

北京通州
认证卖家担保交易快速发货售后保障

作者[美]瑞安·米切尔

出版社人民邮电出版社

ISBN9787115509260

出版时间2019-04

装帧平装

开本16开

定价79元

货号1145267236287135747

上书时间2024-11-07

湘云书店

十七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
商品描述
作者简介
瑞安·米切尔(Ryan Mitchell) 数据科学家、软件工程师,有丰富的网络爬虫和数据分析实战经验,目前就职于美国格理集团,经常为网页数据采集项目提供咨询服务,并在美国东北大学和美国欧林工程学院任教。

目录
前言 xi 

第 一部分 创建爬虫 

第 1 章 初见网络爬虫 3 

1.1 网络连接 3 

1.2 BeautifulSoup 简介 5 

1.2.1 安装BeautifulSoup 6 

1.2.2 运行BeautifulSoup 8 

1.2.3 可靠的网络连接以及异常的处理 9 

第 2 章 复杂HTML 解析 13 

2.1 不是一直都要用锤子 13 

2.2 再端一碗BeautifulSoup 14 

2.2.1 BeautifulSoup 的find() 和find_all() 16 

2.2.2 其他BeautifulSoup 对象 18 

2.2.3 导航树 18 

2.3 正则表达式 22 

2.4 正则表达式和BeautifulSoup 25 

2.5 获取属性 26 

2.6 Lambda 表达式 26 

第3 章 编写网络爬虫 28 

3.1 遍历单个域名 28 

3.2 抓取整个网站 32 

3.3 在互联网上抓取 36 

第4 章 网络爬虫模型 41 

4.1 规划和定义对象 41 

4.2 处理不同的网站布局 45 

4.3 结构化爬虫 49 

4.3.1 通过搜索抓取网站 49 

4.3.2 通过链接抓取网站 52 

4.3.3 抓取多种类型的页面 54 

4.4 关于网络爬虫模型的思考 55 

第5 章 Scrapy 57 

5.1 安装Scrapy 57 

5.2 创建一个简易爬虫 59 

5.3 带规则的抓取 60 

5.4 创建item 64 

5.5 输出item 66 

5.6 item 管线组件 66 

5.7 Scrapy 日志管理 69 

5.8 更多资源 70 

第6 章 存储数据 71 

6.1 媒体文件 71 

6.2 把数据存储到CSV 74 

6.3 MySQL 75 

6.3.1 安装MySQL 76 

6.3.2 基本命令 78 

6.3.3 与Python 整合 81 

6.3.4 数据库技术与最佳实践 84 

6.3.5 MySQL 里的“六度空间游戏” 86 

6.4 Email 88 

第二部分 高级网页抓取 

第7 章 读取文档 93 

7.1 文档编码 93 

7.2 纯文本 94 

7.3 CSV 98 

7.4 PDF 100 

7.5 微软Word 和.docx 102 

第8 章 数据清洗 106 

8.1 编写代码清洗数据 106 

8.2 数据存储后再清洗 111 

第9 章 自然语言处理 115 

9.1 概括数据 116 

9.2 马尔可夫模型 119 

9.3 自然语言工具包 124 

9.3.1 安装与设置 125 

9.3.2 用NLTK 做统计分析 126 

9.3.3 用NLTK 做词性分析 128 

9.4 其他资源 131 

第 10 章 穿越网页表单与登录窗口进行抓取 132 

10.1 Python Requests 库 132 

10.2 提交一个基本表单 133 

10.3 单选按钮、复选框和其他输入 134 

10.4 提交文件和图像 136 

10.5 处理登录和cookie 136 

10.6 其他表单问题 139 

第 11 章 抓取JavaScript 140 

11.1 JavaScript 简介 140 

11.2 Ajax 和动态HTML 143 

11.2.1 在Python 中用Selenium 执行JavaScript 144 

11.2.2 Selenium 的其他webdriver 149 

11.3 处理重定向 150 

11.4 关于JavaScript 的最后提醒 151 

第 12 章 利用API 抓取数据 152 

12.1 API 概述 152 

12.1.1 HTTP 方法和API 154 

12.1.2 更多关于API 响应的介绍 155 

12.2 解析JSON 数据 156 

12.3 无文档的API 157 

12.3.1 查找无文档的API 159 

12.3.2 记录未被记录的API 160 

12.3.3 自动查找和记录API 160 

12.4 API 与其他数据源结合 163 

12.5 再说一点API 165 

第 13 章 图像识别与文字处理 167 

13.1 OCR 库概述 168 

13.1.1 Pillow 168 

13.1.2 Tesseract 168 

13.1.3 NumPy 170 

13.2 处理格式规范的文字 171 

13.2.1 自动调整图像 173 

13.2.2 从网站图片中抓取文字 176 

13.3 读取验证码与训练Tesseract 178 

13.4 获取验证码并提交答案 183 

第 14 章 避开抓取陷阱 186 

14.1 道德规范 186 

14.2 让网络机器人看着像人类用户 187 

14.2.1 修改请求头 187 

14.2.2 用JavaScript 处理cookie 189 

14.2.3 时间就是一切 191 

14.3 常见表单安全措施 191 

14.3.1 隐含输入字段值 192 

14.3.2 避免蜜罐 192 

14.4 问题检查表 194 

第 15 章 用爬虫测试网站 196 

15.1 测试简介 196 

15.2 Python 单元测试 197 

15.3 Selenium 单元测试 201 

15.4 单元测试与Selenium 单元测试的选择 205 

第 16 章 并行网页抓取 206 

16.1 进程与线程 206 

16.2 多线程抓取 207 

16.2.1 竞争条件与队列 209 

16.2.2 threading 模块 212 

16.3 多进程抓取 214 

16.3.1 多进程抓取 216 

16.3.2 进程间通信 217 

16.4 多进程抓取的另一种方法 219 

第 17 章 远程抓取 221 

17.1 为什么要用远程服务器 221 

17.1.1 避免IP 地址被封杀 221 

17.1.2 移植性与扩展性 222 

17.2 Tor 代理服务器 223 

17.3 远程主机 224 

17.3.1 从网站主机运行 225 

17.3.2 从云主机运行 225 

17.4 其他资源 227 

第 18 章 网页抓取的法律与道德约束 228 

18.1 商标、版权、专利 228 

18.2 侵害动产 230 

18.3 计算机欺诈与滥用法 232 

18.4 robots.txt 和服务协议 233 

18.5 3 个网络爬虫 236 

18.5.1 eBay 起诉Bidder’s Edge 侵害其动产 236 

18.5.2 美国政府起诉Auernheimer 与《计算机欺诈与滥用法》 237 

18.5.3 Field 起诉Google:版权和robots.txt 239 

18.6 勇往直前 239 

关于作者 241 

关于封面 241

内容摘要
本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

主编推荐
适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员

 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要。而编写简单的自动化程序(网络爬虫),一次就可以自动抓取上百万个网页中的信息,实现高效的数据采集和处理,满足大量数据需求应用场景。 

本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题,以及各种数据抓取工具和应用程序,帮你深入互联网的每个角落,分析原始数据,获取数据背后的故事,轻松解决遇到的各类网页抓取问题。第2版全面更新,新增网络爬虫模型、Scrapy和并行网页抓取相关章节。 

 - 解析复杂的HTML页面 

 - 使用Scrapy框架开发爬虫 

 - 学习存储数据的方法 

 - 从文档中读取和提取数据 

 - 清洗格式糟糕的数据 

 - 自然语言处理 

 - 通过表单和登录窗口抓取数据 

 - 抓取JavaScript及利用API抓取数据 

 - 图像识别与文字处理 

 - 避免抓取陷阱和反爬虫策略 

 - 使用爬虫测试网站

媒体评论
 

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP