• Python网络爬虫权威指南 第2版
21年品牌 40万+商家 超1.5亿件商品

Python网络爬虫权威指南 第2版

11 1.4折 79 八五品

仅1件

湖北咸宁
认证卖家担保交易快速发货售后保障

作者(美)瑞安·米切尔(Ryan Mitchell)

出版社人民邮电出版社

ISBN9787115509260

出版时间2019-04

装帧平装

开本16开

定价79元

货号9787115509260

上书时间2024-12-11

墨紫轩图书的书店

五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
商品描述
作者简介
瑞安·米切尔(Ryan Mitchell) 数据科学家、软件工程师,有丰富的网络爬虫和数据分析实战经验,目前就职于美国格理集团,经常为网页数据采集项目提供咨询服务,并在美国东北大学和美国欧林工程学院任教。

目录
前言xi
第一部分创建爬虫
第1章初见网络爬虫3
1.1网络连接3
1.2BeautifulSoup简介5
1.2.1安装BeautifulSoup6
1.2.2运行BeautifulSoup8
1.2.3可靠的网络连接以及异常的处理9
第2章复杂HTML解析13
2.1不是一直都要用锤子13
2.2再端一碗BeautifulSoup14
2.2.1BeautifulSoup的find()和find_all()16
2.2.2其他BeautifulSoup对象18
2.2.3导航树18
2.3正则表达式22
2.4正则表达式和BeautifulSoup25
2.5获取属性26
2.6Lambda表达式26
第3章编写网络爬虫28
3.1遍历单个域名28
3.2抓取整个网站32
3.3在互联网上抓取36
第4章网络爬虫模型41
4.1规划和定义对象41
4.2处理不同的网站布局45
4.3结构化爬虫49
4.3.1通过搜索抓取网站49
4.3.2通过链接抓取网站52
4.3.3抓取多种类型的页面54
4.4关于网络爬虫模型的思考55
第5章Scrapy57
5.1安装Scrapy57
5.2创建一个简易爬虫59
5.3带规则的抓取60
5.4创建item64
5.5输出item66
5.6item管线组件66
5.7Scrapy日志管理69
5.8更多资源70
第6章存储数据71
6.1媒体文件71
6.2把数据存储到CSV74
6.3MySQL75
6.3.1安装MySQL76
6.3.2基本命令78
6.3.3与Python整合81
6.3.4数据库技术与很好实践84
6.3.5MySQL里的“六度空间游戏”86
6.4Email88
第二部分高级网页抓取
第7章读取文档93
7.1文档编码93
7.2纯文本94
7.3CSV98
7.4PDF100
7.5微软Word和.docx102
第8章数据清洗106
8.1编写代码清洗数据106
8.2数据存储后再清洗111
第9章自然语言处理115
9.1概括数据116
9.2马尔可夫模型119
9.3自然语言工具包124
9.3.1安装与设置125
9.3.2用NLTK做统计分析126
9.3.3用NLTK做词性分析128
9.4其他资源131
第10章穿越网页表单与登录窗口进行抓取132
10.1PythonRequests库132
10.2提交一个基本表单133
10.3单选按钮、复选框和其他输入134
10.4提交文件和图像136
10.5处理登录和cookie136
10.6其他表单问题139
第11章抓取JavaScript140
11.1JavaScript简介140
11.2Ajax和动态HTML143
11.2.1在Python中用Selenium执行JavaScript144
11.2.2Selenium的其他webdriver149
11.3处理重定向150
11.4关于JavaScript的最后提醒151
第12章利用API抓取数据152
12.1API概述152
12.1.1HTTP方法和API154
12.1.2更多关于API响应的介绍155
12.2解析JSON数据156
12.3无文档的API157
12.3.1查找无文档的API159
12.3.2记录未被记录的API160
12.3.3自动查找和记录API160
12.4API与其他数据源结合163
12.5再说一点API165
第13章图像识别与文字处理167
13.1OCR库概述168
13.1.1Pillow168
13.1.2Tesseract168
13.1.3NumPy170
13.2处理格式规范的文字171
13.2.1自动调整图像173
13.2.2从网站图片中抓取文字176
13.3读取验证码与训练Tesseract178
13.4获取验证码并提交答案183
第14章避开抓取陷阱186
14.1道德规范186
14.2让网络机器人看着像人类用户187
14.2.1修改请求头187
14.2.2用JavaScript处理cookie189
14.2.3时间就是一切191
14.3常见表单安全措施191
14.3.1隐含输入字段值192
14.3.2避免蜜罐192
14.4问题检查表194
第15章用爬虫测试网站196
15.1测试简介196
15.2Python单元测试197
15.3Selenium单元测试201
15.4单元测试与Selenium单元测试的选择205
第16章并行网页抓取206
16.1进程与线程206
16.2多线程抓取207
16.2.1竞争条件与队列209
16.2.2threading模块212
16.3多进程抓取214
16.3.1多进程抓取216
16.3.2进程间通信217
16.4多进程抓取的另一种方法219
第17章远程抓取221
17.1为什么要用远程服务器221
17.1.1避免IP地址被封杀221
17.1.2移植性与扩展性222
17.2Tor代理服务器223
17.3远程主机224
17.3.1从网站主机运行225
17.3.2从云主机运行225
17.4其他资源227
第18章网页抓取的法律与道德约束228
18.1商标、版权、专利228
18.2侵害动产230
18.3计算机欺诈与滥用法232
18.4robots.txt和服务协议233
18.53个网络爬虫236
18.5.1eBay起诉Bidder’sEdge侵害其动产236
18.5.2美国政府起诉Auernheimer与《计算机欺诈与滥用法》237
18.5.3Field起诉Google:版权和robots.txt239
18.6勇往直前239
关于作者241
关于封面241

内容摘要
本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

主编推荐
 

媒体评论
 

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP