Python网络爬虫权威指南(第2版)
¥
16.86
2.1折
¥
79
九品
仅1件
作者[美]瑞安 • 米切尔 著;神烦小宝 译
出版社人民邮电出版社
出版时间2019-04
版次2
装帧平装
货号A1
上书时间2024-12-16
商品详情
- 品相描述:九品
图书标准信息
-
作者
[美]瑞安 • 米切尔 著;神烦小宝 译
-
出版社
人民邮电出版社
-
出版时间
2019-04
-
版次
2
-
ISBN
9787115509260
-
定价
79.00元
-
装帧
平装
-
开本
16开
-
页数
241页
-
字数
384千字
- 【内容简介】
-
:
本书采用简洁强大的Python语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。
本书适合需要抓取Web数据的相关软件开发人员和研究人员阅读。
- 【作者简介】
-
:
瑞安·米切尔是位于波士顿的HedgeSe rv的高级软件工程师,负责开发公司的API和数据分析工具。她毕业于欧林工程学院,拥有哈佛大学扩展学院(HarvardUrliversity Exterlsion School)软件工程硕士学位以及数据科学证书。在加入HedgeServ之前,她曾就职于Abine,负责使用Python开发网络数据采集工具和自动化工具。她经常从事零售、金融和制药行业的网络数据采集项目的咨询工作,还曾经在东北大学和欧林工程学院担任课程顾问和兼职教员。
- 【目录】
-
前言
部分创建爬虫
章初见网络爬虫3
1.1网络连接3
1.2beautifulsoup简介5
1.2.1安装beautifulsoup6
1.2.2运行beautifulsoup8
1.2.3可靠的网络连接以及异常的处理9
第2章复杂html解析13
2.1不是一直都要用锤子13
2.2再端一碗beautifulsoup14
2.2.1beautifulsoup的find()和find_all()16
2.2.2其他beautifulsoup对象18
2.2.3导航树18
2.3正则表达式22
2.4正则表达式和beautifulsoup25
2.5获取属26
2.6lambda表达式26
第3章编写网络爬虫28
3.1遍历单个域名28
3.2抓取整个32
3.3在互联网上抓取36
第4章网络爬虫模型41
4.1规划和定义对象41
4.2处理不同的布局45
4.3结构化爬虫49
4.3.1通过搜索抓取49
4.3.2通过链接抓取52
4.3.3抓取多种类型的页面54
4.4关于网络爬虫模型的思55
第5章scrapy57
5.1安装scrapy57
5.2创建一个简易爬虫59
5.3带规则的抓取60
5.4创建item64
5.5输出item66
5.6item管线组件66
5.7scrapy志管理69
5.8更多资源70
第6章存储数据71
6.1媒体文件71
6.2把数据存储到csv74
6.3mysql75
6.3.1安装mysql76
6.3.2基本命令78
6.3.3与python整合81
6.3.4数据库技术与很好实践84
6.3.5mysql里的“六度空间游戏”86
6.4e88
第二部分网页抓取
第7章读取文档93
7.1文档编码93
7.2纯文本94
7.3csv98
7.4pdf100
7.5微软word和.docx102
第8章数据清洗106
8.1编写代码清洗数据106
8.2数据存储后再清洗111
第9章自然语言处理115
9.1概括数据116
9.2马尔可夫模型119
9.3自然语言工具包124
9.3.1安装与设置125
9.3.2用nltk做统计分析126
9.3.3用nltk做词分析128
9.4其他资源131
0章穿越网页表单与登录窗进行抓取132
10.1pythonrequests库132
10.2提交一个基本表单133
10.3单选按钮、复选框和其他输入134
10.4提交文件和图像136
10.5处理登录和cookie136
10.6其他表单问题139
1章抓取javascript140
11.1javascript简介140
11.2ajax和动态html143
11.2.1在python中用selenium执行javascript144
11.2.2selenium的其他webdriver149
11.3处理重定向150
11.4关于javascript的后提醒151
2章利用api抓取数据152
12.1api概述152
12.1.1方和api154
12.1.2更多关于api响应的介绍155
12.2解析json数据156
12.3无文档的api157
12.3.1查找无文档的api159
12.3.2记录未被记录的api160
12.3.3自动查找和记录api160
12.4api与其他数据源结合163
12.5再说一点api165
3章图像识别与文字处理167
13.1ocr库概述168
13.1.1pillow168
13.1.2tesseract168
13.1.3numpy170
13.2处理格式规范的文字171
13.2.1自动调整图像173
13.2.2从图片中抓取文字176
13.3读取验证码与训练tesseract178
13.4获取验证码并提交183
4章避开抓取陷阱186
14.1道德规范186
14.2让网络机器人看着像人类用户187
14.2.1修改请求头187
14.2.2用javascript处理cookie189
14.2.3时间是191
14.3常见表单安全措施191
14.3.1隐含输入字段值192
14.3.2避蜜罐192
14.4问题检查表194
5章用爬虫测试196
15.1测试简介196
15.2python单元测试197
15.3selenium单元测试201
15.4单元测试与selenium单元测试的选择205
6章并行网页抓取206
16.1进程与线程206
16.2多线程抓取207
16.2.1竞争条件与队列209
16.2.2threa模块212
16.3多进程抓取214
16.3.1多进程抓取216
16.3.2进程间通信217
16.4多进程抓取的另一种方219
7章远程抓取221
17.1为什么要用远程服务器221
17.1.1避ip地址被封杀221
17.1.2移植与扩展222
17.2tor代理服务器223
17.3远程主机224
17.3.1从主机运行225
17.3.2从云主机运行225
17.4其他资源227
8章网页抓取的律与道德约束228
18.1商标、版权、专利228
18.2侵害动产230
18.3计算机欺诈与滥用232
18.4robots.txt和服务协议233
18.53个网络爬虫236
18.5.1ebay起诉bidder’sedge侵害其动产236
18.5.2美国起诉auernheimer与《计算机欺诈与滥用》237
18.5.3field起诉google:版权和robots.txt239
18.6勇往直前239
关于作者241
关于封面241
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价