Python 3.x网络爬虫从零基础到项目实战
正版全新 可开发票
¥
73.04
6.8折
¥
108
全新
仅1件
作者史卫亚
出版社北京大学出版社有限公司
ISBN9787301312827
出版时间2019-07
装帧平装
开本其他
定价108元
货号9825258
上书时间2024-06-28
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
史卫亚,博士,副教授,IEEE会员,CCF会员,INNS会员。2009年获得复旦大学计算机应用专业博士学位。2015—2016年在美国北卡罗来纳大学做访问学者,对机器学习、大数据检索、数据库、图像和视频处理、人工智能和模式识别等有深入研究。
目录
章爬虫基础1
1.1认识爬虫2
1.2Python环境4
1.3Python语法11
1.4网页结构62
1.5HTTP协议68
1.6本章小结84
1.7实战练习84
第2章开始爬虫85
2.1urllib模块86
2.2requests模块88
2.3re模块110
2.4项目案例:爬百度贴吧122
2.5本章小结128
2.6实战练习128
第3章更多数据提取的方式129
3.1XPath和LXml130
3.2BeautifulSoup4137
3.3JsonPath143
3.4性能和选择148
3.5项目案例:爬腾讯招聘网148
3.6本章小结154
3.7实战练习154
第4章并发155
4.1100万个网页156
4.2进程161
4.3线程181
4.4锁191
4.5协程202
4.6线程、进程、协程对比206
4.7并发爬虫207
4.8本章小结216
4.9实战练习216
第5章数据存储217
5.1文件存储218
5.2关系型数据库存储221
5.3非关系型数据库存储231
5.4项目案例:爬豆瓣电影266
5.5本章小结270
5.6实战练习270
第6章Ajax数据爬取271
6.1Ajax的概念272
6.2实现Ajax272
6.3项目案例:爬斗鱼直播282
6.4本章小结286
6.5实战练习286
第7章动态渲染页面爬取287
7.1Selenium288
7.2项目案例:爬京东商品306
7.3本章小结311
7.4实战练习312
第8章图形验证码识别313
8.1使用pytesseract314
8.2使用打码平台317
8.3项目案例:识别验证码完成登录323
8.4本章小结326
8.5实战练习326
第9章模拟登录327
9.1Cookie328
9.2Session330
9.3Cookie池的搭建332
9.4项目案例:登录GitHub335
9.5本章小结340
9.6实战练习340
0章代理IP的使用341
10.1代理IP342
10.2代理IP池348
10.3付费代理的使用351
10.4项目案例:使用代理IP爬微信公众号358
10.5本章小结368
10.6实战练习368
1章Scrapy框架369
11.1认识Scrapy370
11.2编写Scrapy的个案例373
11.3Spider详情384
11.4操作数据403
11.5模拟登录432
11.6中间件446
11.7分布式458
11.8项目案例:爬新浪新闻500
11.9本章小结510
11.10实战练习510
2章项目案例:爬校花网信息511
12.1分析网站512
12.2开始爬取515
3章项目案例:爬北京地区短租房信息523
13.1分析网站524
13.2开始爬取525
4章项目案例:爬简书专题信息531
14.1分析网站532
14.2开始爬取535
5章项目案例:爬QQ音乐歌曲539
15.1分析网站540
15.2开始爬取542
6章项目案例:爬百度翻译545
16.1分析网站546
16.2开始爬取550
7章项目案例:爬百度地图API555
17.1分析网站556
17.2开始爬取560
8章项目案例:爬360图片571
18.1分析网站572
18.2开始爬取573
9章项目案例:爬当当网577
19.1分析网站578
19.2开始爬取580
第20章项目案例:爬唯品会585
20.1分析网站586
20.2开始爬取589
第21章项目案例:爬智联招聘593
21.1分析网站594
21.2开始爬取597
主编推荐
● 案例完整 本书中的所有案例都是通过“理论讲解 + 环境搭建 + 完整代码及分析 + 运行结果”这种完善的结构进行讲解的。此外,复杂的案例配有项目结构图,有难度的案例还分析了底层源码,并且对于所有案例的讲解,都考虑到了读者可能会遇到的各种问题。 ● 案例经典实用 本书中的案例大多是由真实项目简化而来的,既体现了所述知识点的精华,又屏蔽了无关技术的干扰。此外,本书在案例讲解时,也充分考量了相关知识的各种实际应用场景,将同一个技术在多个场景下的不同角色都做了充分的讲解。 ● 进阶的必学技术一网打尽 本书讲解的爬虫分析、发送请求、数据提取、数据存储、并发爬虫和分布式爬虫等技术是每一位爬虫程序员在进阶路上的必学知识。本书将这些技术的核心要点进行了深入细致的讲解,可以帮助读者尽快取得技术上的突破。 ● 系统讲解前沿稀缺知识 本书中介绍的Selenium和Scrapy等技术,均被靠前外各大互联网公司大量使用,但目前这些技术的相关资料却少之又少,实战型的书籍更是匮乏。本书对这些学习资源相对稀缺,但同时又是经典必学的知识进行了较为系统的讲解,很好有助于读者快速提升自己已有的知识体系。 ● 文字通俗易懂 本书的作者不仅有着多年的开发经验,还承担过多年的技术讲师及教学管理工作,很好擅长用清晰易懂的文字阐述各种难点技术。
精彩内容
本书介绍了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介、发送请求、提取数据、使用多个线程和进程进行并发抓取、抓取动态页面中的内容、与表单进行交互、处理页面中的验证码问题及使用Scrapy和分布式进行数据抓取,并在最后介绍了使用本书讲解的数据抓取技术对几个真实的网站进行抓取的实例,旨在帮助读者活学活用书中介绍的技术。本书提供了与图书内容全程同步的教学录像。此外,还赠送了大量相关学习资料,以便读者扩展学习。
本书适合任何想学习Python爬虫的读者,无论您是否从事计算机相关专业,是否接触过Python,均可以通过学习本书快速掌握Python爬虫的开发方法和技巧。
— 没有更多了 —
以下为对购买帮助不大的评价