Python 3.x网络爬虫从零基础到项目实战

全新正版未拆封

41.62 3.9折 108 全新

库存2件

山东济宁

认证卖家担保交易快速发货售后保障

作者史卫亚

出版社北京大学出版社

出版时间2020-05

版次1

装帧其他

上书时间2024-10-03

天吾之青豆的书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 49小时
好评率暂无

最新上架

篮球营销学：打造成功商业的关系优先公式 ¥12.35

欧文·费雪：物价一读就懂的经典经济学 ¥12.35

纯粹·一树梅花一溪月 ¥13.19

黄昏的酒/广西当代作家丛书（第五辑） ¥13.31

混合式深度教学设计与实践：走向智能互联时代的中小学教学探索 ¥11.38

地下结构隔排水主动抗浮技术标准（上海市工程建设规范） ¥13.48

海棠花下 ¥12.71

中国经典民间故事绘本大禹治水 ¥8.04

全新正版图书城市道路交通评价标准（上海市工程建设规范）上海市政工程设计研院有限公司同济大学出版社9787576508888 ¥7.78

商品详情

品相描述：全新

图书标准信息

作者史卫亚
出版社北京大学出版社
出版时间 2020-05
版次 1
ISBN 9787301312827
定价 108.00元
装帧其他
开本 16开
纸张胶版纸
页数 612页
字数 889千字

【内容简介】: 《Python 3.x网络爬虫从零基础到项目实战》介绍了如何使用Python来编写网络爬虫程序，内容包括网络爬虫简介、发送请求、提取数据、使用多个线程和进程进行并发抓取、抓取动态页面中的内容、与表单进行交互、处理页面中的验证码问题及使用Scrapy和分布式进行数据抓取，并在*后介绍了使用本书讲解的数据抓取技术对几个真实的网站进行抓取的实例，旨在帮助读者活学活用书中介绍的技术。
本书提供了与图书内容全程同步的教学录像。此外，还赠送了大量相关学习资料，以便读者扩展学习。
本书适合任何想学习Python爬虫的读者，无论您是否从事计算机相关专业，是否接触过Python，均可以通过学习本书快速掌握Python爬虫的开发方法和技巧。
【作者简介】: 史卫亚，博士，副教授，IEEE会员，CCF会员，INNS会员。2009年获得复旦大学计算机应用专业博士学位。2015—2016年在美国北卡罗来纳大学做访问学者，对机器学习、大数据检索、数据库、图像和视频处理、人工智能和模式识别等有深入研究。
【目录】: 目录

第1章　爬虫基础 1

1.1 认识爬虫 2

1.2 Python环境 4

1.3 Python语法 11

1.4 网页结构 62

1.5 HTTP协议 68

1.6 本章小结 84

1.7 实战练习 84

第2章　开始爬虫 85

2.1 urllib模块 86

2.2 requests模块 88

2.3 re模块 110

2.4 项目案例：爬百度贴吧 122

2.5 本章小结 128

2.6 实战练习 128

第3章　更多数据提取的方式 129

3.1 XPath和LXml 130

3.2 BeautifulSoup4 137

3.3 JsonPath 143

3.4 性能和选择 148

3.5 项目案例：爬腾讯招聘网 148

3.6 本章小结 154

3.7 实战练习 154

第4章　并发 155

4.1 100万个网页 156

4.2 进程 161

4.3 线程 181

4.4 锁 191

4.5 协程 202

4.6 线程、进程、协程对比 206

4.7 并发爬虫 207

4.8 本章小结 216

4.9 实战练习 216

第5章　数据存储 217

5.1 文件存储 218

5.2 关系型数据库存储 221

5.3 非关系型数据库存储 231

5.4 项目案例：爬豆瓣电影 266

5.5 本章小结 270

5.6 实战练习 270

第6章　Ajax数据爬取 271

6.1 Ajax的概念 272

6.2 实现Ajax 272

6.3 项目案例：爬斗鱼直播 282

6.4 本章小结 286

6.5 实战练习 286

第7章　动态渲染页面爬取 287

7.1 Selenium 288

7.2 项目案例：爬**商品 306

7.3 本章小结 311

7.4 实战练习 312

第8章　图形验证码识别 313

8.1 使用pytesseract 314

8.2 使用打码平台 317

8.3 项目案例：识别验证码完成登录 323

8.4 本章小结 326

8.5 实战练习 326

第9章　模拟登录 327

9.1 Cookie 328

9.2 Session 330

9.3 Cookie池的搭建 332

9.4 项目案例：登录GitHub 335

9.5 本章小结 340

9.6 实战练习 340

第10章　代理IP的使用 341

10.1 代理IP 342

10.2 代理IP池 348

10.3 付费代理的使用 351

10.4 项目案例：使用代理IP爬微信公众号 358

10.5 本章小结 368

10.6 实战练习 368

第11章　Scrapy框架 369

11.1 认识Scrapy 370

11.2 编写Scrapy的**个案例 373

11.3 Spider详情 384

11.4 操作数据 403

11.5 模拟登录 432

11.6 中间件 446

11.7 分布式 458

11.8 项目案例：爬新浪新闻 500

11.9 本章小结 510

11.10 实战练习 510

第12章　项目案例：爬校花网信息 511

12.1 分析网站 512

12.2 开始爬取 515

第13章　项目案例：爬北京地区短租房信息 523

13.1 分析网站 524

13.2 开始爬取 525

第14章　项目案例：爬简书专题信息 531

14.1 分析网站 532

14.2 开始爬取 535

第15章　项目案例：爬QQ音乐歌曲 539

15.1 分析网站 540

15.2 开始爬取 542

第16章　项目案例：爬百度翻译 545

16.1 分析网站 546

16.2 开始爬取 550

第17章　项目案例：爬百度地图API 555

17.1 分析网站 556

17.2 开始爬取 560

第18章　项目案例：爬360图片 571

18.1 分析网站 572

18.2 开始爬取 573

第19章　项目案例：爬当当网 577

19.1 分析网站 578

19.2 开始爬取 580

第20章　项目案例：爬唯品会 585

20.1 分析网站 586

20.2 开始爬取 589

第21章　项目案例：爬智联招聘 593

21.1 分析网站 594

21.2 开始爬取 597