消息首页搜索举报

Python 3.x网络爬虫从零基础到项目实战

15 1.4折 108 九品

仅1件

上海徐汇

认证卖家担保交易快速发货售后保障

作者史卫亚

出版社北京大学出版社

出版时间2020-05

版次1

装帧其他

上书时间2024-07-31

公羊书屋

六年老店

已实名进店收藏店铺

在售商品暂无
平均发货时间 39小时
好评率暂无

店主推荐
最新上架

手彩色铜版画（1805年），可装裱可收藏，Syd. Edwardsdel,Published by T. Curtis St. Geo, Crefcent April, 1, 1805 ，F, Sanfom sculp. ¥666.00

【日版】《官版唐律疏议》（影印，原本所藏国立公文书馆内阁文库，原盒精装一册），汲古书院出版，昭和五十年（1975年） ¥760.00

【日版签名本】森山大道汉英签赠本《サン・ルゥへの手紙》，新装版2005年一版一印，森山大道经典之作，为了写真诞生的那个夏天：光和物的图册 ¥1200.00

【毛边签名本】郝景芳亲笔签名《生于一九八四》，特别定制锁线露脊毛边本，限量100册，封面压纹设计，全新品好未裁，2016年一版一印 ¥300.00

【签名本】吴子建亲笔签名《印象·吴子建》，2017年一版一印，精装大厚册，进口高阶映画纸，签名限量值得珍藏，大家之作，篆刻从业者必备 ¥800.00

【日版】安部公房签名本《箱男》，1973年初版，函套精装，品好，带新书出版剪报5张 ¥1500.00

【签名本】冯唐毛笔题签生日快乐，《在宇宙间不易被风吹散》，2016年一版一印 ¥800.00

【签名编号藏书票】《王国维先生遗墨二种》线装一函两册，藏书票为倪建明先生制作，并亲笔签名和编号，此编号为12号，市场销售限量50 ¥1500.00

【日版签名本】大江健三郎亲笔签名《宙返り》（《空翻》），上下册均有签名，上册题签安積一夫，1999年讲谈社初版 ¥2200.00

我爱问连岳Ⅲ ¥3.00

一色一生 ¥13.00

红发女人 ¥7.00

称霸（上下册）：春秋国际新秩序的建立 ¥23.00

中国地理地图册（2014版） ¥3.00

“空间”的美术史 ¥29.00

《二十四史通识课——史记/汉书》——一套用二十四史串联而成的简明中国通史 ¥20.00

论语译注 ¥5.00

万历传（精装） ¥20.00

商品详情

品相描述：九品

图书标准信息

作者史卫亚
出版社北京大学出版社
出版时间 2020-05
版次 1
ISBN 9787301312827
定价 108.00元
装帧其他
开本 16开
纸张胶版纸
页数 612页
字数 889千字

【内容简介】: 《Python 3.x网络爬虫从零基础到项目实战》介绍了如何使用Python来编写网络爬虫程序，内容包括网络爬虫简介、发送请求、提取数据、使用多个线程和进程进行并发抓取、抓取动态页面中的内容、与表单进行交互、处理页面中的验证码问题及使用Scrapy和分布式进行数据抓取，并在*后介绍了使用本书讲解的数据抓取技术对几个真实的网站进行抓取的实例，旨在帮助读者活学活用书中介绍的技术。
本书提供了与图书内容全程同步的教学录像。此外，还赠送了大量相关学习资料，以便读者扩展学习。
本书适合任何想学习Python爬虫的读者，无论您是否从事计算机相关专业，是否接触过Python，均可以通过学习本书快速掌握Python爬虫的开发方法和技巧。
【作者简介】: 史卫亚，博士，副教授，IEEE会员，CCF会员，INNS会员。2009年获得复旦大学计算机应用专业博士学位。2015—2016年在美国北卡罗来纳大学做访问学者，对机器学习、大数据检索、数据库、图像和视频处理、人工智能和模式识别等有深入研究。
【目录】: 目录

第1章　爬虫基础 1

1.1 认识爬虫 2

1.2 Python环境 4

1.3 Python语法 11

1.4 网页结构 62

1.5 HTTP协议 68

1.6 本章小结 84

1.7 实战练习 84

第2章　开始爬虫 85

2.1 urllib模块 86

2.2 requests模块 88

2.3 re模块 110

2.4 项目案例：爬百度贴吧 122

2.5 本章小结 128

2.6 实战练习 128

第3章　更多数据提取的方式 129

3.1 XPath和LXml 130

3.2 BeautifulSoup4 137

3.3 JsonPath 143

3.4 性能和选择 148

3.5 项目案例：爬腾讯招聘网 148

3.6 本章小结 154

3.7 实战练习 154

第4章　并发 155

4.1 100万个网页 156

4.2 进程 161

4.3 线程 181

4.4 锁 191

4.5 协程 202

4.6 线程、进程、协程对比 206

4.7 并发爬虫 207

4.8 本章小结 216

4.9 实战练习 216

第5章　数据存储 217

5.1 文件存储 218

5.2 关系型数据库存储 221

5.3 非关系型数据库存储 231

5.4 项目案例：爬豆瓣电影 266

5.5 本章小结 270

5.6 实战练习 270

第6章　Ajax数据爬取 271

6.1 Ajax的概念 272

6.2 实现Ajax 272

6.3 项目案例：爬斗鱼直播 282

6.4 本章小结 286

6.5 实战练习 286

第7章　动态渲染页面爬取 287

7.1 Selenium 288

7.2 项目案例：爬**商品 306

7.3 本章小结 311

7.4 实战练习 312

第8章　图形验证码识别 313

8.1 使用pytesseract 314

8.2 使用打码平台 317

8.3 项目案例：识别验证码完成登录 323

8.4 本章小结 326

8.5 实战练习 326

第9章　模拟登录 327

9.1 Cookie 328

9.2 Session 330

9.3 Cookie池的搭建 332

9.4 项目案例：登录GitHub 335

9.5 本章小结 340

9.6 实战练习 340

第10章　代理IP的使用 341

10.1 代理IP 342

10.2 代理IP池 348

10.3 付费代理的使用 351

10.4 项目案例：使用代理IP爬微信公众号 358

10.5 本章小结 368

10.6 实战练习 368

第11章　Scrapy框架 369

11.1 认识Scrapy 370

11.2 编写Scrapy的**个案例 373

11.3 Spider详情 384

11.4 操作数据 403

11.5 模拟登录 432

11.6 中间件 446

11.7 分布式 458

11.8 项目案例：爬新浪新闻 500

11.9 本章小结 510

11.10 实战练习 510

第12章　项目案例：爬校花网信息 511

12.1 分析网站 512

12.2 开始爬取 515

第13章　项目案例：爬北京地区短租房信息 523

13.1 分析网站 524

13.2 开始爬取 525

第14章　项目案例：爬简书专题信息 531

14.1 分析网站 532

14.2 开始爬取 535

第15章　项目案例：爬QQ音乐歌曲 539

15.1 分析网站 540

15.2 开始爬取 542

第16章　项目案例：爬百度翻译 545

16.1 分析网站 546

16.2 开始爬取 550

第17章　项目案例：爬百度地图API 555

17.1 分析网站 556

17.2 开始爬取 560

第18章　项目案例：爬360图片 571

18.1 分析网站 572

18.2 开始爬取 573

第19章　项目案例：爬当当网 577

19.1 分析网站 578

19.2 开始爬取 580

第20章　项目案例：爬唯品会 585

20.1 分析网站 586

20.2 开始爬取 589

第21章　项目案例：爬智联招聘 593

21.1 分析网站 594

21.2 开始爬取 597

点击展开点击收起

— 没有更多了 —

Python 3.x网络爬虫从零基础到项目实战

公羊书屋

商品详情

图书标准信息

相关推荐