消息首页搜索举报

PYTHON 3.7网络爬虫快速入门

全新正版极速发货

28.8 5.9折 49 全新

库存5件

广东广州

认证卖家担保交易快速发货售后保障

作者王启明

出版社清华大学出版社

ISBN9787302536475

出版时间2019-10

装帧其他

开本其他

定价49元

货号1201950026

上书时间2024-11-25

书香美美

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

大数据金融/黎明职业大学商贸服务系列 ¥29.28

重庆脱贫攻坚先锋全国脱贫攻坚奖获得者先进事迹(重庆卷) ¥45.24

王诚集 ¥80.26

潮美而行润泽童心 ¥15.85

越问越聪明让孩子思维升级的科普书 ¥23.63

享受成长我上小班了幼儿记录评价册 ¥26.35

插图本中国建筑雕塑史丛书－民国建筑雕塑史 ¥31.21

绘城他者目光 ¥147.30

推销与谈判技巧第5版 ¥32.55

商品详情

品相描述：全新

商品描述: 作者简介
王启明，Python培训讲师，拥有多年的Python研发经验和授课经验，始终坚持干货满满的授课方式。书中精选了多年来实践的大量爬虫案例，希望帮助到更多的读者。

目录
章  简识PYTHON1
1.1  了解PYTHON1
1.1.1  Python的概念1
1.1.2  有趣的Python程序2
1.2  集成开发环境4
1.2.1  安装Python 3.74
1.2.2  从IDLE启动Python6
1.3  编写自己的个PYTHON程序：一个简单的问候8
1.4  小结11
第2章  PYTHON语法速览12
2.1  数据类型与变量12
2.1.1  数据类型12
2.1.2  变量14
2.2  运算符15
2.2.1  算术运算符16
2.2.2  比较运算符17
2.2.3  赋值运算符17
2.2.4  逻辑运算符18
2.2.5  位运算符19
2.2.6  成员运算符20
2.2.7  身份运算符21
2.2.8  运算符的优先级21
2.3  使用复合类型21
2.3.1  列表22
2.3.2  元组26
2.3.3  字典26
2.3.4  集合27
2.4  流程控制结构29
2.4.1  选择结构29
2.4.2  重复结构（循环结构）30
2.5  小结33
第3章  函  数34
3.1  认识函数34
3.1.1  什么是函数34
3.1.2  创建函数35
3.2  使用函数35
3.2.1  参数36
3.2.2  返回值38
3.2.3  函数的递归39
3.3  实践一下40
3.3.1  实践一：编写一个函数40
3.3.2  实践二：遍历与计数41
3.4  小结42
第4章  LXML模块和XPATH语法43
4.1  LXML模块43
4.1.1  什么是模块43
4.1.2  关于lxml模块44
4.1.3  lxml模块的安装44
4.1.4  lxml库的用法46
4.2  XPATH语法46
4.2.1  基本语法46
4.2.2  基本操作47
4.2.3  lxml库的用法49
4.2.4  XPath范例程序测试50
4.3  爬虫LXML解析实战53
4.3.1  爬取豆瓣网站53
4.3.2  爬取电影天堂55
4.3.3  爬取猫眼电影58
4.3.4  爬取腾讯招聘网61
4.3.5  关于HTML63
4.4  小结63
第5章  BEAUTIFULSOUP库64
5.1  简识BEAUTIFULSOUP 464
5.1.1  安装与配置64
5.1.2  基本用法66
5.2  BEAUTIFULSOUP 对象67
5.2.1  创建BeautifulSoup对象67
5.2.2  4类对象70
5.2.3  遍历文档树74
5.2.4  搜索文档树78
5.3  方法和CSS选择器81
5.3.1  find类方法81
5.3.2  CSS选择器82
5.4  爬取示范：使用BEAUTIFULSOUP爬取电影天堂85
5.4.1  基本思路85
5.4.2  实际爬取85
5.5  小结87
第6章  正则表达式88
6.1  了解正则表达式88
6.1.1  基本概念88
6.1.2  re模块89
6.1.3  compile()方法89
6.1.4  match()方法90
6.1.5  group()和groups()方法90
6.1.6  search()方法90
6.1.7  findall()方法92
6.1.8  finditer()方法93
6.1.9  split()方法94
6.1.10  sub()方法94
6.2  抓取95
6.2.1  抓取标签间的内容95
6.2.2  抓取tr\td标签间的内容98
6.2.3  抓取标签中的参数99
6.2.4  字符串处理及替换101
6.3  爬取实战102
6.3.1  获取数据103
6.3.2  筛选数据104
6.3.3  保存数据107
6.3.4  显示数据107
6.4  总结108
第7章  JSON文件处理、CSV文件处理和MYSQL数据库操作109
7.1  简识JSON109
7.1.1  什么是JSON109
7.1.2  字典和列表转JSON110
7.1.3  将JSON数据转储到文件中111
7.1.4  将一个JSON字符串加载为Python对象111
7.1.5  从文件中读取JSON112
7.2  CSV文件处理113
7.2.1  读取CSV文件113
7.2.2  把数据写入CSV文件114
7.2.3  练习115
7.3  MYSQL数据库117
7.3.1  MySQL数据库的安装117
7.3.2  安装MySQL模块127
7.3.3  连接MySQL127
7.3.4  执行SQL语句128
7.3.5  创建表129
7.3.6  插入数据130
7.3.7  查看数据132
7.3.8  修改数据133
7.3.9  删除数据135
7.3.10  实践操作136
7.4  小结139
第8章  多线程爬虫140
8.1  关于多线程140
8.1.1  基本知识140
8.1.2  多线程的适用范围141
8.2  多线程的实现142
8.2.1  使用_thread模块创建多线程142
8.2.2  关于Threading模块145
8.2.3  使用函数方式创建线程146
8.2.4  传递可调用的类的实例来创建线程148
8.2.5  派生子类并创建子类的实例149
8.3  使用多进程150
8.3.1  创建子进程150
8.3.2  将进程定义为类151
8.3.3  创建多个进程152
8.4  爬取示范：多线程爬取豆瓣电影153
8.4.1  使用多进程进行爬取154
8.4.2  使用多线程进行爬取156
8.5  小结158
第9章  图形验证识别技术159
9.1  图像识别开源库：TESSERACT159
9.1.1  安装Tesseract159
9.1.2  设置环境变量164
9.1.3  验证安装166
9.2  对网络验证码的识别168
9.2.1  读取网络验证码并识别168
9.2.2  对验证码进行转化169
9.3  小结170
0章  SCRAPY框架171
10.1  了解SCRAPY171
10.1.1  Scrapy框架概述171
10.1.2  安装173
10.2  开发SCRAPY的过程176
10.2.1  Scrapy开发步骤176
10.2.2  Scrapy保存信息的格式177
10.2.3  项目中各个文件的作用178
10.3  爬虫范例179
10.3.1  Scrapy爬取美剧天堂179
10.3.2  Scrapy爬取豆瓣网182
10.3.3  Scrapy爬取豆瓣网II186
10.4  总结189
1章  PYQUERY模块190
11.1  PYQUERY模块190
11.1.1  什么是PyQuery模块190
11.1.2  PyQuery模块的安装190
11.2  PYQUERY模块用法191
11.2.1  使用字符串初始化PyQuery对象191
11.2.2  使用文件初始化PyQuery对象192
11.2.3  使用URL初始化PyQuery对象193
11.3  CSS筛选器的使用194
11.3.1  基本CSS选择器194
11.3.2  查找节点195
11.3.3  遍历结果并输出197
11.3.4  获取文本信息198
11.4  爬虫PYQUERY解析实战200
11.4.1  爬取猫眼票房200
11.4.2  爬取微博热搜201
11.5  小结202

内容摘要
Python 3.7正在成为目前流行的编程语言，而网络爬虫又是Python网络应用中的重要技术，二者的碰撞产生了巨大的火花。本书在这个背景下编写而成，详细介绍Python 3.7网络爬虫技术。
本书分为11章，分别介绍Python 3.7爬虫开发相关的基础知识、lxml模块、BeautifulSoup模块、正则表达式、文件处理、多线程爬虫、图形识别、Scrapy框架、PyQuery模块等。基本上每一章都配有众多小范例程序与一个大实战案例。作者还为每一章分别录制教学视频供读者自学参考。
本书内容详尽、示例丰富，是有志于学习Python网络爬虫技术初学者推荐的参考书，同时也可作为Python爱好者拓宽知识领域、提升编程技术的参考书。

主编推荐
如果想学习Python 3.7实战的内容，那么网络爬虫开发是一个不错的选择。作为获取数据的手段之一，网络爬虫有它独特的魅力，是一个很好的用来满足个人兴趣爱好的Python编程入门项目。本书针对Python网络爬虫开发初学者，通过一些小示例以及每章很后的爬虫实战案例，让读者反复练习、学完就会。

精彩内容
Python是简练的语言
使用像Python这样的动态类型语言编写的代码往往比用其他主流语言编写的代码更加简短。这意味着，在编程的过程中会有更少的录入工作，而且会更容易记住算法并真正领会算法的原理。
Python是易读的语言
Python不时被人们指为“可执行的伪代码”。虽然很明显这是夸大之词，但是它表明大多数有经验的程序员可以读懂Python代码并领会代码所要表达的意图。
Python是易安装的语言
要搭建Python的环境非常容易，不管是Windows、Linux还是Mac系统，只要配置好Python的环境，只需要easy_install XX或者pip install XX 就可以安装所需要的第三方扩展包。
Python是易扩展的语言
Python附属了很多标准库，涉及数据函数、XML解析以及网页下载、RSS解析、SQLLite等，可以解决现实中遇到的各种问题。
为什么用Python实现网络爬虫
基于上述优点，加上抓取网页文档的接口更简洁；相比其他动态脚本语言，如Perl、Shell，Python的urllib2包提供了较为完整的访问网页文档的API，以及抓取后的处理方法，比如筛选HTML标签、提取文本等。Python的相关扩展可以用极短的代码完成大部分文档的处理。
本书涉及的技术或框架
Python基本语法正则表达式线程（Thread）
Python函数XML进程（Process）
lxml模块CSV图形识别验证码
XPath语法MySQLScrapy
BeautifulSoupPyQuery
本书涉及的范例和案例
爬取豆瓣网的内容爬取鼠绘漫画的图片
爬取电影天堂网的内容使用多线程爬取豆瓣的内容
爬取猫眼电影网的内容使用Tesseract识别验证码的图片
爬取腾讯招聘网的内容使用Scrapy框架爬取豆瓣网的内容
使用BeautifulSoup爬取电影天堂的内容使用PyQuery爬取微博热搜的内容
使用正则表达式爬取糗事百科的内容
本书特点
（1）语言通俗易懂。对于没有基础的读者，最忌讳的就是讲一些艰深晦涩的理论，让人难于理解。本书则尽量使用通俗易懂的语言来介绍Python，让大家更容易理解各种知识点，从而将相应的知识变成自己的能力。
（2）结合范例程序来讲解知识点。为了讲明各个知识点，基本上每个知识点都通过相关的范例程序来说明。通过范例程序及实际的执行效果，让大家学以致用，在理解领会的基础上进一步掌握相关知识、相应模块的方法。
（3）插图配合教学视频。为了保证本书的范例程序均能够成功执行，每个范例程序不仅有相应的程序代码，还有程序执行后的效果图。大家可以通过效果图来对比程序执行的结果，确保学习质量。同时每章还配有一个教学视频供读者自学参考。
（4）案例丰富。为了向读者说明Python爬虫程序的效果，书中选择的被爬取的网站都是国内热门的网站，比如豆瓣电影、猫眼电影、电影天堂、微博热搜等。这些网站大家喜闻乐见。通过这些案例，大家可以轻松地掌握相关模块的使用方法，举一反三，将相应技术应用于其他同类的网站中。
代码与教学视频下载
本书示例源代码与教学视频下载地址请扫描右边二维码获得。
如果下载有问题，请联系booksaga@163.com，邮件主题为“Python 3.7网络爬虫快速入门”。
本书读者
?有志于学习Python爬虫编程的初学者
?对Python网络爬虫技术有兴趣的开发人员
?各类综合信息网站的站长或技术人员
?高校和培训学校相关专业的师生
                                                     编  者
2019年7月

— 没有更多了 —