Python网络爬虫从入门到精通正版二手
¥
27.75
2.8折
¥
99.8
九品
库存2件
作者明日科技
出版社清华大学出版社
ISBN9787302567004
出版时间2021-04
装帧平装
开本16开
定价99.8元
货号9787302567004
上书时间2024-02-16
商品详情
- 品相描述:九品
- 商品描述
-
作者简介
明日科技,全称是吉林省明日科技有限公司,是一家专业从事软件开发、教育培训以及软件开发教育资源整合的高科技公司,其编写的教材非常注重选取软件开发中的必需、常用内容,同时也很注重内容的易学、方便性以及相关知识的拓展性,深受读者喜爱。其教材多次荣获“全行业优秀畅销品种”“全国高校出版社优秀畅销书”等奖项,多个品种长期位居同类图书销售排行榜的前列。
目录
第1篇基础知识
第1章初识网络爬虫2
1.1网络爬虫概述2
1.2网络爬虫的分类2
1.3网络爬虫的基本原理3
1.4搭建开发环境4
1.4.1安装Anaconda4
1.4.2PyCharm的下载与安装7
1.4.3配置PyCharm9
1.4.4测试PyCharm13
1.5小结15
第2章了解Web前端16
2.1HTTP基本原理16
2.1.1HTTP协议16
2.1.2HTTP与Web服务器16
2.1.3浏览器中的请求和响应18
2.2HTML语言19
2.2.1什么是HTML19
2.2.2标签、元素、结构概述19
2.2.3HTML的基本标签21
2.3CSS层叠样式表22
2.3.1CSS概述22
2.3.2属性选择器23
2.3.3类和ID选择器24
2.4JavaScript动态脚本语言24
2.5小结27
第3章请求模块urllib28
3.1urllib简介28
3.2使用urlopen()方法发送请求28
3.2.1发送GET请求29
3.2.2发送POST请求30
3.2.3设置网络超时31
3.3复杂的网络请求32
3.3.1设置请求头32
3.3.2Cookies的获取与设置34
3.3.3设置代理IP39
3.4异常处理40
3.5解析链接41
3.5.1拆分URL42
3.5.2组合URL43
3.5.3连接URL44
3.5.4URL的编码与解码45
3.5.5URL参数的转换46
3.6小结47
第4章请求模块urllib348
4.1urllib3简介48
4.2发送网络请求49
4.2.1GET请求49
4.2.2POST请求50
4.2.3重试请求51
4.2.4处理响应内容51
4.3复杂请求的发送53
4.3.1设置请求头53
4.3.2设置超时54
4.3.3设置代理55
4.4上传文件56
4.5小结57
第5章请求模块requests58
5.1请求方式58
5.1.1GET请求59
5.1.2对响应结果进行utf-8编码59
5.1.3爬取二进制数据60
5.1.4GET(带参)请求61
5.1.5POST请求62
5.2复杂的网络请求63
5.2.1添加请求头headers63
5.2.2验证Cookies64
5.2.3会话请求65
5.2.4验证请求66
5.2.5网络超时与异常67
5.2.6上传文件68
5.3代理服务69
5.3.1代理的应用69
5.3.2获取免费的代理IP70
5.3.3检测代理IP是否有效71
5.4小结72
第6章高级网络请求模块73
6.1Requests-Cache的安装与测试73
6.2缓存的应用74
6.3强大的Requests-HTML模块76
6.3.1使用Requests-HTML实现网络请求76
6.3.2数据的提取78
6.3.3获取动态加载的数据82
6.4小结85
第2篇核心技术
第7章正则表达式88
7.1正则表达式基础88
7.1.1行定位符88
7.1.2元字符89
7.1.3限定符89
7.1.4字符类90
7.1.5排除字符90
7.1.6选择字符90
7.1.7转义字符91
7.1.8分组91
7.1.9在Python中使用正则表达式语法91
7.2使用match()进行匹配92
7.2.1匹配是否以指定字符串开头93
7.2.2匹配任意开头的字符串94
7.2.3匹配多个字符串94
7.2.4获取部分内容94
7.2.5匹配指定首尾的字符串95
7.3使用search()进行匹配95
7.3.1获取第一匹配值96
7.3.2可选匹配96
7.3.3匹配字符串边界97
7.4使用findall()进行匹配97
7.4.1匹配所有指定字符开头字符串98
7.4.2贪婪匹配98
7.4.3非贪婪匹配99
7.5字符串处理100
7.5.1替换字符串100
7.5.2分割字符串101
7.6案例:爬取编程e学网视频102
7.6.1查找视频页面102
7.6.2分析视频地址103
7.6.3实现视频下载105
7.7小结105
第8章XPath解析106
8.1XPath概述106
8.2XPath的解析操作107
8.2.1解析HTML107
8.2.2获取所有节点109
8.2.3获取子节点110
8.2.4获取父节点112
8.2.5获取文本112
8.2.6属性匹配113
8.2.7获取属性115
8.2.8按序获取116
8.2.9节点轴获取117
8.3案例:爬取豆瓣电影Top250118
8.3.1分析请求地址118
8.3.2分析信息位置119
8.3.3爬虫代码的实现120
8.4小结121
第9章解析数据的BeautifulSoup122
9.1使用BeautifulSoup解析数据122
9.1.1BeautifulSoup的安装122
9.1.2解析器123
9.1.3BeautifulSoup的简单应用124
9.2获取节点内容125
9.2.1获取节点对应的代码125
9.2.2获取节点属性126
9.2.3获取节点包含的文本内容127
9.2.4嵌套获取节点内容128
9.2.5关联获取129
9.3方法获取内容133
9.3.1find_all()获取所有符合条件的内容133
9.3.2find()获取第一个匹配的节点内容136
9.3.3其他方法137
9.4CSS选择器137
9.5小结140
第10章爬取动态渲染的信息141
10.1Ajax数据的爬取141
10.1.1分析请求地址141
10.1.2提取视频标题与视频地址144
10.1.3视频的批量下载145
10.2使用Selenium爬取动态加载的信息146
10.2.1安装Selenium模块146
10.2.2下载浏览器驱动147
10.2.3Selenium模块的使用147
10.2.4Selenium模块的常用方法149
10.3Splash的爬虫应用150
10.3.1搭建Splash环境(Windows10系统)150
10.3.2搭建Splash环境(Windows7系统)153
10.3.3Splash中的HTTPAPI156
10.3.4执行lua自定义脚本159
10.4小结160
第11章多线程与多进程爬虫161
11.1什么是线程161
11.2创建线程161
11.2.1使用threading模块创建线程162
11.2.2使用Thread子类创建线程163
11.3线程间通信163
11.3.1什么是互斥锁165
11.3.2使用互斥锁165
11.3.3使用队列在线程间通信167
11.4什么是进程169
11.5创建进程的常用方式169
11.5.1使用multiprocessing模块创建进程169
11.5.2使用Process子类创建进程172
11.5.3使用进程池Pool创建进程174
11.6进程间通信175
11.6.1队列简介177
11.6.2多进程队列的使用177
11.6.3使用队列在进程间通信179
11.7多进程爬虫180
11.8小结185
第12章数据处理186
12.1初识Pandas186
12.2Series对象187
12.2.1图解Series对象187
12.2.2创建一个Series对象188
12.2.3手动设置Series索引188
12.2.4Series的索引189
12.2.5获取Series索引和值190
12.3DataFrame对象190
12.3.1图解DataFrame对象191
12.3.2创建一个DataFrame对象192
12.3.3DataFrame的重要属性和函数194
12.4数据的增、删、改、查195
12.4.1增加数据195
12.4.2删除数据196
12.4.3修改数据197
12.4.4查询数据198
12.5数据清洗199
12.5.1NaN数据处理199
12.5.2去除重复数据202
12.6数据转换204
12.6.1DataFrame转换为字典204
12.6.2DataFrame转换为列表206
12.6.3DataFrame转换为元组206
12.7导入外部数据207
12.7.1导入.xls或.xlsx文件207
12.7.2导入.csv文件211
12.7.3导入.txt文本文件213
12.7.4导入HTML网页213
12.8数据排序与排名214
12.8.1数据排序214
12.8.2数据排名217
12.9简单的数据计算219
12.9.1求和(sum函数)219
12.9.2求均值(mean函数)220
12.9.3求优选值(max函数)221
12.9.4求最小值(min函数)221
12.10数据分组统计222
12.10.1分组统计groupby函数222
12.10.2对分组数据进行迭代224
12.10.3通过字典和Series对象进行分组统计225
12.11日期数据处理227
12.11.1DataFrame的日期数据转换227
12.11.2dt对象的使用229
12.11.3获取日期区间的数据230
12.11.4按不同时期统计并显示数据231
12.12小结233
第13章数据存储234
13.1文件的存取234
13.1.1基本文件操作TXT234
13.1.2存储CSV文件239
13.1.3存储Excel文件240
13.2SQLite数据库241
13.2.1创建数据库文件242
13.2.2操作SQLite242
13.3MySQL数据库244
13.3.1下载与安装MySQL244
13.3.2安装PyMySQL248
13.3.3连接数据库249
13.3.4创建数据表250
13.3.5操作MySQL数据表251
13.4小结252
第3篇高级应用
第14章数据可视化254
14.1Matplotlib概述254
14.1.1Matplotlib简介254
14.1.2安装Matplotlib257
14.2图表的常用设置258
14.2.1基本绘图plot函数258
14.2.2设置画布261
14.2.3设置坐标轴262
14.2.4添加文本标签265
14.2.5设置标题和图例266
14.2.6添加注释268
14.3常用图表的绘制269
14.3.1绘制折线图270
14.3.2绘制柱形图271
14.3.3绘制饼形图273
14.4案例:可视化二手房数据查询系统278
14.5小结285
第15章App抓包工具286
15.1Charles工具的下载与安装286
15.2SSL证书的安装288
15.2.1安装PC端证书288
15.2.2设置代理291
15.2.3配置网络292
15.2.4安装手机端证书294
15.3小结296
第16章识别验证码297
16.1字符验证码297
16.1.1搭建OCR环境297
16.1.2下载验证码图片298
16.1.3识别验证码299
16.2第三方验证码识别301
16.3滑动拼图验证码305
16.4小结307
第17章Scrapy爬虫框架308
17.1了解Scrapy爬虫框架308
17.2搭建Scrapy爬虫框架309
17.2.1使用Anaconda安装Scrapy309
17.2.2Windows系统下配置Scrapy310
17.3Scrapy的基本应用312
17.3.1创建Scrapy项目312
17.3.2创建爬虫313
17.3.3获取数据316
17.3.4将爬取的数据保存为多种格式的文件318
17.4编写ItemPipeline319
17.4.1项目管道的核心方法319
17.4.2将信息存储至数据库320
17.5自定义中间件324
17.5.1设置随机请求头325
17.5.2设置Cookies327
17.5.3设置代理ip330
17.6文件下载332
17.7小结334
第18章Scrapy_Redis分布式爬虫335
18.1安装Redis数据库335
18.2Scrapy-Redis模块337
18.3分布式爬取中文日报新闻数据338
18.3.1分析网页地址338
18.3.2创建MySQL数据表339
18.3.3创建Scrapy项目340
18.3.4启动分布式爬虫344
18.4自定义分布式爬虫348
18.5小结354
第4篇项目实战
第19章数据侦探356
19.1需求分析356
19.2系统设计356
19.2.1系统功能结构356
19.2.2系统业务流程357
19.2.3系统预览358
19.3系统开发推荐360
19.3.1开发工具准备360
19.3.2文件夹组织结构360
19.4主窗体的UI设计361
19.4.1主窗体的布局361
19.4.2主窗体显示效果363
19.5设计数据库表结构364
19.6爬取数据365
19.6.1获取京东商品热卖排行信息365
19.6.2获取价格信息370
19.6.3获取评价信息372
19.6.4定义数据库操作文件375
19.7主窗体的数据展示378
19.7.1显示前10名热卖榜图文信息378
19.7.2显示关注商品列表382
19.7.3显示商品分类比例饼图389
19.8外设产品热卖榜392
19.9商品预警395
19.9.1关注商品中、差评预警395
19.9.2关注商品价格变化预警398
19.9.3更新关注商品信息400
19.10系统功能401
19.11小结403
内容摘要
本书从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python实现网络爬虫开发应该掌握的技术。全书共分19章,内容包括初识网络爬虫、了解Web前端、请求模块urllib、请求模块urllib3、请求模块requests、高级网络请求模块、正则表达式、XPath解析、解析数据的BeautifulSoup、爬取动态渲染的信息、多线程与多进程爬虫、数据处理、数据存储、数据可视化、App抓包工具、识别验证码、Scrapy爬虫框架、Scrapy_Redis分布式爬虫、数据侦探。书中所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可轻松领会网络爬虫程序开发的精髓,快速提高开发技能。本书列举了大量的小型实例、综合实例和部分项目案例;所附资源包内容有实例源程序及项目源码等;本书的服务网站提供了模块库、案例库、题库、素材库、答疑服务。本书内容详尽,实例丰富,非常适合作为编程初学者的学习用书,也可作为Python开发人员的案头参考资料。
主编推荐
"《Python网络爬虫从入门到精通》从零基础开始,提供了Python网络爬虫开发从入门到编程高手所必需的各类知识。无论有没有Python基础,通过本书你都能最终成为网络爬虫高手。
(1)主流技术,全面解析。本书涵盖网页抓取、App抓包、识别验证码、Scrapy爬虫框架,以及Scrapy_Redis分布式爬虫等技术,一本书教你掌握网络爬虫领域的主流核心技术。
(2)由浅入深,循序渐进。本书引领读者按照基础知识→核心技术→高级应用→项目实战循序渐进地学习,符合认知规律。
(3)边学边练,学以致用。200个应用示例+1个行业项目案例+136集Python零基础扫盲课,边学边练,在实践中提升技能。
(4)精彩栏目,贴心提醒。本书设置了很多“注意”“说明”“技巧”等小栏目,让读者在学习的过程中更轻松地理解相关知识点及概念,更快地掌握数据分析技能和应用技巧。
(5)在线解答,高效学习。在线答疑QQ及技术支持网站,不定期进行在线直播课程。"
— 没有更多了 —
以下为对购买帮助不大的评价