• Python网络爬虫从入门到精通 正版二手书
21年品牌 40万+商家 超1.5亿件商品

Python网络爬虫从入门到精通 正版二手书

26.5 2.7折 99.8 九品

库存2件

广西南宁
认证卖家担保交易快速发货售后保障

作者明日科技

出版社清华大学出版社

ISBN9787302567004

出版时间2021-04

装帧平装

开本16开

定价99.8元

货号9787302567004

上书时间2024-02-16

大学平价二手书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
商品描述
作者简介
明日科技,全称是吉林省明日科技有限公司,是一家专业从事软件开发、教育培训以及软件开发教育资源整合的高科技公司,其编写的教材非常注重选取软件开发中的必需、常用内容,同时也很注重内容的易学、方便性以及相关知识的拓展性,深受读者喜爱。其教材多次荣获“全行业优秀畅销品种”“全国高校出版社优秀畅销书”等奖项,多个品种长期位居同类图书销售排行榜的前列。

目录
第1篇基础知识

第1章初识网络爬虫2

1.1网络爬虫概述2

1.2网络爬虫的分类2

1.3网络爬虫的基本原理3

1.4搭建开发环境4

1.4.1安装Anaconda4

1.4.2PyCharm的下载与安装7

1.4.3配置PyCharm9

1.4.4测试PyCharm13

1.5小结15

第2章了解Web前端16

2.1HTTP基本原理16

2.1.1HTTP协议16

2.1.2HTTP与Web服务器16

2.1.3浏览器中的请求和响应18

2.2HTML语言19

2.2.1什么是HTML19

2.2.2标签、元素、结构概述19

2.2.3HTML的基本标签21

2.3CSS层叠样式表22

2.3.1CSS概述22

2.3.2属性选择器23

2.3.3类和ID选择器24

2.4JavaScript动态脚本语言24

2.5小结27

第3章请求模块urllib28

3.1urllib简介28

3.2使用urlopen()方法发送请求28

3.2.1发送GET请求29

3.2.2发送POST请求30

3.2.3设置网络超时31

3.3复杂的网络请求32

3.3.1设置请求头32

3.3.2Cookies的获取与设置34

3.3.3设置代理IP39

3.4异常处理40

3.5解析链接41

3.5.1拆分URL42

3.5.2组合URL43

3.5.3连接URL44

3.5.4URL的编码与解码45

3.5.5URL参数的转换46

3.6小结47

第4章请求模块urllib348

4.1urllib3简介48

4.2发送网络请求49

4.2.1GET请求49

4.2.2POST请求50

4.2.3重试请求51

4.2.4处理响应内容51

4.3复杂请求的发送53

4.3.1设置请求头53

4.3.2设置超时54

4.3.3设置代理55

4.4上传文件56

4.5小结57

第5章请求模块requests58

5.1请求方式58

5.1.1GET请求59

5.1.2对响应结果进行utf-8编码59

5.1.3爬取二进制数据60

5.1.4GET(带参)请求61

5.1.5POST请求62

5.2复杂的网络请求63

5.2.1添加请求头headers63

5.2.2验证Cookies64

5.2.3会话请求65

5.2.4验证请求66

5.2.5网络超时与异常67

5.2.6上传文件68

5.3代理服务69

5.3.1代理的应用69

5.3.2获取免费的代理IP70

5.3.3检测代理IP是否有效71

5.4小结72

第6章高级网络请求模块73

6.1Requests-Cache的安装与测试73

6.2缓存的应用74

6.3强大的Requests-HTML模块76

6.3.1使用Requests-HTML实现网络请求76

6.3.2数据的提取78

6.3.3获取动态加载的数据82

6.4小结85

第2篇核心技术

第7章正则表达式88

7.1正则表达式基础88

7.1.1行定位符88

7.1.2元字符89

7.1.3限定符89

7.1.4字符类90

7.1.5排除字符90

7.1.6选择字符90

7.1.7转义字符91

7.1.8分组91

7.1.9在Python中使用正则表达式语法91

7.2使用match()进行匹配92

7.2.1匹配是否以指定字符串开头93

7.2.2匹配任意开头的字符串94

7.2.3匹配多个字符串94

7.2.4获取部分内容94

7.2.5匹配指定首尾的字符串95

7.3使用search()进行匹配95

7.3.1获取第一匹配值96

7.3.2可选匹配96

7.3.3匹配字符串边界97

7.4使用findall()进行匹配97

7.4.1匹配所有指定字符开头字符串98

7.4.2贪婪匹配98

7.4.3非贪婪匹配99

7.5字符串处理100

7.5.1替换字符串100

7.5.2分割字符串101

7.6案例:爬取编程e学网视频102

7.6.1查找视频页面102

7.6.2分析视频地址103

7.6.3实现视频下载105

7.7小结105

第8章XPath解析106

8.1XPath概述106

8.2XPath的解析操作107

8.2.1解析HTML107

8.2.2获取所有节点109

8.2.3获取子节点110

8.2.4获取父节点112

8.2.5获取文本112

8.2.6属性匹配113

8.2.7获取属性115

8.2.8按序获取116

8.2.9节点轴获取117

8.3案例:爬取豆瓣电影Top250118

8.3.1分析请求地址118

8.3.2分析信息位置119

8.3.3爬虫代码的实现120

8.4小结121

第9章解析数据的BeautifulSoup122

9.1使用BeautifulSoup解析数据122

9.1.1BeautifulSoup的安装122

9.1.2解析器123

9.1.3BeautifulSoup的简单应用124

9.2获取节点内容125

9.2.1获取节点对应的代码125

9.2.2获取节点属性126

9.2.3获取节点包含的文本内容127

9.2.4嵌套获取节点内容128

9.2.5关联获取129

9.3方法获取内容133

9.3.1find_all()获取所有符合条件的内容133

9.3.2find()获取第一个匹配的节点内容136

9.3.3其他方法137

9.4CSS选择器137

9.5小结140

第10章爬取动态渲染的信息141

10.1Ajax数据的爬取141

10.1.1分析请求地址141

10.1.2提取视频标题与视频地址144

10.1.3视频的批量下载145

10.2使用Selenium爬取动态加载的信息146

10.2.1安装Selenium模块146

10.2.2下载浏览器驱动147

10.2.3Selenium模块的使用147

10.2.4Selenium模块的常用方法149

10.3Splash的爬虫应用150

10.3.1搭建Splash环境(Windows10系统)150

10.3.2搭建Splash环境(Windows7系统)153

10.3.3Splash中的HTTPAPI156

10.3.4执行lua自定义脚本159

10.4小结160

第11章多线程与多进程爬虫161

11.1什么是线程161

11.2创建线程161

11.2.1使用threading模块创建线程162

11.2.2使用Thread子类创建线程163

11.3线程间通信163

11.3.1什么是互斥锁165

11.3.2使用互斥锁165

11.3.3使用队列在线程间通信167

11.4什么是进程169

11.5创建进程的常用方式169

11.5.1使用multiprocessing模块创建进程169

11.5.2使用Process子类创建进程172

11.5.3使用进程池Pool创建进程174

11.6进程间通信175

11.6.1队列简介177

11.6.2多进程队列的使用177

11.6.3使用队列在进程间通信179

11.7多进程爬虫180

11.8小结185

第12章数据处理186

12.1初识Pandas186

12.2Series对象187

12.2.1图解Series对象187

12.2.2创建一个Series对象188

12.2.3手动设置Series索引188

12.2.4Series的索引189

12.2.5获取Series索引和值190

12.3DataFrame对象190

12.3.1图解DataFrame对象191

12.3.2创建一个DataFrame对象192

12.3.3DataFrame的重要属性和函数194

12.4数据的增、删、改、查195

12.4.1增加数据195

12.4.2删除数据196

12.4.3修改数据197

12.4.4查询数据198

12.5数据清洗199

12.5.1NaN数据处理199

12.5.2去除重复数据202

12.6数据转换204

12.6.1DataFrame转换为字典204

12.6.2DataFrame转换为列表206

12.6.3DataFrame转换为元组206

12.7导入外部数据207

12.7.1导入.xls或.xlsx文件207

12.7.2导入.csv文件211

12.7.3导入.txt文本文件213

12.7.4导入HTML网页213

12.8数据排序与排名214

12.8.1数据排序214

12.8.2数据排名217

12.9简单的数据计算219

12.9.1求和(sum函数)219

12.9.2求均值(mean函数)220

12.9.3求优选值(max函数)221

12.9.4求最小值(min函数)221

12.10数据分组统计222

12.10.1分组统计groupby函数222

12.10.2对分组数据进行迭代224

12.10.3通过字典和Series对象进行分组统计225

12.11日期数据处理227

12.11.1DataFrame的日期数据转换227

12.11.2dt对象的使用229

12.11.3获取日期区间的数据230

12.11.4按不同时期统计并显示数据231

12.12小结233

第13章数据存储234

13.1文件的存取234

13.1.1基本文件操作TXT234

13.1.2存储CSV文件239

13.1.3存储Excel文件240

13.2SQLite数据库241

13.2.1创建数据库文件242

13.2.2操作SQLite242

13.3MySQL数据库244

13.3.1下载与安装MySQL244

13.3.2安装PyMySQL248

13.3.3连接数据库249

13.3.4创建数据表250

13.3.5操作MySQL数据表251

13.4小结252

第3篇高级应用

第14章数据可视化254

14.1Matplotlib概述254

14.1.1Matplotlib简介254

14.1.2安装Matplotlib257

14.2图表的常用设置258

14.2.1基本绘图plot函数258

14.2.2设置画布261

14.2.3设置坐标轴262

14.2.4添加文本标签265

14.2.5设置标题和图例266

14.2.6添加注释268

14.3常用图表的绘制269

14.3.1绘制折线图270

14.3.2绘制柱形图271

14.3.3绘制饼形图273

14.4案例:可视化二手房数据查询系统278

14.5小结285

第15章App抓包工具286

15.1Charles工具的下载与安装286

15.2SSL证书的安装288

15.2.1安装PC端证书288

15.2.2设置代理291

15.2.3配置网络292

15.2.4安装手机端证书294

15.3小结296

第16章识别验证码297

16.1字符验证码297

16.1.1搭建OCR环境297

16.1.2下载验证码图片298

16.1.3识别验证码299

16.2第三方验证码识别301

16.3滑动拼图验证码305

16.4小结307

第17章Scrapy爬虫框架308

17.1了解Scrapy爬虫框架308

17.2搭建Scrapy爬虫框架309

17.2.1使用Anaconda安装Scrapy309

17.2.2Windows系统下配置Scrapy310

17.3Scrapy的基本应用312

17.3.1创建Scrapy项目312

17.3.2创建爬虫313

17.3.3获取数据316

17.3.4将爬取的数据保存为多种格式的文件318

17.4编写ItemPipeline319

17.4.1项目管道的核心方法319

17.4.2将信息存储至数据库320

17.5自定义中间件324

17.5.1设置随机请求头325

17.5.2设置Cookies327

17.5.3设置代理ip330

17.6文件下载332

17.7小结334

第18章Scrapy_Redis分布式爬虫335

18.1安装Redis数据库335

18.2Scrapy-Redis模块337

18.3分布式爬取中文日报新闻数据338

18.3.1分析网页地址338

18.3.2创建MySQL数据表339

18.3.3创建Scrapy项目340

18.3.4启动分布式爬虫344

18.4自定义分布式爬虫348

18.5小结354

第4篇项目实战

第19章数据侦探356

19.1需求分析356

19.2系统设计356

19.2.1系统功能结构356

19.2.2系统业务流程357

19.2.3系统预览358

19.3系统开发推荐360

19.3.1开发工具准备360

19.3.2文件夹组织结构360

19.4主窗体的UI设计361

19.4.1主窗体的布局361

19.4.2主窗体显示效果363

19.5设计数据库表结构364

19.6爬取数据365

19.6.1获取京东商品热卖排行信息365

19.6.2获取价格信息370

19.6.3获取评价信息372

19.6.4定义数据库操作文件375

19.7主窗体的数据展示378

19.7.1显示前10名热卖榜图文信息378

19.7.2显示关注商品列表382

19.7.3显示商品分类比例饼图389

19.8外设产品热卖榜392

19.9商品预警395

19.9.1关注商品中、差评预警395

19.9.2关注商品价格变化预警398

19.9.3更新关注商品信息400

19.10系统功能401

19.11小结403

内容摘要
本书从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python实现网络爬虫开发应该掌握的技术。全书共分19章,内容包括初识网络爬虫、了解Web前端、请求模块urllib、请求模块urllib3、请求模块requests、高级网络请求模块、正则表达式、XPath解析、解析数据的BeautifulSoup、爬取动态渲染的信息、多线程与多进程爬虫、数据处理、数据存储、数据可视化、App抓包工具、识别验证码、Scrapy爬虫框架、Scrapy_Redis分布式爬虫、数据侦探。书中所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可轻松领会网络爬虫程序开发的精髓,快速提高开发技能。本书列举了大量的小型实例、综合实例和部分项目案例;所附资源包内容有实例源程序及项目源码等;本书的服务网站提供了模块库、案例库、题库、素材库、答疑服务。本书内容详尽,实例丰富,非常适合作为编程初学者的学习用书,也可作为Python开发人员的案头参考资料。

主编推荐
"《Python网络爬虫从入门到精通》从零基础开始,提供了Python网络爬虫开发从入门到编程高手所必需的各类知识。无论有没有Python基础,通过本书你都能最终成为网络爬虫高手。
(1)主流技术,全面解析。本书涵盖网页抓取、App抓包、识别验证码、Scrapy爬虫框架,以及Scrapy_Redis分布式爬虫等技术,一本书教你掌握网络爬虫领域的主流核心技术。
(2)由浅入深,循序渐进。本书引领读者按照基础知识→核心技术→高级应用→项目实战循序渐进地学习,符合认知规律。
(3)边学边练,学以致用。200个应用示例+1个行业项目案例+136集Python零基础扫盲课,边学边练,在实践中提升技能。
(4)精彩栏目,贴心提醒。本书设置了很多“注意”“说明”“技巧”等小栏目,让读者在学习的过程中更轻松地理解相关知识点及概念,更快地掌握数据分析技能和应用技巧。
(5)在线解答,高效学习。在线答疑QQ及技术支持网站,不定期进行在线直播课程。"

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP