• Python网络爬虫快速入门 耿倩,白国政 大连理工大学出版社
21年品牌 40万+商家 超1.5亿件商品

Python网络爬虫快速入门 耿倩,白国政 大连理工大学出版社

7.89 1.6折 48.8 八五品

仅1件

上海黄浦
认证卖家担保交易快速发货售后保障

作者耿倩,白国政

出版社大连理工大学出版社

ISBN9787568534567

出版时间2021-11

版次1

装帧平装

开本16开

纸张胶版纸

页数223页

字数99999千字

定价48.8元

货号9787568534567

上书时间2024-03-26

   商品详情   

品相描述:八五品
商品描述
基本信息
书名:Python网络爬虫快速入门
定价:48.80元
作者:耿倩,白国政
出版社:大连理工大学出版社
出版日期:2021-11-01
ISBN:9787568534567
字数:341000
页码:223
版次:
装帧:平装
开本:16开
商品重量:
编辑推荐

内容提要
本教材从初学者的角度出发,由浅入深地讲解了学习网络爬虫的基础知识,以及爬虫采集技术、信息提取技术等的基本使用方法,以帮助读者掌握爬虫的相关技能,使其能够独立编写自己的爬虫项目。本教材在内容安排上,充分考虑了知识体系的完整性和独立性,涵盖了Web页面及相关技术,爬取和解析网页数据的相关技术,以及数据存储技术等内容。
目录
部分  基础概念第l章  爬虫基础和开发环境的配置  1.1  爬虫产生的背景和概念    1.1.1  爬虫产生的背景    1.1.2  爬虫的概念  1.2  爬虫的用途和分类    1.2.1  爬虫的用途    1.2.2  爬虫的分类  1.3  爬虫实现原理    1.3.1  通用爬虫工作原理    1.3.2  聚焦爬虫工作原理  1.4  爬虫爬取网页信息的主要流程  1.5  防爬虫应对策略  1.6  爬虫数据采集与挖掘的合规性  1.7  开发环境的配置    1.7.1  在Windows上安装Python    1.7.2  PyCharm的安装与使用  习题第2章  网页前端基础  2.1  URL(统一资源定位符)    2.1.1  协议头    2.1.2  服务器地址和端口    2.1.3  文件路径  2.2  超文本  2.3  HTTP与HTTPS    2.3.1  HTTP    2 3 2  HTTPS  2.4  HTTP网络请求原理    2.4.1  浏览器显示网页过程    2.4.2  客户端HTTP请求格式    2.4.3  服务器HTTP相应格式  2.5  Robots协议    2.5.1  Robots协议的内涵    2.5.2  经典robots.txt例子  2.6  网页基础    2.6.1  HTML语言规范    2.6.2  CSS简述    2.6.3  节点树及节点间的关系  2.7  Cookie与Session    2.7.1  Cookie    2.7.2  Sessiml  习  题  案例1  爬虫合法吗第2部分  网络库第3章  网络库urllib  3.1  发送请求与获得响应    3.1.1  用urlopen函数发送HTTP GET请求    3.1.2  用urIopen函数发送HTTP POST请求    3.1.3  请求超时    3.1.4  设置HTTP请求头    3.1.5  使用代理    3.1.6  读取和设置Cookie  3.2  异常处理  3.3  解析链接    3.3.1  urlparse与urlunparse    3.3.2  urlsplit和urlunsplit    3.3.3  urljoin    3.3.4  urlencode    3.3.5  quote与unquote    3.3.6  parse_qs与parse_qsl  3.4  解析robots.txt文件  3.5  阶段案例  习题第4章  网络库requests  4.1  基本用法    4.1.1  requests的GET.请求    4.1.2  添加HTTP请求头    4.1.3  抓取二进制数据    4.1.4  POST请求    4.1.5  响应数据  4.2  高级应用    4.2.1  处理Cookie    4.2.2  使用同一会话(Session)    4.2.3  使用代理    4.2.4  超时    4.2.5  请求打包  4.3  阶段案例  习题  案例2  大众点评诉百度案第3部分  解析库第5章  正则表达式  5.1  了解正则表达式    5.1.1  原子    5.1.2  元字符  5.2  re库概述    5.2.1  match方法和group方法    5.2.2  search方法    5.2.3  findall方法和finditer方法    5.2.4  sub方法和subn方法    5.2.5  split方法  5.3  使用正则表达式抓取数据    5.3.1  抓取标签间的内容    5.3.2  抓取标签中的参数    5.3.3  字符串处理及替换  5.4  阶段案例  习题第6章  XPath和lxml解析库  6.1  lxml基础    6.1.1  安装Ixml    6.1.2  操作XML    6.1.3  操作HTML    6.1.4  操作字符串  6.2  XPath语法  6.3  lxml库的基本使用    6.3.1  选取所有节点    6.3.2  选取子节点    6.3.3  属性匹配与获取    6.3.4  选取父节点    6.3.5  多属性匹配    6.3.6  按序选择节点    6.3.7  在Chrome中自动获得XPath代码  6.4  阶段案例  习题第7章  解析库BeautifulSoup4  7.1  BeautifulSoup4概述    7.1.1  BeautifulSoup4的安装    7.1.2  选择解析器  7.2  BeautifulSoup对象    7.2.1  使用BeautifuiSoup解析HTML代码    7.2.2  节点选择器  7.3  方法和CSS选择器    7.3.1  方法选择器    7.3.2  CSS选择器  7.4  阶段案例  习题第8章  多线程爬虫  8.1  进程和线程    8.1.1  进程    8.1.2  线程  8.2  Python与线程    8.2.1  使用单线程执行程序    8.2.2  使用多线程执行程序    8.2.3  为线程函数传递参数    8.2.4  线程和锁  8.3  高级线程模块(threading)    8.3.1  Thread类与线程函数  8:3.2  Thread类与线程对象    8.3.3  从Thread类继承    8.3.4  线程同步    8.3.5  生产者一消费者问题与queue模块  8.4  多进程    8.4.1  创建子进程    8.4.2  将进程定义为类    8.4.3  创建多个进程  8.5  阶段案例  习题  案例3  头条前高管反噬被判刑第4部分  数据存储第9章  文件存储  9.1  操作文件    9.1.1  读文件和写文件    9.1.2  读行和写行    9.1.3  使用Filelnput对象读取文件  9.2  读写XML文件    9.2.1  读取与搜索XML文件    9.2.2  字典转换为XML字符串    9.2.3  XML字符串转换为字典  9.3  读写JSON文件    9.3.1  JSON字符串与字典互相转换    9.3.2  将JSON字符串转换为XML字符串    9.3.3  将JSON数据转存到文件中    9.3.4  从文件中读取JSON  9.4  读写CSV文件    9.4.1  写入CSV文件    9.4.
作者介绍

序言

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP