• Python 3网络爬虫实战
  • Python 3网络爬虫实战
  • Python 3网络爬虫实战
  • Python 3网络爬虫实战
  • Python 3网络爬虫实战
  • Python 3网络爬虫实战
  • Python 3网络爬虫实战
  • Python 3网络爬虫实战
  • Python 3网络爬虫实战
21年品牌 40万+商家 超1.5亿件商品

Python 3网络爬虫实战

全新正版 急速发货

38 4.8折 79 全新

库存5件

天津武清
认证卖家担保交易快速发货售后保障

作者胡松涛

出版社清华大学出版社

ISBN9787302557340

出版时间2020-08

装帧平装

开本16开

定价79元

货号28996684

上书时间2024-12-25

当科图书专营店

五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言

随着计算机技术飞速发展,人们对计算机使用技能的要求越来越高。在编写软件时,大家既希望有超高的效率,又希望这门语言简单易用。这种鱼与熊掌皆得的要求的确很高,Python编程语言恰好符合这么苛刻的要求。

Python的执行效率仅比效率之王C略逊一筹,在简单易用方面Python也名列三甲。可以说,Python在效率和简单之间达到了平衡。另外,Python还是一门胶水语言,可以将其他编程语言的优点融合在一起,达到1 1>2的效果。这也是Python如今使用人数越来越多的原因。

Python语言发展迅速,在各行各业都发挥了独特的作用。在各大企业、学校、机关都运行着Python明星程序。但就个人而言,运用Python多的还是网络爬虫(这里的爬虫仅涉及从网页提取数据,不涉及深度、广度算法的爬虫搜索)。在网络上经常更新的数据,无须每次都打开网页浏览,使用爬虫程序可以一键获取数据,下载保存后分析。考虑到Python爬虫在网络上的资料虽多,但大多都不成系统,难以提供系统、有效的学习。因此,作者抛砖引玉,编写了这本有关Python网络爬虫的书,以供读者学习参考。

Python简单易学,Python爬虫也不复杂,只需要了解Python的基本操作即可自行编写。本书将介绍几种不同类型的Python爬虫,可以针对不同情况的站点进行数据收集。

本书特色

附带源代码。为了便于读者理解本书内容,本书提供源代码,供读者下载使用。读者可通过代码学习开发思路,并在此基础上精简优化代码。

涵盖Linux和Windows上模块的安装和配置。本书包含Python模块源的配置、模块的安装以及常用IDE的使用。

实战实例。通过常用的实例详细说明网络爬虫的编写过程。

本书内容

本书共12章,第1~4章介绍Python 3.8的基本安装、简单Python程序的编写、网络爬虫的基本原理以及网页数据的存储和读取。第5章介绍的Scrapy爬虫框架主要针对一般无须登录的网站,在爬取大量数据时使用Scrapy会很方便。第6章介绍的BeautifulSoup爬虫可以算作爬虫的“个人版”。BeautifulSoup爬虫主要针对一些爬取数据比较少、结构简单的网站。第7章介绍的PyQuery模块的主要功能是对页面进行快速爬取,重点是以jQuery的语法来操作解析 HTML 文档。第8章介绍的Selenium模块的主要功能是模拟浏览器,作用主要是针对JavaScript返回数据的网站。第9章介绍PySpider框架,通过UI界面与代码结合实现网站的爬取。第10~12章介绍一些比较分散的爬虫技术,如图片验证码识别、爬取部分App内容、反爬虫等。

修订说明

本书第2版使用了Python 3.6,由于Python 2当时还被官方支持,因此保留了一些Python 2.X的内容。但目前官方已经明确不再维护Python 2.X,所以本书进行了彻底更新,完全使用Python 3.8版本。同时也修订了代码,改正了一些因为目标网站改版而造成爬虫不能使用的问题。

源代码下载

本书示例源代码可扫描下边的二维码获得。

如果下载有问题,请联系booksaga@163.com,邮件主题为“Python 3网络爬虫实战”。

本书读者

Python编程及Python网络爬虫的初学者

数据分析与挖掘技术的初学者

高等院校和培训学校相关专业的师生

著  者

2020年3月



导语摘要

本书分为8章,内容包括Python的开发环境、爬虫的基础原理和概念、数据解析与存贮、简单爬虫的使用、PyQuery模块、Scrapy框架、Beautiful Soup框架开发出不同的网络爬虫。用实例显示出不同框架的优缺点,供读者学习选择。



作者简介

胡松涛,高级工程师,参与多个Linux开源项目,github知名代码分享者,活跃于国内著名的多个开源论坛。



目录

第1章  Python环境配置  1


1.1  Python简介  1


1.1.1  Python的历史由来  1


1.1.2  Python的现状  2


1.1.3  Python的应用  2


1.2  Python 3.8.0开发环境配置  4


1.2.1  在Windows下安装Python  4


1.2.2  在Windows下安装配置pip  8


1.2.3  在Linux下安装Python  9


1.2.4  在Linux下安装配置pip  11


1.2.5  永远的hello world  15


1.3  本章小结  19


第2章  爬虫基础快速入门  20


2.1  HTTP基本原理  20


2.1.1  URI和URL  20


2.1.2  超文本  21


2.1.3  HTTP和HTTPS  21


2.1.4  HTTP请求过程  22


2.1.5  请求  24


2.1.6  响应  26


2.2  网页基础  27


2.2.1  网页的组成  27


2.2.2  网页的结构  28


2.2.3  节点树及节点间的关系  30


2.2.4  选择器  36


2.3  爬虫的基本原理  37


2.3.1  爬虫概述  37


2.3.2  能抓取什么样的数据  37


2.3.3  JavaScript渲染页面  38


2.4  会话和Cookies  39


2.4.1  静态网页和动态网页  40


2.4.2  无状态HTTP  41


2.4.3  常见误区  42


2.5  代理的基本原理  42


2.5.1  基本原理  42


2.5.2  代理的作用  43


2.5.3  代理分类  43


2.5.4  常见代理设置  44


2.6  本章小结  44


第3章  数据存储与解析  45


3.1  文件存储  45


3.1.1  TXT文件存储  45


3.1.2  JSON文件存储  49


3.1.3  CSV文件存储  52


3.2  关系型数据库存储  57


3.2.1  连接数据库  59


3.2.2  创建表  59


3.2.3  插入数据  60


3.2.4  浏览数据  61


3.2.5  修改数据  62


3.2.6  删除数据  63


3.3  非关系型数据库存储  64


3.3.1  安装数据库  64


3.3.2  MongoDB概念解析  68


3.3.3  创建数据库  68


3.3.4  创建集合  69


3.3.5  插入文档  69


3.3.6  查询集合数据  71


3.3.7  修改记录  73


3.3.8  数据排序  74


3.3.9  删除文档  75


3.4  lxml模块解析数据  76


3.4.1  安装模块  76


3.4.2  XPath常用规则  76


3.4.3  读取文件进行解析  79


3.5  本章小结  81


第4章  Python爬虫常用模块  82


4.1  Python网络爬虫技术核心  82


4.1.1  Python网络爬虫实现原理  82


4.1.2  爬行策略  83


4.1.3  身份识别  83


4.2  Python 3标准库之urllib.request模块  84


4.2.1  urllib.request请求返回网页  84


4.2.2  urllib.request使用代理访问网页  86


4.2.3  urllib.request修改header  89


4.3  Python 3标准库之logging模块  93


4.3.1  简述logging模块  93


4.3.2  自定义模块myLog  97


4.4  re模块(正则表达式)  100


4.4.1  re模块(正则表达式的操作)  100


4.4.2  re模块实战  102


4.5  其他有用模块  103


4.5.1  sys模块(系统参数获取)  103


4.5.2  time模块(获取时间信息)  105


4.6  本章小结  108


第5章  Scrapy爬虫框架  109


5.1  安装Scrapy  109


5.1.1  在Windows下安装Scrapy环境  109


5.1.2  在Linux下安装Scrapy  110


5.1.3  vim编辑器  111


5.2  Scrapy选择器XPath和CSS  112


5.2.1  XPath选择器  112


5.2.2  CSS选择器  115


5.2.3  其他选择器  116


5.3  Scrapy爬虫实战一:今日影视  117


5.3.1  创建Scrapy项目  117


5.3.2  Scrapy文件介绍  119


5.3.3  Scrapy爬虫的编写  121


5.4  Scrapy爬虫实战二:天气预报  128


5.4.1  项目准备  129


5.4.2  创建并编辑Scrapy爬虫  130


5.4.3  数据存储到JSON  137


5.4.4  数据存储到MySQL  139


5.5  Scrapy爬虫实战三:获取代理  145


5.5.1  项目准备  145


5.5.2  创建编辑Scrapy爬虫  146


5.5.3  多个Spider  152


5.5.4  处理Spider数据  156


5.6  Scrapy爬虫实战四:糗事百科  158


5.6.1  目标分析  158


5.6.2  创建编辑Scrapy爬虫  159


5.6.3  Scrapy项目中间件——添加headers  160


5.6.4  Scrapy项目中间件——添加Proxy  163


5.7  Scrapy爬虫实战五:爬虫攻防  166


5.7.1  创建一般爬虫  166


5.7.2  封锁间隔时间破解  169


5.7.3  封锁Cookies破解  170


5.7.4  封锁User-Agent破解  170


5.7.5  封锁IP破解  176


5.8  本章小结  179


第6章  BeautifulSoup爬虫  180


6.1  安装BeautifulSoup环境  180


6.1.1  在Windows下安装BeautifulSoup  180


6.1.2  在Linux下安装BeautifulSoup  181


6.1.3  强大的IDE——Eclipse  181


6.2  BeautifulSoup解析器  190


6.2.1  bs4解析器选择  190


6.2.2  lxml解析器的安装  191


6.2.3  使用bs4过滤器  192


6.3  bs4爬虫实战一:获取百度贴吧内容  197


6.3.1  目标分析  197


6.3.2  项目实施  199


6.3.3  代码分析  206


6.3.4  Eclipse调试  207


6.4  bs4爬虫实战二:获取双色球中奖信息  208


6.4.1  目标分析  209


6.4.2  项目实施  211


6.4.3  保存结果到Excel  214


6.4.4  代码分析  219


6.5  bs4爬虫实战三:获取起点小说信息  220


6.5.1  目标分析  220


6.5.2  项目实施  222


6.5.3  保存结果到MySQL  224


6.5.4  代码分析  228


6.6  bs4爬虫实战四:获取电影信息  229


6.6.1  目标分析  229


6.6.2  项目实施  230


6.6.3  bs4反爬虫  233


6.6.4  代码分析  235


6.7  bs4爬虫实战五:获取音悦台榜单  236


6.7.1  目标分析  236


6.7.2  项目实施  237


6.7.3  代码分析  242


6.8  本章小结  243


第7章  PyQuery模块  244


7.1  PyQuery模块  244


7.1.1  什么是PyQuery模块  244


7.1.2  PyQuery与其他工具  244


7.1.3  PyQuery模块的安装  245


7.2  PyQuery模块的用法  247


7.2.1  使用字符串初始化  247


7.2.2  使用文件初始化  248


7.2.3  使用URL初始化  249


7.3  CSS筛选器的使用  250


7.3.1  基本CSS选择器  250


7.3.2  查找节点  251


7.3.3  遍历结果  255


7.3.4  获取文本信息  256


7.4  PyQuery爬虫实战一:爬取百度风云榜  258


7.5  PyQuery爬虫实战二:爬取微博热搜  259


7.6  本章小结  260


第8章  Selenium模拟浏览器  261


8.1  安装Selenium模块  261


8.1.1  在Windows下安装Selenium模块  261


8.1.2  在Linux下安装Selenium模块  262


8.2  浏览器选择  262


8.2.1  Webdriver支持列表  262


8.2.2  在Windows下安装PhantomJS  263


8.2.3  在Linux下安装PhantomJS  265


8.3  Selenium&PhantomJS抓取数据  266


8.3.1  获取百度搜索结果  267


8.3.2  获取搜索结果  269


8.3.3  获取有效数据位置  271


8.3.4  从位置中获取有效数据  273


8.4  Selenium&PhantomJS实战一:获取代理  274


8.4.1  准备环境  274


8.4.2  爬虫代码  276


8.4.3  代码解释  278


8.5  Selenium&PhantomJS实战二:漫画爬虫  279


8.5.1  准备环境  279


8.5.2  爬虫代码  281


8.5.3&nbs

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP