PYTHON网络爬虫技术与实践
正版保障 假一赔十 可开发票
¥
46.55
6.7折
¥
69.9
全新
库存14件
作者吕云翔等编著
出版社机械工业出版社
ISBN9787111728467
出版时间2023-06
装帧平装
开本16开
定价69.9元
货号12975539
上书时间2024-12-18
商品详情
- 品相描述:全新
- 商品描述
-
目录
前言基 础 篇第1章 Python基础及网络爬虫11.1 了解Python语言11.1.1 Python是什么21.1.2 Python的应用现状21.2 配置安装Python开发环境31.2.1 在Windows上安装31.2.2 在Ubuntu和MacOS上安装41.2.3 IDE的使用:以PyCharm为例51.2.4 Jupyter Notebook简介91.3 Python基本语法介绍111.3.1 HelloWorld与数据类型111.3.2 逻辑语句171.3.3 Python中的函数与类201.3.4 更深入了解Python221.4 互联网、HTTP与HTML221.4.1 互联网与HTTP221.4.2 HTML231.5 Hello, Spider!251.5.1 编写第一个爬虫程序251.5.2 对爬虫的思考271.6 分析网站281.6.1 robots.txt与Sitemap简介281.6.2 网站技术分析311.6.3 网站所有者信息分析331.6.4 使用开发者工具检查网页341.7 本章小结371.8 实践:Python环境的配置与爬虫的运行371.8.1 需求说明371.8.2 实现思路及步骤371.9 习题37第2章 数据采集与预处理392.1 数据392.1.1 数据的概念392.1.2 数据类型402.1.3 数据的存储形式422.1.4 数据的价值422.1.5 大数据时代432.2 数据分析过程432.3 数据采集442.3.1 数据采集的概念442.3.2 数据采集的数据源442.3.3 数据采集方法452.4 数据清洗452.4.1 数据清洗概述452.4.2 数据清洗的内容462.4.3 数据清洗的基本流程462.4.4 数据清洗的评价标准472.5 数据集成472.6 数据转换482.6.1 数据转换概念与策略482.6.2 平滑处理482.6.3 标准化处理502.7 数据脱敏502.7.1 数据脱敏的原则502.7.2 数据脱敏的方法512.8 本章小结512.9 实践:使用Python尝试数据的清洗512.9.1 需求说明512.9.2 实现思路及步骤512.10 习题51第3章 静态网页采集533.1 从采集开始533.2 正则表达式543.2.1 什么是正则表达式543.2.2 正则表达式的简单使用563.3 BeautifulSoup爬虫583.3.1 安装BeautifulSoup583.3.2 BeautifulSoup的基本用法613.4 XPath与lxml643.4.1 XPath643.4.2 lxml与XPath的使用653.5 遍历页面673.5.1 抓取下一个页面673.5.2 完成爬虫683.6 使用API703.6.1 API简介703.6.2 API使用示例723.7 本章小结753.8 实践:哔哩哔哩直播间信息爬取练习753.8.1 需求说明753.8.2 实现思路及步骤753.9 习题76第4章 数据存储774.1 Python中的文件774.1.1 Python的文件读写774.1.2 对象序列化794.2 Python中的字符串804.3 Python中的图片814.3.1 PIL与Pillow模块814.3.2 Python与OpenCV简介834.4 CSV844.4.1 CSV简介844.4.2 CSV的读写844.5 数据库的使用864.5.1 MySQL的使用864.5.2 SQLite3的使用884.5.3 SQLAlchemy的使用894.5.4 Redis的使用914.5.5 MongoDB的使用914.6 其他类型的文档924.7 本章小结974.8 实践:使用Python 3读写SQLite数据库974.8.1 需求说明974.8.2 实现思路及步骤974.9 习题97 进 阶 篇 第5章 JavaScript与动态内容995.1 JavaScript与AJAX技术1005.1.1 JavaScript语言1005.1.2 AJAX1035.2 抓取AJAX数据1045.2.1 分析数据1045.2.2 数据提取1085.3 抓取动态内容1135.3.1 动态渲染页面1135.3.2 使用Selenium1145.3.3 PyV8与Splash1205.4 本章小结1235.5 实践:爬取机械工业出版社新书上架信息1235.5.1 需求说明1235.5.2 实现思路及步骤1245.6 习题124第6章 模拟登录与验证码1256.1 表单1256.1.1 表单与POST1256.1.2 POST发送表单数据1276.2 Cookie1306.2.1 Cookie简介1306.2.2 在Python中Cookie的使用1316.3 模拟登录网站1336.3.1 分析网站1336.3.2 Cookie方法的模拟登录1346.4 验证码1376.4.1 图片验证码1376.4.2 滑动验证1396.5 本章小结1426.6 实践:通过Selenium模拟登录Gitee并保存Cookie1436.6.1 需求说明1436.6.2 实现思路及步骤1436.7 习题143第7章 爬虫数据的分析与处理1447.1 Python与文本分析1447.1.1 文本分析简介1447.1.2 jieba与SnowNLP1457.1.3 NLTK1487.1.4 文本分类与聚类1517.2 数据处理与科学计算1537.2.1 从MATLAB到Python1537.2.2 NumPy1547.2.3 Pandas1587.2.4 Matplotlib1637.2.5 SciPy与SymPy1677.3 本章小结1677.4 实践:中国每年大学招生人数变化的可视化1677.4.1 需求说明1677.4.2 实现思路及步骤1677.5 习题167 提 高 篇 第8章 爬虫的灵活性和多样性1698.1 爬虫的灵活性——以微信数据抓取为例1698.1.1 用Selenium抓取Web微信信息1698.1.2 基于Python的微信API工具1738.2 爬虫的多样性1768.2.1 在BeautifulSoup和XPath之外1768.2.2 在线爬虫应用平台1798.2.3 使用urllib1808.3 爬虫的部署和管理1888.3.1 使用服务器部署爬虫1888.3.2 本地爬虫的编写1918.3.3 爬虫的部署1958.3.4 实时查看运行结果1978.3.5 使用框架管理爬虫1978.4 本章小结2008.5 实践:基于PyQuery爬取菜鸟教程2018.5.1 需求说明2018.5.2 实现思路及步骤2018.6 习题201第9章 Selenium模拟浏览器与网站测试2029.1 测试2029.1.1 什么是测试2029.1.2 什么是TDD2039.2 Python的单元测试2039.2.1 使用unittest2039.2.2 其他方法2069.3 使用Python爬虫测试网站2079.4 使用Selenium测试2099.4.1 Selenium测试常用的网站交互2099.4.2 结合Selenium进行单元测试2119.5 本章小结2129.6 实践:使用Selenium爬取百度搜索“爬虫”的结果2129.6.1 需求说明2129.6.2 实现思路及步骤2129.7 习题213第10章 爬虫框架Scrapy与反爬虫21410.1 爬虫框架21410.1.1 Scrapy简介21410.1.2 安装与学习Scrapy21610.1.3 Scrapy爬虫编写21810.1.4 其他爬虫框架22010.2 网站反爬虫22110.2.1 反爬虫策略简介22110.2.2 伪装Headers22210.2.3 代理IP的使用22510.2.4 控制访问频率22810.3 本章小结22910.4 实践:使用反反爬虫策略抓取新浪体育频道热门新闻标题22910.4.1 需求说明22910.4.2 实现思路及步骤22910.5 习题230 实 战 篇 第11章 实战:根据关键词爬取新闻23111.1 利用Web Scraper工具23111.1.1 Web Scraper介绍23111.1.2 利用Web Scraper爬取新华网新闻23211.2 利用Selenium和XPath技术23411.2.1 Selenium介绍23411.2.2 XPath介绍23411.2.3 根据关键词爬取新闻23511.3 本章小结236第12章 实战:爬取科研文献信息23712.1 科研文献数据爬取23712.1.1 网页URL分析23712.1.2 网页响应内容获取23812.1.3 数据持久化存储24012.1.4 爬虫代码编写24012.1.5 大数据量文献爬虫24512.1.6 针对反爬虫的措施24612.2 本章小结247第13章 实战:蒸汽平台游戏数据爬取24813.1 爬取蒸汽平台上最受好评的前100个游戏信息24813.1.1 多线程24813.1.2 搜索页面分析和爬虫实现24813.1.3 游戏页面分析和爬虫实现25013.1.4 信息存储和结果展示25313.2 本章小结254第14章 实战:Scrapy框架爬取股票信息25514.1 任务介绍25514.2 Scrapy项目实战25614.2.1 新建Scrapy爬虫项目25614.2.2 使用Scrapy shell抓取并查看页面25614.2.3 爬虫代码编写26014.2.4 运行并存储数据26214.2.5 设置文件修改26314.3 本章小结265参考文献266
内容摘要
本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。
主编推荐
详细介绍了网络爬虫技术的方方面面,讨论了数据抓取、数据处理和数据分析的整个流程。从最简单的Python程序示例开始,在网络爬虫的核心主题之下一步步深入,兼顾内容的广度与深度。提供丰富的代码来作为读者的参考,同时对必要的术语和代码进行解释。书中程序代码均采用Python 3版本,并使用了目前主流的各种Python框架和库来编写,注重内容的时效性。
精彩内容
本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。
— 没有更多了 —
以下为对购买帮助不大的评价