• 网络爬虫项目实践
21年品牌 40万+商家 超1.5亿件商品

网络爬虫项目实践

全新正版 极速发货

8.54 2.8折 30 全新

库存10件

广东广州
认证卖家担保交易快速发货售后保障

作者编者:李程文//唐建生//冯欣悦|责编:明政珠//孟秋黎

出版社西安电子科大

ISBN9787560664613

出版时间2023-05

装帧其他

开本其他

定价30元

货号31775458

上书时间2024-07-06

谢岳书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
项目一 网页数据获取
  任务1.1  读书网信息爬取
    1.1.1  网页结构分析
    1.1.2  第三方库安装
    1.1.3  解决爬虫中文乱码的问题
    1.1.4  网页数据爬取
  任务1.2  今日头条数据爬取
    1.2.1  网页数据爬取
    1.2.2  获取搜索结果详情
    1.2.3  解析详情页数据
    1.2.4  保存数据
  任务1.3  京东动态渲染页面的信息爬取
    1.3.1  网页结构分析
    1.3.2  第三方库安装
    1.3.3  搜索关键字
    1.3.4  分析页面并翻页
    1.3.5  分析提取商品内容
    1.3.6  保存信息至MongoDB
项目二 特殊网页数据获取
  任务2.1  数睿思网模拟登录
    2.1.1  查找提交入口
    2.1.2  查找并获取需要提交的
表单数据
    2.1.3  使用post请求方法登录
  任务2.2  古诗词网数据爬取
    2.2.1  Tesseract引擎的下载和安装
    2.2.2  第三方库安装
    2.2.3  验证码识别
    2.2.4  完成登录
  任务2.3  微信网页代理爬虫文章信息
    2.3.1  网页结构分析
    2.3.2  使用Flask + Redis维护代理池
    2.3.3  爬取索引页内容
    2.3.4  设置代理
    2.3.5  分析详情页内容
    2.3.6  保存数据信息至MongoDB
项目三 Scrapy框架爬虫
  任务3.1  当当网商品爬取
    3.1.1  创建Scrapy项目
    3.1.2  商品数据爬取
    3.1.3  商品数据处理
  任务3.2  登录赶集网
    3.2.1  创建爬虫项目
    3.2.2  获取表单HashCode
    3.2.3  获取验证码
    3.2.4  编写代码
  任务3.3  失信人信息爬取
    3.3.1  创建爬虫项目
    3.3.2  定义数据模型
    3.3.3  爬取失信人名单
    3.3.4  保存失信人名单信息
    3.3.5  下载器中间件
项目四 分布式爬虫
  任务4.1  环境搭建
    4.1.1  安装VMware虚拟机
    4.1.2  安装Linux
    4.1.3  虚拟机网络设置
    4.1.4  安装Python
    4.1.5  安装分布式框架
    4.1.6  克隆虚拟机
    4.1.7  安装Redis数据库
  任务4.2  某事百科段子爬取
    4.2.1  创建Scrapy项目
    4.2.2  爬取网页数据
    4.2.3  分布式爬取
  任务4.3  链家网内容爬取
    4.3.1  创建Scrapy项目
    4.3.2  爬取网页数据
    4.3.3  数据存储
    4.3.4  分布式爬取
参考文献

内容摘要
 该书基于实际工作过程采用任务驱动的方式编写。全书共四个项目,12个任务。教学内容由浅入深,所有的理论知识都通过项目得以贯通,每个项目都包含若干个任务,每个任务从“任务目标—任务描述—任务实施—实践训练”四个环节入手,环环相扣,层层递进,集“教—学—做”于一体,适
合教师循序渐进的教学方式和读者的自主学习方式。每个任务的选择都是从实际工作过程出发,通过实际操作指导学生解决问题,调动学生学习的积极
性,使学生能较全面地掌握不同场景下Python爬取网络数据的方法和技能。除此之外,本书还配有相应的任务素材、源程序和电子教案、电子课件等教学资源,读者可通过西安电子科技大学出版社官方网站(http://www.xduph)。读者对象为:初学编程的自学者,大中专院校的老师和学生,相关培训机构的老师和学员,初中级程序开发人员和程序测试及维护人员。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP