数据采集与处理(高等职业教育人工智能与大数据专业群人才培养系列教材)

正版图书

17 3.4折 49.8 全新

库存4件

河北廊坊

认证卖家担保交易快速发货售后保障

作者刘珍编者；章红燕；责编:李静

出版社电子工业出版社

出版时间2024-01

版次1

装帧其他

货号C42

上书时间2024-12-29

明杰书屋

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 16小时
好评率暂无

最新上架

重新生活 ¥16.00

中国当代长篇小说：装台（茅盾文学奖得主作品） ¥19.60

阅读指导目录丛书：闪闪的红星 ¥10.00

玉见之美 ¥19.72

一路风景 ¥15.30

细柳诗绦：新古典主义诗歌拓荒集（精装） ¥47.20

席慕蓉最新文集：流动的月光 ¥5.04

淘气包马小跳。2，忠诚的流浪狗 ¥3.92

诗探索 13 （2019年第1辑）（理论卷、作品卷，套装全2册） ¥19.20

商品详情

品相描述：全新

图书标准信息

作者刘珍编者；章红燕；责编:李静
出版社电子工业出版社
出版时间 2024-01
版次 1
ISBN 9787121468841
定价 49.80元
装帧其他
开本 16开
页数 242页
字数 354千字

【内容简介】: 本书基于python 3.10版本，以项目实战的方式系统地介绍了python网络爬虫开发的相关知识，主要内容包括python基础实战、网页数据采集实战、网页数据解析实战、并发技术实战、动态内容采集实战、爬虫数据存储实战、crapy爬虫框架实战等，通过多个实战任务的练，让读者能优选限度地掌握python网络爬虫的核心技术。为了方便读者学，本书附有配套源代码、ppt、题库、、设计等资源。本书可作为高等院校计算机相关专业程序设计课程教材，也可供从事计算机爬虫应用开发的相关人员使用。
【目录】: 项目1  python基础实战1
任务1.1  python开发环境搭建2
1.1.1  在windows系统中安装python2
1.1.2  在linux系统中安装python4
1.1.3  安装pycharm集成开发环境5
任务1.2  从html文档中提取特定字符串10
1.2.1  数值类型与变量10
1.2.2  字符串11
1.2.3  运算符12
1.2.4  流程控制13
任务1.3  用列表、字典等组织数据16
1.3.1  列表（list）17
1.3.2  元组（tuple）17
1.3.3  字典（dict）18
1.3.4  集合（set）19
1.3.5  函数20
任务1.4  基于正则表达式提取图片文本23
1.4.1  模块和包23
1.4.2  异常处理26
1.4.3  正则表达式28
任务1.5  从json文件中加载数据31
1.5.1  类与对象31
1.5.2  文件与作34
1.5.3  json38
项目2  网页数据采集实战43
任务2.1  利用工具爬取一个电商网页43
2.1.1  爬虫的定义44
2.1.2  爬虫的类型44
2.1.3  与爬虫相关的文件47
2.1.4  反爬虫应对策略48
2.1.5  爬虫的合法50
任务2.2  基于urllib库爬取一个电商网页57
任务2.3  urllib处理发送get请求61
任务2.4  请求头与代理服务器应用66
2.4.1  请求头67
2.4.2  代理服务器67
任务2.5  网络异常处理73
2.5.1  urlerror73
2.5.2  error74
任务2.6  基于requests库爬取电商网页74
项目3  网页数据解析实战79
任务3.1  html基础79
3.1.1  html网页的结构80
3.1.2  chrome浏览器的devtools81
任务3.2  基于正则表达式的网页数据解析85
任务3.3  xpath应用88
3.3.1  xpath简介89
3.3.2  lxml简介94
任务3.4  beautiful soup解析数据99
任务3.5  json数据解析106
项目4  并发技术实战112
任务4.1  基于进程的并发爬虫112
4.1.1  并发113
4.1.2  进程（process）113
4.1.3  python的多进程并发编程114
任务4.2  基于queue模块的多线程爬虫122
4.2.1  线程（thread）123
4.2.2  python的多线程并发编程123
任务4.3  基于协程的并发爬虫129
任务4.4  历史天气并发爬取131
项目5  动态内容采集实战139
任务5.1  动态网页基础139
任务5.2  selenium的安装配置144
任务5.3  基于selenium的动态网页爬取148
任务5.4  基于selenium的模拟登录150
任务5.5  验证码的识别处理154
5.5.1  验证码基础154
5.5.2  pytesseract简介155
5.5.3  pil简介156
任务5.6  基于selenium的招聘职位获取159
项目6  爬虫数据存储实战165
任务6.1  monb基础165
6.1.1  monb的安装166
6.1.2  monb的基本作170
任务6.2  基于pymongo的爬虫数据存储174
任务6.3  redis数据库基础179
6.3.1  redis的安装180
6.3.2  redis的作命令182
任务6.4  基于redis模块的爬虫数据存储184
项目7  scrapy爬虫框架实战188
任务7.1  scrapy爬虫框架基础188
7.1.1  scrapy爬虫框架简介189
7.1.2  scrapy项目创建191
7.1.3  scrapy常用命令192
任务7.2  定义spider爬取斗鱼直播台数据195
7.2.1  item类简介196
7.2.2  spider类简介196
任务7.3  自定义爬虫中间件爬取众图网数据202
7.3.1  scrapy的settings文件202
7.3.2  downloader middlewares203
任务7.4  crawlspider自动爬取数据213
7.4.1  crawlspider213
7.4.2  rule214
7.4.3  linkextractor215
任务7.5  应用item pipeline进行后期数据处理219
任务7.6  综合实训――百度科学百科数据爬取222

点击展开点击收起

— 没有更多了 —