大数据采集与预处理技术
¥
16
2.7折
¥
59.8
八五品
仅1件
作者夏国清,洪洲,陈统主编
出版社上海交通大学出版社
出版时间2024-02
版次1
装帧其他
货号100-1
上书时间2024-11-17
商品详情
- 品相描述:八五品
图书标准信息
-
作者
夏国清,洪洲,陈统主编
-
出版社
上海交通大学出版社
-
出版时间
2024-02
-
版次
1
-
ISBN
9787313301697
-
定价
59.80元
-
装帧
其他
-
开本
16开
-
页数
256页
-
字数
419千字
- 【内容简介】
-
本书按照“理论实战”的形式编写,将企业项目需求分解为单独的任务,全面系统地讲解了大数据采集与预处理的相关知识与技术。全书针对数据采集的不同来源,将知识内容分为五个项目,包括网络数据采集、分布式消息系统kafka、实时数据库采集工具canal和maxwell、etl志采集技术栈以及etl工具一kettle。本书针对大数据采集与预处理的关键技术及其应用场景,从数据的采集、存储和分析等多个方面介绍了大数据的数据处理流程,通过任务实例为读者展示了如何有效地使用技术或工具。本书可作为大数据相关专业的用书,也可作为相关技术人员培训或工作的参用书。
- 【目录】
-
项目一网络数据采集
任务一认识网络爬虫
一、了解网络爬虫
二、实现爬虫的请求
三、任务实践
任务二解析数据
一、使用正则表达式解析
二、使用beautifulsoup解析
三、使用path解析
四、使用pyquery?解析
五、任务实践
任务三采集动态渲染网页的数据
一、准备selenium的环境
二、声明浏览器对象
三、访问页面及获取html源码
四、查找网页元素
五、作网页元素
六、获取元素的属及文本
七、延时等待
八、任务实践
......
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价