• 大数据导论
  • 大数据导论
  • 大数据导论
21年品牌 40万+商家 超1.5亿件商品

大数据导论

全新正版 极速发货

42.54 6.2折 69 全新

库存3件

广东广州
认证卖家担保交易快速发货售后保障

作者于俊伟,母亚双,闫秋玲

出版社北京大学出版社

ISBN9787301333341

出版时间2021-02

装帧平装

开本16开

定价69元

货号31585560

上书时间2024-07-02

谢岳书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言

随着数字经济的加速推进和人工智能、5G、物联网等技术的快速发展,我们已经进入了信息化发展的新阶段——大数据时代。经过将近十年的发展,大数据蕴含巨大商业价值的理念已深入人心,数据作为生产要素的战略地位进一步明确,大数据技术的创新发展与产业应用得到各国政府的关注。我国也在推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据技术提升国家治理水平、切实保障民生和数据安全等方面进行了战略部署。

 

随着大数据技术的快速发展和众多行业应用的逐步落地,一方面大数据领域的人才需求巨大;另一方面在国家大力倡导新工科教育的背景下,我国已有 600 余所高校开设了数据科学与大数据技术本科专业,其中很多是近两年新开设的专业,因此如何进行大数据专业建设与人才培养成为当前业内比较关注的问题。例如,编者所在的郑州市近几年就积极探索大数据人才培养的新模式,通过特色现代产业学院和大数据人才培养“码农计划”等产教融合模式,推动学校与企业深入展开校企合作,引导企业特色实践教学在学校落地,提升郑州市大数据相关专业人才培养质量。

 

根据大数据学科的发展趋势和人才培养要求,河南工业大学教师和科大讯飞股份有限公司科研人员共同编写了本书,选编内容贴合本专业新生学习需求,知识和能力培养符合相关要求。

 

本书除了介绍大数据原理和技术等基础知识外,还注重结合企业案例讲解如何利用开发平台进行大数据收集、处理,使初学者能够以无代码或少代码的方式快速了解大数据相关技术。

 

本书系统介绍了大数据的基本概念、处理流程、行业应用、实验平台和治理体系,引导读者了解大数据概念,培养大数据思维,掌握大数据相关工具和技术,以解决实际问题,积极应对大数据时代的变革和挑战。

 

本书的编写得到了河南工业大学人工智能与大数据学院和科大讯飞股份有限公司的大力支持和帮助,特别感谢人工智能与大数据学院侯惠芳教授和科大讯飞人工智能学院陈新生院长的策划和组织,感谢北京大学出版社编辑为本书提出的宝贵建议。

 

本书第 1 章、第 2 章、第 9 章由河南工业大学于俊伟博士编写,第 3 章和第 4 章由河南工业大学闫秋玲博士编写,第 5 章和第 8 章由河南工业大学母亚双博士编写,第 6 章由科大讯飞股份有限公司高级软件工程师王毅编写,第 7 章由科大讯飞股份有限公司高级软件工程师年夫坤编写。本书得到了 2021 年郑州市数字人才专业教材项目、国家自然科学基金青年基金项目62006071、2021 年度河南省重点研发与推广专项(212102210149、212102210152)、2021年河南工业大学青年骨干教师资助计划的资助。

 

由于编者水平有限,书中疏漏和不妥之处在所难免,敬请广大专家和读者批评指正。


【书摘与插画】

 
 
 
 

商品简介

本书围绕新工科背景下大数据人才培养需求编写,系统介绍了大数据采集与预处理、大数据存储与管理、大数据处理与分析、大数据可视化处理流程;重点分析了科大讯飞大数据平台在政务、交通、金融和用户画像等实际场景中的应用,还介绍了大数据实验环境的详细搭建步骤;最后介绍了大数据治理中法律政策、行业标准建设的最新进展,分析了大数据可能带来的伦理风险和应对策略。

 

本书将大数据基础理论与实际案例结合,辅以编程实践和有针对性的课后习题,可作为高等院校相关专业的导论课教材,也可作为大数据相关从业人员技术参考书。



作者简介
于俊伟简介:于俊伟,男,1980年5月生,博士,副教授,硕士生导师,2010年毕业于中国科学院自动化研究所,现任职河南工业大学人工智能与大数据学院,主要从事计算机视觉和数据科学等方向的研究和教学工作。主持国家自然科学基金、河南省重点研发与推广专项、河南省高校重点科研项目等多项科研项目,发表学术论文10余篇,主持翻译与编著数据科学、计算机视觉等方面著作5部。
母亚双简介:母亚双,男,1987年04月生,博士,硕士生导师,现就职于河南工业大学人工智能与大数据学院,河南工业大学大数据分析处理科研团队负责人。主要从事机器学习、大数据分析与处理等方向的研究。近年来,主持国家自然科学基金项目1项,河南省科技攻关项目1项,教育部粮食信息处理与控制重点实验室开放课题1项,河南工业大学青年骨干教师资助项目1项;参与国家自然科学基金面上项目2项,国家自然科学基金青年项目1项,省部级以上项目多项,企事业单位横向课题多项;在《PatternRecognition》《InformationScience》等重要学术期刊和国际会议上发表论文二十余篇;申请国家发明专利2项。
闫秋玲简介:闫秋玲,1981年2月生,博士,讲师。研究方向是数据挖掘。以第一作者发表论文5篇,发明专利授权一项。主持河南省科技攻关项目一项,河南省教育厅自然科学项目一项。主编教材《大学计算机基础》,参与翻译教材《数据库系统实现》《人工智能》。

目录
第 1 章? 大数据概述 ……………………………… 1 
1.1 大数据的产生及其特征 ……………………………… 2 
1.1.1 大数据的产生 ………………………………………………… 2 
1.1.2 大数据的特征 ………………………………………………… 2 
1.2 大数据发展 …………………………………………… 5 
1.2.1 大数据发展历程 ……………………………………………… 5 
1.2.2 国外大数据战略 ……………………………………………… 6 
1.2.3 中国大数据战略与政策 ……………………………………… 7 
1.2.4 大数据立法和标准 …………………………………………… 8 
1.3 大数据思维 …………………………………………… 9 
1.3.1 大数据的价值 ………………………………………………… 9 
1.3.2 大数据的思维变革 …………………………………………… 11 
1.4 大数据应用 …………………………………………… 13 
1.4.1 大数据应用层次 ……………………………………………… 13 
1.4.2 大数据应用领域 ……………………………………………… 13 
1.5 大数据技术与工具 …………………………………… 15 
1.5.1 大数据处理流程 ……………………………………………… 15 
1.5.2 大数据行业全景图 …………………………………………… 16 
1.5.3 大数据分析平台 ……………………………………………… 17 
1.5.4 大数据编程语言 ……………………………………………… 19 
1.6 本章小结 ……………………………………………… 20 
1.7 习题 …………………………………………………… 21
第 2 章? 大数据采集与预处理 …………………… 22
2.1 概述 …………………………………………………… 23
2.2 大数据的来源 ………………………………………… 24
2.3 大数据的采集方法 …………………………………… 25
2.3.1 数据库采集 …………………………………………………… 26
2.3.2 系统日志采集 ………………………………………………… 26
2.3.3 网络数据采集 ………………………………………………… 26
2.3.4 其他数据采集 ………………………………………………… 27
2.4 大数据预处理方法 …………………………………… 28
2.4.1 数据清洗 ……………………………………………………… 28
2.4.2 数据集成 ……………………………………………………… 31
2.4.3 数据变换 ……………………………………………………… 31
2.5 大数据采集与预处理工具 …………………………… 33
2.5.1 网络爬虫 Scrapy …………………………………………… 33
2.5.2 流数据采集 Kafka …………………………………………… 37
2.5.3 ETL 工具 Kettle ……………………………………………… 39
2.6 本章小结 ……………………………………………… 44
2.7 习题 …………………………………………………… 45
第 3 章? 大数据存储与管理技术 ………………… 46
3.1 大数据存储与管理技术概述 ………………………… 47
3.2 分布式文件系统 ……………………………………… 47
3.2.1 HDFS ………………………………………………………… 48
3.2.2 Ceph ………………………………………………………… 54
3.2.3 GlusterFS …………………………………………………… 56
3.3 NoSQL 数据库 ……………………………………… 58
3.3.1 键值数据库 …………………………………………………… 59
3.3.2 列族数据库 …………………………………………………… 60
3.3.3 文档数据库 …………………………………………………… 63
3.3.4 图数据库 ……………………………………………………… 63
3.4 大数据查询系统 ……………………………………… 64
3.4.1 大数据查询系统概述 ………………………………………… 64
3.4.2 Dremel ……………………………………………………… 65
3.5 数据仓库 ……………………………………………… 66
3.5.1 数据仓库的特点 ……………………………………………… 66
3.5.2 关系型数据仓库体系结构 …………………………………… 68
3.5.3 数据仓库 Hive ……………………………………………… 69
3.5.4 数据仓库 Impala …………………………………………… 71
3.6 本章小结 ……………………………………………… 73
3.7 习题 …………………………………………………… 73
第 4 章? 大数据处理与分析系统 ………………… 75
4.1 概述 …………………………………………………… 76
4.2 谷歌大数据处理系统 ………………………………… 76
4.2.1 GFS…………………………………………………………… 76
4.2.2 MapReduce ………………………………………………… 78
4.2.3 BigTable ……………………………………………………… 78
4.3 分布式计算框架 Hadoop MapReduce …………… 79
4.3.1 Hadoop MapReduce 概述 ………………………………… 79
4.3.2 Hadoop MapReduce 应用举例 …………………………… 81
4.4.1 Spark 简介 …………………………………………………… 85
4.4 快速计算框架 Spark ………………………………… 85
4.4.2 Spark 运行架构 ……………………………………………… 88
4.4.3 Spark 的部署方式 …………………………………………… 88
4.4.4 Spark 的数据抽象 RDD …………………………………… 89
4.4.5 Spark MLlib ………………………………………………… 90
4.4.6 Spark Streaming …………………………………………… 91
4.4.7 Spark SQL …………………………………………………… 93
4.4.8 Spark GraphX ……………………………………………… 94
4.5 其他大数据分析系统 ………………………………… 96
4.5.1 图计算系统 Pregel…………………………………………… 97
4.5.2 流处理系统 Flink …………………………………………… 98
4.6 本章小结 ……………………………………………… 99
4.7 习题 …………………………………………………… 99
第 5 章? 大数据机器学习 ………………………… 100
5.1.1 机器学习的定义 ……………………………………………… 101
5.1.2 机器学习的分类 ……………………………………………… 101
5.1 机器学习简介 ………………………………………… 101
5.1.3 机器学习的历史 ……………………………………………… 104
5.1.4 机器学习与数据挖掘的关系 ………………………………… 108
5.2 数据 …………………………………………………… 109
5.2.1 数据概述 ……………………………………………………… 109
5.2.2 带有标签的数据和不带标签的数据 ………………………… 109
5.2.3 训练数据、测试数据、验证数据 …………………………… 110
5.3 有监督学习 …………………………………………… 111 
5.3.1 有监督学习简介 ……………………………………………… 111 
5.3.2 回归 …………………………………………………………… 111 
5.3.3 分类 …………………………………………………………… 114 
5.3.4 常见的有监督学习方法 ……………………………………… 116 
5.4 无监督学习 …………………………………………… 121 
5.4.1 无监督学习简介 ……………………………………………… 121 
5.4.2 聚类 …………………………………………………………… 121 
5.4.3 关联分析 ……………………………………………………… 124 
5.5 强化学习 ……………………………………………… 125 
5.5.1 强化学习简介 ………………………………………………… 125 
5.5.2 强化学习主流算法 …………………………………………… 127 
5.5.3 强化学习的使用场景 ………………………………………… 128 
5.6 弱监督学习 …………………………………………… 129 
5.6.1 弱监督学习简介 ……………………………………………… 129 
5.6.2 弱监督学习的分类 …………………………………………… 129 
5.7 机器学习的相关资源与工具 ………………………… 130 
5.8 本章小结 ……………………………………………… 132 
5.9 习题 …………………………………………………… 133 
第 6 章? 数据可视化 ……………………………… 134 
6.1 可视化概述 …………………………………………… 135 
6.1.1 可视化的含义 ………………………………………………… 135 
6.1.2 可视化的发展历程 …………………………………………… 135 
6.1.3 可视化的作用 ………………………………………………… 136
6.2 数据可视化及其分类 ………………………………… 137
6.2.1 科学可视化 …………………………………………………… 137
6.2.2 信息可视化 ……………………………………………… 138
6.2.3 可视化分析学 ………………………………………………… 139
6.3 数据可视化工具 ……………………………………… 140
6.3.1 入门级工具 …………………………………………………… 140
6.3.2 信息图表工具 ………………………………………………… 140
6.3.3 地图工具 ……………………………………………………… 143
6.3.4 基于编程语言的可视化库 …………………………………… 144
6.4 本章小结 ……………………………………………… 146
6.5 习题 …………………………………………………… 146
第 7 章? 大数据行业应用案例 …………………… 147
7.1 大数据行业应用概述 ………………………………… 148
7.2 政务大数据 …………………………………………… 148
7.3 交通大数据 …………………………………………… 152
7.3.1 人群生活模式划分 …………………………………………… 153
7.3.2 道路拥堵模式预测 …………………………………………… 158
7.4 征信大数据 …………………………………………… 162
7.4.1 企业征信大数据应用 ………………………………………… 162
7.4.2 企业法人资产建模实践 ……………………………………… 171
7.5 画像大数据 …………………………………………… 173
7.5.1 用户画像概述 ………………………………………………… 173
7.5.2 构建用户画像流程 …………………………………………… 175
7.5.3 构建用户画像 ………………………………………………… 178 
7.5.4 用户画像评估和使用 ………………………………………… 183 
7.6 本章小结 ……………………………………………… 184 
7.7 习题 …………………………………………………… 185 
第 8 章? 大数据平台与实验环境 ………………… 186 
8.1 大数据平台与环境概述 ……………………………… 187 
8.1.1 大数据平台简介 ……………………………………………… 187 
8.1.2 搭建环境简介 ………………………………………………… 189 
8.2 安装虚拟机 …………………………………………… 189 
8.3 在虚拟机中安装 Linux 系统 ………………………… 192 
8.4 为 Ubuntu 系统配置 Java 开发环境 ……………… 194 
8.5 在 Ubuntu 系统中安装 Hadoop …………………… 200 
8.5.1 查询和更改主机名 …………………………………………… 201 
8.5.2 更改 host 文件 ……………………………………………… 202 
8.5.3 认证 SSH 实现无密码登录 ………………………………… 203 
8.5.4 复制 Hadoop 2.6.0 到指定目录并解压 …………………… 205 
8.5.5 配置文件 ……………………………………………………… 206 
8.5.7 启动、验证和关闭 Hadoop ………………………………… 214 
8.6 安装 Eclipse 和 Eclipse-hadoop-plugin ……… 217 
8.6.1 安装 Eclipse ………………………………………………… 217 
8.6.2 配置 Eclipse-hadoop-plugin………………………………… 217 
8.7 新建、导入、运行与调试 Hadoop 工程…………… 219 
8.7.1 新建 Hadoop 工程…………………………………………… 219
8.7.2 导入已有的 Hadoop 工程…………………………………… 220 
8.7.3 运行 Hadoop 工程…………………………………………… 222 
8.7.4 调试 Hadoop 工程…………………………………………… 226 
8.8 本章小结 ……………………………………………… 229 
8.9 习题 …………………………………………………… 229 
第 9 章? 大数据治理 ……………………………… 230 
9.1 大数据治理体系 ……………………………………… 231 
9.2 大数据法律政策 ……………………………………… 232 
9.3 大数据行业标准 ……………………………………… 234 
9.4 大数据治理内容 ……………………………………… 237 
9.5 大数据伦理风险 ……………………………………… 240 
9.6 本章小结 ……………………………………………… 243 
9.7 习题 …………………………………………………… 243 
主要参考文献………………………………………………… 244

内容摘要
本书围绕新工科背景下大数据人才培养需求编写,系统介绍了大数据采集与预处理、大数据存储与管理、大数据处理与分析、大数据可视化处理流程;重点分析了科大讯飞大数据平台在政务、交通、金融和用户画像等实际场景中的应用,还介绍了大数据实验环境的详细搭建步骤;最后介绍了大数据治理中法律政策、行业标准建设的最新进展,分析了大数据可能带来的伦理风险和应对策略。
本书将大数据基础理论与实际案例结合,辅以编程实践和有针对性的课后习题,可作为高等院校相关专业的导论课教材,也可作为大数据相关从业人员技术参考书。

主编推荐
全面解读大数据基础:详细介绍大数据基础知识和前沿应用,新手入门推荐 详细厘清算法逻辑:详解大数据分析平台与处理流程、大数据采集与预处理、大数据存储与管理技术、机器学习与可视化等核心知识 深入解析场景应用:算法与实际应用相结合,深入浅出解析大数据在生活和工作中的具体应用 可实操、能落地:有理论有实战,介绍大数据算法与技术的实际应用,步骤清楚,条理清晰,有平台,能实操

精彩内容
本书围绕新工科背景下大数据人才培养需求编写,系统介绍了大数据采集与预处理、大数据存储与管理、大数据处理与分析、大数据可视化处理流程;重点分析了科大讯飞大数据平台在政务、交通、金融和用户画像等实际场景中的应用,还介绍了大数据实验环境的详细搭建步骤;最后介绍了大数据治理中法律政策、行业标准建设的近期新进展,分析了大数据可能带来的伦理风险和应对策略。 本书将大数据基础理论与实际案例结合,辅以编程实践和有针对性的课后习题,可作为高等院校相关

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP