全新正版书籍,24小时发货,可开发票。
¥ 54.8 4.6折 ¥ 118 全新
库存7件
作者朱扬勇 主编
出版社上海科学技术出版社
ISBN9787547860984
出版时间2023-04
装帧平装
开本16开
定价118元
货号29565797
上书时间2024-12-20
2017年完成《大数据资源》后,我就开始着手组织《大数据技术》的撰写工作,在推进过程中,发现区分大数据技术和信息化技术不是一件容易的事,这导致《大数据技术》的目录框架一直确定不下来。我一贯的观点:信息化是将现实事物信息化成网络空间中的数据,大数据是开发利用网络空间中的数据以服务现实;因此信息化技术是生产数据的技术,而大数据技术则是开发数据的技术。
基于该观点,我选择了一批能够实现数据开发利用的相关技术形成大数据技术的完整体系,包括大数据计算、管理、安全、可视化、流通、挖掘分析等技术。其中,选择大数据计算、大数据管理和大数据安全等作为大数据的基础性技术;选择数据可视化技术是因为数据开发利用需要看见数据,看见数据是探索网络空间的基本要求,也是数据科学的基本要求;从数据开发应用流通需求出发,选择数据自治作为大数据流通应用的框架性技术,数据自治框架不仅适合市场主体之间的数据流通,也适合国与国之间的数据流通;选择数据爬虫作为从网络空间获取数据的技术,而其他数据开放共享、数据交易则更多地表现为市场方式而非技术手段获取数据,因此没有作为数据获取技术;选择知识图谱技术作为数据逻辑组织技术以支持各种数据分析技术的高效实现;选择大数据挖掘、深度学习作为数据分析技术,这是两大类常用和典型的数据分析技术,也是数据利用的核心技术;选择区块链作为数据流通过程中的认证、跟踪技术;后,特别对数据产品生产技术进行了阐述,这是数据开发利用过程的必然选择,也是数据市场建设发展的必然选择。显然,还有一些大数据技术或大数据相关的技术没有选入本书。
《大数据技术》是在过去三年抗击新冠肺炎疫情期间完成的,很不容易。参加撰写的人员有童维勤、王鹏、韩伟力、陈为、姜忠鼎、熊赟、肖仰华、梁家卿、徐波、邱锡鹏、凌力、叶雅珍等,他们克服各种困难完成各个章节的撰写工作,感谢这些作者的辛勤劳动。
2023年将开始组织编写《大数据应用》。2017年,我曾认为,“很多关于大数据的美丽故事,离我理解的大数据还有差距。现在还没有让我满意的大数据应用案例,希望在未来两年能够收集到足够好的大数据应用案例。"然而,到了2023年,涌现出太多的大数据应用案例,如何选择典型的大数据应用案例反而成了新的问题。
《大数据技术》即将交付印刷了,所有参与的作者都非常努力和认真、表现出高水平,但限于本人知识水平和组织能力,书稿还是有许多不满意和遗憾,在此我向读者表示歉意、向参与的作者表示歉意。有位编辑说过这样一句话,"写本书能引起大家批评也不错"。因此,欢迎读者批评指正,并感谢。
信息化是"技术进步促进数据增长",而大数据是"数据增长促进技术进步"。面对日益增长的数据规模,大数据技术对人类社会的发展意义重大。三年抗击新冠肺炎疫情进入新阶段,2023年开始,以数据为关键要素的数字经济必将快速发展,数据资源开发利用技术需求迫切,希望《大数据技术》能为数字经济的发展提供系统性的数据开发利用技术知识。
朱扬勇
本书全面介绍了数据开发利用技术,包括大数据计算、大数据管理、大数据安全、大数据可视化、数据自治、数据爬虫、知识图谱、大数据挖掘、深度学习、区块链等技术,还特别介绍了数据产品生产技术。这些技术涵盖了数据获取与管理、数据分析与应用、数据安全与流通等数据开发利用的各个环节,形成一个较为完整的大数据技术体系。
朱扬勇,复旦大学计算机科学技术学院教授、学术委员会主任,上海市数据科学重点实验室主任,上海市政府信息化专家委员会专家,中国计算机学会大数据专家委员会专家,美国马里兰大学客座教授。从事数据领域研究25年,是很早一批从事数据挖掘研究的学者,是数据科学研究的主要倡导者之一。主持过国家自然科学基金、国家863计划项目、上海市科委重点等多项数据挖掘领域的研究课题,曾获上海市科技进步一、二、三等奖。相关研究成果在具有影响力的外期刊或会议上发表论文100余篇,出版专著2本,教材3本。2009年发表了数据科学论文Data Explosion, Data Nature 等。
第1章 绪论 1
1.1 大数据的技术挑战 1
1.1.1 大数据的"大"1
1.1.2 数据"大"的技术挑战 3
1.1.3 大数据决策的技术挑战 5
1.1.4 数据安全的技术问题 7
1.2 大数据计算 8
1.2.1 大数据文件 9
1.2.2 大数据计算框架 10
1.2.3 大数据管理 11
1.3 数据开发 12
1.3.1 数据获取 12
1.3.2 数据分析 13
1.3.3 数据可视化 14
1.4 数据产业支持 15
1.4.1 数据产业需要的技术支持 15
1.4.2 数据资产化 16
1.4.3 数据产品及其质量 17
1.4.4 数据流通与安全 18
1.5 小结 19
参考文献 19
第 2章 大数据计算 21
2.1 数据访问21
2.1.1 安全模型 21
2.1.2 访问控制策略 23
2.1.3 访问控制与授权 24
2.1.4 访问控制与审计 24
2.2 分布式文件系统 24
2.2.1 GoogleFS 25
2.2.2 HDFS 27
2.2.3 GlusterFS 28
2.2.4 CephFS 29
2.3 大数据计算框架 30
2.3.1 批处理 30
2.3.2 流数据计算 38
2.3.3 增量计算模型 41
2.3.4 新兴计算框架 44
2.3.5 大数据计算框架的发展 46
2.4 多地计算异地计算模式 48
2.4.1 概念48
2.4.2 计算模型 49
2.4.3 特点 49 2.5 小结 49
参考文献 49
第 3章 大数据管理 51
3.1 概述 51
3.2 分布式文件系统 HDFS 52
3.2.1 前提和设计目标 53
3.2.2 数据块 53
3.2.3 HDFS架构 54
3.2.4 HDFS容错机制 54
3.3 列式存储格式 Parquet 55
3.3.1 行存储与列存储文件格式 55
3.3.2 Parquet 概述 56
3.3.3 数据模型 56
3.3.4 Parquet 文件的存储格式 57
3.4 NOSOL 58
3.4.1 键值对数据库 58
3.4.2 基于列族的数据库 59
3.4.3 基于文档的数据库 59
3.4.4 基于图的数据库 60
3.5 键值数据库 Redis 60
3.5.1 Redis简介 60
3.5.2 Redis数据类型 61 3.5.3 Redis事务 63
3.5.4 Redis 持久化机制 63
3.6 HBase 63
3.6.1 HBase简介 63
3.6.2 HBase访问接口 64
3.6.3 HBase数据模型 64
3.6.4 HBase系统架构 65
3.6.5 HBase存储格式 66
3.7 Dynamo67
3.7.1 Dynamo系统设计假设和前提 67
3.7.2 Dynamo数据分布策略 68
3.7.3 CAP原理 68
3.7.4 Dynamo 的一致性实现技术 69
3.7.5 Dynamo系统访问接口 69
3.8 Cassandra 69
3.9 MongoDB 70
3.9.1 MongoDB简介 70
3.9.2 MongoDB数据模型70
3.9.3 MongoDB基础操作71
3.9.4 MongoDB聚集操作 73
3.9.5 MongoDB复制机制75
3.9.6 MongoDB分片机制 76
3.10 Neo4j 76
3.10.1 Neo4j简介 76
3.10.2 Neo4j基础概念 77
3.10.3 NeO4j的Cypher查询语言和模式 78
......
本书全面介绍了数据开发利用技术,包括大数据计算、大数据管理、大数据安全、大数据可视化、数据自治、数据爬虫、知识图谱、大数据挖掘、深度学习、区块链等技术,还特别介绍了数据产品生产技术。这些技术涵盖了数据获取与管理、数据分析与应用、数据安全与流通等数据开发利用的各个环节,形成一个较为完整的大数据技术体系。
朱扬勇,复旦大学计算机科学技术学院教授、学术委员会主任,上海市数据科学重点实验室主任,上海市政府信息化专家委员会专家,中国计算机学会大数据专家委员会专家,美国马里兰大学客座教授。从事数据领域研究25年,是很早一批从事数据挖掘研究的学者,是数据科学研究的主要倡导者之一。主持过国家自然科学基金、国家863计划项目、上海市科委重点等多项数据挖掘领域的研究课题,曾获上海市科技进步一、二、三等奖。相关研究成果在具有影响力的外期刊或会议上发表论文100余篇,出版专著2本,教材3本。2009年发表了数据科学论文Data Explosion, Data Nature 等。
— 没有更多了 —
以下为对购买帮助不大的评价