¥ 22.7 4.6折 ¥ 49 九品
仅1件
作者王宏志 著
出版社机械工业出版社
出版时间2015-07
版次1
装帧平装
货号A4
上书时间2024-12-24
本书是国内系统介绍大数据算法设计与分析技术的教材,内容丰富,结构合理,旨在讲述和解决大数据处理和应用中相关算法设计与分析的理论和方法,切实培养读者设计、分析与应用算法解决大数据问题的能力。不仅适合计算机科学、软件工程、大数据、物联网等学科的本科生和研究生使用,而且可供其他相近学科的本科生和研究生使用。同时,该教材还可作为从事大数据相关领域工程技术人员的自学读物。
本书特点:
前沿、实用的内容。总结了大数据算法设计与分析的新技术和新理念,梳理了当前大数据相关应用中所需要的算法设计与分析的方法。书中的部分内容代表了学术界全新的前沿技术,首次出现在国内外的教科书上。
清晰、严谨的叙述。针对大数据算法设计与分析中的主要方法,通过介绍原理、举例说明、算法分析等多个角度进行阐述,清晰地讲解算法设计方法,严谨地分析和证明算法的特性,有利于培养读者独立设计与分析大数据算法的能力。
新颖、宽泛的习题。习题部分来自领域内相关文献,部分来自大数据相关开发领域的实际问题,有利于培养读者解决问题的创新思维。
王宏志 哈尔滨工业大学计算机科学与技术学院副教授、博士生导师,加利福尼亚大学尔湾分校访问学者,获得微软学者、中国出色数据库工程师、IBM博士英才等称号。研究方向包括大数据管理、数据质量、图数据管理。发表学术论文140余篇,出版学术专著两本。主持各类项目十余项,包括国家自然科学基金项目3项、国家支撑计划课题1项、国家博士后特别资助项目1项,参加国家973项目、863项目、自然科学基金重点项目等多个项目。担任4个国际期刊的编委,并30余次担任国内外多个知名数据库会议程序委员会委员。2014~2015年任CCF
YOCSEF哈尔滨分论坛主席,CCF高级会员,中国数据库专业委员会委员,中国计算机应用专业委员会委员。在爱课程网、学堂在线、好大学在线上首次开设“大数据算法”在线课程,先后有超过2万余名同学参加了这门课程的学习。
前 言
第1章 绪论1
1.1 大数据概述1
1.1.1 什么是大数据1
1.1.2 无处不在的大数据1
1.1.3 大数据的特点3
1.1.4 大数据的应用4
1.2 大数据算法5
1.2.1 大数据上求解问题的过程6
1.2.2 大数据算法的定义7
1.2.3 大数据的特点与大数据算法9
1.2.4 大数据算法的难度9
1.2.5 大数据算法的应用10
1.3 大数据算法设计与分析11
1.3.1 大数据算法设计技术11
1.3.2 大数据算法分析技术12
1.4 本书的内容13
习题13
第2章 时间亚线性算法14
2.1 时间亚线性算法概述14
2.1.1 平面图直径问题的亚线性算法14
2.1.2 排序链表搜索的亚线性算法16
2.1.3 两个多边形交集问题的多项式时间算法17
2.2 最小生成树代价估计18
2.2.1 连通分量个数估计算法18
2.2.2 最小生成树代价估计算法20
2.3 时间亚线性判定算法概述23
2.4 数组有序的判定算法25
2.5 串相等判定算法27
习题28
第3章 空间亚线性算法29
3.1 空间亚线性算法概述29
3.2 水库抽样31
3.3 寻找频繁元素的非随机算法32
3.3.1 频繁元素的精确解33
3.3.2 频繁元素的Misra-Gries算法33
3.4 估算不同元素的数量35
3.4.1 基本算法35
3.4.2 改进算法38
3.5 寻找频繁元素的随机算法42
3.5.1 略图法42
3.5.2 计数最小略图45
3.6 估计频率矩47
3.6.1 频率矩的AMS估计算法47
3.6.2 基于拔河略图的频率矩估计51
3.6.3 使用稳定分布估计范数53
习题57
第4章 外存算法概述60
4.1 外存存储结构与外存算法概述60
4.2 外存算法示例:外存排序算法64
4.2.1 外存归并排序算法64
4.2.2 外存多路快速排序算法68
4.2.3 外存计算的下界74
4.3 外存数据结构示例:外存搜索树77
习题78
第5章 外存查找结构80
5.1 B树80
5.2 加权平衡B树87
5.3 持久B树90
5.4 缓存树94
5.5 KDB树98
5.6 O树103
习题107
第6章 外存图数据算法109
6.1 线性表排名及其应用109
6.1.1 线性表排名问题109
6.1.2 欧拉回路114
6.1.3 父子关系判定115
6.1.4 前序计数116
6.1.5 计算子树大小117
6.2 时间前向处理方法117
6.2.1 DAG形式逻辑表达式计算问题118
6.2.2 最大独立集合算法121
6.3 缩图法124
6.3.1 基于缩图法的图连通分量计算半外存算法124
6.3.2 基于缩图法的图连通分量计算全外存算法126
6.3.3 最小生成树算法128
6.4 广度优先搜索和深度优先搜索128
6.4.1 有向图的BFS和DFS129
6.4.2 无向图的BFS134
6.4.3 无向图更高效的BFS算法136
6.5 单源最短路径139
6.5.1 竞赛树140
6.5.2 Dijkstra算法的I/O高效版本145
习题149
第7章 MapReduce算法概述150
7.1 MapReduce基础150
7.1.1 MapReduce的基本模型151
7.1.2 mapper和reducer152
7.1.3 partitioner与combiner155
7.2 MapReduce算法设计方法157
7.2.1 局部聚合158
7.2.2 两种重要的算法设计模式——词对法和条块法163
7.2.3 二次排序168
7.2.4 MapReduce算法设计与算法实现技巧168
习题170
第8章 MapReduce算法例析171
8.1 连接算法171
8.1.1 普通连接算法171
8.1.2 相似连接算法184
8.2 图算法192
8.2.1 基于广度优先搜索的MapReduce图处理算法193
8.2.2 PageRank的MapReduce算法197
8.2.3 最小生成树的MapReduce算法200
8.2.4 使用图算法的注意事项202
习题203
第9章 超越MapReduce的并行大数据处理204
9.1 基于迭代处理平台的并行算法204
9.2 基于图处理平台的并行算法212
9.2.1 并行结点计算213
9.2.2 并行结点计算的平台215
9.2.3 基于并行结点计算的单源最短路径算法的设计与实现219
9.2.4 计算子图同构221
习题223
第10章 众包算法224
10.1 众包的定义224
10.2 众包的实例225
10.3 众包的要素和关键技术228
10.3.1 众包的流程228
10.3.2 众包的报酬230
10.3.3 众包中的关键技术230
10.4 众包算法例析232
习题237
参考文献238
— 没有更多了 —
以下为对购买帮助不大的评价