【正版9新】 数据算法 9787512395947 【消毒塑封】
【消毒塑封 】 【正版9新】
¥
23.1
1.8折
¥
128
九五品
库存2件
作者马哈默德·帕瑞斯安
出版社中国电力出版社
ISBN9787512395947
出版时间2016-10
装帧其他
开本16开
定价128元
货号9787512395947
上书时间2024-11-24
商品详情
- 品相描述:九五品
- 商品描述
-
作者简介
Mahmoud Parsian,计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java(服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata,MySQL,and Oracle Recipes》等书(均由Apress出版)。
目录
序1
前言3
第1章二次排序:简介19
二次排序问题解决方案21
MapReduce/Hadoop的二次排序解决方案25
Spark的二次排序解决方案29
第2章二次排序:详细示例42
二次排序技术43
二次排序的完整示例46
运行示例——老版本HadoopAPI50
运行示例——新版本HadoopAPI52
第3章Top10列表54
TopN设计模式的形式化描述55
MapReduce/Hadoop实现:唯一键56
Spark实现:唯一键62
Spark实现:非唯一键73
使用takeOrdered()的SparkTop10解决方案84
MapReduce/HadoopTop10解决方案:非唯一键91
第4章左外连接96
左外连接示例96
MapReduce左外连接实现99
Spark左外连接实现105
使用leftOuterJoin()的Spark实现117
第5章反转排序127
反转排序模式示例128
反转排序模式的MapReduce/Hadoop实现129
运行示例134
第6章移动平均137
示例1:时间序列数据(股票价格)137
示例2:时间序列数据(URL访问数)138
形式定义139
POJO移动平均解决方案140
MapReduce/Hadoop移动平均解决方案143
第7章购物篮分析155
MBA目标155
MBA的应用领域157
使用MapReduce的购物篮分析157
Spark解决方案166
运行Spark实现的YARN脚本179
第8章共同好友182
输入183
POJO共同好友解决方案183
MapReduce算法184
解决方案1:使用文本的Hadoop实现187
解决方案2:使用ArrayListOfLongsWritable的Hadoop实现189
Spark解决方案191
第9章使用MapReduce实现推荐引擎201
购买过该商品的顾客还购买了哪些商品202
经常一起购买的商品206
推荐连接210
第10章基于内容的电影推荐225
输入226
MapReduce阶段1226
MapReduce阶段2和阶段3227
Spark电影推荐实现234
第11章使用马尔可夫模型的智能邮件营销.253
马尔可夫链基本原理254
使用MapReduce的马尔可夫模型256
Spark解决方案269
第12章K-均值聚类282
什么是K-均值聚类?285
聚类的应用领域285
K-均值聚类方法非形式化描述:分区方法286
K-均值距离函数286
K-均值聚类形式化描述287
K-均值聚类的MapReduce解决方案288
K-均值算法Spark实现292
第13章k-近邻296
kNN分类297
距离函数297
kNN示例298
kNN算法非形式化描述299
kNN算法形式化描述299
kNN的类Java非MapReduce解决方案299
Spark的kNN算法实现301
第14章朴素贝叶斯315
训练和学习示例316
条件概率319
深入分析朴素贝叶斯分类器319
朴素贝叶斯分类器:符号数据的MapReduce解决方案322
朴素贝叶斯分类器Spark实现332
使用Spark和Mahout347
第15章情感分析349
情感示例350
情感分数:正面或负面350
一个简单的MapReduce情感分析示例351
真实世界的情感分析353
第16章查找、统计和列出大图中的所有三角形354
基本的图概念355
三角形计数的重要性356
MapReduce/Hadoop解决方案357
Spark解决方案364
第17章K-mer计数375
K-mer计数的输入数据376
K-mer计数应用376
K-mer计数MapReduce/Hadoop解决方案377
K-mer计数Spark解决方案378
第18章DNA测序390
DNA测序的输入数据392
输入数据验证393
DNA序列比对393
DNA测试的MapReduce算法394
第19章Cox回归413
Cox模型剖析414
使用R的Cox回归415
Cox回归应用416
Cox回归POJO解决方案417
MapReduce输入418
使用MapReduce的Cox回归419
第20章Cochran-Armitage趋势检验426
Cochran-Armitage算法427
Cochran-Armitage应用432
MapReduce解决方案435
第21章等位基因频率443
基本定义444
形式化问题描述448
等位基因频率分析的MapReduce解决方案449
MapReduce解决方案,阶段1449
MapReduce解决方案,阶段2459
MapReduce解决方案,阶段3463
染色体X和Y的特殊处理466
第22章T检验468
对bioset完成T检验469
MapReduce问题描述472
输入472
期望输出473
MapReduce解决方案473
Spark实现476
第23章皮尔逊相关系数488
皮尔逊相关系数公式489
皮尔逊相关系数示例491
皮尔逊相关系数数据集492
皮尔逊相关系数POJO解决方案492
皮尔逊相关系数MapReduce解决方案493
皮尔逊相关系数的Spark解决方案496
运行Spark程序的YARN脚本516
使用Spark计算斯皮尔曼相关系数517
第24章DNA碱基计数520
FASTA格式521
FASTQ格式522
MapReduce解决方案:FASTA格式522
运行示例524
MapReduce解决方案:FASTQ格式528
Spark解决方案:FASTA格式533
Spark解决方案:FASTQ格式537
第25章RNA测序543
数据大小和格式543
MapReduce工作流544
RNA测序分析概述544
RNA测序MapReduce算法548
第26章基因聚合553
输入554
输出554
MapReduce解决方案(按单个值过滤和按平均值过滤)555
基因聚合的Spark解决方案567
Spark解决方案:按单个值过滤567
Spark解决方案:按平均值过滤576
第27章线性回归586
基本定义587
简单示例587
问题描述588
输入数据589
期望输出590
使用SimpleRegression的MapReduce解决方案590
Hadoop实现类593
使用R线性模型的MapReduce解决方案593
第28章MapReduce和幺半群600
概述600
幺半群的定义602
幺半群和非幺半群示例603
MapReduce示例:非幺半群606
MapReduce示例:幺半群608
使用幺半群的Spark示例612
使用幺半群的结论618
函子和幺半群619
第29章小文件问题622
解决方案1:在客户端合并小文件623
解决方案2:用CombineFileInputFormat解决小文件问题629
其他解决方案634
第30章MapReduce的大容量缓存635
实现方案636
缓存问题形式化描述637
一个精巧、可伸缩的解决方案637
实现LRUMap缓存640
使用LRUMap的MapReduce解决方案646
第31章Bloom过滤器651Bloom
过滤器性质651
一个简单的Bloom过滤器示例653
Guava库中的Bloom过滤器654
MapReduce中使用Bloom过滤器655
附录ABioset659
附录BSparkRDD659
参考书目677
内容摘要
《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。
主要包括:
完成超大量交易的购物篮分析。
数据挖掘算法(K-均值、KNN和朴素贝叶斯)。
使用超大基因组数据完成DNA和RNA测序。
朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
推荐算法和成对文档相似性。
线性回归、Cox回归和皮尔逊(Pearson)相关分析。
等位基因频率和DNA挖掘。
社交网络分析(推荐系统、三角形计数和情感分析)。
— 没有更多了 —
以下为对购买帮助不大的评价