消息首页搜索举报

【正版9新】数据算法 9787512395947 【消毒塑封】

【消毒塑封】【正版9新】

23.1 1.8折 128 九五品

库存2件

浙江杭州

认证卖家担保交易快速发货售后保障

作者马哈默德·帕瑞斯安

出版社中国电力出版社

ISBN9787512395947

出版时间2016-10

装帧其他

开本16开

定价128元

货号9787512395947

上书时间2024-11-24

浅秋书社

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

【正版9新】车尔尼钢琴练习曲50首(手指灵巧的技术练习作品740<699>) 9787103026922 【消毒塑封】 ¥16.30

【正版9新】世界创意儿童手工美术课堂·美国卷下 9787574113015 【消毒塑封】 ¥17.60

【正版9新】组合投资新思维:5大策略构建风险市场下的高收益投资组合 9787549634255 【消毒塑封】 ¥17.60

【正版9新】奖分制管理（积分制管理升级版，企业职工管理，激发员工积极性） 9787515823881 【消毒塑封】 ¥17.60

【正版9新】东亚奇迹的反思（诺贝尔经济学奖获得者丛书） 9787300169347 【消毒塑封】 ¥19.20

【正版9新】宝宝不想睡 9787550265011 【消毒塑封】 ¥15.70

【正版9新】战争论 9787200069747 【消毒塑封】 ¥17.50

【正版9新】饺子 9787513328975 【消毒塑封】 ¥15.00

【正版9新】轮子 9787574010109 【消毒塑封】 ¥17.60

商品详情

品相描述：九五品

商品描述: 作者简介
Mahmoud Parsian，计算机科学博士，是一位热衷于实践的软件专家，作为开发人员、设计人员、架构师和作者，他有30多年的软件开发经验。目前领导着Illumina的大数据团队，在过去15年间，他主要从事Java(服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata，MySQL，and Oracle Recipes》等书（均由Apress出版）。

目录
序1
前言3
第1章二次排序：简介19
二次排序问题解决方案21
MapReduce/Hadoop的二次排序解决方案25
Spark的二次排序解决方案29
第2章二次排序：详细示例42
二次排序技术43
二次排序的完整示例46
运行示例——老版本HadoopAPI50
运行示例——新版本HadoopAPI52
第3章Top10列表54
TopN设计模式的形式化描述55
MapReduce/Hadoop实现：唯一键56
Spark实现：唯一键62
Spark实现：非唯一键73
使用takeOrdered()的SparkTop10解决方案84
MapReduce/HadoopTop10解决方案：非唯一键91
第4章左外连接96
左外连接示例96
MapReduce左外连接实现99
Spark左外连接实现105
使用leftOuterJoin()的Spark实现117
第5章反转排序127
反转排序模式示例128
反转排序模式的MapReduce/Hadoop实现129
运行示例134
第6章移动平均137
示例1：时间序列数据（股票价格）137
示例2：时间序列数据（URL访问数）138
形式定义139
POJO移动平均解决方案140
MapReduce/Hadoop移动平均解决方案143
第7章购物篮分析155
MBA目标155
MBA的应用领域157
使用MapReduce的购物篮分析157
Spark解决方案166
运行Spark实现的YARN脚本179
第8章共同好友182
输入183
POJO共同好友解决方案183
MapReduce算法184
解决方案1:使用文本的Hadoop实现187
解决方案2:使用ArrayListOfLongsWritable的Hadoop实现189
Spark解决方案191
第9章使用MapReduce实现推荐引擎201
购买过该商品的顾客还购买了哪些商品202
经常一起购买的商品206
推荐连接210
第10章基于内容的电影推荐225
输入226
MapReduce阶段1226
MapReduce阶段2和阶段3227
Spark电影推荐实现234
第11章使用马尔可夫模型的智能邮件营销.253
马尔可夫链基本原理254
使用MapReduce的马尔可夫模型256
Spark解决方案269
第12章K-均值聚类282
什么是K-均值聚类?285
聚类的应用领域285
K-均值聚类方法非形式化描述：分区方法286
K-均值距离函数286
K-均值聚类形式化描述287
K-均值聚类的MapReduce解决方案288
K-均值算法Spark实现292
第13章k-近邻296
kNN分类297
距离函数297
kNN示例298
kNN算法非形式化描述299
kNN算法形式化描述299
kNN的类Java非MapReduce解决方案299
Spark的kNN算法实现301
第14章朴素贝叶斯315
训练和学习示例316
条件概率319
深入分析朴素贝叶斯分类器319
朴素贝叶斯分类器：符号数据的MapReduce解决方案322
朴素贝叶斯分类器Spark实现332
使用Spark和Mahout347
第15章情感分析349
情感示例350
情感分数：正面或负面350
一个简单的MapReduce情感分析示例351
真实世界的情感分析353
第16章查找、统计和列出大图中的所有三角形354
基本的图概念355
三角形计数的重要性356
MapReduce/Hadoop解决方案357
Spark解决方案364
第17章K-mer计数375
K-mer计数的输入数据376
K-mer计数应用376
K-mer计数MapReduce/Hadoop解决方案377
K-mer计数Spark解决方案378
第18章DNA测序390
DNA测序的输入数据392
输入数据验证393
DNA序列比对393
DNA测试的MapReduce算法394
第19章Cox回归413
Cox模型剖析414
使用R的Cox回归415
Cox回归应用416
Cox回归POJO解决方案417
MapReduce输入418
使用MapReduce的Cox回归419
第20章Cochran-Armitage趋势检验426
Cochran-Armitage算法427
Cochran-Armitage应用432
MapReduce解决方案435
第21章等位基因频率443
基本定义444
形式化问题描述448
等位基因频率分析的MapReduce解决方案449
MapReduce解决方案,阶段1449
MapReduce解决方案，阶段2459
MapReduce解决方案,阶段3463
染色体X和Y的特殊处理466
第22章T检验468
对bioset完成T检验469
MapReduce问题描述472
输入472
期望输出473
MapReduce解决方案473
Spark实现476
第23章皮尔逊相关系数488
皮尔逊相关系数公式489
皮尔逊相关系数示例491
皮尔逊相关系数数据集492
皮尔逊相关系数POJO解决方案492
皮尔逊相关系数MapReduce解决方案493
皮尔逊相关系数的Spark解决方案496
运行Spark程序的YARN脚本516
使用Spark计算斯皮尔曼相关系数517
第24章DNA碱基计数520
FASTA格式521
FASTQ格式522
MapReduce解决方案：FASTA格式522
运行示例524
MapReduce解决方案:FASTQ格式528
Spark解决方案:FASTA格式533
Spark解决方案:FASTQ格式537
第25章RNA测序543
数据大小和格式543
MapReduce工作流544
RNA测序分析概述544
RNA测序MapReduce算法548
第26章基因聚合553
输入554
输出554
MapReduce解决方案（按单个值过滤和按平均值过滤）555
基因聚合的Spark解决方案567
Spark解决方案：按单个值过滤567
Spark解决方案：按平均值过滤576
第27章线性回归586
基本定义587
简单示例587
问题描述588
输入数据589
期望输出590
使用SimpleRegression的MapReduce解决方案590
Hadoop实现类593
使用R线性模型的MapReduce解决方案593
第28章MapReduce和幺半群600
概述600
幺半群的定义602
幺半群和非幺半群示例603
MapReduce示例：非幺半群606
MapReduce示例：幺半群608
使用幺半群的Spark示例612
使用幺半群的结论618
函子和幺半群619
第29章小文件问题622
解决方案1：在客户端合并小文件623
解决方案2：用CombineFileInputFormat解决小文件问题629
其他解决方案634
第30章MapReduce的大容量缓存635
实现方案636
缓存问题形式化描述637
一个精巧、可伸缩的解决方案637
实现LRUMap缓存640
使用LRUMap的MapReduce解决方案646
第31章Bloom过滤器651Bloom
过滤器性质651
一个简单的Bloom过滤器示例653
Guava库中的Bloom过滤器654
MapReduce中使用Bloom过滤器655
附录ABioset659
附录BSparkRDD659
参考书目677

内容摘要
《数据算法：Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案，以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。
主要包括：
完成超大量交易的购物篮分析。
数据挖掘算法（K-均值、KNN和朴素贝叶斯）。
使用超大基因组数据完成DNA和RNA测序。
朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
推荐算法和成对文档相似性。
线性回归、Cox回归和皮尔逊（Pearson）相关分析。
等位基因频率和DNA挖掘。
社交网络分析（推荐系统、三角形计数和情感分析）。