大数据架构和算法实现之路
全新正版 极速发货
¥
43.25
5.5折
¥
79
全新
仅1件
作者黄申 著
出版社机械工业出版社
ISBN9787111569695
出版时间2017-06
装帧平装
开本16开
定价79元
货号1201523390
上书时间2024-09-06
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
黄申(博士),现任IBM研究院资历科学家,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBM ExtremeBlue天才计划成员。长期专注于大数据相关的搜索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有20多篇靠前论文和10多项靠前专利,《计算机工程》特邀审稿专家。2016年出版的《大数据架构商业之路》广受好评。因其对于业界的很好贡献,获得美国政府颁发的“美国杰出人才”称号。
目录
推荐序
前言
引子
第一篇支持高效的运营
第1章方案设计和技术选型:分类
1.1分类的基本概念
1.2分类任务的处理流程
1.3算法:朴素贝叶斯和K最近邻
1.4分类效果评估
1.5相关软件:R和Mahout
1.6案例实践
1.7更多的思考
第2章方案设计和技术选型:聚类
2.1聚类的基本概念
2.2算法:K均值和层次型聚类
2.3聚类的效果评估
2.4案例实践
第3章方案设计和技术选型:因变量连续的回归分析
3.1线性回归的基本概念
3.2案例实践
第二篇为顾客发现喜欢的商品:基础篇
第4章方案设计和技术选型:搜索
4.1搜索引擎的基本概念
4.2搜索引擎的评估
4.3为什么不是数据库
4.4系统框架
4.5常见的搜索引擎实现
4.6案例实践
第三篇为顾客发现喜欢的商品:高级篇
第5章方案设计和技术选型:NoSQL和搜索的整合
5.1问题分析
5.2HBase简介
5.3结合HBase和搜索引擎
5.4案例实践
第6章方案设计和技术选型:查询分类和搜索的整合
6.1问题分析
6.2结合分类器和搜索引擎
6.3案例实践
第7章方案设计和技术选型:个性化搜索
7.1问题分析
7.2结合用户画像和搜索引擎
7.3案例实践
第8章方案设计和技术选型:搜索分片
8.1问题分析
8.2利用搜索的分片机制
8.3案例实践
第9章方案设计和技术选型:搜索提示
9.1问题分析
9.2案例实践:基础方案
9.3改进方案
9.4案例实践:改进方案
第10章方案设计和技术选型:推荐
10.1推荐系统的基本概念
10.2推荐的核心要素
10.3推荐系统的分类
10.4混合模型
10.5系统架构
10.6Mahout中的推荐算法
10.7电商常见的推荐系统方案
10.8案例实践
第四篇获取数据,跟踪效果
第11章方案设计和技术选型:行为跟踪
11.1基本概念
11.2使用谷歌分析
11.3自行设计之Flume、HDFS和Hive的整合
11.4自行设计之Flume、Kafka和Storm的整合
11.5案例实践
11.6更多的思考
后记
内容摘要
黄申编著的《大数据架构和算法实现之路:电商系统的技术实战》介绍了一些主流些技术在商业项目中的应用,包括:机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念以及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch,Hadoop、HBase、Hive、Flume、Kafka,Storm等系统。和前作不同之处在于,本书接近是面向技术人员,因此提供了大量详尽的实现步骤和代码分析。不过,本书在技术和商业结合方面,仍然和前作保持一致,从具体业务需求出发演变到合理的技术方案和实现,根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。
精彩内容
前 言 Preface为什么要写这本书首先要感谢机械工业出版社华章公司的编辑们,在他们的大力支持下,我于2016年出版了《大数据架构商业之路:从业务需求到技术方案》一书,并获得了良好的销售额和口碑。不少读者主动和我联系,表示从书中学习到了如何使用大数据的知识,来制定合理的技术方案。能够让读者从书中获益,我也感到非常欣慰。与此同时,也有部分读者表示对于技术的细节很感兴趣,对此书未能包含实现部分深感遗憾。对此,我一直在犹豫是否需要重新写一版,包含更多的实战内容。因为《大数据架构商业之路:从业务需求到技术方案》一书的定位是最大程度地弥补业务需求和技术方案之间的空白,针对的读者主要是互联网公司的技术管理人员、产品经理、初级的架构师等。如果直接加入过多的技术细节,可能会导致该书的定位不清,让读者难以获得最佳的阅读体验。 与本书的策划编辑杨老师再三讨论之后,我决定不在原书中加入更多的实现部分,而是重新撰写一本兄弟篇。这本全新的书,仍然会沿用前作的故事背景和应用场景,不过读者对象改为资深的程序员、算法工程师、数据科学家和系统架构师。因此,新作将大幅缩减基础知识的详细介绍以及业务需求的逐步分析,而是直接进入实战的主题,包括系统架构、算法设计,甚至是重要的代码部分。当然,我也不希望该书全由代码堆砌而成,因此主要针对核心代码进行了讲解。全部的实例代码会以其他形式来提供。 虽然定位有所不同,但是我仍然希望保持前作深入浅出的特点。 易读易懂。黄小明和杨大宝的创业故事在稍作修改的基础之上得以保留,继续使用生动的案例和形象的比喻来解读难点,降低理解的门槛。 可实践性强。本书选取了电子商务的平台,通过分享大量实践才能积累的宝贵经验和重点代码,最大程度地弥补业务需求和技术方案之间的空白。与此同时,针对频繁升级的开源软件,我也采用了2016年年底到2017年年初最新的版本。因此,部分代码甚至可作为中小公司创业起步的参考模板。这有利于技术人员针对不同的业务需求,规划更为合理的技术方案。 最后,我们衷心希望本书成为相关领域技术专家的良师益友,大家在阅读之后,对电商大数据的实践能有更加深入的理解,并对自己所从事的项目有所裨益。 读者对象根据本书撰写的起心动念,我们觉得其内容适合如下的读者。 大数据相关领域的程序开发者和技术骨干。从本书中,他们可以看到常见的互联网公司从创业初期到中期,应该怎样设计数据平台、如何解决技术上的难题,才能最终满足业务需求。 中小互联网创业公司的数据科学家或者算法工程师。算法是数据平台的一个关键因素。最近几年,人工智能、机器学习乃至深度学习都是学术界和工业界的一大热点,而数据科学家也成为受人追捧的职业。合理地运用智能算法将从很大程度上节约重复劳动的成本,提高效率和转化率,最终增加商业的价值。 架构工程师。架构是数据平台的另一个关键因素,很多刚刚从院校毕业、工作没多久的朋友,学了一身的本领,对新技术也很有热情,可惜没有太多实践的机会。本书中的案例,浓缩了不少业界实践的经验和心得,如能融会贯通,对他们的工作将有很大帮助。同时,覆盖面较广的技术课题概述,也为他们继续深入研究提供了方向和可能。 总之,本书适合钻研实现细节的程序员、工程师和算法专家。和前作的侧重点有所不同,本书并不适合作为入门教程使用。因此建议没有相关基础知识的读者,读完前作之后再来阅读此书。 如何阅读本书本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系统。如前所述,本书最大的特色就是,从商业需求出发演变到合理的技术方案和实现,因此根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。 勘误和支持众所周知,大数据的发展实在是太快了。可能就在你阅读这段文字的同时,又有一项新的技术诞生了,N项技术升级了,M项技术被淘汰了。再加之笔者的水平有限,书中难免会出现一些不够准确或遗漏的地方,恳请读者通过如下的渠道积极建议和斧正,我们很期待能够收到你们的真挚反馈。 QQ:36638279微信:18616692855邮箱:s_huang790228@hotmail.comLinkedIn:https://cn.linkedin.com/in/shuang790228致谢首先要感谢上海交通大学和俞勇教授,你们给予我不断学习的机会,带领我进入了大数据的世界。同时,感谢阿里云的高级总监薛贵荣,你的指导让我树立了良好的科研态度。 还要感谢微软亚洲研究院、eBay中国研发中心、沃尔玛1号店、大润发飞牛网和IBM中国研发中心,在这些公司十多年的实战经验让我收获颇丰,也为本书的铸就打下了坚实的基础。 感谢曾经的微软战友陈正、孙建涛、Ling Bao、曾华军、张本宇、沈抖、刘宁、严峻、曹云波、王琼华、康亚滨、胡健、季蕾等,eBay的战
— 没有更多了 —
以下为对购买帮助不大的评价