正版保障 假一赔十 可开发票
¥ 95.66 6.4折 ¥ 149 全新
库存148件
作者蒋杰,刘煜宏,陈鹏 等
出版社机械工业出版社
ISBN9787111710769
出版时间2021-05
装帧精装
开本16开
定价149元
货号11675558
上书时间2024-08-29
“大数据”这个词最早是什么时候出现的?有人说是著名未来学家托夫勒在他1980年出版的《第三次浪潮》中提出的,他把“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》于2008年9月推出了“大数据”的封面专栏,帮助“大数据”成为热词。从技术层面上讲,2003年谷歌发表了“谷歌文件系统”GFS的论文,随后在2004年和2006年又陆续发表了MapReduce 和BigTable的论文,这“三驾马车”奠定了大数据技术的基石,开启了大数据技术发展的大幕。随后,Doug Cutting和Mike Cafarella实现了开源版的Hadoop。Doug Cutting于2006年入职雅虎,在雅虎的支持下,Hadoop发展迅猛,进而带动了整个大数据开源社区的快速发展。
而国内,大概是从2009年开始,大数据才变得热门起来。十几年前,少有人听说过大数据;时至今日,大数据已不再是一个遥远的概念,而是与我们每个人的生活和工作都息息相关,须臾难离了。我们每天看天气、读新闻、刷视频、看财经、网上购物、打车出行,等等,大数据始终就在身边,虽然你看不到它,但它默默地改善着我们阅读、购物、出行、理财等的体验,并带给大家诸多便捷。
发展至今,数据已经成为国家的基础性战略资源,是21世纪的“钻石矿”,发展大数据也成为国家战略。早在2015年,党的十八届五中全会就明确提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,全面推进大数据发展,加快建设数据强国。在2021年3月11日,十三届全国人大四次会议表决通过的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(简称“十四五”规划)中,也将大数据列为数字经济重点产业之一。
腾讯作为国内体量最大的互联网公司之一,业务涵盖用户日常生活的方方面面,主要的业务板块包括社交、娱乐、金融、资讯、工具和流量平台等,每天都有大量的业务数据,例如用户每天在微信朋友圈和O0空间上传的图片超过10亿张,腾讯视频每天播放量超过20亿次,除夕当天红包支付超过25亿笔,每天移动支付超过5亿笔,这些数据都在国内居行业前列。业务数据量如此巨大,如果不能对数据进行专业化处理并高效有序地存、管、用,如果不能使数据产生应有的价值,那么数据资产将会成为数据垃圾,成为社会和企业的负担。
大数据平台作为腾讯底层的基础设施之一,每天必须处理千万级规模的离线数据任务及十万亿级别的实时计算,否则无法满足业务每天数以亿计的数据分析计算的需求。腾讯大数据平台,截至2019年年底,日实时计算次数已经超过40万亿次,每天有超过45万亿条数据,资源调度系统为了支撑离线任务每天要启动2.5亿次的容器,数据总量超过1500PB。为了支撑这样的数据总量,腾讯大数据平台的机器规模达到5~6万台。但最开始的时候,机器规模只有30台。
1.1腾讯大数据的缘起
腾讯大数据的起点在2008年年底。
2008年的时候,腾讯已经发展了十年,是国内最大的互联网企业,QQ、QZone、财付通、游戏、新闻等业务的用户量级在国内甚至全球范围内都是数一数二的,后端有着非常强大的业务在线系统支撑,有着自己的海量服务之道,有着自己特有的构建海量服务平台的架构方法论。但是在数据分析、商业智能(Business Intelligence,BI)分析方面,跟很多电信、金融行业一样,一直在使用传统的数据库来支撑。
不管是公司运营分析的报表,还是产品的指标计算,或者是用户数据的挖掘分析,腾讯的数据仓库平台的支撑,在2008年之前,可以说是差强人意。但在2008年底到2009年初,以QQ农场为首的产品出现爆发,业务量短期内连续出现翻番,用户量暴涨,导致需要分析的数据暴增,数据仓库就出现了瓶颈:以前每天5点就能计算出来的报表,经常9点都没算完;以前算一周、一个月的数据,性能都没问题,但现在计算任务根本跑不完,频繁出错。数据仓库几经扩容,还是后继无力,该是转向新技术新架构的时候了。
当时Hadoop在国内已经出现一些小规模的试用,腾讯也在2008年底开始转向Hadoop,从不同部门抽调了几个人,申请了一间会议室来封闭开发,在……
— 没有更多了 —
以下为对购买帮助不大的评价