揭秘:亚马逊跟Facebook的数据库是如何建立的

亚马逊跟Facebook这些巨头是如何建立自己的数据库的,本文就比较详细的说明了这件事情!

在Keen IO,我们认为会运用事件数据的公司才具有竞争优势,世界领先的科技公司证明了这一点。但是我们仍然对Facebook、Amazon、Airbnb、Pinterest和Netflix数据团队所做的事情感到惊讶。他们为软件和企业从数据中获取信息而制定了新标准。

由于他们的产品用户量极大,所以这些团队必须不断地定义规模分析的方法。他们已经在数据架构中投入了数百万美元,并且在大多数公司中,数据团队的规模超过了整个工程部门的规模。

我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。

Netflix

Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描述的那样,他们每天大约捕获5000亿个事件,每天大约有1.3 PB的数据传输。在高峰时段,他们每秒将记录800万次事件。他们雇用了100多个数据工程师或分析师。

以下是上述文章中数据架构的简化视图,其中显示:开源系统Apache Kafka,搜索服务器Elastic Search,亚马逊云存储服务AWS S3,进行大数据处理的Apache Spark,运行框架Apache Hadoop和大数据分析服务EMR作为主要组件。

揭秘:亚马逊跟Facebook的数据库是如何建立的

Facebook

拥有超过10亿的活跃用户,Facebook有世界上最大的数据仓库之一,存储超过300PB。该数据被用于广泛的应用:从传统的批处理到图形分析,机器学习和实时交互式分析。

为了进行大规模的交互式查询,Facebook的工程师发明了Presto,一种针对点对点分析进行优化的定制分布式的SQL查询引擎。每天有1000多名Facebook员工使用Presto,通过Hive、HBase和Scribe的可插拔后端数据存储,每天执行查询次数超过30000次。

揭秘:亚马逊跟Facebook的数据库是如何建立的

体系结构

揭秘:亚马逊跟Facebook的数据库是如何建立的

后端数据存储

Airbnb

Airbnb支持超过1亿用户浏览200多万的房屋列表。他们智能地向这些用户提供新的旅行建议的能力,这对他们的成长有很大影响。

Airbnb的数据科学经理Elena Grewal在去年的会议“建立一个世界级的分析团队”上提到,他们已经将Airbnb的数据团队扩展到拥有30多名工程师的规模。这是每人每年500万的投资。

在博客《数据基础架构》一文中,AirbnbEng建筑师James Mayfield、Krishna Puttaswamy、Swaroop Jagadish和Kevin Longdescribe描述了构建数据结构的基本要素以及如何为关键任务数据提供更高的可靠性。他们严重依赖Hive和Apache Spark,并使用了Facebook的Presto。

揭秘:亚马逊跟Facebook的数据库是如何建立的

AIRBNB的数据基础结构

Pinterest

Pinterest每月有超过1亿的用户浏览超过100亿的网页浏览量。截至2015年,他们将数据团队扩展到拥有250多名工程师的规模。他们的基础设施依赖于开源系统Apache Kafka,数据处理框架Storm,系统基础架构Hadoop,开源数据库HBase和GPU渲染器Redshift。

揭秘:亚马逊跟Facebook的数据库是如何建立的

数据管道结构图

Pinterest团队不仅需要追踪大量客户相关的数据。像其他社交平台一样,他们还需要向广告商提供详细的分析。黄彤波在《Behind the Pins: Building Analytics at Pinterest》一文中写道:为了满足这一需求,他们改进了自己的分析堆栈。以下是Pinterest团队如何使用Apache Kafka,AWS S3和HBase的示意图:

揭秘:亚马逊跟Facebook的数据库是如何建立的

Pinterest商业数据分析结构图

Twitter / Crashlytics

每天实时处理50亿次会议。Ed Solovey介绍了Crashlytics Answers团队构建的一些架构,用于处理数十亿的日常移动设备事件。

揭秘:亚马逊跟Facebook的数据库是如何建立的

信息流接收

揭秘:亚马逊跟Facebook的数据库是如何建立的

存储

揭秘:亚马逊跟Facebook的数据库是如何建立的

批处理计算

揭秘:亚马逊跟Facebook的数据库是如何建立的

加速计算

揭秘:亚马逊跟Facebook的数据库是如何建立的

总览

Keen IO的数据架构

正如我之前提到的,我们构建了Keen数据接口(API),以便任何开发人员都可以使用世界一流的数据架构,而无需拥有一个庞大的团队构建一大堆基础架构。成千上万的工程团队使用Keen的API来捕获、分析、流式传输和嵌入事件数据,包括实时和批处理应用程序。

虽然使用Keen的开发人员在发送事件或运行查询时不需要知道幕后发生的情况,但下面是处理其请求的体系结构:

揭秘:亚马逊跟Facebook的数据库是如何建立的

Keen IO 信息处理结构图

在输入方面,负载均衡器处理数十亿个传入的帖子请求。事件流来自于应用程序,网站,连接设备,服务器,计费系统等等。事件需要验证、排序和可选择地丰富额外的元数据,如IP-地理查询。这一切都发生在几秒钟内。

一旦安全地存储在Apache Cassandra中,事件数据就可以通过REST API进行查询。我们的架构(通过Apache Storm,DynamoDB,Redis和AWS lambda等技术)支持从原始传入数据实时数据探索,到应用程序和面向客户报告的缓存查询的各种查询需求。Keen每天查询数万个事件属性,并为成千上万的客户构建报告,自动化和数据挖掘界面。

作者:王炜

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:卢松松,转转请注明出处:https://www.chuangxiangniao.com/p/1088727.html

(0)
上一篇 2025年1月13日 23:26:38
下一篇 2025年1月13日 23:27:01

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 互联网引流渠道指南

    今天说说互联网每个引流渠道的特点和引流大致玩法。 要想精准引流有效客户粉丝,必须弄清楚当下互联网的渠道分类和每个渠道的特性,结合自身业务选择最优渠道才能事半功倍,用最少的投入换最大的回报,用人话说:什么人在什么平台玩,你要清楚这群人符不符合…

    2025年1月14日
    200
  • 小红书聚光平台新手入门投放指南

    小红书聚光平台上线2年多了,有人知道这个平台,也有很多人不知道。 不过没关系,今天我从头到尾,告诉你有关聚光平台的所有信息,内容很干,请大家搬个小板凳坐下认真阅读。 本内容适合广告主、广告投手。 一、什么是聚光平台 聚光平台是小红书推出广告…

    2025年1月14日 IT业界
    300
  • 闲鱼无货源从0~1,新手10天卖货100单的实战分享

    导语:失败是什么?没有什么,只是更走近成功一步,成功是什么?就是走过了所有通向失败的路,只剩下一条路,那就是成功的路。 大家好,我是峰少。 从4月18号加入生财以后看了很多精华贴和大家的项目实操分享,我一直在想自己能做点什么,怎么更好的参与…

    2025年1月14日 IT业界
    200
  • 抖音魔术类目也能月入过万

    有很多人反映原创视频不好拍,没颜值、没才艺、也没技术…… 总结起来就是——“太难了,不能轻轻松松赚钱,不是一个好项目!” 那如何快速拍出优质视频,吸粉变现两不误? 今天介绍的,利用人性好奇心,或许是一条捷径——魔术短视频! 为什么说魔术是“…

    2025年1月14日 IT业界
    200
  • 今天分享个你照着读就可以赚钱的项目

    再多努力一下,从天而降的星星就是你! 赚钱就是看对时机,时机选的对了,平常看起来不太光彩的事情,也别有那么一番意思,还能让你有借口赚到钱! 互联网有通过直播刷颜值赚钱的,有靠口才直播卖货赚钱的,有靠文笔不错输出内容赚钱的,但是你却告诉我你什…

    2025年1月14日
    200
  • ​羊群共情,财富跃迁

    羊群相聚,定无高见; 若有引领,定做收割。 收割羊群,撸羊毛,卖羊肉,熬羊汤,榨干你。 赚得盆满钵满。 上次探究了与庄家站在一起,才能在房产、投资、投机项目里,分一杯羹,甚至实现财富跃迁。 如果墨守成规,人云亦云,羊群效应,定无法出类拔萃,…

    2025年1月14日
    200
  • 没有对公账户、营业执照,已冻结的微信小程序也能注销成功

    大概是在2017年前后,心血来潮注册了公司营业执照,后面感觉还是更习惯于一个人摸爬滚打、自由自在,大约过了一年多的时间就注销了,不过在注册完营业执照之后,我用公司身份注册了一个微信小程序,在营业执照注销以后,这个微信小程序也被我搁置了,可能…

    2025年1月14日 IT业界
    200
  • 各大论坛精准被动引流布局玩法

    论坛引流,可能很多人觉得过时了,确实过时了,但是只要有人的地方,就有流量,往往这种过时的小流量平台审核更宽松,引流更轻松。 这样吧,先给大家上几个案例: 你们自己看,不管是做影视类的,还是做手工零食产品类的,通过论坛发帖,就可以轻松获得精准…

    2025年1月14日 IT业界
    200
  • 流量借力玩法

    其实我们在互联网做的绝大部分引流操作,都是流量借力。当下,大部分巨头占据着互联网、移动世界的头部地位。除了它们以外,另一些在当今互联网世界占据主流和一线位置的企业,在风投资金的支持下,也开始瓜分头部世界。对于新创业团队来说,越来越难以挤入“…

    IT业界 2025年1月14日
    200
  • 亚马逊产品视频让listing转化提升80%?

    01 Listing优化是一件非常重要的事情,在亚马逊,可以说产品的选择是根本,Listing的优化是关键。如果你想要商店生存和发展,首先,你必须选择一个好的产品。然而,当你选择了一个好的产品时,就需要用优质的Listing的内容把产品的亮…

    IT业界 2025年1月14日
    200

发表回复

登录后才能评论

联系我们

156-6553-5169

在线咨询: QQ交谈

邮件:253000106@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

联系微信