神策数据技术VP付力力亲述产品架构演变:变与不变的背后思考

本文作者:付力力,神策数据联合创始人&技术VP

付力力毕业于北京理工大学软件工程专业,2008年至2013年期间历任百度新产品研发部、网页搜索部、基础架构部工程师。2013年9月年至2014年8月担任豌豆荚数据部门资深研发工程师。2014年9月至2015年4月担任黄金钱包技术合伙人。2018年8月,荣登“2018福布斯中国30岁以下精英榜”。

2015年9月神策数据正式发布了神策分析1.0版本,在随后的3年里,我们的产品研发团队一直在不断地进行版本迭代,到目前为止一共发布了12个大版本。

相比于最初的1.0版本,现在的神策分析无论是在产品体验还是在底层架构上都已经发生了很大的变化:

从最初只能使用3个单薄的基础分析功能,到现在支持10个分析模型联合构建的场景化分析能力;从最初只能支持每天数万日活的小App,到现在可以轻松应对一天产生数百亿的数据量巨型App。

而另一方面,3年内,神策分析里也有很多地方没有改变:

例如,从第一版的设计里就确定了模型的Event-User,该模型现在依然是整个神策分析里最基础和重要的概念。

在这篇文章里,我给大家介绍神策分析最近在底层架构上一些比较大的设计改进,同时也会分享我们在这些架构设计中关于“变”与“不变”的思考。

一、从SQL查询引擎到用户行为分析引擎

我们之前在很多场合都对神策分析的底层架构做过详细的介绍,这个架构的主要特点之一是:

神策所有的分析结果都是从明细数据实时查询得出,而不是基于大多数分析系统所使用的预计算技术,之所以这么设计,因为我们希望系统数据分析能力的上限在于数据本身。

换句话说,我们期望只要是从已经采集的数据里可以分析得到的结论,神策都希望可以帮助我们的客户很容易的实现。

从结果看来,这种架构设计的好处是非常显著的:

它大大简化了整个系统的数据流,我们不需要为不同的分析模型来维护复杂的聚合表,并在数据回溯的时候保持这些数据之间的一致性(大多数类似的数据系统里要么抛弃数据回溯的能力,要么放弃数据一致性)。

受益于这种架构,我们在很短的时间内推出众多灵活的分析模型,并且这些分析模型之间可以通过分群等方式来进行自由的组合查询。

同时,配合我们开发的查询缓存机制,这套架构也可以在报表等相对固定的数据分析需求上得到比较好的使用体验。

当然,这种设计的另外一个结果是,神策分析很明确地抛弃了对高QPS查询需求的直接支持(例如不应该尝试在商品详情页里直接从神策分析获取这个商品本周的销量)。

不过,整体上我们认为,牺牲一个非必要的特性来换取数倍的分析灵活性以及一个简单可维护的架构,是一个非常划算的选择。

神策数据技术VP付力力亲述产品架构演变:变与不变的背后思考

所有的数据模型本质上都是对现实世界的抽象,而在抽象之后必然会损失一些对现实世界的还原能力。

所以Event-User模型虽然在电商、金融、在线教育、互联网娱乐、企业服务等不同的行业上都发挥了很好的价值,但是随着客户需求的不断深入,尤其是在和具体行业业务的深入融合中,我们也逐渐发现了这个模型的一些缺点。

例如在Event-User模型中,出于性能和可解释性等各方面的考虑,Event是被设计为不可变的。从逻辑上看似乎没有问题,因为Event代表的是历史上已经发生过的事件,一般来说不应该需要进行更新。

但是,在实际的应用过程中,并不一定是这么理想的状态。

例如,在很多客户进行埋点采集的过程中,他们会发现某些Event在最初的阶段并不能很容易的采集到完整的数据。

比如一个电商客户,在客户端App里采集“商品加入购物车”事件时,只能采集到商品的ID、名称等基本信息,而对于后续分析需要的更多维度,例如商品的分类、促销的活动信息等等,则不一定能很容易的采集到(通常这些信息都是客户端在业务中没有使用到的,如果想要采集,则需要对服务端API、客户端内部的信息传递都做比较大的修改)。

又或者是等到真正需要分析的时候,才发现当初的采集是不完备的,这个时候想再把历史数据补上就是一件非常困难的事情。

还有另外一种比较常见的场景。某个在线教育的App中会有很多和课程相关的事件,例如对课程的浏览、购买、学习等,而关于课程的一些基本信息中会有许多是不断变化的,如课程的分类、定价等等。

在Event里记录的,应当是Event发生的时刻这个课程的状态,例如一个购买课程的事件,我们可以记录下来当时课程的分类、价格属性,作为Event的一部分。而课程的分类、定价后续可能会随着业务的需要随时调整,如果业务方希望按照最新的(或者某个特定阶段的)课程分类或者定价来分析用户的历史行为,则是一个难以完成的需求。

从技术上来看,解决上述问题的方案并不复杂。很多熟悉数据仓库的朋友可能会发现,这些其实是在传统数据仓库里比较典型的维度表的问题,可以使用经典的雪花模型或者星型模型来轻松解决。

但是,我们并不希望引入这么复杂的模型,毕竟神策分析的设计目标并不是一个通用的数据仓库。虽然灵活性是神策分析最核心的设计目标之一,但也是建立在”用户行为分析”这个目标的基础之上的。

我们期望的一个理想方式是:对数据模型增加一点有限的复杂性,但是可以给整个系统带来十倍甚至百倍的灵活性提升。

为了满足上述需求,我们在新版的神策分析中对Event-User模型进行了扩展,引入了Item的概念。这里的所谓Item,在严格意义上是指一个和用户行为相关联的实体,可能是一个商品、一个视频剧集、一部小说等等。

如果不严格约束的话,理论上它也可以存储其它任意的扩展维度信息。

神策数据技术VP付力力亲述产品架构演变:变与不变的背后思考

对于第二点,一方面,我们提供了一套描述规则,允许客户直接从UI上定义比较复杂的分群:在某段时间做过某个Event几次,或者完成了某个连续的Event序列等。

更重要的是,我们把所有已有分析模型的用户列表功能都看作为是分群规则定义的一部分,这种方式使得客户可以很容易的把各个分析模型的结果进行组合,产生1+1>2的效果。

神策数据技术VP付力力亲述产品架构演变:变与不变的背后思考

另外,在分群的计算执行层面,我们也不再使用独立的MapReduce程序来进行,而是复用了上面提到的基于Impala的用户行为分析引擎。

因为分群的过程,其实也是一个很典型的用户行为分析的计算逻辑,这样就很自然的把整个神策系统内对于用户行为的分析都统一到了一个计算模块上来完成。

四、更精确的用户标识体系

如何准确地标识用户一直是用户行为数据系统中的一大难题。在过去的3年里,我们在客户端SDK、服务端架构、数据接入的解决方案支持上做了持续的优化,解决了很多普遍的问题。

传统的网站或者App分析工具,通常以Cookie或设备号作为用户(其实是设备)的标识,同时这些分析工具大部分也并不支持跨端的分析,所以关于用户标识导致的各类问题并不突出。

但是在今天的用户行为分析场景中,准确的跨端标识用户变成了一个非常迫切的需求。尤其是在微信生态的情况下,一个自然人用户在App、小程序、H5、公众号之间反复跳转,完成一系列行为是非常常见的场景,如果不能做到准确的标识用户,很多数据分析的需求将会无法准确完成。

神策数据技术VP付力力亲述产品架构演变:变与不变的背后思考

全新的用户标识体系虽然可以更准确地标识用户,但是同时也会引入一个新的问题:允许一个注册用户和多个设备进行关联,会导致历史数据的分析结果是不断变化的。我们可以看一个具体的例子,假设一个用户X进行了一系列操作:

7月1日之前在设备A上注册、登录并使用App

7月2日开始在设备B上使用App

7月5日在设备B上使用之前的帐号进行登录,并继续使用

我们可以看到,在7月5日之前,神策分析并不知道使用设备B跟设备A背后都是用户X在操作,也就是说在这之前计算用户数都会是2,同时在计算留存、漏斗等数据时也都会当作两个不同的用户。

而一旦到7月5日用户X登录了,神策分析可以知道之前的行为其实都是同一个人X产生的,那么这个时候再看7月5日之前的用户数也会变成了1。

这种数据的变化在某些场景下可能会变得更加难以理解,我们假设一个比较极端的情况,如果上面的用户X是在一年之后才在设备B上进行登录,那么这一年内设备B所产生的行为是否都应该视作用户X产生的?现实情况下可能是,也可能不是,只凭借这些信息很难做出准确的判断。

本质上,新的用户标识体系是实现了对历史数据的修正,同时由于神策分析又是一个完全基于明细数据进行实时查询的分析系统,因此数据分析的结果跟着发生变化也是很自然的事情。

正如我们在上文的Event-User模型扩展中提到的,虽然Event代表的是已经发生的事件,但是依然会有一些信息在Event发生的当时是无法得到的。

比如在上面的例子中,7月2日当天我们并不知道在设备B上使用的也是用户X,只能在3天之后再对这个数据进行修正。我们在一定程度上破坏了Event的不变性,但是也带来了更高的数据准确性。

不过,除了技术上的难点,历史数据的变化还会给数据的可解释性造成比较大的影响:很多人都会对昨天甚至更早的数据报表会发生变化产生困惑。

因此,如何在提高数据准确性的同时降低客户对数据的理解难度,会是我们后面的重点方向。

关于神策数据

神策数据(https://www.sensorsdata.cn),是一家专业的大数据分析服务公司,致力于帮助客户实现数据驱动。公司推出深度用户行为分析平台神策分析(Sensors Analytics),支持私有化部署、基础数据采集与建模,并作为PaaS平台支持二次开发;同时推出基于行为数据的客户全生命周期分析平台神策客景(Sensors Journey),创造性将用户行为数据融入客户全生命周期的管理与分析,实现客群健康度分析,流失预警等重要价值,并应用到企业服务、工具软件等多个领域。

此外,还提供大数据相关咨询和完整解决方案。神策数据积累了中国银联、中国电信、百度视频、百联、万达、小米、中邮消费金融、广发证券、中原银行、百信银行、聚美优品、中商惠民、纷享销客、Keep、36氪、中青旅、太平洋保险、平安寿险、链家、四川航空等500余家付费企业用户的服务和客户成功经验,为客户全面提供指标梳理、数据模型搭建等专业的咨询、实施、和技术支持服务。希望更深入了解神策数据或有数据驱动相关问题,请拨打4006509827电话咨询,会有专业的工作人员为您解答。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:SEO优化专员,转转请注明出处:https://www.chuangxiangniao.com/p/970378.html

(0)
上一篇 2025年1月5日 14:36:55
下一篇 2025年1月5日 14:37:21

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

登录后才能评论

联系我们

156-6553-5169

在线咨询: QQ交谈

邮件:253000106@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

联系微信