最近Netflix在全球流媒体市场上又搞了个大新闻,他们的图抽象系统把650TB数据给处理得服服帖帖。这家公司靠着丰富的内容和创新技术一直在业界领跑,这次他们推出的这个技术创新,让全世界都在盯着看。为了把背景搞清楚,咱们得先聊聊为啥Netflix要弄这个系统。原来啊,他们的业务现在越来越复杂,尤其是游戏和运维监控这两块儿,数据多不说,关键是还要实时管理。如果搞不定这些庞大复杂的数据,光靠传统的办法肯定行不通。所以他们就需要一个超强的图抽象系统来搞定社交图和事件分析这些内部业务。 这系统架构也很有意思,他们把边连接关系和边属性分开存着。这样一来查询起来就快多了。另外他们在全球各地都布了数据副本,保证不管咋整数据都能快点拿到。而且还有个时序抽象的功能,把历史图状态都保留下来了,审计和追溯也变得很方便。 为了让访问延迟降低到个位数毫秒甚至更小,Netflix还把自己的分布式缓存层EVCache深度集成进来。采用分层缓存策略后,读写放大的问题也没了。系统对Schema的加载和执行也做了优化,校验数据和遍历路径的时候效率特别高。 到了生产环境里实测了一把性能表现更是没得说。单跳遍历的延迟才个位数毫秒,双跳查询的P90时延也不到50毫秒。这就说明哪怕是在高负载的情况下也能稳得住。 这玩意儿在内部能用在好多地方呢。比如实时捕获服务交互的分布式图、建模用户关系的社交图,还有故障事件的根因分析啥的。把这个系统一搞出来之后,Netflix处理复杂数据的能力确实提升了不少。 往后看呢?这个图抽象系统在直播、游戏和广告这些新领域里肯定还能大放异彩。随着用户、服务和内容之间关系越来越复杂,有了它就能精准建模数据了。 在整个流媒体市场里看下来,Netflix的图抽象系统不光是个技术创新点,更是他们持续领先的一大保障。关注这家公司的动向你就会发现,这个系统以后在扩展业务的时候绝对会变得更关键。