用单张RTX 4090显卡,就能在Soul App上跑出96 FPS,这就是Soul App AI团队新开源的实时数字人生成模型SoulX-FlashHead。过去在这个领域,开发者要么得花大价钱用昂贵的H800集群去追求高清画质,要么就得忍受“面瘫”和画面崩坏。这次Soul AI Lab放出这款只有1.3B参数的轻量化模型,算是把高画质和低成本这两难彻底打破。单卡就有这么快,是因为他们搞了个Lite版本,能在RT 4090上推到96FPS,只吃6.4G显存,最多支持三路并发,这才让普通电脑也能跑得起。要是想要画质更好的Pro版,虽然单张RTX 5090只能跑16.8FPS,但双卡就能一起上,赶上25fps以上的实时要求。更厉害的是在FID和Lip-sync这些指标上,居然超过了比它参数大得多的模型,把“小模型没好画质”的魔咒给解了。 这1.3B的小模型怎么做到“以小博大”的?关键就在训练的时候引入了“先知”。他们用双向蒸馏机制(Oracle-Guided Distillation)来约束模型,特别是用Ground Truth当锚点,这就好比给模型装了个校准器,不管视频拍多久,人物特征都稳得不行。另外他们还有个叫8秒记忆的东西(时序音频上下文缓存TACC),强制让模型记住8秒前的音频特征来补偿上下文的缺失。这样一来就解决了口型抖动和对不上号的问题,一开播就能进入理想状态。 数据底座也很重要。Soul团队自己搞了个VividHead数据集,从1万多个小时素材里精选出了782小时的优质音画内容。经过DWpose关键点过滤和唇形一致分数筛选这些步骤,给模型提供了最纯净的“养料”。 实测下来在HDTF和VFHQ这两个权威数据集上表现都很抢眼。Pro版本在高清视频评测里FID拿到了8.31分,FVD拿了103.14分,视觉细腻度甚至超过了一些“大参数”模型。在野外复杂场景下,靠着独创的缓存策略,Sync-C得分高达5.60,大幅领先以前的工作。至于速度嘛,Lite版仅凭1.3B的体量就在单张4090上跑出了96 FPS的吞吐量,这可是实时基准25 FPS的近4倍。 这事儿对行业的影响也挺大。Soul AI Lab今年1月刚开源过SoulX-FlashTalk,能实现亚秒级延时和32FPS帧率。这次的SoulX-FlashHead更进一步,把高保真技术从机房搬到了个人电脑上。个人主播用台游戏PC就能搭高保真直播间;游戏NPC引擎也能毫秒级响应;就连一对一外教都能支持15种语言实时转换。 总之这个项目让更多场景用上数字人技术变得现实:7×24小时的矩阵直播不再是机房的专利;NPC引擎能完美集成到游戏里不占资源;在线教育也能有生动的教学画面。