当前实时数字人行业面临诸多瓶颈,大模型延迟高、推理慢,小模型效果差、细节不足,长视频生成易出现画面崩坏、身份漂移、同步漂移等问题,难以满足商用需求。Soul App开源的SoulXFlashTalk模型,以14B参数量实现0.87秒亚秒级延时、32fps高帧率、超长视频稳定生成,在多项核心指标上全面超越行业主流模型,破解行业痛点,推动实时生成式数字人进入规模化商用新阶段,也以开源姿态为行业注入创新动力。

与Ditto、EchomimicV3、StableAvatar、LiveAvatar等主流模型相比,SoulXFlashTalk优势显著。数据显示,其响应速度较传统方案快约3.3倍,帧率提升1.6倍,生成步骤减少23倍,在TalkBenchShort短视频测试中,ASE达3.51、IQA达4.79,刷新视觉保真度记录,口型同步精度SyncC为1.47;在TalkBenchLong长视频测试中,SyncC仍达1.61,背景一致性、身份一致性、运动流畅度等指标均处于行业领先,且全程稳定输出32fps高帧率画面,是业内少有的能同时兼顾大参数、低延迟、高帧率、长稳定的数字人模型。

SoulXFlashTalk的领先性能,源于核心技术方案创新。团队采用双向蒸馏+多步回溯自纠正机制,配合两阶段训练策略,在保证生成质量的前提下大幅提升推理速度;全栈加速引擎针对8H800节点深度优化,混合序列并行、算子优化、3D VAE并行化等技术叠加,实现亚秒级响应;双向注意力机制替代传统单向结构,从根源解决时间不一致与身份漂移问题,让长视频生成更稳定。同时模型突破传统局部重绘局限,实现全身动态与精细手部生成,综合表现全面超越同类产品。

训练流程示意图

该模型的落地价值十分突出,可广泛应用于电商、传媒、教育、客服、娱乐等行业。电商直播可实现7×24小时无人值守运行,画面高清、互动实时、长期稳定,大幅降低运营成本;短视频创作可提升制作效率与内容质量;AI教育、智能客服可提供更自然的交互体验;游戏与互动场景可打造高逼真NPC,增强沉浸感。这些场景应用,均依托模型稳定可靠的性能,解决传统数字人无法商用化的核心问题。

对Soul而言,SoulXFlashTalk的开源是团队AI战略的重要里程碑。此前Soul开源的SoulXPodcast语音合成模型,已在开源社区获得广泛认可,GitHub星标超3100,并登顶HuggingFace TTS趋势榜。此次视觉交互模型开源,标志着Soul在语音、视觉双维度实现技术突破与开放共享,进入全面开源新阶段。

未来,Soul将继续聚焦实时交互技术研发,持续优化语音对话合成、视觉交互等核心能力,以用户体验为导向不断创新,同时坚持开源理念,与全球开发者携手合作,共建AI+社交技术生态,推动行业技术标准升级,让更先进、更实用的AI技术服务于更多用户与场景。