多项指标刷新纪录，Soul用SoulXFlashTalk定义行业新标准

当前实时数字人行业面临诸多瓶颈，大模型延迟高、推理慢，小模型效果差、细节不足，长视频生成易出现画面崩坏、身份漂移、同步漂移等问题，难以满足商用需求。Soul App开源的SoulXFlashTalk模型，以14B参数量实现0.87秒亚秒级延时、32fps高帧率、超长视频稳定生成，在多项核心指标上全面超越行业主流模型，破解行业痛点，推动实时生成式数字人进入规模化商用新阶段，也以开源姿态为行业注入创新动力。

与Ditto、EchomimicV3、StableAvatar、LiveAvatar等主流模型相比，SoulXFlashTalk优势显著。数据显示，其响应速度较传统方案快约3.3倍，帧率提升1.6倍，生成步骤减少23倍，在TalkBenchShort短视频测试中，ASE达3.51、IQA达4.79，刷新视觉保真度记录，口型同步精度SyncC为1.47；在TalkBenchLong长视频测试中，SyncC仍达1.61，背景一致性、身份一致性、运动流畅度等指标均处于行业领先，且全程稳定输出32fps高帧率画面，是业内少有的能同时兼顾大参数、低延迟、高帧率、长稳定的数字人模型。

SoulXFlashTalk的领先性能，源于核心技术方案创新。团队采用双向蒸馏+多步回溯自纠正机制，配合两阶段训练策略，在保证生成质量的前提下大幅提升推理速度；全栈加速引擎针对8H800节点深度优化，混合序列并行、算子优化、3D VAE并行化等技术叠加，实现亚秒级响应；双向注意力机制替代传统单向结构，从根源解决时间不一致与身份漂移问题，让长视频生成更稳定。同时模型突破传统局部重绘局限，实现全身动态与精细手部生成，综合表现全面超越同类产品。

训练流程示意图

该模型的落地价值十分突出，可广泛应用于电商、传媒、教育、客服、娱乐等行业。电商直播可实现7×24小时无人值守运行，画面高清、互动实时、长期稳定，大幅降低运营成本；短视频创作可提升制作效率与内容质量；AI教育、智能客服可提供更自然的交互体验；游戏与互动场景可打造高逼真NPC，增强沉浸感。这些场景应用，均依托模型稳定可靠的性能，解决传统数字人无法商用化的核心问题。

对Soul而言，SoulXFlashTalk的开源是团队AI战略的重要里程碑。此前Soul开源的SoulXPodcast语音合成模型，已在开源社区获得广泛认可，GitHub星标超3100，并登顶HuggingFace TTS趋势榜。此次视觉交互模型开源，标志着Soul在语音、视觉双维度实现技术突破与开放共享，进入全面开源新阶段。

未来，Soul将继续聚焦实时交互技术研发，持续优化语音对话合成、视觉交互等核心能力，以用户体验为导向不断创新，同时坚持开源理念，与全球开发者携手合作，共建AI+社交技术生态，推动行业技术标准升级，让更先进、更实用的AI技术服务于更多用户与场景。

声明：本页面所载文章内容仅供参考，不构成任何投资或商业决策建议。除标注“原创来源：新商网”外，文中信息、观点、图文等内容均来源于第三方媒体或作者投稿，版权归原作者所有，相关内容仅代表作者个人观点。如内容存在侵权、失实等情况，请联系邮箱：tousu_newbe@sina.com

资讯

产业

宏观

智造

乐活

文教

悦动

风尚

多项指标刷新纪录，Soul用SoulXFlashTalk定义行业新标准

相关阅读

最热文章

​多项指标刷新纪录，Soul用SoulXFlashTalk定义行业新标准

相关阅读

最热文章

多项指标刷新纪录，Soul用SoulXFlashTalk定义行业新标准