Soul开源SoulX-FlashTalk：14B大模型助力数字人亚秒级实时生成与全场景应用-快讯-巨人天成财经

近日，Soul App AI团队（Soul AI Lab）宣布开源其自主研发的实时数字人生成模型SoulX-FlashTalk，为行业带来突破性技术方案。该模型以140亿参数规模实现0.87秒亚秒级响应、32帧/秒高帧率输出，并支持超长视频稳定生成，标志着大参数量数字人技术正式进入可商用阶段。这一成果不仅解决了传统数字人技术中延迟高、画面卡顿等痛点，更通过多项创新技术重新定义了实时交互体验标准。

技术突破方面，SoulX-FlashTalk通过全栈加速引擎实现性能跃升。其首帧生成延迟较行业平均水平降低72%，在视频通话、直播互动等场景中可实现"零感知"响应。模型采用14B超大DiT架构，推理吞吐量达32fps，远超直播行业25fps的基准要求，确保画面流畅度。针对长视频生成中的身份漂移问题，团队研发的自纠正双向蒸馏技术通过多步回溯机制实时修正误差，配合双向注意力机制同时参考前后文信息，使数字人在超长直播中保持口型、面部特征与背景的高度一致。

在动作生成领域，该模型突破传统面部驱动局限，支持音频驱动的全身动态生成。通过14B DiT建模能力，模型可精准呈现手部细节，消除畸形与模糊现象，动作自然度提升40%的同时保持99.22%的身份一致性。技术实现上，团队采用两阶段训练策略：第一阶段通过动态长宽比分桶微调优化时空适配性；第二阶段运用DMD框架压缩采样步数，结合随机截断策略实现显存高效利用。全栈加速引擎集成混合序列并行、算子级优化等创新方案，最终达成亚秒级延迟与32fps稳定输出的双重突破。

实测数据显示，在TalkBench-Short评测中，SoulX-FlashTalk的ASE评分达3.51、IQA评分4.79，口型同步指标Sync-C为1.47；长视频生成场景下Sync-C提升至1.61，且全程维持32fps输出。这些数据全面领先行业主流模型，特别是在电商直播、短视频制作等商用场景中，可有效解决画质模糊、口型错位等问题，帮助企业降低60%以上的运营成本。此前，该团队开源的语音合成模型SoulX-Podcast已获HuggingFace TTS趋势榜首位，GitHub星标数突破3100，此次开源标志着Soul在AI+社交领域的技术布局进入新阶段。