巨人天成
产经 科技 企业 数据 峰会 快讯 商业

Soul开源SoulX-FlashTalk:14B大模型助力数字人亚秒级实时生成与全场景应用

2026-05-21来源:快讯编辑:瑞雪

近日,Soul App AI团队(Soul AI Lab)宣布开源其自主研发的实时数字人生成模型SoulX-FlashTalk,为行业带来突破性技术方案。该模型以140亿参数规模实现0.87秒亚秒级响应、32帧/秒高帧率输出,并支持超长视频稳定生成,标志着大参数量数字人技术正式进入可商用阶段。这一成果不仅解决了传统数字人技术中延迟高、画面卡顿等痛点,更通过多项创新技术重新定义了实时交互体验标准。

技术突破方面,SoulX-FlashTalk通过全栈加速引擎实现性能跃升。其首帧生成延迟较行业平均水平降低72%,在视频通话、直播互动等场景中可实现"零感知"响应。模型采用14B超大DiT架构,推理吞吐量达32fps,远超直播行业25fps的基准要求,确保画面流畅度。针对长视频生成中的身份漂移问题,团队研发的自纠正双向蒸馏技术通过多步回溯机制实时修正误差,配合双向注意力机制同时参考前后文信息,使数字人在超长直播中保持口型、面部特征与背景的高度一致。

在动作生成领域,该模型突破传统面部驱动局限,支持音频驱动的全身动态生成。通过14B DiT建模能力,模型可精准呈现手部细节,消除畸形与模糊现象,动作自然度提升40%的同时保持99.22%的身份一致性。技术实现上,团队采用两阶段训练策略:第一阶段通过动态长宽比分桶微调优化时空适配性;第二阶段运用DMD框架压缩采样步数,结合随机截断策略实现显存高效利用。全栈加速引擎集成混合序列并行、算子级优化等创新方案,最终达成亚秒级延迟与32fps稳定输出的双重突破。

实测数据显示,在TalkBench-Short评测中,SoulX-FlashTalk的ASE评分达3.51、IQA评分4.79,口型同步指标Sync-C为1.47;长视频生成场景下Sync-C提升至1.61,且全程维持32fps输出。这些数据全面领先行业主流模型,特别是在电商直播、短视频制作等商用场景中,可有效解决画质模糊、口型错位等问题,帮助企业降低60%以上的运营成本。此前,该团队开源的语音合成模型SoulX-Podcast已获HuggingFace TTS趋势榜首位,GitHub星标数突破3100,此次开源标志着Soul在AI+社交领域的技术布局进入新阶段。

机器人ETF万家(560630)午间收跌0.97% 成交额1621万 重仓股表现分化
来源:新浪基金∞工作室 5月20日,截止午间收盘,机器人ETF万家(560630)跌0.97%,报1.325元,成交额1621.36万元。机器人ETF万家(560630)重仓股方面,科大讯飞截止午盘跌2.24…

2026-05-21

武汉摩恩智能MOEORW-QZ13氢气纯度仪:高精度便携,助力氢能应用安全高效
绕组阻抗引起的损耗称为通风损耗,即使被油气、水和空气轻微污染的发电机,其通风损耗也会增加。氢纯度下降及水分含量增加时,还会给发电机的安全运行带来隐患。MOEORW-QZ13 氢气纯度仪是分析氢气纯度的便携式…

2026-05-21