巨人天成
产经 科技 企业 数据 峰会 快讯 商业

雷军宣布小米多项AI成果入选ICASSP 2026 涵盖音频视频多领域创新突破

2026-01-22来源:快讯编辑:瑞雪

近日,小米在人工智能领域取得重大突破,其多项AI创新成果成功入选国际顶级学术会议ICASSP 2026。ICASSP作为全球音频领域最具权威性与影响力的学术会议之一,自1976年在美国费城首次举办以来,已有近50年历史。此次会议将于今年5月在西班牙巴塞罗那举行,小米的入选成果涵盖了音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成等多个AI领域。

在音频理解领域,小米推出了ACAVCaps数据集,旨在突破现有数据集在规模与描述粒度上难以兼得的瓶颈。当前主流数据集普遍存在“规模大但描述简略”或“描述详尽但规模受限”的问题。ACAVCaps通过创新的自动化管线,从多维度、多视角对音频内容进行精细化刻画。该数据集构建了一套多级自动化标注框架,利用多个专家模型并行提取原始音频中的声音事件、音乐特征、说话人属性及语音内容等关键元数据,并引入大语言模型(LLM)和思维链推理策略,将碎片化的结构化信息进行逻辑整合。ACAVCaps包含约470万条音频-文本对,推动了音频AI从简单的“特征识别”向深度的“语义理解”发展,该数据集近期将全面开源。

在联邦学习领域,小米提出了FedDCG方法,以解决视觉语言模型在高效微调中面临的域泛化和类别泛化问题。传统方法通常单独处理未见的类别或未见的域,导致在测试数据同时包含未见类别和未见域的复杂场景下性能受限。FedDCG通过域分组策略和类特定协作训练机制,首次在联邦学习设置下联合解决类别和域泛化问题。该方法在Office-Home和MiniDomainNet等数据集上的实验表明,在ImageNet-R和ImageNet-A等零样本评估基准上均优于当前最先进的基线方法,证明了其在数据稀缺场景下的有效性,适用于移动端智能处理等资源受限场景。

在音乐生成评估领域,小米提出了FUSEMOS双编码器架构,以提升文本到音乐(TTM)生成系统的感知评估能力。现有自动音乐感知评估方法主要依赖单一音频编码器提取音频特征,难以捕捉音乐中复杂结构与细粒度特征。FUSEMOS融合了CLAP与MERT两大预训练模型,通过晚期融合策略和排名感知复合损失函数,实现了更精准、更贴近人类听觉感知的评估。在Musiceval基准上的实验结果表明,FUSEMOS在均方误差和排序相关性等关键指标上均显著优于现有方法。

在通用音频-文本预训练领域,小米开发的GLAP模型实现了跨音频领域(语音/音乐/环境音)与跨语言的音频-文本对齐,支持RAG形式的音频搜索。GLAP首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统CLAP模型领域割裂的问题。该模型在LibriSpeech和AISHELL-2语音检索上达到约94%与99%的recall@1,同时在AudioCaps等声音检索基准保持SOTA竞争力。GLAP具备多语言泛化能力,无需目标语种微调,即可在50种语言的关键词识别中展现Zero-shot能力,可直接赋能小米“人车家全生态”中的跨模态理解场景。

在视频到音频合成领域,小米提出的MeanFlow模型实现了视频同步音效生成场景中推理效率与生成质量的双重突破。MeanFlow首次在V2A任务中通过平均速度场建模替代传统流匹配模型的瞬时速度建模,解决了多步迭代采样导致的推理速度瓶颈,实现推理阶段的一步生成。针对无分类器引导应用时易出现的一步生成失真问题,创新引入标量重缩放机制,有效缓解失真现象。实验验证表明,该模型在实现推理速度大幅提升的同时,可稳定保持优质的音效输出,确保音视频语义对齐与时间同步性,综合性能处于领域领先水平。

在多模态检索领域,小米提出了一种统一的多任务学习框架,将“找图、找文、意图理解”这三个任务整合到两个模型中。传统检索中,这三个任务通常是独立训练的模型,导致同一查询被重复编码检索,且语义空间未对齐。该框架通过文本编码器同时对齐图像和文本的语义空间,并通过跨注意力机制与NLU模型进行语义交互,实现意图感知和语义增强。该框架在找图与找文任务上均达到或超过现有最优方法,在多语言测试中也表现出色,为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。

清华团队研发SuperTac传感器:机器人触觉达微米级,多领域应用潜力大
当前具身智能技术快速发展,机器人与人类互动愈发频繁,但现有触觉传感器在分辨率、多模态感知等方面与人类触觉差距显著。 当前具身智能技术快速发展,机器人与人类互动愈发频繁,但现有触觉传感器在分辨率、多模态感知等…

2026-01-22

苹果发力生成式AI竞争:Siri将迎重大升级,变身系统级聊天机器人
与现有版本相比,新一代Siri(即Campos)的对话能力将大幅提升。它不再局限于简单指令的执行,而是支持连续、多轮的交流,整体体验更接近ChatGPT或者谷歌Gemini。 据知情人士透露,真正具备聊天能…

2026-01-22

苹果新款智能家居中枢或春季亮相 “机器人旋转底座”设计引期待
科技媒体The Information爆料,苹果计划最快在今年春季推出新款智能家居中枢(HomeHub),其采用的“机器人旋转底座”设计成为关注的焦点。 关于苹果智能家居中心,此前已有诸多传闻。它原计划在2…

2026-01-22

院士力挺智能体崛起:从问答到执行,开启科技智慧涌现新篇章
在近日举办的顶级科技峰会上,多位院士共同点赞了一个关键词——智能体(AI Agent)。 02 院士视角:为什么它是“未来科技新范式”?院士在点赞的同时也指出,未来的编程将从“手动敲代码”转向“Prompt…

2026-01-22

2026年AI实验箱选购指南:高校科研与产业研发如何精准匹配智能硬件?
据《2026年中国人工智能教育硬件发展报告》显示,2026年国内高校及科研院所对可支撑前沿算法验证与产业级应用模拟的AI实验箱采购需求同比增长了45%。超过70%的调研单位反馈,现有设备普遍存在“教学与科研脱…

2026-01-22

诺奖得主弗雷泽・司徒塔特:分子机器创新路 中外科研共绘新蓝图
他的学术生涯跨越半个多世纪,其研究成果为纳米技术、生物医学和材料科学等领域提供了重要的理论支持与技术启示。 司徒塔特的研究核心是机械互锁分子结构,他通过合成分子梭、分子开关和分子泵等原型机器,实现了分子级别的…

2026-01-22

苹果悄然推进AI胸针研发:或配双摄三麦 预计2027年面世存变数
目前,该胸针尚未确定内置连接方式,不过后续开发中可能会做出改变。 如果这款AI胸针最终发布,它很可能将运行苹果计划在iOS 27中推出的全新Siri聊天机器人。目前尚不清楚苹果是否计划单独出售这款别针,还是将…

2026-01-22