巨人天成
产经 科技 企业 数据 峰会 快讯 商业

雷军宣布小米AI创新成果闪耀ICASSP 2026 涵盖多领域技术突破

2026-01-23来源:快讯编辑:瑞雪

近日,小米在人工智能领域取得重大突破,其多项AI创新成果成功入选全球音频领域极具权威性与影响力的国际顶级学术会议ICASSP 2026。ICASSP自1976年在美国费城首次举办以来,已有近50年历史,此次会议将于今年5月在西班牙巴塞罗那举行。小米入选的成果涵盖音频理解、音乐生成评估、通用音频 - 文本预训练、视频到音频合成等多个AI领域。

在音频理解领域,小米团队推出了ACAVCaps数据集。当前主流音频数据集存在“规模大但描述简略”或“描述详尽但规模受限”的局限,ACAVCaps通过创新自动化管线,从多维度、多视角对音频内容进行精细化刻画。它构建了多级自动化标注框架,利用多个专家模型并行提取原始音频中的声音事件、音乐特征等关键元数据,再引入大语言模型并采用思维链推理策略整合信息。该数据集包含约470万条音频 - 文本对,推动音频AI从“特征识别”向“语义理解”发展,且近期将全面开源。

音乐生成评估方面,小米提出了FUSEMOS双编码器架构。现有自动音乐感知评估方法依赖单一音频编码器,捕捉音乐复杂结构与细粒度特征能力有限。FUSEMOS融合CLAP与MERT两大预训练模型,CLAP强化音频与文本语义对齐,MERT有效建模音乐内在结构特征。采用晚期融合策略,引入排名感知复合损失函数,在Musiceval基准上的实验表明,其在关键指标上显著优于现有方法。

通用音频 - 文本预训练领域,小米的GLAP模型实现了跨音频领域(语音/音乐/环境音)与跨语言的音频 - 文本对齐,支持RAG形式的音频搜索。它首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统CLAP模型领域割裂的问题。在语音检索上成绩优异,还具备多语言泛化能力,无需目标语种微调,在50种语言的关键词识别中展现Zero - shot能力。该模型可直接赋能小米“人车家全生态”中需跨模态理解的场景,降低下游产品线音频AI研发门槛。

在视频到音频合成方面,MeanFlow模型为多模态音频生成任务构建高效基座模型,实现视频同步音效生成场景中推理效率与生成质量的双重突破,还具备跨任务稳定泛化能力。它首次在V2A任务中通过平均速度场建模替代传统流匹配模型的瞬时速度建模,解决推理速度瓶颈,实现一步生成。引入标量重缩放机制缓解失真问题,实验验证其在推理速度大幅提升的同时保障音效生成质量。该模型可直接赋能影视后期、短视频平台等实际场景,推动实时音效生成技术规模化落地。

在检索领域,小米提出统一多任务学习框架,解决传统检索中“找图、找文、意图理解”三个独立训练模型的问题。该框架将三个任务整合到两个模型、一个架构中,文本编码器同时对齐图像和文本语义空间,通过跨注意力机制与NLU模型进行语义交互。此设计节省模型数量、降低系统内存占用,增强模型间语义能力,支持多语言输入,实现跨模态、跨语言高效语义对齐,为小米手机场景下的多模态检索提供轻量化、高性能解决方案,在多个数据集上表现优异。

纯通话需求必看!无流量电话卡怎么选?避坑指南+高性价比套餐推荐
电话卡是传统的11位号码卡,具备通话、短信和上网功能,但用户可选择关闭上网服务或订购无流量套餐;而流量卡则以数据服务为核心,部分卡甚至无法接打电话。需要警惕的是,部分运营商可能将低价流量卡包装成“高性价比套餐…

2026-01-23

文心5.0正式版上线:原生全模态突破,多领域能力领先国际第一梯队
百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍,与业界多数采用“后期融合”的多模态方案不同,文心5.0的技术路线采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在…

2026-01-23

2026年校园接待机器人:大模型赋能、零代码助力,开启智慧服务新篇章
新一代机器人普遍融合了自然语言处理、自主导航及多模态交互技术,使得非计算机专业的行政人员也能轻松操作,这标志着校园机器人的应用门槛已大幅降低,进而推动了其在各类院校的普及。 在校园接待这一特定场景中,技术的实…

2026-01-23

宇树科技2025人形机器人成绩单:实际出货超5500台 本体量产下线超6500台
IT之家 1 月 22 日消息,宇树科技今日发布关于宇树 2025 年销量数据的澄清表示,过去一个月,网上流传着很多关于该公司 2025年出货数量的不实信息。宇树此前从未对外告知过 2025 年的销售数据。…

2026-01-23

AutoGluon助手:大语言模型驱动多智能体破解零代码AutoML难题
多智能体协作模式在各种模态中都被证明是有效的,因为该架构分离了在单智能体系统中传统上交织的关注点——理解数据、了解能力、跟踪历史和生成代码。用户可以通过命令行界面调用系统进行快速自动化任务,通过PythonA…

2026-01-23

IBM ALICE多智能体系统:为IT运维减负,高效破解故障检测与修复难题
ALICE是"事件和代码错误消除的智能体逻辑"的缩写,它是IBM研究院开发的新型多智能体系统,旨在自动化解决此类IT挑战。 A:ALICE是"事件和代码错误消除的智能体逻辑"的缩写,是IBM研究院开发的新型多…

2026-01-23

小米智能家电:以制造革新为基,在性价比与生态中谋长远发展
此外,虽然小米通过性价比策略快速占领市场,但在高端产品线的技术积累和品牌溢价能力上,与传统家电巨头相比还存在一定差距。 总体而言,小米智能家电在制造效率、性价比和生态协同方面具有明显优势,但在产品长期可靠性和…

2026-01-23