巨人天成
产经 科技 企业 数据 峰会 快讯 商业

雷军宣布小米AI创新成果闪耀ICASSP 2026,多领域技术突破引领未来

2026-01-22来源:快讯编辑:瑞雪

小米在人工智能领域再获突破,其多项AI创新成果成功入选国际顶级学术会议ICASSP 2026。这一会议作为全球音频领域最具权威性和影响力的学术盛会之一,自1976年在美国费城首次举办以来,已有近50年历史。ICASSP 2026将于今年5月在西班牙巴塞罗那举行,小米的入选标志着其在音频及相关AI领域的技术实力获得国际认可。

在音频理解领域,小米团队推出了ACAVCaps数据集,旨在突破现有数据集在规模与描述粒度上的瓶颈。该数据集通过创新的自动化管线,从多维度、多视角对音频内容进行精细化刻画,利用多个专家模型并行提取声音事件、音乐特征、说话人属性等关键元数据,并引入大语言模型进行逻辑整合。ACAVCaps包含约470万条音频-文本对,推动音频AI从简单的“特征识别”向深度的“语义理解”发展,并将于近期全面开源。

针对联邦学习中的域泛化和类别泛化问题,小米提出了FedDCG框架。该框架通过域分组策略和类特定协作训练机制,首次在联邦学习设置下联合解决类别和域泛化问题,显著提升了模型在未知环境中的准确性与鲁棒性。实验表明,FedDCG在多个数据集上的表现优于当前最先进的基线方法,尤其在低采样率设置下仍保持领先,为跨域图像分类和隐私保护下的模型部署提供了可行路径。

在文本到音乐生成系统的感知评估方面,小米提出了FUSEMOS架构。该架构融合CLAP与MERT两大预训练模型,通过双编码器策略实现更精准、更贴近人类听觉感知的评估。FUSEMOS引入排名感知复合损失函数,显著增强模型对人类偏好相对顺序的理解能力,在Musiceval基准上的实验结果验证了其有效性。

GLAP模型实现了跨音频领域与跨语言的音频-文本对齐,支持RAG形式的音频搜索。该模型首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,在多个语音和声音检索基准上保持领先竞争力。GLAP具备多语言泛化能力,无需目标语种微调即可在50种语言的关键词识别中展现Zero-shot能力,可直接赋能小米“人车家全生态”中的跨模态理解场景。

在视频同步音效生成领域,小米提出了MeanFlow模型。该模型通过平均速度场建模替代传统流匹配模型的瞬时速度建模,实现推理阶段的一步生成,并引入标量重缩放机制缓解失真问题。实验表明,MeanFlow在实现推理速度大幅提升的同时,精准保障音效生成质量,可直接赋能影视后期配音、短视频智能音效生成等实际场景。

小米还提出了一种统一的多任务学习框架,将“找图、找文、意图理解”整合到两个模型中。该框架通过文本编码器对齐图像和文本的语义空间,并通过跨注意力机制与NLU模型进行语义交互,实现意图感知和语义增强。实验表明,该框架在多模态检索任务上表现优异,为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。

太空光伏:从卫星供电到太空算力,开启宇宙能源新征程
目前其在太空极端环境下的长期稳定性仍有待验证,但已有不少企业与研究机构投入研发,并探索与晶硅电池结合的叠层技术,有望成为未来太空供电的重要技术路径。随着人工智能等高性能计算需求激增,在地面面临能源与散热瓶颈的…

2026-01-22

灵巧除冰机器人“上岗” 高效作业守护电网安全过冬
1月20日,在保康后坪镇蜡烛山村,110千伏翁天一回42—43号塔导线上方,一台灵巧的除冰机器人正沿着覆冰的导线稳步前行,所过之处冰层被逐层剥离,簌簌抖落。这台除冰机器人搭配远程控制、自主导航及制动功能,…

2026-01-22

苹果Siri升级聊天机器人:2026年亮相,实用安全能否破局行业痛点?
尽管苹果在功能上迎来颠覆性升级,但用户与Siri的交互方式将保持不变,仍可通过语音召唤等原有模式进行操作。新Siri将依托苹果基础模型与Gemini训练,新增对话记忆能力与全场景应用调用功能,同时延续 “…

2026-01-22

山东科技大学组建研究生工程师小队:让创新成果走出“书架”扎根生产一线
对此,该校以“项目导向”为抓手,探索企业“出题”、学生“解题”育人模式,依托校企合作单位、产业学院等,组建一批大学生科创基地、转化基地,开展了创新项目互选、创新金点子推介、揭榜挂帅等特色活动,让工程师小…

2026-01-22

华为坤灵“4+10+N”方案:为中小企业智能化铺就“高铁快车道”
对于华为坤灵号的正式启程,华为中国政企分销销售部部长王猛表示,中小企业是实体经济的活力源泉,华为坤灵依托华为强大的技术积淀与生态优势,打造“4+10+N”中小企业智能化方案及多款爆款产品,致力于为中小企业提…

2026-01-22