英伟达近日正式推出了一款名为“Nemotron 3 Nano Omni”的开放式多模态模型,旨在为企业和开发者提供更高效、精准的AI解决方案。该模型通过整合视频、音频、图像和文本的推理能力,使智能体能够以更快的速度和更高的智能水平做出响应。
据介绍,Nemotron 3 Nano Omni采用了创新的30B-A3B混合专家架构,将视觉和音频编码器直接集成到模型中,无需依赖单独的感知模型。这一设计显著提升了大规模推理的效率,同时保持了强大的多模态感知精度。英伟达表示,该模型在复杂文档智能、视频和音频理解等多个领域表现出色,并在六大权威排行榜中位居榜首。
在性能方面,Nemotron 3 Nano Omni展现了卓越的优势。其AI系统的吞吐量是其他具有相同交互性的开放式全向模型的9倍,同时实现了更低的成本和更好的可扩展性。这一突破使得智能体在处理全高清屏幕录像等任务时,能够以前所未有的速度和准确性完成解读。
一家已采用该模型的公司H Company的首席执行官Gautier Cloix表示:“基于Nemotron 3 Nano Omni,我们的智能体现在能够快速解读全高清屏幕录像,这在以前是无法实现的。这不仅仅是速度的提升,更是智能体实时感知和与数字环境交互方式的根本性转变。”
英伟达还强调,Nemotron 3 Nano Omni在代理系统中具有高度的灵活性。它可以与专有云模型、其他英伟达Nemotron开放模型,甚至其他提供商的专有模型协同工作,为代理工作流程的子代理提供支持。这种开放性和兼容性使得该模型能够适应多种应用场景,满足不同企业的需求。
自推出以来,Nemotron 3系列模型(包括Nano、Super和Ultra型号)受到了广泛关注。据统计,该系列模型在过去一年中的下载量已超过5000万次,显示出其在AI领域的强大影响力和市场需求。