近期,大模型评估领域迎来了新变革,为了杜绝“刷榜”行为,测评机构创新性地引入了“角斗场”(Arena)模式。这一模式通过随机选取模型进行“打擂台”,全程向用户开放,依据直接提问和累积打分来排名,从而更准确地衡量模型的实际能力,直观反映其在真实应用场景中的表现。
在最新发布的Flageval大模型角斗场榜单上,腾讯混元多模态图文理解大模型凭借卓越表现,荣登国内榜首,并在两个关键榜单中与GPT4o、Claude等国际知名模型并肩,位列第一梯队。
Flageval大模型角斗场由北京智源研究院发起,接入了全球主流的大模型,并长期对这些模型进行监测与评估。该榜单的权威性不言而喻,成为衡量模型性能的重要参考。
腾讯混元作为国内首个采用MoE架构的多模态大模型,在架构、训练方法以及数据处理方面均实现了创新与深度优化。其支持任意长宽比及最高7K分辨率图片的理解,展现出强大的多模态场景理解能力。与许多主要在开源基准测试中调优的多模态模型不同,腾讯混元更加注重模型的通用性、实用性和可靠性。
在应用层面,腾讯混元多模态理解模型针对通用场景和海量应用进行了全面优化,积累了大量相关问答数据,涵盖了图片基础理解、内容创作、推理分析、知识问答、OCR文档解析、学科答题等多个领域。该模型能够完成描述图片内容、将图片转换为文本表格、解释代码、分析账单、解答数学题等任务,并在腾讯元宝APP上线,同时可通过腾讯云API调用。腾讯上个月还发布了旗舰多模态理解模型Hunyuan-turbo-vision,其能力更为强大。
作为实用级大模型,腾讯混元多模态理解模型已在腾讯的多项业务中得到了广泛应用。在QQ、QQ浏览器、腾讯文档、腾讯游戏、腾讯广告、微信读书、微信小程序等平台上,用户都能感受到其带来的便利。例如,在QQ说说中,用户可以享受自动为照片配文的便捷服务;在QQ浏览器中,用户只需输入照片,AI便能自动识别图片并回答问题;在小程序教育平台中,AI可以根据图片自动编写程序,大幅提升开发效率。
QQ说说AI配文示例
QQ浏览器AI解题答疑示例
小程序教育平台-看图写小程序示例
在腾讯广告场景中,腾讯混元大模型凭借其强大的内容理解能力,为广告的个性化推荐、定位及效果预测提供了有力支持,不仅提升了广告的精准度,还优化了用户的浏览体验。