巨人天成
产经 科技 企业 数据 峰会 快讯 商业

谷歌Deep Think模型公测:数学奥赛金牌级推理能力,引领AI新竞争

2025-12-10来源:快讯编辑:瑞雪

谷歌近日宣布其研发的Deep Think模式在多项高难度测试中取得突破性进展,不仅刷新了行业基准,更在科学推理与复杂问题解决能力上展现出显著优势。这一成果被视为人工智能领域推理能力竞争的重要里程碑,引发全球科技界关注。

在被誉为"AI推理能力试金石"的Humanity’s Last Exam测试中,Deep Think以41%的得分率创下新纪录。该测试因其涵盖数学、物理、逻辑等多学科交叉难题而闻名,此前尚未有模型能突破30%得分线。与此同时,在GPQA Diamond科学知识评估中,该模型以93.8%的准确率接近人类专家水平,在包含实时代码执行的ARC-AGI-2测试中亦取得45.1%的优异成绩,三项指标均达到当前业界公认的顶尖(State-of-the-art)标准。

技术层面,Deep Think的核心突破在于其创新的并行推理架构。该系统通过同时模拟多条推理路径,在动态评估中自主筛选最优解决方案。这种机制使其在处理需要多步骤验证的复杂问题时,效率较传统模型提升近3倍。谷歌研发团队透露,该架构特别优化了对不确定性的处理能力,允许模型在信息不完整时仍能保持高精度推理。

值得关注的是,该模型的竞赛级变体已在国际数学奥林匹克竞赛(IMO)和国际大学生程序设计竞赛(ICPC)世界总决赛中达到金牌标准。在模拟IMO考试环境中,模型需在完全离线状态下,于两个4.5小时时段内完成高难度数学题的解答并撰写自然语言证明。这一表现尤其引发教育界关注,有专家指出其解题思路已展现出类似人类数学家的创造性思维特征。

此次技术突破恰逢行业竞争关键期。今年7月,OpenAI曾宣布其实验性推理模型达到数学奥赛金牌水平,但该产品至今未向公众开放。谷歌选择此时将通过严格验证的模型推向市场,被解读为对竞争对手的直接回应。行业分析师认为,随着推理能力成为大模型竞争的核心赛道,头部企业间的技术迭代速度将进一步加快,用户有望在短期内见证更多突破性应用落地。

谷歌“全栈AI”战略强势崛起:重塑AI格局,引领技术新未来
【新智元导读】 随着Gemini3模型与第七代TPU的强势发布,谷歌终于打破了OpenAI与英伟达主导的市场叙事,宣告这一「沉睡的巨人」已凭借硬核实力完全醒来。 在当下这个以「推理为先」的AI时代,谷歌率…

2025-12-10

EPFL与OpenAI创新提出ShufflEval:无需打扰动物验证AI翻译准确性
ShufflEval的工作原理可以这样理解:假设你有一段鲸鱼母子之间的对话录音,AI翻译器将其翻译成了几个英语句子,描述了它们关于潜水时间的讨论。即使在这种极端情况下,ShufflEval方法仍然能够有效区…

2025-12-10