巨人天成
产经 科技 企业 数据 峰会 快讯 商业

{中美AI“考生”东大入学考:英语超群数学短板,能否预示AI未来?)

2025-04-07来源:ITBEAR编辑:瑞雪

近期,据日经新闻披露的一项联合研究成果显示,中美两国的新型生成式人工智能(AI)已经展现出令人瞩目的学术能力,成功跨越了日本顶尖学府——东京大学理科3类入学考试的门槛。这一突破性进展是通过对比测试美国OpenAI的“o1”模型与中国AI初创企业DeepSeek的“R1”模型得出的。

测试内容涵盖了2025年度的东京大学入学考试科目,由AI初创公司Life Prompt提供答案输出,并由知名预备学校河合塾的专业讲师进行评分。结果显示,在两个基础模型的表现中,o1获得了374分,R1紧随其后,取得了369分,均超过了东大理科3类合格的最低分数线368.7分。

值得注意的是,尽管R1在理科1类和理科2类的共通考试中未能达到合格线,但在其他类别,包括文科在内,它与o1均成功“合格”。这一表现不仅展示了AI在跨学科应用上的潜力,也反映了其在学术评估中的广泛适用性。

在具体的考试科目中,英语成为了AI模型的强项。o1和R1在英语部分的得分率均超过了75%,河合塾的英语讲师久恒秀雄对此评价道:“这两个模型在英语表达上几乎没有单词和语法的错误,其水平远远超过了东大考生的平均水平。”

然而,在数学科目上,尽管AI模型能够正确解答出不少最终答案,但在图形处理和论证问题上却频繁出现论述错误和说明不足的情况。在满分为120分的理科数学考试中,o1得了38分,R1得了49分,这一成绩显著低于合格者的平均分。负责数学评分的香坂季京讲师指出:“AI在数学论证上的表现还有待提高。”

对于这一研究成果,自2011年起便致力于“机器人能否进入东京大学”项目的国立信息学研究所新井纪子教授给予了高度评价:“这是AI成长历程中的一个重要里程碑。然而,我们也必须认识到,AI有时会给出令人困惑甚至错误的答案。因此,培养能够正确判断并熟练使用AI输出的人才显得尤为重要。”

KymoAI与fastgpt强强联合,为团队协作平台开启高效智能办公新篇章
例如,可以设计这样一个自动化流程:当客服系统中录入一个特定的技术性问题时,流程自动触发,首先通过智能知识库检索标准解决方案;若未找到,则自动在研发团队的协作群中创建一条任务,并附上问题背景和已尝试的解决步骤…

2026-01-19

字节跳动扣子2.0版本上线:技能封装与长期计划破解AI复杂工作流难题
与 2024 年 2 月发布的初版相比,此次更新不再局限于单纯的对话交互,而是试图通过“技能封装”和“长期计划”等功能,解决 AI在复杂工作流中执行力不足的问题。扣子 2.0 试图通过 Agent Ski…

2026-01-19

哈工大团队人形机器人新突破:成立不足一年,全栈开源3米每秒原型机引资本关注
基于此,萝博派对以“可复现、可二开、可验证”为目标,正式发布双足人形机器人“萝博头原型机”的全栈开源方案,并同步推出“动手学人形机器人问题清单”Know-how共创文档,旨在推动行业经验从“各自积累”走向“…

2026-01-19

B站2025百大UP主揭晓:知识长视频受青睐 年轻用户为优质内容“撑腰”
在短视频占据流量主流的当下,以“卢格杜努姆的奥姆斯丁”为代表的知识类UP主强势入围,印证了年轻用户对深度知识的渴求与对高质量长视频的偏爱,正重塑内容创作的价值。本届百大UP主中,超三成来自知识、科普、科技等硬…

2026-01-19

马斯克豪言特斯拉将转型机器人巨头,Optimus商业化仍面临诸多挑战
不过,从现实维度来看,特斯拉人形机器人项目仍存在诸多待解难题,依据马斯克价值1万亿美元的薪酬方案要求,特斯拉需完成100万台Optimus机器人的部署任务,马斯克此前曾承诺,这一目标最早有望在2030年达成…

2026-01-19