巨人天成
产经 科技 企业 数据 峰会 快讯 商业

OpenAI o3推理模型面世,能否打破“画饼”质疑领跑AI赛道?

2024-12-23来源:蓝鲸新闻编辑:瑞雪

在科技界万众瞩目的“双十二”尾声,OpenAI于12月20日悄然发布了其最新的o3推理模型,此举紧随谷歌前一天发布的推理模型,似乎是在向业界宣告其技术领先地位依旧稳固。o3作为9月推出的o1模型的升级版,命名上巧妙地避开了与英国电信运营商O2的潜在版权或商标冲突,直接跳跃至o3。

OpenAI介绍称,o3模型在复杂任务推理方面表现出色,尤其在科学、编码和数学等领域,相较于前代o1模型有了显著提升,尽管这伴随着处理时间的延长。以高级数学推理测试EpochAI Frontier Math为例,o3模型创造了25%的准确率纪录,而此前所有模型的准确率均未达到2%。

在迈向通用人工智能(AGI)的征途中,o3模型为OpenAI增添了一份底气。在ARC-AGI基准测试中,o3模型在高配版和低计算设置下分别获得了87.5%和75.7%的得分,是o1模型得分的三倍。然而,高计算模式下的成本高昂,每个任务可能耗资数千美元,相比之下,低计算模式则仅需约20美元。

尽管如此,ARC-AGI测试的创建者François Chollet对o3模型持谨慎态度,他认为o3在一些简单任务上的失败表明其与人类智能仍存在根本差异。他强调,只有当设计出对普通人容易但对AI难的任务变得不可能时,才标志着AGI的真正到来。

OpenAI透露,o3模型的迷你版o3-mini将于明年1月底推出,随后将发布完整的o3模型。为了安全起见,OpenAI正邀请安全研究人员申请体验o3模型,以补充现有的测试流程。

回顾OpenAI的“双十二”活动,虽然连续12个工作日的直播吸引了众多关注,但部分AI从业者却表示失望。他们认为,OpenAI此次活动更多地是在填补过去的空白,o3模型的发布更像是一个“预告”,其实际表现还需等待实际应用后才能确定。与以往快节奏、高密度的新品发布会相比,此次活动的直播时长较短,缺乏震撼感。

活动期间,OpenAI发布了多项期货产品,包括完整版o1模型、视频生成模型Sora以及在苹果设备中正式接入ChatGPT等。然而,这些产品的发布并未如预期般引起轰动。尤其是Sora模型,在沉寂298天后终于上线,却因服务器压力一度被迫关闭。与此同时,国内外多家公司也发布了视频模型,使得Sora在性价比和生成质量上并未占据明显优势。

OpenAI还推出了七个月前演示过的实时视频功能和向所有ChatGPT用户开放的搜索服务。然而,这些功能并非OpenAI首创,其最大竞争对手Anthropic早已推出类似功能。有AI从业者指出,从用户体验和交互设计上看,Anthropic的AI助手Claude呈现出更积极的创新姿态,OpenAI似乎是在参照竞争对手来完善ChatGPT。

面对外界的质疑,OpenAI通过发布o3模型再次表明其正转向新的推理范式,以应对Scaling Law收益递减、预训练数据短缺等挑战。同时,谷歌作为科技巨头,也在积极布局AI领域,与OpenAI展开了正面竞争。谷歌先后发布了量子芯片Willow、新一代大模型Gemini 2.0、推理模型以及视频和图像模型等,试图在AI智能体、视频生成和搜索等领域抢占先机。

谷歌推出的Gemini 2.0 Flash实验版本在多项基准测试中表现领先,并支持多模态输入和输出。谷歌还探索了一系列智能体项目,包括支持高级视觉和语音交互的Project Astra、能像人类一样使用网站的智能体Project Mariner以及编码智能体Jules。这些项目旨在打造全新的AI智能体,更接近通用助手的愿景。

在视频生成领域,谷歌发布了新一代视频模型Veo 2和升级后的图像生成模型Imagen 3。虽然Veo 2在理论上可以生成分辨率达4K、两分钟或以上的视频,但目前仅支持生成720P、时长8秒的视频。相比之下,ChatGPT Pro付费用户可通过Sora生成1080P、最长20秒的视频。

在搜索领域,谷歌也推出了“AI Overviews”概率功能来应对ChatGPT Search的挑战。然而,该功能因生成低质量结果而频频翻车。据最新报道,谷歌正计划为其数十亿搜索用户提供切换到AI模式的选项,以应对ChatGPT等竞争对手的冲击。

随着AI战局的瞬息万变,抢先入局者并不一定能始终保持领先。在国内,字节跳动凭借雄厚财力和顶尖人才,已呈现出赶超的趋势。而在国外,谷歌作为科技巨头,也在积极布局AI领域,试图赶超OpenAI。未来,AI领域的竞争将更加激烈和精彩。

Valve推出Steam Frame新VR头显 正式宣告上一代Index头显停产
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

虚拟化与超融合:从架构到应用,一文读懂如何选择适合的IT方案
超融合平台通常基于成熟的虚拟化技术,例如它可能内置虚拟机管理功能,但更强调整体资源的统一管理。性能上,虚拟化可能因资源竞争而出现波动,而超融合的分布式存储设计可以提供更一致的I/O性能,特别是在高并发场景下,…

2025-11-14

杭州上城第三批50个“人工智能+”场景发布 涵盖多领域促发展
11月13日,杭州市上城区第三批“人工智能+”机会场景发布会暨场景供需对接会活动举行,推出50个高价值场景,涵盖社会治理、金融服务、民生服务、城市管理、智能建造、文化旅游、时尚消费等多个热门领域。如,由上城…

2025-11-14

中关村房山园科技对接会:昆虫机器人等“硬核”成果亮相,助力新质生产力
11月12日,中关村“火花”活动之北京理工大学专场对接会暨中关村房山园新质生产力发布厅科技成果转化对接活动在中关村新兴产业前沿技术研究院举行,极限搜救昆虫机器人、通信感知超宽带收发芯片等一批来自北京理工大学、…

2025-11-14

浪潮KaiwuDB V3.0发布:多模融合AI赋能,引领物联网数智化新篇章
KaiwuDB V3.0关系引擎新增大型对象支持,无论是传感器产生的二进制数据还是文本信息,都能实现高效管理;同时,支持高效跨模连接算子与时序算子并行处理,相较于2.2版本跨模查询性能提升5-10倍,打破了…

2025-11-13

2025年手机卡选卡指南:精准匹配需求,绕开合约套路与流量陷阱
•在运营商APP中查看过去三个月的平均流量使用量•检查你的通话时长记录•分析你最常用的APP类型(这会影响你对通用流量和定向流量的需求)有了这些数据,你就能更准确地判断自己需要什么样规模的套餐了。 •典型代…

2025-11-13

照片压缩至5M内超全指南!七大实用方法助你轻松搞定分享难题
具体的执行步骤是:将它们直接开启,随后去挑选照片,该应用会自动给出推荐的压缩级别,你能去预览最终结果,还能够对某些设置予以调整,比如把分辨率调低或者转换格式,借此令文件大小小于5MB,这对即时分享至社交媒体来…

2025-11-12

企业宽带选不对,带宽再大也白费!这些关键因素决定实际网速
• 网速(用户感知):即实际访问体验,取决于 3 个核心因素 —— 带宽只是基础,更重要的是网络质量、路由优化和并发处理能力。 真正专业的服务商,会从企业实际业务场景出发提供解决方案,而非一味推销高带宽产品…

2025-11-12

Marantz与B&W组合:以多元功能承载家庭温情,让音乐共鸣融入日常
我在活动上最常遇到来宾,不管是男的,还是女的,他(她)问我:我手机上这些音乐能不能通过蓝牙,或Apple Airplay传到音响播放。 用高级音响回归音乐本身你会发现原来美好的东西就在身边最近我在电脑里找到了…

2025-11-12

Viwoods发布AiPaper Reader电纸书:6.13英寸墨水屏搭载AI阅读互动功能
IT之家 11 月 11 日消息,据科技媒体 NoteBook Check 今天报道,Viwoods 现已推出 AiPaper Reader电纸书,运行 Android 16 操作系统,机身配备专用 AI …

2025-11-12