Scaling Law“暴力美学”真的失效了吗？-科技-巨人天成财经

文｜适道

近期，围绕Scaling Law的讨论不绝于耳。

起因是，The information在一篇文章指出，OpenAI下一代旗舰模型Orion（或称GPT-5）相较于现有模型，能力提升“有限”（代码能力甚至不如现有模型），远不如GPT-3到GPT-4的跃升，而且Orion在数据中心的运行成本更高。为此，OpenAI不得不连夜转变策略。

如果其所言非虚，就不会只有OpenAI一家被困扰。

果不其然，Google也“出事”了。其下一代Gemini模型原本应该是一次重大升级，但有员工透露：近期在大幅增加资源投入后，模型性能未达到领导层预期，团队连夜调整策略。

与此同时，Anthropic被曝已暂停推进Opus 3.5的工作，官网还撤下了“即将推出”字样。

“三巨头”接连碰壁，让人联想到：Scaling Law可能失效了？

Scaling Law，即尺度定律，称得上AI行业的大模型第一性原理。

2020年，OpenAI在论文Scaling Laws for Neural Language Models提出该定律。其核心的观点是，影响大模型性能的三大要素：计算量、数据集大小、模型参数量。当不受其他两个因素制约时，模型性能与每个单独的因素都存在幂律关系。

只要Scaling Law成立，意味着“更大更好”“大力出奇迹的暴力美学”——大模型的能力可以通过堆更多的算力、搞更多的参数，喂更多的数据得到大幅提升。

如今，当模型规模和成本大幅增加，但实际性能却提升“有限”时，Scaling Law神话是否会被终结？

正方：Scaling Law神话终结

Ilya Sutskever：扩展训练的结果，已经趋于平稳。

作为Scaling Law的早期倡导者之一，前OpenAI首席科学家Ilya Sutskever表示，扩展训练的结果，已经趋于平稳。即，传统的无监督Pre-training已达极限。

他说，2010年代是 Scaling的时代，现在我们再次回到发现奇迹的时代。每个人都在寻找下一个奇迹。现在重要的是扩大“正确”的规模。

何谓“正确”？Ilya表示，SSI正在研究一种全新的替代方法，来扩展预训练。

虽然他没有透露新方法是什么，但根据OpenAI和Google的尝试，或许可以窥探一二。

OpenAI的研究人员开发推理模型（reasoning models）等新技术，用于弥补传统训练方法的局限性。

Google也效仿这一思路。近几周，DeepMind在Gemini团队内组建了一个由首席研究科学家Jack Rae和前Character.AI联创Noam Shazeer领导的小组，专注于开发类似能力。

DeepMind团队还在手动优化模型性能，包括调整超参数（hyperparameters）等变量。这些超参数决定了模型处理信息的方式，例如，迅速在训练数据中建立概念或模式之间的联系。研究人员通过“模型调优”测试不同的超参数，以确定哪些变量将带来最佳效果。

Arvind Narayanan & Sayash Kapoor：合成数据作用不大

今年6月，普林斯顿大学计算机科学教授Arvind Narayanan与其博士生Sayash Kapoor发表了一篇文章AI scaling myths。文章指出，Scaling“崇拜论”是建立在一系列误解之上。

第一，什么是“更好的”模型？具有“涌现能力”的模型。

Scaling仅仅将困惑度（perplexity）下降进行了量化，即模型能够预测下一个单词。然而，对最终的用户而言，困惑度几乎毫无意义——真正重要的是模型规模增长时，模型呈现出的“涌现能力”，即模型随着大小增加而获得新能力的趋势。

问题在于，“涌现能力”不受任何类似定律的支配。

为什么“涌现能力”不能无限持续？这一问题直指关于LLM能力的核心争议：LLM究竟能否进行外推，还是只会学习训练数据中已有的任务？现有证据尚不完整，不同研究者各执一词。但Arvind Narayanan团队倾向于怀疑态度。在一些专门测试LLM解决新任务能力的基准测试中，其表现往往较差。

如果LLM无法超越训练数据中的内容，就会进入每一个传统的机器学习模型最终都会进入的平台期。

第二，更多的数据从哪里来？

有人认为，新的数据源（例如将YouTube转录为文本）可以增加一两个数量级的可用数据量。确实，YouTube包含约1500亿分钟的视频内容。然而，考虑到其中大部分视频缺乏可用的音频（例如音乐、静止图像或游戏画面），经过去重、质量过滤后，实际可用的训练数据远少于Llama 3所使用的15万亿tokens。

退一步说，关于“数据耗尽”的讨论并不合理。训练数据永远有，只是成本越来越高，比如版权、监管等等。

对于LLM而言，我们可能还有几个数量级的扩展空间，也可能扩展已经结束了。如今，研究的重点已从构建更大数据集，转向提高训练数据的质量。通过精心的数据清理和过滤，可以用更小的数据集构建出同样强大的模型。

第三，合成数据不是万能魔药。

还有一个观点，利用现有模型生成训练数据。

这个观点同样存在误区——开发者并未（也无法）利用合成数据显著增加训练数据的总量。

一篇论文详细列出了合成数据在训练中的用途——主要集中在弥补特定领域的不足，例如数学、编程、低资源语言的优化。同样，英伟达最近推出的Nemotron 340B模型，专注于生成合成数据，是将对齐作为其主要用途。虽然它也有一些其他用途，但取代现有预训练数据源并不在其中。

换句话说，盲目靠生成大量合成数据，无法达到高质量人类数据所具备的效果。

尽管如此，合成训练数据在某些场景中取得了巨大成功，例如2016年AlphaGo 击败围棋世界冠军，以及其后续版本 AlphaGo Zero 和 AlphaZero 的表现。这些系统通过自我对弈学习，后两者甚至能自己生成高质量棋局。

自我对弈是“系统2-->系统1蒸馏”的经典案例，即通过一个缓慢且昂贵的“系统 2”生成训练数据，用于训练快速且廉价的“系统 1”模型。

这种方法在围棋这样完全封闭的环境中表现出色，将其推广到游戏之外的领域仍然是一个有价值的研究方向。在某些重要领域（如代码生成）中，这一策略或许可以发挥作用。然而，我们不能指望在更开放的任务（如语言翻译）上实现类似的无限自我改进。可以预见，通过自我对弈实现大幅提升的领域将是特例，而非普遍规律。

反方：Scaling Law没有墙

OpenAI CEO Sam Altman：there is no wall

前方The information扰乱军心，后方Sam Altman在X平台上发言——there is no wall。

近期，他在Reddit的Ask Me Anything上也表示，OpenAI将在今年晚些时候发布“非常好的版本”。

只不过，鉴于“草莓”炒作的影响、Ilya Sutskever的威望，以及OpenAI的当前表现，Altman的话难免有“挽尊”之嫌。

微软AI主管Mustafa Suleyman：不会有任何放缓

Suleyman在近期采访中表示：模型的规模既在变大，也在变小，这种趋势会持续下去。去年开始流行一种新方法，称为蒸馏。这类方法利用大型、高成本模型来训练小型模型。这种监督效果相当不错，目前已有充分的证据支持这一点。因此，规模仍然是这场竞争中的关键因素，未来还有很大的发展空间，数据量也将持续增长。至少在接下来的两三年内，Scaling Law在提供超预期表现方面的进度不会有任何放缓。

微软CEO Satya Nadella：是定律，并且一直有效

今年10月21日，在微软AI之旅伦敦站活动上，Satya Nadella在演讲中表示：Scaling Law是经验观察所得，但它被我们称作定律，并且一直有效。

微软CTO Kevin Scott：让其他人想去吧

今年7月，微软首席技术官Kevin Scott在接受红杉资本合伙人采访时表示：尽管其他人可能这样想，但是我们在规模化上并没有遇到边际收益递减的情况。

前谷歌CEO Eric Schmidt：没有证据显示

11月14日，前谷歌CEO Eric Schmidt在播客中表示：没有证据表明Scaling Law已经开始停止。他预测在未来五年，人工智能系统的能力将是现在的100倍，能够在物理和数学领域进行推理。

Abacus.AI CEO Bindu Reddy：是技术太成熟了

Bindu Reddy表示，所谓的AI减速实际上无关紧要。主要原因在于AI技术发展的潜力已经几乎在各类基准测试中得以体现。当达到100/100的高分时，就很难再找到新的突破方向。因此，AI 市场的“放缓”更多地反映了技术成熟度，而非创新能力的不足。（你信吗？）

Scaling Law 2.0：token越多，精度也要越高

无论各位如何“挽尊”，都掩盖不了大模型“减速”的事实——感受不到当初的惊艳。

或许，还有其他办法。

近期，来自哈佛大学、斯坦福大学、麻省理工等机构的合作团队发表了一篇题为Scaling Laws of Precision的论文，引发疯狂讨论。

研究提出：精度在模型扩展规律中比之前认为的更加重要，可以显著影响语言模型的性能。在以往描述模型性能随参数量和训练数据量变化的扩展规律，基本忽略了精度这一因素。随着模型规模的不断扩大，低精度的量化或将不再有效。

首先，通过实验，研究人员制订了新的精度缩放定律。另一项重要发现则提出了预训练期间计算的最优精度。根据该研究，当同时优化参数数量、数据和精度时，这一精度通常与计算预算无关。

其次，普遍采用的16位模型训练法并非最优，因为很多位是多余的。然而，使用4位进行训练则需要不成比例地增加模型大小，以维持损失缩放。研究人员的计算表明，对于较大的模型而言，7-8位是计算最优的。

当模型大小从一开始就固定时，情况就会发生变化：更大且更好的模型应以更高的精度进行训练——例如，使用16位的Llama 3.1 8B模型。实际的计算节省还取决于硬件对更低精度的支持。这里研究的模型（参数最多达17亿个）尚未在最大的实际规模上进行测试。不过，这些一般趋势仍然适用于更大的模型。

CMU教授 Tim Dettmers表示，这是长久以来最重要的一篇论文。他认为，人工智能的大部分进步都来自计算能力的提升，而（最近）这主要依赖于低精度路线的加速（32- > 16 - > 8位）。现在看来，这一趋势即将结束。再加上摩尔定律的物理限制，大模型的大规模扩展可以说要到头了。他预计，随着低精度带来的效率提升达到极限，将出现从纯规模扩张向专用模型和人本应用的转变。

AGI路漫漫。不过，大家无需灰心。

退一万步，正如OpenAI研究人员Steven Heidel 所言，就算现在LLM 停滞了，在当今模型的基础上，还有至少十年的产品等着你去开发。

是不是又干劲十足了。

Valve推出Steam Frame新VR头显正式宣告上一代Index头显停产

用户可通过无线适配器，将 PC 或 Steam Machine 上的平面屏（flatscreen）及 VR 游戏串流至 SteamFrame；与此同时，Steam Frame 本身也是一款独立设备，搭载高通…

2025-11-14

虚拟化与超融合：从架构到应用，一文读懂如何选择适合的IT方案

超融合平台通常基于成熟的虚拟化技术，例如它可能内置虚拟机管理功能，但更强调整体资源的统一管理。性能上，虚拟化可能因资源竞争而出现波动，而超融合的分布式存储设计可以提供更一致的I/O性能，特别是在高并发场景下，…

2025-11-14

杭州上城第三批50个“人工智能+”场景发布涵盖多领域促发展

11月13日，杭州市上城区第三批“人工智能+”机会场景发布会暨场景供需对接会活动举行，推出50个高价值场景，涵盖社会治理、金融服务、民生服务、城市管理、智能建造、文化旅游、时尚消费等多个热门领域。如，由上城…

2025-11-14

中关村房山园科技对接会：昆虫机器人等“硬核”成果亮相，助力新质生产力

11月12日，中关村“火花”活动之北京理工大学专场对接会暨中关村房山园新质生产力发布厅科技成果转化对接活动在中关村新兴产业前沿技术研究院举行，极限搜救昆虫机器人、通信感知超宽带收发芯片等一批来自北京理工大学、…

2025-11-14

浪潮KaiwuDB V3.0发布：多模融合AI赋能，引领物联网数智化新篇章

KaiwuDB V3.0关系引擎新增大型对象支持，无论是传感器产生的二进制数据还是文本信息，都能实现高效管理；同时，支持高效跨模连接算子与时序算子并行处理，相较于2.2版本跨模查询性能提升5-10倍，打破了…

2025-11-13

2025年手机卡选卡指南：精准匹配需求，绕开合约套路与流量陷阱

•在运营商APP中查看过去三个月的平均流量使用量•检查你的通话时长记录•分析你最常用的APP类型（这会影响你对通用流量和定向流量的需求）有了这些数据，你就能更准确地判断自己需要什么样规模的套餐了。 •典型代…

2025-11-13

照片压缩至5M内超全指南！七大实用方法助你轻松搞定分享难题

具体的执行步骤是：将它们直接开启，随后去挑选照片，该应用会自动给出推荐的压缩级别，你能去预览最终结果，还能够对某些设置予以调整，比如把分辨率调低或者转换格式，借此令文件大小小于5MB，这对即时分享至社交媒体来…

2025-11-12

企业宽带选不对，带宽再大也白费！这些关键因素决定实际网速

• 网速（用户感知）：即实际访问体验，取决于 3 个核心因素 —— 带宽只是基础，更重要的是网络质量、路由优化和并发处理能力。真正专业的服务商，会从企业实际业务场景出发提供解决方案，而非一味推销高带宽产品…

2025-11-12

Marantz与B&W组合：以多元功能承载家庭温情，让音乐共鸣融入日常

我在活动上最常遇到来宾，不管是男的，还是女的，他（她）问我：我手机上这些音乐能不能通过蓝牙，或Apple Airplay传到音响播放。用高级音响回归音乐本身你会发现原来美好的东西就在身边最近我在电脑里找到了…

2025-11-12

Viwoods发布AiPaper Reader电纸书：6.13英寸墨水屏搭载AI阅读互动功能

IT之家 11 月 11 日消息，据科技媒体 NoteBook Check 今天报道，Viwoods 现已推出 AiPaper Reader电纸书，运行 Android 16 操作系统，机身配备专用 AI …

2025-11-12