巨人天成
产经 科技 企业 数据 峰会 快讯 商业

月之暗面Kimi发布《Attention Residuals》技术报告 获马斯克等硅谷人士高度评价

2026-03-17来源:快讯编辑:瑞雪

月之暗面Kimi团队近日在人工智能领域投下一枚重磅炸弹——其发布的《Attention Residuals》(注意力残差)技术报告,通过重构深度学习核心组件"残差连接",为大规模模型训练开辟了全新路径。这项突破性成果不仅引发全球AI社区的热烈讨论,更获得特斯拉创始人埃隆·马斯克"令人印象深刻"的高度评价,被多位硅谷顶尖学者视为深度学习架构演进的重要里程碑。

传统残差网络自2015年提出以来,始终是支撑万亿参数模型训练的基石技术。其通过跨层恒等映射缓解梯度消失问题的设计,使神经网络得以突破深度限制。但Kimi团队在实验中发现,这种"无差别求和"的信息融合方式存在显著缺陷:当网络层数超过百层时,早期特征在逐层传递中会因权重稀释导致有效信息流失,同时统一求和机制迫使所有特征参与计算,造成约30%的冗余算力消耗。

针对这些痛点,研究团队提出动态注意力残差机制(Dynamic Attention Residuals, DAR)。该方案创新性地将残差连接转化为可学习的注意力模块,使每层网络能够根据当前任务需求,动态分配不同历史层输出的关注权重。实验数据显示,在480亿参数规模的模型训练中,DAR架构使单步训练时间缩短20%,同时将模型收敛所需的迭代次数减少25%,综合训练效率提升达1.25倍。

这项突破性成果由杨植麟、吴育昕、周昕宇三位联合创始人领衔,联合全球32位研究人员历时18个月完成。研究团队在报告中特别强调,DAR架构的兼容性优势使其可无缝接入现有Transformer框架,仅需替换残差连接模块即可实现性能升级。目前,该技术已在代码生成、多模态理解等复杂任务中验证有效性,相关代码库已开源供学术界测试。

全球AI领域对这项研究给予高度关注。斯坦福大学人工智能实验室主任克里斯托弗·曼宁指出:"这标志着深度学习从'堆砌算力'向'优化信息流'的范式转变。"meta首席AI科学家杨立昆在社交媒体转发时评论:"重新思考基础组件的设计,往往比追求模型规模更有价值。"值得关注的是,马斯克在评价中特别提到:"这种架构改进让我想起当年从Sigmoid到ReLU的激活函数变革,看似微小却影响深远。"

中国电信完成50毫秒WSON算力互联验证 助力AI大模型跨域可靠训练
3月17日,北京青年报记者从中国电信了解到,其近日在北京成功完成了业界首个50毫秒波长交换光网络(WSON)算力互联现网验证。验证通过级联每段部署WSON 50ms技术的多个光纤链路,构建了跨越1200公里…

2026-03-17

佛山市林创科技:以技术创新引领直放站发展,赋能全场景通信覆盖
作为行业**的无线通信设备供应商,佛山市林创科技有限公司专注于直放站技术研发与生产,产品涵盖4G直放站、5G直放站、无线直放站、数字光纤直放站四大系列,累计服务客户超5000家,覆盖工业、交通、能源等多个领…

2026-03-17