巨人天成
产经 科技 企业 数据 峰会 快讯 商业

MiniMax发布国产开源大模型,线性注意力机制挑战Transformer架构

2025-01-15来源:ITBEAR编辑:瑞雪

国内开源大模型领域近日迎来新突破,大模型独角兽企业MiniMax在1月15日正式发布了其全新系列模型——MiniMax-01,并宣布该系列模型将全面开源。此次发布的MiniMax-01系列包含两款核心模型:一款是基础语言大模型MiniMax-Text-01,另一款则是视觉多模态大模型。

MiniMax-Text-01在性能上表现出色,据MiniMax官方介绍,该模型在多数任务上的表现已经与海外最先进的闭源模型GPT-4o和Claude 3.5 Sonnet相当。在评估模型指令遵循能力的IFeval和C-SimpleQA中文评测集中,MiniMax-Text-01的得分甚至超过了另一款国产开源模型DeepSeek-V3。这一成绩不仅彰显了MiniMax在技术研发上的实力,也进一步提升了国产开源大模型在全球范围内的竞争力。

在技术层面,MiniMax-01系列模型对传统的Transformer架构进行了创新。MiniMax在模型中首次大规模实现了线性注意力机制,每8层中有7层采用了基于Lightning Attention的线性注意力,仅有一层保留了传统的SoftMax注意力。这种创新使得模型在处理超长输入和需要快速处理的任务时更加高效。

线性注意力机制相较于传统注意力机制,其优势在于高效且计算量小。传统注意力机制需要逐一比较所有人的重要性,而线性注意力则只需查看每个人手中的名片,快速统计出哪些人持有的信息最重要。因此,线性注意力更适合处理超长输入和需要快速响应的任务。

MiniMax在技术报告中透露,他们正在研究更高效的模型架构,目标是完全去除SoftMax注意力机制,实现无限长的上下文窗口,同时不增加计算开销。这一研究将为未来的智能体应用提供更强大的技术支持。

与此同时,国内另一家AI公司DeepSeek也在12月底发布了其V3开源模型。DeepSeek-V3采用了创新的多头潜在注意力机制(MLA)和DeepSeekMoE混合专家架构,在节省内存占用和计算资源的同时,确保了资源的高效利用。DeepSeek-V3以极低的训练成本实现了与领军闭源模型相当的性能,引发了国内外科技社区的广泛关注和热议。

在模型训练和推理系统方面,MiniMax对MiniMax-01系列模型进行了全面重构。该模型包含4560亿个参数,单次推理激活459亿个,能够高效处理最长400万token的上下文,这一性能是GPT-4o的32倍,Claude 3.5 Sonnet的20倍。在长上下文的测评集上,MiniMax-Text-01的表现显著领先于其他开闭源模型。

MiniMax表示,01系列模型将能够满足未来一年内智能体应用的大幅增长需求。随着智能体系统对更长上下文处理能力和持续记忆的需求不断增加,MiniMax-01系列模型将为其提供坚实的技术支撑。MiniMax认为,2025年将是智能体高速发展的一年,他们希望在这个模型中走出第一步,并持续建立复杂Agent所需的基础能力。

智能体正成为国内外AI公司竞相押注的赛道。OpenAI CEO Sam Altman预测,到2025年,将可能看到第一批AI智能体“加入劳动力队伍”,并实质性地改变公司的产出。谷歌在推出新一代Gemini 2.0大模型时也表示,该模型是为智能体时代构建的,主打支持多模态输入和输出,以构建出更接近通用助手愿景的智能体。

MiniMax在阐述为何选择将模型开源时提到,他们希望通过开源激发更多长上下文的研究和应用,从而更快促进智能体时代的到来。同时,开源也将促使他们不断进行创新,更高质量地开展后续的模型研发工作。MiniMax成立于2021年12月,被普遍称为国内“大模型六小龙”之一,其最新披露的一轮融资由阿里领投,公司估值已达25亿美元。

在“大模型六小龙”中,各公司的大模型开源进度不一。百川智能、智谱AI、零一万物等公司已开源了多款模型,涵盖大语言模型、多模态模型等。而月之暗面、阶跃星辰等公司则仅开源了部分技术。随着开源大模型领域的不断发展,国内AI公司的竞争将更加激烈,同时也将推动整个行业的技术进步和创新。

未来十年科技新图景:智能硬件跃迁、AI赋能与网络无感化变革
本文将从智能硬件、AI 算法、未来网络、数字经济、安全体系等多个维度,分析科技浪潮下的核心趋势。 设备变得更聪明网络变得无形AI 成为能力底座数字经济成为主引擎安全体系成为关键支撑科技不是未来,而是现在正在发…

2025-11-15

避开苹果锋芒,聚焦外卖小哥:打造专属他们的超实用蓝牙耳机
试着聚焦一个特定人群,比如外卖小哥。电量要非常足,最好能用一整天。麦克风要特别好,因为外卖小哥大部分时间都在路上,环境嘈杂,麦克风不好的话,对方根本听不清。如果能将耳机固定在头盔上,那就更好了,不怕掉。如果…

2025-11-13

2025微信数据保护全攻略:误删聊天记录别急,多场景恢复方案来了
提前备份是数据安全的核心,2025年微信已支持电脑、云服务、外部存储等多种备份方式,恢复时只需简单操作即可找回记录。苹果和安卓厂商的云服务早已支持微信数据备份,关键是确认误删前有有效备份记录。 2. 选择…

2025-11-13

SK海力士VFO工艺打造HBS技术,为移动设备AI性能提升带来新突破
据闪德资讯获悉,SK海力士正在研发结合移动DRAM和NAND的高带宽存储(HBS)技术,可提高智能手机和平板电脑等移动设备的AI性能。 相比HBM使用的硅通孔(TSV)技术,VFO无需穿孔,成本更低、良率更高…

2025-11-12

等保2.0成企业必答题!网络合规差距与优化路径全解析
实践中发现,许多企业在宽带层面存在共性差距,亟需从专业角度优化改进。在网络核心节点部署流量探针,实现全量网络流量采集;建议搭建专用日志审计平台,统一存储日志并支持多维度分析,确保日志完整性与可追溯性。 1.…

2025-11-12

开放式蓝牙耳机怎么选?2025十款热门开放式耳机深度测评来助力
推荐理由:在百元价位中音质体验非常出色,可媲美千元级别耳机通常选择耳夹式耳机的消费者都有骑行和户外运动的爱好,难以避免遇到下雨天气和大量出汗的情况,因此耳机的防水级别也成了筛选的指标,建议选择防水等级在IP…

2025-11-11

立讯精密液冷方案:从前瞻布局迈入规模化商用新阶段
证券之星消息,立讯精密(002475)11月11日在投资者关系平台上答复投资者关心的问题。投资者提问:公司的液冷散热解决方案在AI服务器中的应用情况如何?是否已获得头部云服务提供商或AI企业的认可? 谢谢!…

2025-11-11

爱立信完成上行L4S技术测试,为5G时延敏感业务提供网络支撑
(全球TMT2025年11月11日讯)近日,在IMT-2020(5G)推进组的组织下,爱立信成功完成了上行L4S技术测试,验证了L4S在提升上行实时交互业务体验方面的显著效果。测试结果表明,L4S技术能够有效…

2025-11-11

上海贝尔发布《2025年AI-ICT赋能与重构白皮书》:剖析趋势、需求与战略方向
《2025年AI-ICT赋能与重构白皮书》由上海贝尔发布,系统剖析了AI与ICT产业融合的核心趋势、技术需求及战略方向,展现了全球AI发展浪潮下ICT基础设施的变革路径与机遇。实施路径上,需夯实数据与模型基础…

2025-11-11

2025年AI智能鼠标深度体验:星火大模型赋能,它能替代哪些办公工具?
AI智能鼠标2025深度测评:星火大模型加持,AI问答、AI绘图能替代哪些工具?当一款鼠标,内嵌了如科大讯飞星火这般强大的认知大模型时,它所带来的,远不止是光标移动的流畅,更是一场关于效率与创造力的革命。我们…

2025-11-10