巨人天成
产经 科技 企业 数据 峰会 快讯 商业

国产AI黑马DeepSeek:万卡储备,低成本训练出媲美GPT-4o的大模型

2024-12-31来源:搜狐科技编辑:瑞雪

一款国产开源大模型DeepSeek-V3,近期在AI领域引发了广泛关注,不仅在国内备受瞩目,更是在国际舞台上大放异彩。

DeepSeek-V3由国内AI公司DeepSeek(深度求索)研发推出,该公司在论文中声称,综合评估显示,DeepSeek-V3已成为目前最强大的开源模型,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。这一说法得到了多位AI领域大咖的认可,包括阿里前副总裁贾扬清、metaAI科学家田渊栋以及英伟达高级研究科学家Jim Fan等。

DeepSeek-V3的训练成本远低于其他大型AI模型。据论文介绍,该模型仅用了2000多张GPU,训练成本不到600万美元,远远低于OpenAI、meta等在万卡规模上训练的模型成本。这一成本优势使得DeepSeek-V3在AI界引起了轰动,有网友甚至认为,这将推动AGI(通用人工智能)的实现比预期更早,且能以更低的成本。

DeepSeek-V3是一款自研的MoE(混合专家架构)模型,参数规模达到了6710亿,在14.8T tokens上进行了预训练,上下文长度为128K。评测结果显示,该模型在多个主流评测基准上表现优异,特别是在代码和数学方面,不仅碾压了阿里和meta的最新开源模型,还超越了GPT-4o和Claude-3.5-Sonnet。

不过,尽管DeepSeek-V3在多个方面表现出色,但仍存在一些局限性。例如,其英文能力还落后于GPT-4o和Claude-Sonnet-3.5,同时部署要求较高,对小型团队不太友好,且生成速度还有提升潜力。DeepSeek在论文中表示,随着更先进硬件的开发,这些局限性有望得到解决。

那么,DeepSeek-V3是如何在如此低的成本下,训练出可以媲美OpenAI、meta的最强开闭源模型的呢?据了解,DeepSeek在模型架构、训练框架、推理部署、硬件设计、数据构建等方面都进行了组合式的工程创新,提出了很多节约算力、提升效率的策略,并保证了模型效果。

具体来说,DeepSeek-V3依然基于Transformer框架,但采用了MLA(多头潜在注意力)和独创的DeepSeekMoE(混合专家架构),共同推动了算力成本的下降。同时,该模型还设计了FP8混合精度训练框架,并验证了其可行性和有效性,这在主流选择框架BF16的背景下,可以说是一个比较大的突破。DeepSeek-V3还在训练语料库中提高了数学和编程样本的比例,扩展了多语言覆盖范围,在后训练阶段使用了模型生成的数据,并利用强化学习的奖励机制,从而提升了模型性能。

DeepSeek-V3的出圈也让背后公司DeepSeek进一步获得关注。这家公司位于杭州,成立于2023年7月,创始人是颇为低调的80后梁文锋。他不仅是量化私募四巨头之一幻方的实控人,还是DeepSeek的掌舵者。梁文锋本硕就读于浙江大学,学的是电子工程系AI方向,后来主要在量化投资领域进行研究,2015年创立了幻方量化。

随着2023年大模型浪潮爆发,梁文锋把幻方做大模型的团队独立为DeepSeek。DeepSeek追求的是AGI,且不做垂类和应用,短期内也不会融资。他强调,研究和技术创新永远是第一优先级,并非常认可开源的价值。DeepSeek-V3的论文在最后列出了约200位贡献者,包括150位研发和工程人员,30多位数据标注人员和18位商业合规人员。

值得注意的是,名单中还包括了最近引发关注的“95后天才”罗福莉。她硕士毕业于北京大学计算语言学研究所,毕业后加入了阿里达摩院,2022年加入幻方量化,后转入DeepSeek参与了DeepSeek-V2的研发。今年,罗福莉被雷军亲自下场挖人,入职小米领导大模型团队,薪酬或在千万元级别。

DeepSeek-V3的成功无疑为大模型的发展路径提供了新的可能,并再次验证了创新才是实现技术理想的关键。这款模型的出现,不仅让DeepSeek在AI界崭露头角,更为国内AI领域的发展注入了新的活力。

TLKS-PMG-TP装置:全天候精准监测,守护输电线路“体温”安全
TLKS-PMG-TP输电线路线夹及导线温度在线监测装置应运而生,以其高精度测温与全时段监测能力,为输电线路装上了一双“精准温控眼”。 TLKS-PMG-TP装置不仅提供实时监测,更实现了输电线路运维的智能…

2025-11-15

华为在阿根廷完成5G-A双场景验证 下行峰值速率创新高助力无线发展
无线业务的发展对网络性能提出了更高的要求,而阿根廷市场一直走在拉美创新无线技术探索的前列,本次创新测试验证了两种未来5G-A商用载波组合,包括覆盖更强,更易大规模部署的Sub3.5G TDD+FDD 3CC…

2025-11-14

Gartner发布2026十大技术趋势:AI主导变革,从“大而全”迈向“精而实”
近日,商业与技术洞察公司Gartner发布了2026年十大战略技术趋势:AI超级计算平台、多智能体系统、特定领域语言模型、AI安全平台、AI原生开发平台、机密计算、物理AI、前置式主动网络安全、数字溯源,以及…

2025-11-14

中国6G技术首阶段试验圆满收官,通信领域创新再启新程
在全球竞相布局6G的背景下,中国率先完成第一阶段技术试验,展现了其在通信领域的强大实力。此次试验涵盖了6G关键核心技术,测试了多种潜在技术和系统性能。业界普遍认为,6G网络将实现地面与卫星通信的融合,构建空…

2025-11-14

桥梁位移监测仪:精准感知位移 灵活部署续航 守护桥梁安全出行
这种方式能够利用清洁能源为设备持续供电,既体现了节能环保的理念,也巧妙地解决了在市政供电不便场景下的设备续航问题,保障了监测工作的不间断进行。为了便于现场操作与维护,桥梁位移监测仪还配备了便捷的配置方式。 …

2025-11-14

5.5G辐射危害健康?物理学者:比太阳光频率低,基站越密越安全
我当时听了都愣了,太阳光那不是好东西吗,怎么还跟信号辐射扯一块儿了? 最有意思的是,他说大家都觉得基站多了辐射就大,这完全是搞反了。之前吵得最凶的那个阿姨,现在天天用5.5G跟外地的孙子视频,还跟邻居说这新基…

2025-11-14

技嘉B860M冰雕主板深度评测:千元价位与酷睿Ultra的完美搭档
XMP AI Boost的DDR5-8200 CL40挡位也能够顺利开启,再叠加上高带宽、低延迟功能的性能加成之后,内存性能继续得到提升,但写入性能基本上是到顶了,主要是受限于B860芯片组主板无法调整CP…

2025-11-14

上海电信“双万兆”护航进博会:数智赋能通信保障,服务跨越语言距离
浦东机场T1电信营业厅及T2一站式服务中心电信柜台是进博会观众和外宾抵沪的“入境第一站”, 两处服务点均开设“进博专席”,为参展人员和往来旅客提供中英双语咨询、交通指引与爱心便民服务。未来,上海电信将持续夯…

2025-11-13

高光谱探测器助力宽带叠层扫描成像 开启3D高光谱成像新篇
最近的研究表明,能量分辨或高光谱探测器可以在某种程度上取代单色器的作用来执行,例如,在单次采集中使用宽带辐射进行边缘减影叠层扫描成像。利用这样的探测器,时间相干性变得可调(在探测器的能量分辨率的限制内)并且在…

2025-11-12

荣旭传媒技术破局:以专业方案化解直播痛点,成就高性价比之选
传统方案在视频、音频和网络方面存在诸多不足,而荣旭传媒通过先进的技术和专业的设备,有效解决了这些问题。传统方案的视频分辨率较低,画面不够清晰,而荣旭传媒的4K 超高清视频拍摄制作让画面质量有了质的提升;传统…

2025-11-12