巨人天成
产经 科技 企业 数据 峰会 快讯 商业

焱融科技张文涛:大模型时代,高性能全闪存储如何破解AI训练难题?

2025-10-03来源:快讯编辑:瑞雪

在QCon全球软件开发大会(北京站)上,焱融科技CTO张文涛分享了高性能全闪并行文件系统YRCloudFile的设计与实践,深入探讨了AI训练场景中的存储挑战与解决方案。张文涛指出,深度学习领域中,数据与算力是模型训练的核心要素,但数据规模和模型复杂度的快速增长导致存储性能成为制约训练效率的关键瓶颈。

张文涛通过meta的存储增长数据和某大客户的实际案例,揭示了AI时代存储需求的爆发式增长。他提到,2022年ChatGPT发布后,国内大模型厂商的数据量年均增速从20T跃升至60T,存储容量与性能需求同步激增。AI全流程中,数据采集、处理、训练、推理和归档各环节均面临不同挑战,其中训练环节对存储性能的要求最为严苛。

针对AI训练场景,YRCloudFile通过多项技术创新解决了高并发、海量小文件、带宽峰值等核心问题。系统采用静态数据路由算法,在文件创建时即确定存储位置,避免访问时的元数据查询开销,同时利用多磁盘并行提升带宽利用率。Multi-Channel技术通过网卡聚合突破单网卡带宽限制,NUMA亲和性优化避免跨节点内存访问,RDMA单边编程模式减少内存拷贝,共同将单节点吞吐量提升至480GB/s。

在海量小文件处理方面,YRCloudFile采用基于Dentry Hash的元数据分布策略,通过根目录固定、子目录哈希选择和本地性优化,确保元数据操作均匀分布且具备高效预取能力。测试数据显示,YRCloudFile在1亿至100亿文件规模下,元数据OPS性能稳定,远超开源CephFS的衰减表现。同时,系统通过弱化POSIX语义、异步close操作等技术,将小文件访问性能提升10倍以上。

为满足大规模集群需求,YRCloudFile设计了汇聚式心跳上报机制和UDP推拉结合的事件同步方案,支持200余个全闪节点和10万个客户端的扩展能力。智能数据分层功能通过时间和大小策略,自动将冷数据下沉至对象存储,同时保持业务透明无感。在AI训练中,数据预热功能确保GPU快速访问热点数据,避免冷启动延迟。

在运维层面,YRCloudFile提供多租户管理、访问权限控制、日志审计和回收站等安全特性,支持弹性数据网络打通多网络平面。针对单流业务,系统通过缓存预取优化性能;针对小模型训练,设置Cache HardLimit避免延迟抖动;针对IB网络拥塞,实施客户端限速保障整体吞吐量。

张文涛还介绍了YRCloudFile在推理场景的优化方案。系统为KVCache提供PB级缓存空间,单个节点支持40GBps带宽和低延迟访问,使长上下文场景的TTFT延迟降低13倍,高并发场景性能显著提升。DataInsight解决方案支持百亿级数据秒级检索,通过多维度组合查询和增量数据感知,帮助企业快速构建知识库平台。

张文涛毕业于华中科技大学计算机专业硕士,拥有15年分布式存储领域经验,主导了YRCloudFile从研发到落地的全过程。该系统已广泛应用于AI及高算力场景,具备丰富的架构设计和性能优化经验。

手机扫描文件全解析:工作原理、应用场景与实用操作指南
5. 云存储和分享:扫描后的文件可以存储在手机本地,也可以直接上传到云存储服务(如GoogleDrive、Dropbox、iCloud等),方便用户在不同设备间同步和分享文件。 - 如果手机没有内置扫描功…

2025-10-03

iPhone16升级iOS18.7.1体验:续航提升、信号优化,相机与发热表现均有改善
苹果iOS18.7.1大概率就是iOS18最后一个版本了,很多用户都给予了高度评价,升级都后都表示更省电了,其他方面优化也超预期,综合体验远比iOS18.6.2更好,那么具体带来了哪些优化呢? 以上就是iPh…

2025-10-01

2025阿里云大数据AI产品矩阵:全链路能力闭环,赋能多行业数字化转型
本文聚焦2025年阿里云大数据AI产品手册核心内容,系统梳理了其一体化产品矩阵、核心产品能力、技术优势及应用场景,展现了阿里云在大数据与AI融合领域的综合布局。整体而言,阿里云大数据AI产品以开放兼容的生态…

2025-10-01

抖音旗下火山引擎全资设立深圳深空引擎科技公司 注册资本达千万
天眼查工商信息显示,近日,深圳坪山深空引擎科技有限公司成立,法定代表人为陈恺豪,注册资本1000万人民币,经营范围含计算机系统服务、数据处理服务、社会经济咨询服务、企业管理咨询、组织文化艺术交流活动、计算机软…

2025-10-01

Steam注册人机验证难题破解指南:从基础操作到专业工具助你顺利注册
一键优化网络连接:UU加速器通过全球加速节点,优化网络路由,让Steam验证服务器的连接更加稳定免费加速Steam:UU加速器支持Steam免费加速,无需担心额外费用问题智能切换IP:通过UU加速器的区服切…

2025-09-30

中国移动《2025年下一代网络协议演进白皮书》:剖析痛点、规划路径,赋能产业数字化
新服务方面,融合感知通信(ISAC)、AI原生服务(如多模态AI助手)、智能体通信网络(ACN)等场景,对网络提出确定性、智能性、极致性能要求:ISAC需支撑海量感知数据交互,AI服务存在短突发流量(时延要求…

2025-09-30

华为鸿蒙系统崛起:设备超12亿台,实现多终端统一,未来潜力无限
而经过这么多年发展,我们发现有一款国产操作系统真的崛起了,使用的设备总数甚至超过了12亿,并且这个系统,比windows、安卓、iOS们更有想象力,因为它是一个大一统的系统,可以用在手机、PC、平板、汽车、…

2025-09-30

苹果推送iOS 26.0.1更新,iPhone 17系列Wi-Fi、相机等问题获修复
苹果表示,iOS 26.0.1 修复了少数 iPhone 在升级到 iOS 26系统后无法接入蜂窝网络的问题。但小编认为大可不必折腾,因为苹果预计将在一周内推送 iOS 26.1 Beta 2,该版本会包…

2025-09-30

昇腾大EP方案发力六大行业,打通AI大模型商业落地“最后一公里”
从以上昇腾大EP的行业实践与发展逻辑中,可清晰看到中国AI产业的差异化发展路径,即在单卡算力与全球顶尖水平存在差距、企业AI投资预算相对有限的约束下,中国产业界通过“技术垂直整合+行业场景深耕”的组合策略,…

2025-09-30

光学腔中的“蝴蝶效应”:湖南师大团队解锁光测量新路径
光学腔的重要性不仅体现在其对光的控制能力,更在于其在精密测量、量子通信和量子计算等领域的广泛应用。临界点是系统发生相变的关键时刻,科学家们通过单光子和双光子驱动,发现这一临界点的光响应对腔体固有的非谐性极为敏…

2025-09-30