特写｜万卡时代：算得快，更要存得稳-中科曙光

当AI大模型参数规模迈入万亿级别，万卡级超集群已成为前沿AI研发与应用的核心载体。然而澎湃算力的背后，数据存算速度正成为关键瓶颈，存力的性能、扩展性与协同效率，将直接决定算力价值的最终释放。

面对万亿参数模型训练与推理需求，存力既要满足数十TB/s、亿级IOPS、亚ms级延迟的极致性能，更要实现存算深度协同。曙光存储以“存算网强协同”为核心思路，凭借超级隧道、AI数据工厂两大核心技术与全栈产品矩阵，推动从“存数据”向“喂数据”的存力范式革新。

▍超级隧道：极致性能的数据加速引擎

超级隧道技术是基于微控架构实现的端到端数据通路，通过零中断（摆脱OS干扰，时延极致稳定）、零竞争（资源隔离高效，并发无内耗）、零拷贝（数据直达目标，传输效率倍增)，实现极低时延与超高并发，适配AI超集群等高密度计算场景的需求。

该技术采用芯片、系统、AI应用三级协同设计，突破架构壁垒，让数据传输路径更短、效率更高。

芯片级：实现处理器、内存、高速网络与NVMe SSD的深度协同，打造多条数据直达通路；

系统级：通过均衡调度，将前端I/O精准分配至最优路径，避免资源浪费；

应用级：借助Burst Buffer与XDS技术，让数据直供GPU近侧存储，减少GPU空转，提升算力利用率。

基于三级协同，超级隧道技术可将2U24盘位NVMe全闪节点带宽提升5.5倍，万亿参数模型Checkpoint从分钟级缩至秒级；推理延迟降低76%，计算节点存储访问带宽提升4倍。针对AI场景更实现推理时延降低80%、训练速度提升4倍，万亿参数模型训练周期缩短60%以上。

超级隧道尤其匹配AI应用场景，可使推理时延降低80%，训练速度提升4倍，万亿参数模型训练周期压缩60%以上。

AI数据工厂打破存力与算力的物理边界，通过AI应用亲和、AI数据加速两大核心能力，让存力平台深度融入AI全业务流程，真正做到“以存代算、以存促算”，实现AI应用全流程加速。

AI应用亲和通过KV Cache offload、多层数据分级等技术，针对性优化推理环节，大幅提升用户使用体验；AI数据加速则在全球统一命名空间技术基础上，整合多类型存储资源，配合向量数据库优化、AI 算子加速库，实现高价值私域数据的token化自动生成，让推理应用更专业、更精准。

从数据清洗标注到模型训练、推理部署，AI数据工厂以更懂AI的存储能力，打通数据流转全链路，解决AI训练中的“数据饥饿”问题，让每一份数据都能高效转化为算力产出。

依托全栈自研技术与全国产芯片生态，曙光存储打造了覆盖集中式全闪、分布式全闪与混闪的完整产品矩阵，以极致性能和高可靠性，精准匹配智算集群发展过程中的多样化需求。

ParaStor F9000分布式全闪：以刷新世界纪录146%的成绩登顶IO500 10节点榜单，220GB/s单节点带宽、800万IOPS，可为十万卡集群提供数十TB/s访问带宽，是大规模智算集群性能核心。

FlashNexus集中式全闪：在被誉为“存储界奥斯卡”的SPC-1测试中，以3000万IOPS、0.202ms时延，刷新全球记录，性能提升30%，四控紧耦合架构，超2亿IOPS，满足极端性能需求。

分布式混闪S6000：4U74盘位高密设计，空间密度提升70%，兼顾性能与成本，成为EB级存力平台的理想选择。

从自主创新技术到高适配产品矩阵，曙光存储以“存算传紧耦合”架构破解高密算力下的数据吞吐、扩展与协同难题，不仅成为曙光scaleX万卡超集群的核心存力支撑，更彰显了中国存储技术在全球超高密度算力场景中的领先实力。