
当大模型训练进入"EB级数据+万卡集群"时代,算力狂飙背后的隐忧正渐渐浮现——数据供给能力不足正在拖慢算力效能。在"后AI时代",存算协同的深度,正决定着算力价值释放的上限,存储系统正从"配角"变为"主角",但传统存储架构,在大模型训练场景下正陷入多重困境:受限于协议壁垒,文件、对象、块存储割裂的资源池严重影响存储扩展,数据爆炸式增长与存储线性扩展瓶颈形成尖锐矛盾;大模型训练中,海量小文件预处理需要高IOPS,TB级大文件Checkpoint读写依赖高带宽,存储系统陷入难以兼得的两难困境;存储系统故障还可能造成算力浪费:存储系统每小时宕机将导致千卡集群损失超百万,而传统存储故障检测与自愈耗时以分钟计,远无法满足AI“7×24小时不中断”刚需。
底层架构重构
为大模型训推提供AI就绪的数据能力
面对AI数据供给的核心痛点,紫光股份旗下新华三集团推出的新一代高性能分布式存储Polaris X20000,跳出传统存储的"修修补补",通过底层技术重构与全场景适配,重新定义了AI数据底座的"极致标准",为大模型训推提供从数据就绪到价值变现的全链路支撑。
l“效能释放”的底层革命:搭载新华三自研傲擎存储平台,采用全NVMe闪存架构与端到端RDMA协议,从物理层消除数据流转瓶颈。创新的"大IO直通+小IO聚合"技术,将硬件性能利用率提升至95%以上;大文件场景支持TB级读写带宽,满足千卡GPU集群并行加载需求;小文件场景通过元数据免锁设计与分布式缓存加速,IOPS提升至百万级,延迟压缩至微秒级。
“无损互通“的协同之力:构建全域统一存储资源池,通过协议融合技术实现HDFS、S3、NFS、POSIX等协议无损互通。用户无需格式转换,即可让训练框架、预处理工具、推理服务直接访问同一数据源,数据流动效率提升3倍以上。
“主动智能”的算力保障:全冗余硬件设计,配合毫秒级故障检测与自愈算法,业务恢复时间提升10倍。内置的AI能力,大幅提升故障预测与运维优化效率,实现容量预测、数据智能分级、性能自适应调优、快速问题定位等智能体验。
在最新一期的MLPerf Storage v2.0基准测试中,Polaris X20000在同时支持320个GPU,并保持GPU利用率90%以上的苛刻条件下,以单节点158.92 GB/s、集群总带宽突破476.752GB/s的优异成绩,登顶高性能RoCE AI存储解决方案榜首。这一测试成绩充分印证了Polaris X20000在高性能存储与AI训练真实负载下,可以有效避免算力空转,显著缩短模型训练时间,有效保护用户算力投资。
为AI场景而生
算存网协同调优提升整体智算效率
在智算中心这一支撑AI大模型训练、高性能计算等前沿应用的算力枢纽场景,底层数据平台的架构协同与性能优化,成为决定智算效能提升的关键一环。新华三Polaris X20000凭借领先的产品性能,充分结合智算场景,以开放的生态,为百行百业AI数据就绪构建起坚实的底座。在基于Spine-Leaf无损网络和RoCE高速互联的智算中心场景下,Polaris X20000作为底层高性能数据平台,一体化协同“算、存、网”架构,确保从模型加载到Checkpoint写入,再到高并发推理完整链路下,数据性能始终保持最优,并且显著优化了Token生成速率与响应时延。
目前,新华三Polaris X20000凭借AI/HPC场景的深度适配、全面的生态协同能力,已在多个国家级算力中心和算力运营项目中实现大规模部署,并持续推进在政府、科研、交通、智能制造等行业的商用落地。比如,通过部署Polaris X20000,新华三为某国家级大型算力场项目构建可用容量超70PB的大规模存储集群,一套存储系统即可支持超百卡GPU集群的高并发计算要求;助力尖端科学研究,新华三为中国科学技术大学建设存储容量超40PB、吞吐量近TB/s的统一存储底座,助力提速生命科学等前沿领域的科研探索进程;提升算力运营效率,新华三与并行科技携手构建高性能智算中心,以高效数据调用能力提升整体算力资源使用效率。
据相关机构预测,2025年中国先进存力中心市场规模将突破2000亿元,年增长率超45%,其中AI存力占比将达60%。未来,随着大模型训推领域的持续突破,AI对数据底座的要求将愈发苛刻。以新华三Polaris X20000为代表的“新一代数据基础设施”,正以技术创新打破数据流动的边界,推动算力价值释放从“量变”走向“质变”,让AI大模型的训练周期更短、推理响应更快、产业落地更深,为百行百业构建高效、智能、可靠的AI产业生态注入源源不断的“数据动能”。
海量资讯、精准解读,尽在新浪财经APP
可靠股票配资网提示:文章来自网络,不代表本站观点。