小七软同学

3FS

互联网 2025-03-10 20:40:47

3FS (Fire-Flyer File System) 是一款高性能的分布式文件系统,旨在解决 AI 训练和推理工作负载带来的挑战,利用现代 SSD 和 RDMA 网络提供共享存储层,简化分布式应用程序的开发。其核心优势在于高性能、强一致性和易用性,能够有效支持各种 AI 工作负载,包括数据准备、数据加载、检查点设置和推理缓存。

3FS 在 DeepSeek 的 V3 / R1 版本中得到广泛应用,涵盖了训练数据预处理、数据集加载、检查点保存 / 重新加载、嵌入向量搜索以及推理过程中的 KVCache 查找等关键环节。

3FS 文件系统整体的硬件设计如下图展示:

3FS 性能亮点

集群高吞吐:在 180 节点集群中,3FS 实现了高达 6.6 TiB/s 的聚合读取吞吐量。

基准测试优异:在 25 节点集群的 GraySort 基准测试中,3FS 达到了 3.66 TiB /min 的吞吐量。

单节点高性能:每个客户端节点的 KVCache 查找峰值吞吐量超过 40 GiB/s。

架构先进: 3FS 采用去中心化架构,并具备强一致性语义。