智源：FlagOS完成DeepSeekV4八款芯片Day0 适配

4月24日，智源研究院宣布，其牵头研发的FlagOS已在DeepSeek发布新一代模型当日完成“Day0”适配，实现DeepSeek-V4-Flash在8款以上AI芯片上的全量部署，包括海光、沐曦、华为昇腾、摩尔线程（FP8）、昆仑芯、平头哥真武、天数、英伟达（FP8）等等主流国产芯片，同时推进旗舰模型V4-Pro的多芯迁移，后续将开源。

此次适配围绕DeepSeek-V4-Flash（284B参数、MoE架构）展开。该模型采用混合专家（MoE）架构，总参数量284B，激活参数仅13B，支持100万token上下文长度，并引入混合注意力机制、流形约束超连接（mHC）和Muon优化器，在推理与训练效率上进一步提升。

技术层面，FlagOS实现三项关键突破：

一是通过FlagGems算子库完成全链路算子替代，摆脱对CUDA及NVIDIA私有库依赖，实现“一次开发、多芯运行”；

二是针对模型o-group结构设计独立张量并行策略，突破传统单机8卡限制，使模型可运行在32GB/64GB显存的主流国产芯片集群；

三是完成从“FP4+FP8混合精度”到FP8/BF16的转换路径，使原本依赖高端GPU的模型可在现有主流硬件上稳定运行。

据悉，DeepSeek-V4-Flash的三重突破，依托的是FlagOS 2.0统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层，全链路为大模型跨芯适配提供技术支撑。

性能方面，据介绍，经GPQA_Diamond、AIME等权威评测集验证，FlagOS适配后的DeepSeek-V4-Flash，在语言理解、复杂推理、代码生成、数学计算等核心能力上，与CUDA原生版本对齐，可放心应用于金融、教育、政企服务、代码开发等场景，无需担心适配导致业务效果折损。

注：测试结果仅用于对迁移前（Nvidia-Origin）和迁移后（-FlagOS）版本的互相对齐验证，并不代表DeepSeek模型的官方性能，DeepSeek模型的官方性能以DeepSeek官方公布数据为准。

在部署层面，FlagOS提供标准化Docker镜像和一键加速方案，开发者无需额外适配即可完成多芯部署。其统一编译器FlagTree和发布工具FlagRelease已支持10余家芯片厂商、70+ 模型实例。（袁宁）