4月24日,智源研究院宣布,其牵头研发的FlagOS已在DeepSeek发布新一代模型当日完成“Day0”适配,实现DeepSeek-V4-Flash在8款以上AI芯片上的全量部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等等主流国产芯片,同时推进旗舰模型V4-Pro的多芯迁移,后续将开源。
此次适配围绕DeepSeek-V4-Flash(284B参数、MoE架构)展开。该模型采用混合专家(MoE)架构,总参数量284B,激活参数仅13B,支持100万token上下文长度,并引入混合注意力机制、流形约束超连接(mHC)和Muon优化器,在推理与训练效率上进一步提升。
技术层面,FlagOS实现三项关键突破:
一是通过FlagGems算子库完成全链路算子替代,摆脱对CUDA及NVIDIA私有库依赖,实现“一次开发、多芯运行”;
二是针对模型o-group结构设计独立张量并行策略,突破传统单机8卡限制,使模型可运行在32GB/64GB显存的主流国产芯片集群;
三是完成从“FP4+FP8混合精度”到FP8/BF16的转换路径,使原本依赖高端GPU的模型可在现有主流硬件上稳定运行。
据悉,DeepSeek-V4-Flash的三重突破,依托的是FlagOS 2.0统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层,全链路为大模型跨芯适配提供技术支撑。
性能方面,据介绍,经GPQA_Diamond、AIME等权威评测集验证,FlagOS适配后的DeepSeek-V4-Flash,在语言理解、复杂推理、代码生成、数学计算等核心能力上,与CUDA原生版本对齐,可放心应用于金融、教育、政企服务、代码开发等场景,无需担心适配导致业务效果折损。
注:测试结果仅用于对迁移前(Nvidia-Origin)和迁移后(-FlagOS)版本的互相对齐验证,并不代表DeepSeek模型的官方性能,DeepSeek模型的官方性能以DeepSeek官方公布数据为准。
在部署层面,FlagOS提供标准化Docker镜像和一键加速方案,开发者无需额外适配即可完成多芯部署。其统一编译器FlagTree和发布工具FlagRelease已支持10余家芯片厂商、70+ 模型实例。(袁宁)