
AMD数据中心GPU 助力 DeepSeek-V3携手 SGLang共创性AI
近期,由深度求索(DeepSeek)发布的最 新生成式AI大模型DeepSeek-V3火爆海内外科技圈。AMD数据中心GPU 也第 一时间实现了对DeepSeek-V3 模型的支持,且集成了SGLang 优化以提供最 佳性能。 DeepSeek-V3 是一个强大的开源混合专家MoE(Mixture-of-Experts)模型,共有6710 亿个参数,也是目前开源社区最 受欢迎的多模态模型之一,其创新模型架构打破了高效低成本训练的记录,令业界称赞。DeepSeek-V3不仅沿用了V2中的多头潜在注意力机制(Multi-head Latent Attention, MLA)及DeepSeek MoE 架构,还开创了一种无辅助损失的负载平衡策略,并设定了多token 预测训练目标以提高性能。DeepSeek-V3 允许开发人员使用高级模型,充分利用内存以同时处理文本和视觉数据,为开发人员提供更多功能。目前,DeepSeek-V3 在各个主流基准测试中比肩世界顶 级开源及闭源模型,如GPT-4o,Claude 3.5 Sonnet, Qwen2.5-72B等,更展现出超强的长文本处理、数学及代码编程能力,堪称惊艳。 AMDROCmTM开源软件和DeepSeek-V3 DeepSeek-V3的问世正在悄然改变多模态大模型的格局。以往多模态大模型的训练或推理往往需要巨大的计算资源和内存带宽来处理文本和视觉数据,AMD 数据中心GPU加速器在这些领域提供了卓越的性能。 AMD ROCm™ 开源软件和AMD 数据中心GPU 加速器在DeepSeek-V3 开发的关键阶段发挥了重要作用,AMD 的可扩展基础设施使开发人员能够构建强大的视觉推理和理解应用。 采用FP8低精度训练是DeepSeek-V3的一大亮点,AMD ROCm 对FP8的支持显著改善了大模型的计算过程,尤其是推理性能的提升。通过对FP8的支持,ROCm能够更高效地解决内存瓶颈和与更多读写格式相关的高延迟问题,使更大的模型或批次能够在相同的硬件限制内处理;此外,相较于FP16,FP8精度计算可以显著减少数据传输和计算的延迟,从而实现更高效地训练和推理。AMD ROCm 在其生态系统中扩展了对FP8 的支持,能够满足用户对从框架到计算库全面性能和效率提升的需求。 如何在AMD数据中心GPU 上使用SGLang 进行推理 开发者可访问https://github.com/sgl-project/sglang/releases获取SGLang对DeepSeek-V3 模型推理的完整支持。 创建ROCm Docker 镜像 1.启动Docker 容器: docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \\ --device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \\ --group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.1.post4-rocm620 2.开始使用: 1)登录Hugging Face: 使用CLI 登录Hugging Face: huggingface-cli login 2)启动SGLang 服务器: 在本地机器上启动一个服务器来托管DeepSeekV3 FP8 模型: python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code 3)生成文本: 在服务器运行后,打开另一个终端并发送请求生成文本: curl http://localhost:30000/generate \ -H Content-Type: application/json \ -d { text: Once upon a time,, sampling_params: { max_new_tokens: 16, temperature: 0 } } 3.性能基准测试: 单批次吞吐量和延迟: python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code 服务器: python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8 精度:0.952 无效:0.000 注意:由于DeepSeek-v3原生为FP8 训练,且目前仅提供FP8 权重,如果用户需要BF16 权重进行实验,可以使用提供的转换脚本进行转换。以下是将FP8 权重转换为BF16 的示例: cd inference python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights AMD + DeepSeek构建开源AI新格局:Day 0 上线即支持 随着DeepSeek-V3 的发布,AMD 将继续借助ROCm开源生态与DeepSeek推动创新。AMD AI开源策略将确保开发者能够从Day-0 开始使用基于AMD数据中心GPU 的DeepSeek模型,通过更广泛的GPU 硬件选择和开放的ROCm™软件栈,以同时实现优化性能及可扩展性。AMD 将继续借助CK-tile 内核优化等方式实现DeepSeek模型推理性能提升。同时,AMD 致力于与更多开源模型提供商合作,加速AI 创新,并使开发人员能够创建下一代AI 体验。 更多资源: 了解更多 AMD ROCm™开源软件栈,包括可用于AI 和 HPC 解决方案的模型、工具、编译器、库和运行时:https://www.amd.com/en/products/software/rocm.html 了解更多AMD Instinct™ 加速器:https://www.amd.com/en/products/accelerators/instinct.html 通过 Hugging Face 了解有关 DeepSeek-V3 的更多信息,包括其架构和性能基准:https://huggingface.co/deepseek-ai/DeepSeek-V3 访问DeepSeek 官方聊天平台,与 DeepSeek-V3 聊天互动:chat.deepseek.com 访问 DeepSeek兼容OpenAI API,以在 DeepSeek 平台上构建和集成您自己的应用程序:platform.deepseek.com