Vllm 能跑在 amd ryzen ai 5 340上吗？

· 12 days ago

vllm 能跑在 amd ryzen ai 5 340上吗？

能跑，但需要 Linux + 最新 ROCm nightly / Docker + 可能小修小补。不像 Instinct MI300 或 RX 7900 那么丝滑，但 2026 年初已经从“基本不行”进步到“社区很多人日常用”。如果你是 Toronto 地区、有 Ubuntu/Fedora 经验，建议先拉 AMD 的 gfx1151 Docker 镜像试跑一个 7B 模型，看看能不能起来。

是的，AMD Ryzen AI 5 340（Krakan Point / Strix Point 低功耗版）上的集成显卡 Radeon 840M（gfx1151 架构，RDNA 3.5）可以跑 vLLM，但在 2026 年 1 月的现状下，还不算“开箱即用、非常稳定”的程度，需要一些折腾。

当前支持情况总结（2026 年 1 月）

项目	现状（Ryzen AI 5 340 / Radeon 840M）	说明 / 难度
ROCm 官方支持	部分支持（从 ROCm 6.4.4 开始实验性 → ROCm 7.x 逐步成熟）	AMD TheRock 项目有 nightly builds
vLLM 官方 wheel / pip	还没有直接支持 gfx1151（主要是 Instinct + 高端 Radeon）	需要从源码编译或用社区/AMD nightly
Docker 镜像可用性	有针对 gfx1151 的实验镜像（AMD Radeon/Ryzen 专用）	最推荐的入门方式
实际能跑模型	能跑（7B–14B Q4/Q5 模型比较现实）	更大模型看内存（建议 ≥32GB 系统 RAM）
速度预期	中等（7B Q4 ≈ 20–45 t/s，视量化 & context）	比纯 CPU 快很多，比 RTX 4060 慢一些
主要坑	需要最新 ROCm nightly + 特定 PYTORCH_ROCM_ARCH=gfx1151	编译环境、驱动兼容、内核 patch 等

推荐尝试路径（从简单到复杂）

最简单：用 AMD 提供的 Docker 镜像（推荐先试这个）

参考 AMD ROCm 文档里的 “vLLM Linux Docker Image — Use ROCm on Radeon and Ryzen”
拉取支持 gfx1150/gfx1151 的镜像（2025 下半年后已有）

示例命令类似：

docker run --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 8G \
-v ~/.cache/huggingface:/root/.cache/huggingface \
rocm/vllm-rocm:gfx1151-latest \
python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-7B-Instruct-GPTQ

如果镜像 tag 没更新，用 AMD TheRock nightly 或社区 fork。

从源码编译 vLLM（更灵活，但费时）
- 装最新 ROCm 7.x nightly（TheRock 项目：https://rocm.nightlies.amd.com）
- 设置环境：
```
export PYTORCH_ROCM_ARCH=gfx1151
export HSA_OVERRIDE_GFX_VERSION=11.5.1  # 有时需要这个 workaround
```
- 然后 git clone vllm → pip install -e .[rocm]
- 社区很多人（Framework Laptop、Reddit LocalLLaMA）已经成功在类似 Strix Point 上跑通。
备选方案（如果 vLLM 卡住）
- llama.cpp（Vulkan / ROCm 后端）：对 Ryzen AI 300/400 系列支持更好、更稳定，很多预编译 binary 已支持 gfx1151。
- Ollama：如果只是本地聊天，Ollama + ROCm 也逐渐可用。
- 纯 NPU：目前 vLLM 不走 NPU（50 TOPS XDNA2），主要是 iGPU 或 CPU。

一句话结论

能跑，但需要 Linux + 最新 ROCm nightly / Docker + 可能小修小补。
不像 Instinct MI300 或 RX 7900 那么丝滑，但 2026 年初已经从“基本不行”进步到“社区很多人日常用”。如果你是 Toronto 地区、有 Ubuntu/Fedora 经验，建议先拉 AMD 的 gfx1151 Docker 镜像试跑一个 7B 模型，看看能不能起来。