· 12 days ago
能跑,但需要 Linux + 最新 ROCm nightly / Docker + 可能小修小补。 不像 Instinct MI300 或 RX 7900 那么丝滑,但 2026 年初已经从“基本不行”进步到“社区很多人日常用”。如果你是 Toronto 地区、有 Ubuntu/Fedora 经验,建议先拉 AMD 的 gfx1151 Docker 镜像试跑一个 7B 模型,看看能不能起来。
是的,AMD Ryzen AI 5 340(Krakan Point / Strix Point 低功耗版)上的集成显卡 Radeon 840M(gfx1151 架构,RDNA 3.5)可以跑 vLLM,但在 2026 年 1 月的现状下,还不算“开箱即用、非常稳定”的程度,需要一些折腾。
项目 | 现状(Ryzen AI 5 340 / Radeon 840M) | 说明 / 难度 |
|---|---|---|
ROCm 官方支持 | 部分支持(从 ROCm 6.4.4 开始实验性 → ROCm 7.x 逐步成熟) | AMD TheRock 项目有 nightly builds |
vLLM 官方 wheel / pip | 还没有直接支持 gfx1151(主要是 Instinct + 高端 Radeon) | 需要从源码编译或用社区/AMD nightly |
Docker 镜像可用性 | 有针对 gfx1151 的实验镜像(AMD Radeon/Ryzen 专用) | 最推荐的入门方式 |
实际能跑模型 | 能跑(7B–14B Q4/Q5 模型比较现实) | 更大模型看内存(建议 ≥32GB 系统 RAM) |
速度预期 | 中等(7B Q4 ≈ 20–45 t/s,视量化 & context) | 比纯 CPU 快很多,比 RTX 4060 慢一些 |
主要坑 | 需要最新 ROCm nightly + 特定 PYTORCH_ROCM_ARCH=gfx1151 | 编译环境、驱动兼容、内核 patch 等 |
docker run --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 8G \
-v ~/.cache/huggingface:/root/.cache/huggingface \
rocm/vllm-rocm:gfx1151-latest \
python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen2.5-7B-Instruct-GPTQ
export PYTORCH_ROCM_ARCH=gfx1151
export HSA_OVERRIDE_GFX_VERSION=11.5.1 # 有时需要这个 workaround
能跑,但需要 Linux + 最新 ROCm nightly / Docker + 可能小修小补。
不像 Instinct MI300 或 RX 7900 那么丝滑,但 2026 年初已经从“基本不行”进步到“社区很多人日常用”。如果你是 Toronto 地区、有 Ubuntu/Fedora 经验,建议先拉 AMD 的 gfx1151 Docker 镜像试跑一个 7B 模型,看看能不能起来。
有具体报错或你用的发行版/内存大小,再贴出来我可以帮你更针对性地 troubleshoot~
Share with your followers.
Reply