當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

發布時間：2025/5/22 编程问答 21 如意码农

生活随笔收集整理的這篇文章主要介紹了 45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天凌晨，阿里通義團隊正式發布了 Qwen3，涵蓋六款 Dense 模型（0.6B、1.7B、4B、8B、14B、32B）和兩款 MoE 模型（30B-A3B 和 235B-A22B）。其中的旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比，表現出了強大的競爭力。小型 MoE 模型 Qwen3-30B-A3B 的激活參數是 QwQ-32B 的 10%，但表現更勝一籌，由于激活參數少，推理速度更快。甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。

GPUStack 在上周發布了 v0.6 版本，內置支持了 Qwen3。其中 NVIDIA 支持 vLLM 和 llama-box 運行，AMD、Apple Silicon、昇騰、海光、摩爾線程支持 llama-box 運行。今天一早，社區群的各位小伙伴已經開始在各種嘗試 Qwen3，我們也帶來一篇挑戰 45 分鐘從零搭建私有 MaaS 平臺和生產級的 Qwen3 模型服務的文章，快速搭建和體驗 Qwen3 模型。

GPUStack 是一個100%開源的模型服務平臺，支持 Linux、Windows 和 macOS，支持 NVIDIA、AMD、Apple Silicon、昇騰、海光、摩爾線程等 GPU 構建異構 GPU 集群，支持 LLM、多模態、Embedding、Reranker、圖像生成、Speech-to-Text 和 Text-to-Speech 模型，支持 vLLM、MindIE、llama-box（基于 llama.cpp 與 stable-diffusion.cpp）等多種推理引擎與推理引擎多版本并行，支持資源自動調度分配、模型故障自動恢復、多機分布式推理、混合異構推理、推理請求負載均衡、資源與模型監控指標觀測、國產化支持、用戶管理與 API 認證授權等各種企業級特性，提供 OpenAI 兼容 API 無縫接入 Dify、RAGFlow、FastGPT、MaxKB 等各種上層應用框架，是企業建設模型服務平臺的理想選擇。

本篇文章將介紹在一節課 45 分鐘內（包括安裝和模型下載）搭建 GPUStack 模型服務平臺并通過 GPUStack 運行生產級的 Qwen3 模型服務。

計時開始：

前置準備

以下操作環境為一臺阿里云 ECS 云主機，操作系統為 Ubuntu 22.04，GPU 為 NVIDIA A10，操作依賴良好的網絡條件。

其他操作系統的安裝參考每個章節的文檔鏈接。

驗證當前環境的 NVIDIA GPU 硬件：

lspci | grep -i nvidia

驗證系統已安裝 GCC：

gcc --version

安裝 NVIDIA 驅動

參考：https://developer.nvidia.com/datacenter-driver-downloads

為當前內核安裝內核頭文件和開發包：

sudo apt-get update && sudo apt-get install linux-headers-$(uname -r)

安裝 cuda-keyring 包：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb

sudo dpkg -i cuda-keyring_1.1-1_all.deb

安裝 NVIDIA 驅動：

sudo apt-get update && sudo apt-get install nvidia-open -y

重啟系統：

sudo reboot

重新登錄并檢查 nvidia-smi 命令可用：

nvidia-smi

耗時：3m

安裝 Docker Engine

參考：https://docs.docker.com/engine/install/ubuntu/

執行以下命令卸載所有沖突的包：

for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done

設置 Docker 的 apt 倉庫：

# Add Docker's official GPG key:

sudo apt-get update

sudo apt-get install ca-certificates curl -y

sudo install -m 0755 -d /etc/apt/keyrings

sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc

sudo chmod a+r /etc/apt/keyrings/docker.asc

# Add the repository to Apt sources:

echo \

  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \

  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \

  sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

sudo apt-get update

安裝 Docker：

sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y

檢查 docker 命令可用：

sudo docker info

耗時：1m

安裝 NVIDIA Container Toolkit

參考：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

配置 NVIDIA Container Toolkit 的生產倉庫：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \

  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \

    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \

    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

安裝 NVIDIA Container Toolkit：

sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

使用 nvidia-ctk 命令配置容器運行時：

sudo nvidia-ctk runtime configure --runtime=docker

檢查 daemon.json 文件的配置：

vim /etc/docker/daemon.json

加入 "exec-opts": ["native.cgroupdriver=cgroupfs"] 配置，避免NVIDIA Container Toolkit 的 Failed to initialize NVML: Unknown Error 容器掉卡問題（參考：https://docs.gpustack.ai/latest/installation/nvidia-cuda/online-installation/#prerequisites_1）：

{

    "runtimes": {

        "nvidia": {

            "args": [],

            "path": "nvidia-container-runtime"

        }

    },

    "exec-opts": ["native.cgroupdriver=cgroupfs"]

}

重啟 Docker daemon：

sudo systemctl restart docker

檢查 NVIDIA Container Runtime 配置是否生效：

docker info | grep -i runtime

耗時：1.5m

安裝 GPUStack

參考：https://docs.gpustack.ai/latest/installation/nvidia-cuda/online-installation/

通過 Docker 安裝 GPUStack：

docker run -d --name gpustack \

    --restart=unless-stopped \

    --gpus all \

    --network=host \

    --ipc=host \

    -v gpustack-data:/var/lib/gpustack \

    swr.cn-north-9.myhuaweicloud.com/gpustack/gpustack:v0.6.0

耗時：20m40s

檢查服務啟動：

docker logs -f gpustack

耗時：20s

使用以下命令查看登錄密碼：

docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password

在瀏覽器訪問 GPUStack（ http://YOUR_HOST_IP ）以用戶名 admin 和密碼登錄。設置密碼后，登錄進 GPUStack，查看識別到的 GPU 資源：

GPUStack 支持添加更多的 Worker 節點構建 GPU 集群，本文章不需要該部分，省略，有需要的參考上方的 GPUStack 官方安裝文檔。

部署 Qwen3

訪問 模型 菜單，選擇部署模型 - ModelScope，在 ModelScope 中搜索 Qwen 官方的 Qwen3 模型倉庫，我們的 GPU 是 NVIDIA A10，24G顯存。這里我們部署號稱能匹敵 Qwen2.5-72B-Instruct 性能的 Qwen3-4B 模型：

考慮需要部署生產級的 Qwen3 模型服務，因此使用 vLLM 后端來運行 Qwen3 模型：

等待模型下載：

耗時：14m

等待模型啟動完成：

確認模型正常 Running 后，在試驗場測試模型的生成效果：

問題測試：

挑戰完成，記錄時間：

總耗時：43m25s，其中包括：

容器鏡像下載耗時約 20m
模型文件下載耗時約 14m
安裝配置步驟耗時約 20m

按照以上步驟，我們已經完成在 45 分鐘內搭建 GPUStack 模型服務平臺并運行生產級的 Qwen3 模型服務。

目前 GPUStack 的 vLLM 后端和 llama-box 后端均已支持運行 Qwen3，在 Linux、Windows 和 macOS 上均可運行，歡迎體驗。

旗艦模型 Qwen3-235B-A22B 由于參數量比較大，還在下載中，針對部分用戶單機顯存資源無法運行的場景，我們將在下篇文章帶來通過多機分布式運行 Qwen3-235B-A22B 模型的教程。

通過以上步驟，我們已經演示了如何快速在 45 分鐘內搭建 GPUStack 模型服務平臺并通過 GPUStack 運行生產級的 Qwen3 模型服務，GPUStack 是一個100%開源的模型服務平臺，目前用戶遍布全球上百個國家，GPUStack 的目標是打造業界最好用的模型推理平臺，歡迎使用與反饋。如果你有任何建議或想法，歡迎隨時向我們提出，我們會認真評估并持續改進。

參與開源

想要了解更多關于 GPUStack 的信息，可以訪問我們的倉庫地址：https://github.com/gpustack/gpustack。如果你對 GPUStack 有任何建議，歡迎提交 GitHub issue。在體驗 GPUStack 或提交 issue 之前，請在我們的 GitHub 倉庫上點亮 Star ?關注我們，也非常歡迎大家一起參與到這個開源項目中！

如果覺得對你有幫助，歡迎點贊、轉發、關注。

總結

以上是生活随笔為你收集整理的45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： codeup之C语言11.1 + C语言
下一篇：【经验】Python3｜输入多个整数（m