日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

發布時間:2025/5/22 编程问答 21 如意码农
生活随笔 收集整理的這篇文章主要介紹了 45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天凌晨,阿里通義團隊正式發布了 Qwen3,涵蓋六款 Dense 模型(0.6B、1.7B、4B、8B、14B、32B)和兩款 MoE 模型(30B-A3B 和 235B-A22B)。其中的旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中,與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比,表現出了強大的競爭力。小型 MoE 模型 Qwen3-30B-A3B 的激活參數是 QwQ-32B 的 10%,但表現更勝一籌,由于激活參數少,推理速度更快。甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。

GPUStack 在上周發布了 v0.6 版本,內置支持了 Qwen3。其中 NVIDIA 支持 vLLM 和 llama-box 運行,AMD、Apple Silicon、昇騰、海光、摩爾線程支持 llama-box 運行。今天一早,社區群的各位小伙伴已經開始在各種嘗試 Qwen3,我們也帶來一篇挑戰 45 分鐘從零搭建私有 MaaS 平臺和生產級的 Qwen3 模型服務的文章,快速搭建和體驗 Qwen3 模型。

GPUStack 是一個100%開源的模型服務平臺,支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇騰、海光、摩爾線程等 GPU 構建異構 GPU 集群,支持 LLM、多模態、Embedding、Reranker、圖像生成、Speech-to-Text 和 Text-to-Speech 模型,支持 vLLM、MindIE、llama-box基于 llama.cpp 與 stable-diffusion.cpp)等多種推理引擎與推理引擎多版本并行,支持資源自動調度分配、模型故障自動恢復、多機分布式推理、混合異構推理、推理請求負載均衡、資源與模型監控指標觀測、國產化支持、用戶管理與 API 認證授權等各種企業級特性,提供 OpenAI 兼容 API 無縫接入 Dify、RAGFlow、FastGPT、MaxKB 等各種上層應用框架,是企業建設模型服務平臺的理想選擇。

本篇文章將介紹在一節課 45 分鐘內(包括安裝和模型下載)搭建 GPUStack 模型服務平臺并通過 GPUStack 運行生產級的 Qwen3 模型服務。

計時開始:

前置準備

以下操作環境為一臺阿里云 ECS 云主機,操作系統為 Ubuntu 22.04,GPU 為 NVIDIA A10,操作依賴良好的網絡條件。

其他操作系統的安裝參考每個章節的文檔鏈接。

驗證當前環境的 NVIDIA GPU 硬件:

lspci | grep -i nvidia

驗證系統已安裝 GCC:

gcc --version

安裝 NVIDIA 驅動

參考:https://developer.nvidia.com/datacenter-driver-downloads

為當前內核安裝內核頭文件和開發包:

sudo apt-get update && sudo apt-get install linux-headers-$(uname -r)

安裝 cuda-keyring 包:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb

安裝 NVIDIA 驅動:

sudo apt-get update && sudo apt-get install nvidia-open -y

重啟系統:

sudo reboot

重新登錄并檢查 nvidia-smi 命令可用:

nvidia-smi

耗時:3m

安裝 Docker Engine

參考:https://docs.docker.com/engine/install/ubuntu/

執行以下命令卸載所有沖突的包:

for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done

設置 Docker 的 apt 倉庫:

# Add Docker's official GPG key:
sudo apt-get update
sudo apt-get install ca-certificates curl -y sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc # Add the repository to Apt sources:
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
$(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update

安裝 Docker:

sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y

檢查 docker 命令可用:

sudo docker info

耗時:1m

安裝 NVIDIA Container Toolkit

參考:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

配置 NVIDIA Container Toolkit 的生產倉庫:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

安裝 NVIDIA Container Toolkit:

sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

使用 nvidia-ctk 命令配置容器運行時:

sudo nvidia-ctk runtime configure --runtime=docker

檢查 daemon.json 文件的配置:

vim /etc/docker/daemon.json

加入 "exec-opts": ["native.cgroupdriver=cgroupfs"] 配置,避免NVIDIA Container Toolkit 的 Failed to initialize NVML: Unknown Error 容器掉卡問題(參考:https://docs.gpustack.ai/latest/installation/nvidia-cuda/online-installation/#prerequisites_1):

{
"runtimes": {
"nvidia": {
"args": [],
"path": "nvidia-container-runtime"
}
},
"exec-opts": ["native.cgroupdriver=cgroupfs"]
}

重啟 Docker daemon:

sudo systemctl restart docker

檢查 NVIDIA Container Runtime 配置是否生效:

docker info | grep -i runtime

耗時:1.5m

安裝 GPUStack

參考:https://docs.gpustack.ai/latest/installation/nvidia-cuda/online-installation/

通過 Docker 安裝 GPUStack:

docker run -d --name gpustack \
--restart=unless-stopped \
--gpus all \
--network=host \
--ipc=host \
-v gpustack-data:/var/lib/gpustack \
swr.cn-north-9.myhuaweicloud.com/gpustack/gpustack:v0.6.0

耗時:20m40s

檢查服務啟動:

docker logs -f gpustack

耗時:20s

使用以下命令查看登錄密碼:

docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password

在瀏覽器訪問 GPUStack( http://YOUR_HOST_IP )以用戶名 admin 和密碼登錄。設置密碼后,登錄進 GPUStack,查看識別到的 GPU 資源:

GPUStack 支持添加更多的 Worker 節點構建 GPU 集群,本文章不需要該部分,省略,有需要的參考上方的 GPUStack 官方安裝文檔。

部署 Qwen3

訪問 模型 菜單,選擇部署模型 - ModelScope,在 ModelScope 中搜索 Qwen 官方的 Qwen3 模型倉庫,我們的 GPU 是 NVIDIA A10,24G顯存。這里我們部署號稱能匹敵 Qwen2.5-72B-Instruct 性能的 Qwen3-4B 模型:

考慮需要部署生產級的 Qwen3 模型服務,因此使用 vLLM 后端來運行 Qwen3 模型:

等待模型下載:

耗時:14m

等待模型啟動完成:

確認模型正常 Running 后,在試驗場測試模型的生成效果:

問題測試:

挑戰完成,記錄時間:

總耗時:43m25s,其中包括:

  • 容器鏡像下載耗時約 20m
  • 模型文件下載耗時約 14m
  • 安裝配置步驟耗時約 20m

按照以上步驟,我們已經完成在 45 分鐘內搭建 GPUStack 模型服務平臺并運行生產級的 Qwen3 模型服務。

目前 GPUStack 的 vLLM 后端和 llama-box 后端均已支持運行 Qwen3,在 Linux、Windows 和 macOS 上均可運行,歡迎體驗。

旗艦模型 Qwen3-235B-A22B 由于參數量比較大,還在下載中,針對部分用戶單機顯存資源無法運行的場景,我們將在下篇文章帶來通過多機分布式運行 Qwen3-235B-A22B 模型的教程。

通過以上步驟,我們已經演示了如何快速在 45 分鐘內搭建 GPUStack 模型服務平臺并通過 GPUStack 運行生產級的 Qwen3 模型服務,GPUStack 是一個100%開源的模型服務平臺,目前用戶遍布全球上百個國家,GPUStack 的目標是打造業界最好用的模型推理平臺,歡迎使用與反饋。如果你有任何建議或想法,歡迎隨時向我們提出,我們會認真評估并持續改進。

參與開源

想要了解更多關于 GPUStack 的信息,可以訪問我們的倉庫地址:https://github.com/gpustack/gpustack。如果你對 GPUStack 有任何建議,歡迎提交 GitHub issue。在體驗 GPUStack 或提交 issue 之前,請在我們的 GitHub 倉庫上點亮 Star ?關注我們,也非常歡迎大家一起參與到這個開源項目中!

如果覺得對你有幫助,歡迎點贊轉發關注

總結

以上是生活随笔為你收集整理的45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。