营口市网站建设_网站建设公司_ASP.NET_seo优化-平顶山市网站建设公司

Ubuntu系统部署Qwen3-0.6B全过程，新手照着做就行

1. 前言：为什么选择在Ubuntu上部署Qwen3-0.6B？

如果你是AI大模型的初学者，想快速体验通义千问系列中最轻量级的开源模型之一——Qwen3-0.6B，那这篇文章就是为你准备的。我们不讲复杂的理论，只聚焦一件事：在Ubuntu系统上，从零开始完整部署这个模型，并能通过代码调用它生成内容。

Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B到235B不等。其中Qwen3-0.6B是最小的版本，非常适合个人开发者、学习者或资源有限的设备进行本地测试与开发。

本文将带你一步步完成：

环境准备
模型获取
服务启动
Python调用
常见问题解决

整个过程无需深度技术背景，只要你会基本的Linux命令操作，就能顺利完成。

2. 准备工作：检查你的系统环境

在开始之前，请确保你的Ubuntu系统满足以下最低要求：

2.1 硬件与系统要求

项目	推荐配置
操作系统	Ubuntu 20.04 / 22.04 / 24.04（本文以24.04为例）
内存	至少8GB（推荐16GB以上）
显卡	NVIDIA GPU（显存≥8GB）
CUDA支持	支持CUDA 12.x
Python版本	3.8 ~ 3.11

提示：虽然Qwen3-0.6B可以在CPU上运行，但推理速度会非常慢。强烈建议使用NVIDIA显卡+GPU加速。

2.2 安装必要依赖

打开终端，依次执行以下命令安装基础工具：

# 更新软件包列表 sudo apt update # 安装Python3及pip sudo apt install python3 python3-pip python3-venv -y # 安装NVIDIA驱动和CUDA（若未安装） # 可参考官方文档或使用nvidia-driver自动安装 sudo ubuntu-drivers autoinstall

安装完成后重启系统，然后验证CUDA是否可用：

nvidia-smi

如果能看到GPU信息，说明驱动已正确安装。

3. 获取Qwen3-0.6B模型文件

目前Qwen3系列模型可以通过Hugging Face或ModelScope魔搭社区下载。

3.1 使用ModelScope下载（推荐国内用户）

先安装modelscope库：

pip install modelscope

然后在Python中下载模型：

from modelscope.hub.snapshot_download import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B') print(model_dir)

该命令会自动将模型下载到本地缓存目录，通常路径为：

~/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B

记下这个路径，后续启动服务时需要用到。

4. 部署模型服务：使用vLLM启动API接口

vLLM 是一个高性能的大语言模型推理框架，支持PagedAttention、高吞吐、低延迟，并且兼容OpenAI API协议，非常适合用来部署像Qwen3这样的模型。

4.1 创建虚拟环境（推荐）

避免依赖冲突，建议创建独立的Python虚拟环境：

python3 -m venv qwen-env source qwen-env/bin/activate

4.2 安装vLLM

# 升级pip pip install --upgrade pip # 安装vLLM（支持CUDA 12.x） pip install vllm

注意：如果你的CUDA版本是11.8，请使用pip install vllm[cu118]

4.3 启动Qwen3-0.6B服务

运行以下命令启动模型服务：

VLLM_USE_V1=0 vllm serve ~/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B \ --port 8000 \ --max-model-len 6384 \ --gpu-memory-utilization 0.9

参数说明：

参数	作用
`VLLM_USE_V1=0`	强制使用旧版API结构，确保兼容性
`--port 8000`	指定HTTP服务端口为8000
`--max-model-len 6384`	设置最大上下文长度
`--gpu-memory-utilization 0.9`	控制GPU内存利用率，防止OOM

启动成功后，你会看到类似输出：

INFO: Started server process [PID] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000

此时模型服务已在本地http://localhost:8000运行。

5. 调用模型：使用LangChain进行交互

现在我们可以用Python代码来调用这个模型了。这里以LangChain为例，展示如何发送请求并接收响应。

5.1 安装LangChain相关库

pip install langchain-openai

5.2 编写调用代码

创建一个Python脚本call_qwen.py：

from langchain_openai import ChatOpenAI import os # 初始化Chat模型 chat_model = ChatOpenAI( model="Qwen-0.6B", temperature=0.5, base_url="http://localhost:8000/v1", # 注意：这里是本地服务地址 api_key="EMPTY", # vLLM不需要真实API密钥 extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, ) # 发起对话 response = chat_model.invoke("你是谁？") print(response.content)

关键参数解释：

base_url: 必须指向你本地运行的服务地址，格式为http://localhost:8000/v1
api_key="EMPTY": vLLM默认接受空密钥
extra_body: 可启用“思维链”模式，让模型展示推理过程
streaming=True: 开启流式输出，实时返回生成结果

运行脚本：

python call_qwen.py

你应该能看到模型返回类似这样的回答：

我是通义千问3，由阿里云研发的语言模型，可以回答问题、创作文字、表达观点等。

6. 常见问题与解决方案

6.1 启动时报错：`CUDA out of memory`

原因：显存不足，尤其是当显存小于8GB时容易发生。

解决方法：

添加参数降低显存占用：
```
--gpu-memory-utilization 0.7
```
或尝试量化版本（如AWQ、GPTQ），但需另行下载量化模型。

6.2 调用失败：`Model not found`

当你用curl或其他方式调用时，返回错误：

{"message":"The model `Qwen-0.6B` does not exist."}

原因：vLLM注册的模型名称是模型路径本身，而不是别名。

解决方法：查看实际注册的模型名：

curl http://localhost:8000/v1/models

返回结果可能显示模型名为：

{ "data": [ { "id": "/home/ubuntu/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B" } ] }

因此你在调用时必须使用完整路径作为model字段值：

chat_model = ChatOpenAI( model="/home/ubuntu/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B", ... )

6.3 报错：`Connection refused`或无法访问8000端口

可能原因：

服务未正常启动
防火墙阻止了端口
绑定IP不是0.0.0.0

解决方法：启动时显式指定host：

vllm serve ~/.cache/modelscope/hub/models/Qwen/Qwen3-0.6B \ --host 0.0.0.0 \ --port 8000

然后可通过局域网其他设备访问：http://你的IP:8000

7. 扩展应用：你可以用它做什么？

部署完成后，Qwen3-0.6B虽然体积小，但仍具备不错的语言理解与生成能力。以下是几个实用场景：

7.1 构建本地智能助手

写周报、邮件草稿
解释技术概念
辅助编程问答

7.2 教学与实验平台

学习大模型推理机制
测试Prompt Engineering技巧
对比不同温度、top_p对输出的影响

7.3 轻量级客服机器人原型

结合Flask或FastAPI，可快速搭建一个基于Web的问答界面。

示例思路：

from flask import Flask, request, jsonify app = Flask(__name__) @app.route('/ask', methods=['POST']) def ask(): question = request.json.get('question') response = chat_model.invoke(question) return jsonify({'answer': response.content})

8. 总结

本文详细介绍了如何在Ubuntu系统上部署Qwen3-0.6B大语言模型，涵盖了从环境准备、模型下载、vLLM服务启动到LangChain调用的全流程。整个过程对新手友好，只要按照步骤操作，基本都能一次成功。

回顾关键步骤：

确认系统环境（Ubuntu + NVIDIA GPU + CUDA）
安装Python虚拟环境和vLLM
下载Qwen3-0.6B模型（推荐ModelScope）
使用vllm serve命令启动API服务
用LangChain调用模型并获取响应
解决常见问题（显存不足、模型找不到等）

Qwen3-0.6B作为一个轻量级但功能完整的开源模型，非常适合入门者练手、教学演示或嵌入小型项目中。随着你对它的熟悉，还可以进一步尝试：

更换prompt模板优化输出
接入Web前端实现可视化交互
尝试更强大的Qwen3-7B或Qwen3-72B版本

动手实践是最好的学习方式，现在就去试试吧！

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

营口市网站建设_网站建设公司_ASP.NET_seo优化

Ubuntu系统部署Qwen3-0.6B全过程，新手照着做就行

1. 前言：为什么选择在Ubuntu上部署Qwen3-0.6B？

2. 准备工作：检查你的系统环境

2.1 硬件与系统要求

2.2 安装必要依赖

3. 获取Qwen3-0.6B模型文件

3.1 使用ModelScope下载（推荐国内用户）

4. 部署模型服务：使用vLLM启动API接口

4.1 创建虚拟环境（推荐）

4.2 安装vLLM

4.3 启动Qwen3-0.6B服务

参数说明：

5. 调用模型：使用LangChain进行交互

5.1 安装LangChain相关库

5.2 编写调用代码

关键参数解释：

6. 常见问题与解决方案

6.1 启动时报错：`CUDA out of memory`

6.2 调用失败：`Model not found`

6.3 报错：`Connection refused`或无法访问8000端口

7. 扩展应用：你可以用它做什么？

7.1 构建本地智能助手

7.2 教学与实验平台

7.3 轻量级客服机器人原型

8. 总结

回顾关键步骤：

热门文章

文章分类

标签云

需要专业的网站建设服务？

营口市网站建设_网站建设公司_ASP.NET_seo优化

Ubuntu系统部署Qwen3-0.6B全过程，新手照着做就行

1. 前言：为什么选择在Ubuntu上部署Qwen3-0.6B？

2. 准备工作：检查你的系统环境

2.1 硬件与系统要求

2.2 安装必要依赖

3. 获取Qwen3-0.6B模型文件

3.1 使用ModelScope下载（推荐国内用户）

4. 部署模型服务：使用vLLM启动API接口

4.1 创建虚拟环境（推荐）

4.2 安装vLLM

4.3 启动Qwen3-0.6B服务

参数说明：

5. 调用模型：使用LangChain进行交互

5.1 安装LangChain相关库

5.2 编写调用代码

关键参数解释：

6. 常见问题与解决方案

6.1 启动时报错：CUDA out of memory

6.2 调用失败：Model not found

6.3 报错：Connection refused或无法访问8000端口

7. 扩展应用：你可以用它做什么？

7.1 构建本地智能助手

7.2 教学与实验平台

7.3 轻量级客服机器人原型

8. 总结

回顾关键步骤：

热门文章

文章分类

标签云

相关文章

终极Android投屏神器：QtScrcpy完整使用指南

Qwen2-VL-7B-Instruct-AWQ实战指南：从零到精通的多模态AI部署

终极指南：如何彻底解决DeepEP分布式训练中的首调延迟问题

需要专业的网站建设服务？

6.1 启动时报错：`CUDA out of memory`

6.2 调用失败：`Model not found`

6.3 报错：`Connection refused`或无法访问8000端口