Qwen3.5-35B-AWQ-4bit开源镜像部署教程:vLLM+compressed-tensors稳定方案

张开发
2026/4/12 6:44:03 15 分钟阅读

分享文章

Qwen3.5-35B-AWQ-4bit开源镜像部署教程:vLLM+compressed-tensors稳定方案
Qwen3.5-35B-AWQ-4bit开源镜像部署教程vLLMcompressed-tensors稳定方案1. 模型介绍Qwen3.5-35B-A3B-AWQ-4bit是一个面向视觉多模态理解的量化模型支持图片理解、图文问答、视觉描述等能力。这个模型特别适合需要分析图片内容、进行图文对话的应用场景。1.1 核心能力能力说明典型应用场景图片理解分析上传图片的内容商品识别、场景分析图文问答围绕图片进行多轮提问智能客服、教育辅导视觉描述生成图片的文字描述内容创作、无障碍服务中文输出支持中文问答交互本地化应用开发1.2 技术特点高效量化采用AWQ-4bit量化技术大幅降低显存需求多模态支持同时处理图像和文本输入稳定部署基于vLLMcompressed-tensors方案开箱即用提供完整的Web交互界面2. 环境准备2.1 硬件要求GPU配置至少2张24GB显存的GPU卡如NVIDIA RTX 3090内存建议64GB以上系统内存存储需要50GB以上可用空间2.2 软件依赖# 基础环境检查 nvidia-smi # 确认GPU驱动正常 docker --version # 确认Docker已安装 nvidia-docker --version # 确认NVIDIA Docker支持3. 部署步骤3.1 获取镜像# 拉取预构建镜像 docker pull csdn-mirror/qwen35-awq:latest3.2 启动容器# 启动容器注意替换your_api_key docker run -itd --gpus all \ -p 7860:7860 \ -e API_KEYyour_api_key \ --name qwen35-awq \ csdn-mirror/qwen35-awq:latest3.3 服务验证# 检查服务状态 docker exec -it qwen35-awq supervisorctl status # 预期输出示例 qwen35awq-backend RUNNING qwen35awq-web RUNNING4. 使用指南4.1 访问Web界面如果已配置公网访问直接打开分配的URL本地测试可通过SSH隧道访问ssh -L 7860:127.0.0.1:7860 your_usernameyour_server_ip然后在浏览器访问http://127.0.0.1:78604.2 基本操作流程上传图片点击上传按钮选择图片文件输入问题在对话框输入关于图片的问题获取回答模型会生成针对图片的回复4.3 使用示例测试图片上传一张包含多个水果的图片提问示例图片中有哪些水果香蕉在图片的什么位置这些水果可以做什么甜点5. 高级配置5.1 性能调优参数参数说明推荐值tensor-parallel-size张量并行数2max-model-len最大上下文长度4096enforce-eager禁用cudagraphtruedtype推理精度float165.2 服务管理命令# 重启后端服务 docker exec -it qwen35-awq supervisorctl restart qwen35awq-backend # 查看日志 docker exec -it qwen35-awq tail -f /root/workspace/qwen35awq-backend.log6. 常见问题解决6.1 服务启动失败症状Web页面无法打开排查步骤检查容器是否运行docker ps检查端口是否监听docker exec -it qwen35-awq ss -ltnp查看服务日志docker exec -it qwen35-awq supervisorctl tail qwen35awq-backend6.2 响应速度慢优化建议减小图片尺寸建议长边不超过1024px使用更简单明确的问题确保GPU利用率正常检查nvidia-smi6.3 显存不足解决方案确认使用双GPU卡检查tensor-parallel-size设置为2尝试减小max-model-len参数7. 最佳实践图片预处理确保图片清晰度高主体对象突出复杂场景可先裁剪重点区域提问技巧从整体描述开始这张图片展示了什么逐步深入细节左侧穿红衣服的人在做什么避免一次问多个问题性能优化保持会话围绕同一张图片长时间不用后首次查询会有预热时间批量处理时可考虑API调用方式8. 技术方案解析8.1 vLLMcompressed-tensors优势内存效率量化模型显存占用降低60%推理速度保持原始模型80%以上的推理速度稳定性避免原生Transformers的OOM问题8.2 量化技术细节AWQ算法激活感知的权重量化4bit精度每组权重使用4bit表示分组量化按通道分组保持精度9. 总结Qwen3.5-35B-AWQ-4bit模型通过量化技术和稳定的vLLMcompressed-tensors部署方案使得大模型多模态应用变得更加可行。本教程详细介绍了从环境准备到实际使用的完整流程帮助开发者快速搭建自己的图文对话系统。关键要点回顾必须使用双GPU卡部署Web界面开箱即用适合快速验证提问方式影响回答质量需要适当引导服务管理命令方便运维监控对于希望进一步探索的开发者可以尝试集成到现有应用系统开发自定义前端界面针对垂直领域进行微调获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章