Qwen3.5-35B-AWQ-4bit开源镜像部署教程：vLLM+compressed-tensors稳定方案

张开发

• 2026/4/12 6:44:03 • 15 分钟阅读

分享文章

Qwen3.5-35B-AWQ-4bit开源镜像部署教程vLLMcompressed-tensors稳定方案1. 模型介绍Qwen3.5-35B-A3B-AWQ-4bit是一个面向视觉多模态理解的量化模型支持图片理解、图文问答、视觉描述等能力。这个模型特别适合需要分析图片内容、进行图文对话的应用场景。1.1 核心能力能力说明典型应用场景图片理解分析上传图片的内容商品识别、场景分析图文问答围绕图片进行多轮提问智能客服、教育辅导视觉描述生成图片的文字描述内容创作、无障碍服务中文输出支持中文问答交互本地化应用开发1.2 技术特点高效量化采用AWQ-4bit量化技术大幅降低显存需求多模态支持同时处理图像和文本输入稳定部署基于vLLMcompressed-tensors方案开箱即用提供完整的Web交互界面2. 环境准备2.1 硬件要求GPU配置至少2张24GB显存的GPU卡如NVIDIA RTX 3090内存建议64GB以上系统内存存储需要50GB以上可用空间2.2 软件依赖# 基础环境检查 nvidia-smi # 确认GPU驱动正常 docker --version # 确认Docker已安装 nvidia-docker --version # 确认NVIDIA Docker支持3. 部署步骤3.1 获取镜像# 拉取预构建镜像 docker pull csdn-mirror/qwen35-awq:latest3.2 启动容器# 启动容器注意替换your_api_key docker run -itd --gpus all \ -p 7860:7860 \ -e API_KEYyour_api_key \ --name qwen35-awq \ csdn-mirror/qwen35-awq:latest3.3 服务验证# 检查服务状态 docker exec -it qwen35-awq supervisorctl status # 预期输出示例 qwen35awq-backend RUNNING qwen35awq-web RUNNING4. 使用指南4.1 访问Web界面如果已配置公网访问直接打开分配的URL本地测试可通过SSH隧道访问ssh -L 7860:127.0.0.1:7860 your_usernameyour_server_ip然后在浏览器访问http://127.0.0.1:78604.2 基本操作流程上传图片点击上传按钮选择图片文件输入问题在对话框输入关于图片的问题获取回答模型会生成针对图片的回复4.3 使用示例测试图片上传一张包含多个水果的图片提问示例图片中有哪些水果香蕉在图片的什么位置这些水果可以做什么甜点5. 高级配置5.1 性能调优参数参数说明推荐值tensor-parallel-size张量并行数2max-model-len最大上下文长度4096enforce-eager禁用cudagraphtruedtype推理精度float165.2 服务管理命令# 重启后端服务 docker exec -it qwen35-awq supervisorctl restart qwen35awq-backend # 查看日志 docker exec -it qwen35-awq tail -f /root/workspace/qwen35awq-backend.log6. 常见问题解决6.1 服务启动失败症状Web页面无法打开排查步骤检查容器是否运行docker ps检查端口是否监听docker exec -it qwen35-awq ss -ltnp查看服务日志docker exec -it qwen35-awq supervisorctl tail qwen35awq-backend6.2 响应速度慢优化建议减小图片尺寸建议长边不超过1024px使用更简单明确的问题确保GPU利用率正常检查nvidia-smi6.3 显存不足解决方案确认使用双GPU卡检查tensor-parallel-size设置为2尝试减小max-model-len参数7. 最佳实践图片预处理确保图片清晰度高主体对象突出复杂场景可先裁剪重点区域提问技巧从整体描述开始这张图片展示了什么逐步深入细节左侧穿红衣服的人在做什么避免一次问多个问题性能优化保持会话围绕同一张图片长时间不用后首次查询会有预热时间批量处理时可考虑API调用方式8. 技术方案解析8.1 vLLMcompressed-tensors优势内存效率量化模型显存占用降低60%推理速度保持原始模型80%以上的推理速度稳定性避免原生Transformers的OOM问题8.2 量化技术细节AWQ算法激活感知的权重量化4bit精度每组权重使用4bit表示分组量化按通道分组保持精度9. 总结Qwen3.5-35B-AWQ-4bit模型通过量化技术和稳定的vLLMcompressed-tensors部署方案使得大模型多模态应用变得更加可行。本教程详细介绍了从环境准备到实际使用的完整流程帮助开发者快速搭建自己的图文对话系统。关键要点回顾必须使用双GPU卡部署Web界面开箱即用适合快速验证提问方式影响回答质量需要适当引导服务管理命令方便运维监控对于希望进一步探索的开发者可以尝试集成到现有应用系统开发自定义前端界面针对垂直领域进行微调获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Qwen3.5-35B-AWQ-4bit开源镜像部署教程：vLLM+compressed-tensors稳定方案

最新文章

Minio数据迁移避坑指南：如何用rclone避免常见错误

效果对比展示：Anything to RealCharacters如何将2.5D插画变成逼真真人照片？

IOFILE结构体的介绍与House of orange赶

ConvNeXt 系列改进：ConvNeXt 添加动态稀疏卷积（Dynamic Sparse Conv），实现推理加速与精度双赢

Windows系统Xmind免费版极简安装指南（新手友好版）

用eNSP模拟校园网毕设项目，从VLAN划分到防火墙策略的保姆级排错复盘

推荐文章

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南穆

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

现在不看就晚了：SITS2026结项报告中被删减的8页「AI临床偏差熔断机制」原始设计文档首次流出

如何构建高性能的消息队列系统

SITS2026圆桌闭门报告（仅限首批200名技术决策者）：AI原生研发的TCO重构公式与3个被90%CTO忽略的隐性回报维度

011、向量数据库入门：Embeddings原理与ChromaDB实战

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

大模型推理服务突遭越权调用？3步定位对齐策略绕过链，附可审计的RAG防护模板

技术速递｜oBeaver —— 一只可以在你本地机器上运行大语言模型的海狸 [特殊字符]

Kook Zimage真实幻想Turbo代码实例：Python调用API生成幻想人像

Qwen3-0.6B-FP8功能测评：思维模式切换，让对话更智能

别再为Console口抓狂！手把手教你用SecureCRT连接交换机（附USB转RJ45线选购指南）

HunyuanVideo-Foley赋能微信小程序：在线音效制作工具开发实战

前端用户行为分析

PyTorch 2.8镜像惊艳效果：SVD文生视频在RTX 4090D上运动连贯性实测

DeOldify图像上色服务案例展示：黑白照片秒变彩色艺术照

2025最权威的六大降重复率平台横评

墨语灵犀效果展示：英文科技论文摘要→典雅文言摘要的AI转译作品集

Wan2.2-I2V-A14B高性能部署：PyTorch 2.4+CUDA 12.4编译环境详解

Qwen3.5-35B-AWQ-4bit开源镜像部署教程：vLLM+compressed-tensors稳定方案

最新文章

Minio数据迁移避坑指南：如何用rclone避免常见错误

效果对比展示：Anything to RealCharacters如何将2.5D插画变成逼真真人照片？

IOFILE结构体的介绍与House of orange赶

ConvNeXt 系列改进：ConvNeXt 添加动态稀疏卷积（Dynamic Sparse Conv），实现推理加速与精度双赢

Windows系统Xmind免费版极简安装指南（新手友好版）

用eNSP模拟校园网毕设项目，从VLAN划分到防火墙策略的保姆级排错复盘

推荐文章

GPUStack 在华为昇腾 I A 服务器上的保姆级部署指南穆

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

现在不看就晚了：SITS2026结项报告中被删减的8页「AI临床偏差熔断机制」原始设计文档首次流出

如何构建高性能的消息队列系统

SITS2026圆桌闭门报告（仅限首批200名技术决策者）：AI原生研发的TCO重构公式与3个被90%CTO忽略的隐性回报维度

011、向量数据库入门：Embeddings原理与ChromaDB实战

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统