OpenClaw人人养虾:vLLM 本地部署

张开发
2026/4/7 5:50:51 15 分钟阅读

分享文章

OpenClaw人人养虾:vLLM 本地部署
vLLM 是一个高性能的 LLM 推理Inference引擎支持 PagedAttention 等优化技术可以在本地 GPU 上高效运行大模型。安装 vLLMpip 安装pip install vllmDocker 安装推荐docker run --gpus all -p 8000:8000 \ vllm/vllm-openai:latest \ --model Qwen/Qwen2.5-14B-Instruct启动 vLLM 服务# 启动 OpenAI 兼容的 API 服务 vllm serve Qwen/Qwen2.5-14B-Instruct \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1常用启动参数参数说明--model模型名称或路径--host监听地址--port监听端口--tensor-parallel-sizeGPU 并行数--max-model-len最大上下文长度--quantization量化方式awq, gptq 等配置 OpenClawvLLM 提供 OpenAI 兼容 API可以直接作为自定义 OpenAI 提供商使用// ~/.openclaw/config.json { models: { providers: { vllm: { baseUrl: http://localhost:8000/v1, apiKey: not-needed } } } }openclaw models default set vllm/Qwen/Qwen2.5-14B-Instruct推荐模型模型显存需求说明Qwen/Qwen2.5-7B-Instruct16 GB中文优秀Qwen/Qwen2.5-14B-Instruct28 GB中文最佳平衡meta-llama/Llama-3.1-8B-Instruct16 GB通用能力好deepseek-ai/DeepSeek-V3多 GPU推理能力强性能优化量化加速# AWQ 量化显存需求降低约 50% vllm serve Qwen/Qwen2.5-14B-Instruct-AWQ \ --quantization awq多 GPU 并行# 使用 2 块 GPU 并行推理 vllm serve meta-llama/Llama-3.1-70B-Instruct \ --tensor-parallel-size 2故障排查CUDA 内存不足尝试更小的模型或量化版本减小--max-model-len使用多 GPU 并行服务启动失败确认已安装 CUDA 驱动检查 GPU 是否可用nvidia-smi确认模型已下载完成OpenClaw 无法连接确认 vLLM 服务正在运行检查baseUrl端口是否正确《DeepSeek高效数据分析从数据清洗到行业案例》聚焦DeepSeek在数据分析领域的高效应用是系统讲解其从数据处理到可视化全流程的实用指南。作者结合多年职场实战经验不仅深入拆解DeepSeek数据分析的核心功能——涵盖数据采集、清洗、预处理、探索分析、建模回归、聚类、时间序列等及模型评估更通过金融量化数据分析、电商平台数据分析等真实行业案例搭配报告撰写技巧提供独到见解与落地建议。助力职场人在激烈竞争中凭借先进技能突破瓶颈实现职业进阶开启发展新篇。

更多文章