本地LLM部署工具(写给小白的LLM工具选型系列:第一篇)

张开发
2026/4/4 1:01:40 15 分钟阅读
本地LLM部署工具(写给小白的LLM工具选型系列:第一篇)
诸神缄默不语-个人技术博文与视频目录本地部署LLM的优势一次性消费不用按token用量付费网费和电费当然也能算钱但是跟某些大模型的报价比起来就可以不算钱了显卡也其实会损耗的但是我们先假设显卡是只用买一次的吧……安全你的数据不会上传到别人的服务器里。这对很多保密要求严格的公司和行业很重要断网也可以使用大模型。比如说如果你在笔记本电脑上部署了一个LLM的话虽然一般消费级显卡能部署的模型不会太大那你就可以在坐飞机的时候也用LLM来进行学习和工作了在坐火车的时候也不用担心信号不好了。我之前看好像东航还是南航出了机上WiFi。但是要额外花钱买好我们公司不会报销这个的我们领导不会让我在飞机上突然开始参会的你可以部署一些神奇的大模型输出不会因为企业的风控机制而说到一半突然撤回。也不用在乎API厂商的速率限制了现在推理的速度完全取决于你自己的硬件和网络了。也不用在乎某些公司一夜之间突然把你一直在用的模型版本换了……对于某些聊出感情的用户来说这样能保证你的赛博老友一直装在你自己的电脑里对于学术研究人员来说这也意味着你的可复现性会更强。虽然大模型本身的随机性即使temperature为0时也仍然不能保证绝对可复现也不用担心某些公司突然把你的号封了本地部署LLM的劣势需要有硬件和网络、安全防护和电力支持普通用户可能没有所需的资源。这里的硬件主要指的就是AI显卡即用于神经网络计算的处理器主要是GPU也有用TPU、NPU或者CPU的。大家都知道现在国际上GPU还是比较贵的。而国产显卡在能力上还是需要追赶国际先进水平的。而且现在的大模型基本上都是默认支持NVIDIA系的cuda工具如果换成别的显卡一方面是需要重新适配另一方面可能会出现效果的下降。而且国产显卡也贵。当然国产显卡也在努力让我们期待吧你能够部署的大模型的尺寸也受限于你的硬件配置。如果你的GPU太小了你就不能部署很大的模型。网络和安全防护支持主要是考虑到一般人家里不会专门组服务器对外暴露公网很危险如果是内网环境要做内网穿透的话也很麻烦所以如果你想在外面访问你家里部署的大模型还是比较麻烦的如果不麻烦就要冒一点安全风险。一般人只有消费级显卡就无法部署各种“满血版”大模型即使通过量化、压缩、优化效果依然很可能不如云端大模型。很多大模型厂商的前沿最强模型依然没有开源只能通过API调用来使用。本文主要考虑的是在你自己的电脑上运行LLM推理服务但是下文会介绍的llama.cpp、vllm等工具事实上在企业级生产服务中也很常用。功能不仅局限于个人消费级使用。另外本文介绍的是从“别人发布的开源大模型”到“在本地部署起LLM推理服务并进行调用”的这个过程。文中除了用GUI界面的LM Studio和Jan之外都主要通过命令行来部署服务。事实上还有很多像cherry studio、ChatBot乃至于OpenClaw之类的工具可以用来将你在本地部署的LLM服务当然也可以调用云端的大模型API来放到一个对话框中让你能够通过图形界面比如一个像ChatGPT官网那样的来与LLM对话甚至访问你的知识库、文件系统帮你完成工作。类似这样的更多任务请待后续博文分解。本系列不会更新微调、预训练、强化学习相关内容因为 (1) 我觉得需要这些内容的读者应该不太算是小白了吧。(2) 问就是无脑建议选llama-factory本篇也会持续更新的文章目录一、工具速查表二、选型必读工具优劣势深度对比 Ollama——开发者最爱的“LLM 版 Docker”⚡ llama.cpp——低配设备的“性能魔法师” vLLM——生产环境吞吐王者 LM Studio——非技术用户的“可视化助手” 其他值得关注的工具三、实战操作指南 场景一用 Ollama 快速启动一个本地 API 服务⚙️ 场景二在低配设备上通过 llama.cpp 运行模型 场景三用 vLLM 搭建高并发生产级推理服务️ 场景四通过 LM Studio 零代码体验本地模型四、选型决策树五、性能基准参考写在最后一、工具速查表工具一句话定位最佳场景上手难度Ollama一行命令部署LLM开发者快速集成与原型开发⭐ 极低llama.cpp低配设备的LLM极致压缩极致性能调优与边缘设备部署⭐⭐⭐ 中等vLLM生产级服务引擎高并发 API 服务⭐⭐⭐ 中等LM Studio开箱即用的桌面 GUI模型探索与可视化交互⭐ 极低TensorRT-LLMNVIDIA 官方的极致性能推理库大规模生产环境 纯 NVIDIA 集群⭐⭐⭐⭐ 较难TGIHugging Face 生产级服务工具包企业级部署但官方建议转向 vLLM/SGLang⭐⭐⭐ 中等SGLang高性能服务框架擅长多轮对话与复杂推理多轮对话、结构化生成、长上下文场景⭐⭐⭐ 中等Jan跨平台桌面应用日常使用与简单对话⭐ 极低LocalAI容器化 OpenAI 替代Docker 环境集成⭐⭐ 较低GPT4All轻量桌面聊天应用普通用户的本地聊天需求⭐ 极低MLXApple 官方框架Mac 极致优化⭐⭐⭐ 中等vLLM文档https://docs.vllm.ai/en/stable/getting_started/quickstart/二、选型必读工具优劣势深度对比 Ollama——开发者最爱的“LLM 版 Docker”核心定位以最少的配置成本跑起来。Ollama 把模型管理抽象成了极简的 CLI一条命令就能完成下载、运行、API 暴露全过程。优点体验极致简单ollama pull llama3即可拉取模型ollama run直接对话几乎没有学习曲线。内置 OpenAI 兼容 API原生提供http://localhost:11434/v1端点LangChain、Semantic Kernel 等框架开箱即用。跨平台 Apple Silicon 加速在 Mac、Windows、Linux 上都能跑且对 M 系列芯片做了深度优化。生态活跃GitHub 超 12 万 star内置模型市场支持 200 预量化模型。缺点生产级性能不足学术测评显示Ollama 在吞吐量和首 token 时延TTFT上明显落后于 vLLM 等专用推理引擎。高级功能受限多 GPU 支持和微调选项比较基础不适合需要精细调优的场景。模型库局限主要支持 Ollama 官方模型库不如直接浏览 Hugging Face 丰富。一句话总结如果你是开发者想快速把 LLM 集成到自己的应用里做原型验证Ollama 就是最佳答案。但请别把它当生产级服务引擎用。⚡ llama.cpp——低配设备的“性能魔法师”核心定位一个纯 C/C 实现的 LLM 推理引擎通过量化技术把大模型“压缩”到可以在普通 CPU 上运行的程度。优点资源占用极致低量化后 7B 模型仅需 4GB 内存树莓派 5 都能跑 Mistral-7B。多后端加速支持 AVX2/NEON 指令集CPU 提速 3-5 倍、CUDA、Metal、OpenCL 等多种加速后端。极高自由度命令行参数精细可控可以灵活分配 CPU/GPU 负载支持 20 种模型架构。生态基石地位GitHub 近 7.5 万 starOllama、LM Studio 等工具底层都依赖它。缺点纯命令行操作没有 GUI需要熟悉 CLI 和编译流程对非技术用户不友好。上手成本高从源码编译到模型格式转换需要一定的技术功底。文档较分散官方文档偏技术性很多最佳实践需要从社区摸索。一句话总结如果你手上只有老旧设备、树莓派或工控机llama.cpp 就是你的“救星”。但它的目标是极致性能不是易用性。 vLLM——生产环境吞吐王者核心定位专为高并发 LLM 服务设计的企业级推理引擎由 UC Berkeley 开发Anyscale、IBM、Databricks 等公司在生产环境使用。优点吞吐量惊人通过独创的 PagedAttention 技术减少 60-80% 显存浪费相比传统框架吞吐量提升 14-24 倍。连续批处理动态混合新旧请求GPU 利用率可达 90%不留闲置周期。OpenAI 兼容 API应用代码无需改动即可切换后端。企业级特性支持张量并行、流水线并行、推测解码和多种量化方案。缺点只支持Linux系统显存消耗大vLLM 本身需要较多的 GPU 显存开销在边缘设备上部署有压力。不支持苹果M系显卡非交互场景优化学术研究显示vLLM 更擅长高吞吐批处理但在单用户低延迟场景下吞吐表现反而可能不如 TGI 等竞品。一句话总结需要为成百上千用户提供 API 服务vLLM 是当前工业界的事实标准。个人开发者请绕道。 LM Studio——非技术用户的“可视化助手”核心定位一款带有精美 GUI 的桌面应用让你像使用普通软件一样浏览、下载、运行本地 LLM。优点零命令行全部操作通过图形界面完成非技术人员也能轻松上手。模型发现友好内置 Hugging Face 模型浏览清晰展示模型大小、量化级别和性能预估不用猜哪个 GGUF 文件该下。实时参数调优对话过程中可以随时调整 temperature、top-p 等参数立即看到效果。内置 API 服务提供 OpenAI 兼容的本地 API可被 LangChain 等框架调用。缺点闭源代码不开放对需要审计合规的团队是个隐患。资源占用偏高GUI 本身占用约 500MB 内存且一次只能运行一个模型。自动化集成弱纯 GUI 操作很难融入 CI/CD 或自动化脚本。一句话总结如果你是产品经理、设计师或者就想在 Mac 上随意玩玩各种模型LM Studio 是最舒服的选择。 其他值得关注的工具TensorRT-LLMNVIDIA 官方极致性能引擎缺点是上手门槛较高且仅支持 NVIDIA GPU。适合追求极致性能、有专业运维团队且完全基于 NVIDIA 基础设施的大规模生产场景。TGIHugging Face 开发的生产级服务工具包在生产环境为 Hugging Chat 和 Inference API 提供后端支撑。重要提醒TGI 目前已进入维护模式Hugging Face 官方推荐新项目转向 vLLM 和 SGLang本地场景则推荐 llama.cpp 或 MLX。如果你的项目已基于 TGI 稳定运行可以继续使用如果是新项目建议优先评估 vLLM 或 SGLang。SGLang综合吞吐量表现属于第一梯队特别适合多轮对话、复杂推理和长上下文生成任务。Jan跨平台桌面应用开源且界面简洁类似 LM Studio 的开源替代版。LocalAI容器优先的设计哲学通过 Docker 提供 OpenAI 兼容 API适合与现有容器化基础设施集成。GPT4All轻量桌面聊天应用主打普通用户日常使用对硬件要求极低。MLXApple 官方为 M 系列芯片设计的机器学习框架学术研究显示其在 Apple Silicon 上持续生成吞吐量最高但生态成熟度仍有待提升。三、实战操作指南 场景一用 Ollama 快速启动一个本地 API 服务这是“从零到 ChatGPT”最快的方式。安装macOSbrewinstallollamaWindows/Linux 用户请前往 https://ollama.com 下载安装包。拉取并运行模型# 拉取模型自动下载最新版本ollama pull llama4# 直接对话ollama run llama4用 Python 实现一个快速排序# 如果运行ollama run llama4将开始交互式对话# 启动 API 服务默认后台运行ollama serve通过 API 调用curlhttp://localhost:11434/api/generate-d{ model: llama4, prompt: 为什么本地运行 LLM 更安全, stream: false }Ollama 默认暴露 OpenAI 兼容端点http://localhost:11434/v1你的 LangChain 或 AutoGen 代码可以直接对接。这里的参数格式就跟OpenAI的接口一致。模型管理ollama list# 查看已下载模型ollama show llama4# 查看模型的参数、格式、尺寸ollamarmllama4# 删除模型可以通过Modelfile自定义模型行为就像LLM版的Dockerfile# Save as Modelfile.codereview FROM llama4 SYSTEM You are an expert code reviewer. Analyze code for bugs, security issues, and performance problems. Be concise and actionable. Format your response as a numbered list of findings. PARAMETER temperature 0.2 PARAMETER num_ctx 8192 PARAMETER top_p 0.9# Create a named model from the Modelfileollama create codereview-fModelfile.codereview# Run itollama run codereview⚙️ 场景二在低配设备上通过 llama.cpp 运行模型即便你手头只有一台老旧笔记本llama.cpp 也能让它跑起大模型。编译安装gitclone https://github.com/ggerganov/llama.cppcdllama.cppmake-j# CPU 版本简单粗暴# 如果有 NVIDIA GPU启用 CUDAmakeLLAMA_CUDA1-j获取量化模型GGUF 格式# 从 Hugging Face 下载预量化模型# 以 Qwen2.5-7B 的 Q4_K_M 量化版本为例huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF qwen2.5-7b-instruct-q4_k_m.gguf\--local-dir ./models/运行推理# 基础推理./main-m./models/qwen2.5-7b-instruct-q4_k_m.gguf\-p解释一下量子计算的基本原理\-n256# 启用 GPU 加速假设有 NVIDIA 显卡./main-m./models/model.Q4_K_M.gguf\-ngl32\# 将 32 层加载到 GPU-p写一首关于编程的短诗\-n512\-t8# 使用 8 个 CPU 线程# 启动一个简易聊天服务器./server-m./models/model.Q4_K_M.gguf--host0.0.0.0--port8080量化等级选择建议Q2极致省内存质量损失大→ Q4平衡选择推荐→ Q8质量高内存占用翻倍。通常 Q4_K_M 是最佳权衡点。 场景三用 vLLM 搭建高并发生产级推理服务当你需要服务成百上千用户时vLLM 是最靠谱的选择。vLLM官方推荐用uv安装可以参考https://docs.vllm.ai/en/stable/getting_started/installation/离线批处理推理fromvllmimportLLM,SamplingParams prompts[Hello, my name is,The president of the United States is,The capital of France is,The future of AI is,]sampling_paramsSamplingParams(temperature0.8,top_p0.95)llmLLM(modelfacebook/opt-125m)outputsllm.generate(prompts,sampling_params)foroutputinoutputs:promptoutput.prompt generated_textoutput.outputs[0].textprint(fPrompt:{prompt!r}, Generated text:{generated_text!r})需要注意llm.generate()函数不会自动应用LLM本身的提示词模版。但是你可以用llm.chat()函数然后传OpenAI格式的参数命令行方式启动 OpenAI 兼容 API 服务huggingface模型vllm serve meta-llama/Llama-4-Scout-17B-16E-Instruct\--quantizationawq\--max-model-len8192\--port8000启动后你的应用可以直接用 OpenAI SDK 访问本地服务fromopenaiimportOpenAI clientOpenAI(base_urlhttp://localhost:8000/v1,api_keyyour-api-key)responseclient.chat.completions.create(modelmeta-llama/Llama-2-7b-chat-hf,messages[{role:user,content:你好}])print(response.choices[0].message.content)️ 场景四通过 LM Studio 零代码体验本地模型这是最简单的方式全程不需要敲任何代码。步骤 1安装访问 https://lmstudio.ai下载对应平台的安装包并安装。步骤 2搜索模型打开 LM Studio点击左侧的“Search”标签页在 Hugging Face 模型库中搜索你感兴趣的模型如Llama-3.2-3BLM Studio 会自动显示模型大小和量化选项一目了然。步骤 3下载并加载选择好量化版本后点击“Download”下载完成后回到“Chat”界面从下拉菜单选择模型并点击“Load Model”。步骤 4开始对话在聊天框输入文字即可右侧可以实时调整 temperature、top_p 等参数。步骤 5暴露 API 服务如果需要让其他程序调用这个模型在 LM Studio 中点击“Local Inference Server”选项卡启动服务然后用 OpenAI SDK 指向http://localhost:1234/v1即可。四、选型决策树根据你的实际需求这里有一条清晰的决策路径开始 │ ├─ 你是开发者想快速集成到自己的应用 │ └─ ✅ Ollama最简单原型首选 │ ├─ 你需要服务大量并发用户50 同时请求 │ └─ ✅ vLLM生产级吞吐之王 │ └─ 你需要处理多轮对话、结构化输出或复杂推理任务 │ └─ ✅ SGLang兼顾性能和灵活性 │ ├─ 你的设备很老旧树莓派/老旧PC/无独显 │ └─ ✅ llama.cpp极致的资源优化 │ ├─ 你是非技术用户想直观体验各种模型 │ └─ ✅ LM Studio 或 Jan │ ├─ 你用 Mac且追求极致性能 │ └─ ✅ MLXApple 官方优化 │ └─ 你的项目已经在用 Docker希望无缝集成 │ └─ ✅ LocalAI容器优先 │ └─ 你的业务完全依赖 NVIDIA GPU 且追求极致吞吐量 │ └─ ✅ TensorRT‑LLM但需要专门的工程团队支持 │五、性能基准参考根据 2026 年的公开评测数据在 A100/H100 上测试 Llama-70B 类模型引擎吞吐量 (token/s)上手难度适用场景vLLM1000-2000中等高并发生产服务TensorRT-LLM2500-4000困难NVIDIA 极致优化TGI800-1500中等企业级部署SGLang很高中等长文本生成llama.cpp80-100*中等通用本地推理Ollama较低极低开发与原型*注llama.cpp 数据来自 7B 模型在 M2 Ultra 上的测试CPU/Metal与 GPU 服务器数据不可直接比较。⚠️重要提醒吞吐量不是唯一指标。vLLM 在高并发场景下表现最佳但在单用户低延迟场景中可能不如 TGI。llama.cpp 的吞吐量数字看似较低但它在 CPU 和边缘设备上的表现无可替代——关键是找准自己的场景。数据来源EVAL #001: The Great LLM Inference Engine Showdown — vLLM vs TGI vs TensorRT-LLM vs SGLang vs llama.cpp vs Ollama • Buttondown写在最后本地运行 LLM 已经从“能不能跑”进化到了“怎么跑更好”。今天的工具生态已经足够成熟无论你的技术背景如何、硬件条件怎样都能找到适合自己的解决方案。不过一个务实的提醒本地 8B 参数模型在复杂推理任务上依然无法匹敌 GPT-4o 或 Claude 3.5 Sonnet。如果你的业务依赖顶级的推理能力云服务仍然不可替代。反之如果你注重数据隐私、希望控制长期成本、或者需要离线运行能力本地部署就是当前的最优解。选择合适的工具让你的数据留在你的机器上让 AI 能力为你所用而不是成为另一笔持续的支出。

更多文章