前言
2025年了,应该没有企业还没有构建自己的企业知识库吧!!!
我相信,自今年年初DeepSeek爆火,紧随其后MCP降低应用开发难度,构建企业级知识库,早就从可选项变成了必选项。
毕竟,一旦企业人员规模超过20人,如何让信息高效流动就成了大问题:部门有分工、人员有流动、业务有更替,但历史文档散落各处。
于是,销售不清楚最新的财务报销规则,A组的设计师,找不到B组类似项目的历史素材底稿;新来的员工一天之内接受财务、人力、部门主管、销售、设计、IT五拨人培训,貌似什么都到位了,最后后期执行起来,才发现什么都没记住……
而构建一个企业级知识库,不仅能让新员工入职后不懵逼,也能让老员工之间的信息更高效流通。
但是,作为企业内部IT,这是不是你在开发内部知识库系统时候的常态:
安装这个依赖包又报错?
CUDA版本不兼容是什么意思?
为什么内存总是不够用?
300行代码是怎么报出400个错的?
更重要的是,好不容易搞定用Cursor AI编程来帮自己解决一些问题了,结果14天的体验期后,Cursor表示:设备码已锁,请升级到pro版本继续使用。
不过,问题不大!
相信我,看完这套Cherry Studio+Milvus-MCP-Server教程,没有Cursor也能让你十分钟搭建企业级知识库,从此远离深夜报错。并且一举解决向量检索开发门槛高、技术复杂、部署困难等痛点,快速搭建稳定高效的智能问答系统。
最重要的是,非技术背景用户也能轻松上手!
01
实现原理简介
在深入实操前,让我们先了解这套方案的核心工作原理:
系统架构概览:
- Cherry Studio:提供用户友好的界面和AI交互能力
- MCP-Server-Milvus:作为中间层,负责把用户的请求转换成Milvus能理解的指令,简化操作流程
- Milvus:高性能向量数据库,负责实际的向量存储和检索
- MCP:连接前端和数据库的桥梁,让复杂的技术变得简单易用
02
开始安装
环境准备说明
本教程不含Python3和Nodejs安装展示,请自行按照官方手册进行配置。
Python3官网:https://www.python.org/
Nodejs官网:https://nodejs.org/zh-cn
CherryStudio官网:https://docs.cherry-ai.com/
1.安装Milvus
Milvus 是由Zilliz全球首款开源向量数据库产品,能够处理数百万乃至数十亿级的向量数据,在Github取得3w+star数量。基于开源 Milvus ,Zilliz还构建了商业化向量数据库产品 Zilliz Cloud,这是一款全托管的向量数据库服务,通过采用云原生设计理念,在易用性、成本效益和安全性上实现了全面提升。
1.1 部署Milvus环境要求
参考Milvus官网:https://milvus.io/docs/prerequisite-docker.md
必要条件:
软件要求统: docker、docker-compose
内存: 至少16GB
硬盘: 至少100GB
1.2下载部署文件
[root@Milvus ~]# wget https://github.com/milvus-io/milvus/releases/download/v2.5.4/milvus-standalone-docker-compose.yml -O docker-compose.yml1.3 启动Milvus
[root@Milvus ~]# docker-compose up -d[root@Milvus ~]# docker ps -a1.4 下载mcp-milvus-server项目到本地
说明:指的是OS系统的本地目录,非miluvs服务器所在的本地。
[root@Milvus ~]# clone https://github.com/zillztech/mcp-sever-milvus.git1.5 记录clone仓库在本地目录路径
/Users/yinmin/Downloads/Milvus-mcp-server/mcp-server-milvus-main/src/mcp_server_milvus2.安装Cherry Studio
2.1 按需下载并安装
2.2 配置Cherry Studio
说明:本教程只使用到了模型服务和MCP服务器两个功能,其他功能可自行探索。
模型选择
说明:必须要选择带有函数调用的模型,添加时可以看到有扳手图标的即支持,本教程以阿里云百炼演示。
首先,登录阿里云百炼并点击创建API-KEY按钮
地址:https://bailian.console.aliyun.com/?tab=model#/api-key
选择默认业务空间
查看复制API-KEY
在Cherry Stuido配置API密钥并检查
说明:此处选择的是检测模型只是用于检查KEY是否正常可用状态
选择模型进行对话测试
3.MCP环境配置
说明:Cherry Studio 目前只使用内置的 uv 和 bun,不会复用系统中已经安装的 uv 和 bun。
3.1 安装方法一(推荐)
3.2 安装方法二
说明:可以将系统中的相对应命令使用软链接的方式链接到这里,如果没有对应目录,需要手动建立。也可以手动下载可执行文件放到这个目录下面:
Bun: https://github.com/oven-sh/bun/releases
UV: https://github.com/astral-sh/uv/releases
~/.cherrystudio/bin3.3 验证环境
说明:UV和BUN均为绿色即表示环境安装成功
3.4 添加和使用MCP
说明:添加milvus-mcp-server支持两种方式,分别是图形化界面及json配置文件。
miluvs-mcp-server参数说明:
1./PATH/TO/uv
替换uv可执行命令的路径
2.–directory
替换刚才clone下来的项目的完整路径
3.–milvus-uri
替换部署的milvus的服务地址
{ "mcpServers": { "milvus": { "command": "/PATH/TO/uv", "args": [ "--directory", "/path/to/mcp-server-milvus/src/mcp_server_milvus", "run", "server.py", "--milvus-uri", "http://127.0.0.1:19530" ] } } }3.4.1 点击添加MCP服务器
说明:包管理员可根据自身网络环境自行选择,保存后稍等几分钟即可完成MCP服务器添加。
4.测试效果
4.1 配置模型并打开MCP服务
4.2 测试对话
场景一:
请使用MCP工具milvus 帮我查询数据库中的集合有多少?场景二:
请使用mcp工具milvus 创建一个新的collections名字是milvus并创建schema请使用mcp工具milvus,查询刚才创建的新的Cooolctions所有信息03
写在最后
通过本教程介绍的方案,我们大幅简化了配置过程。这不仅使AI应用开发更加平民化,也为构建真正实用的本地知识库应用铺平了道路。
技术的价值在于解决实际问题,希望这套高效的向量检索方案能够帮助更多开发者和用户构建出更智能、更高效的AI应用。
无论您是经验丰富的开发者,还是刚刚接触AI应用的新手,这套方案都能为您提供显著的效率提升和更好的用户体验。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。