一、背景
知识库一般通过本场景的人工外呼获得专有知识,以及从其他场景的知识库迁移通用知识来人工构建的。
图1 知识库初始构建
初始构建的知识库一般包含三部分:相似问法、意图、标准话术(如图2所示);知识库在线上使用时,是将RAG召回的意图、相似问法、标准话术拼接到prompt中,由LLM生成相应的话术,所以知识库意图、相似问法、标准话术的映射关系是否准确尤为重要。
图2 相似问法、意图、标准话术的映射关系
示例:
相似问法:
你们帮我订阅这个路线需不需要收费,你说? 你先说订阅这个收不收费。意图:询问订阅路线是否收费
标准话术:
自动订阅是不收费的。 不收费的。 自动订阅是完全免费的,不收您钱。
由于知识库的初始构建依赖于人工,由于人力资源的不足,知识库一般存在以下三类问题:
- 意图名定义不清晰 ==> 导致LLM生成话术可能不合理 ==> 需重新定义意图名
图中相似问法实际语义是【质疑来电的真实性】,使用【来电目的】作为意图名,不能准确概括司机语义,进而导致回复话术不合理。
图3 意图名定义不清晰示例
- 相似问法与意图话术不匹配 ==> 导致LLM答非所问 ==> 需对相似问法重新归类
图中相似问法被错分为【车子有货了】,LLM将参考该意图的话术,进而导致答非所问。
图4相似问法与意图话术不匹配示例
- 意图过于概括 ==> 标准话术回复不够精准 ==> 需意图细拆
图中相似问法中包含若干种司机没出车的语义如:在住院、在老家、在修车等。
使用统一的话术无法精准的回复司机,需要对意图进行细拆。
图5意图过于概括示例
二、解决方案
知识库清洗业界一般有两种方案:
- 方案一:嵌入模型+聚类
- 方案二:大模型语义理解
2.1方案一:嵌入模型+聚类
使用嵌入模型将相似问法映射到高维向量空间,使用聚类算法清洗知识库
图6利用嵌入模型清洗知识库的形式化表示
经调研,Qwen3-Embedding-8B在聚类任务中评分最高,因此模型选择Qwen3-Embedding-8B。
实践过程中,因Qwen3-Embedding-8B 语义理解程度有限,聚类算法存在类别不可控/类别语义未知的问题,导致相似问法重新归类准确率极低、意图细分过细,最终采用方案二清洗。
2.2方案二:大模型语义理解
利用大模型的语言理解能力,辅助人工进行知识库清洗,提高清洗效率
1. 重新定义意图名
结合大模型和业务知识对意图名进行优化
a. 少量样本初始化意图名:
抽取少量样本并使用大模型初始化意图名称和意图描述。
b. 人工check:
根据业务知识对大模型生成的初始化意图名称进行二次校验,以得到能够精准概括相似问法语义的意图名称。
2. 相似问法重新归类
使用大模型+prompt的方式对相似问法重新归类,因此prompt中意图的描述就极为重要;
a.少量样本迭代优化意图描述:
抽样部分相似问法,不断优化迭代prompt中意图的描述,以提高大模型分类准确性。
b.全量分类:
通过大模型+prompt 对全量相似问法进行重新分类,由于准确率很难达到100%,因此仍然需要人工对类别发生变更的相似问法进行二次校验,以保证相似问法分类准确。
3. 意图细分
使用大模型初始化细分意图类别,人工二次确认最终的细分意图
a.初始化意图细分:
使用大模型的语言理解能力和业务知识为意图的细分提供初始方案,方便人工二次check;
b.人工优化:
由于大模型的细分方案并不完全符合业务要求,因此需要人工进行二次确认,以确保意图的细分是符合业务逻辑的。
4. 话术生成
结合邀约话术知识,使用大模型生成话术
由于意图的数量繁多,很难使用人工去为每个意图生成多种话术。因此,利用大模型结合场景知识为每个意图生成初始多样化话术,人工做二次校验。
三、结果
1. 意图名定义不清晰
利用业务知识合并相似的意图类别,并为每一个意图提供优化后的意图名
| 【来电目的】 | 【怀疑来电真实性】 |
| 你们是骗人的。你是你你是哪里的骗子啊? | 你们是骗人的。 你是你你是哪里的骗子啊? |
2. 相似问法与意图不匹配
利用意图摘要明晰意图命中范围,并对每一个意图中的相似问法进行优化
对**10%**的相似问法进行重新分类,准确率=65%
| 【车子有货了】 | 【有固定货源】 |
| 呃,我这这两天没接单,我有固定的货。 | 呃,我这这两天没接单,我有固定的货。 |
3. 意图过于概括
根据司机的情绪、具体原因、产品维度进行细分
对**63%**的意图进行细分,原有意图44个类细分后为89个类
| 【没出车】 我还在医院里面住院的了啊。 但是我在我在山西控制嘞,下大雪了,好几天都走不了,我怎么接单? 呃,我过几天要回老家去,在陇南一天。 没有,过两天过两天出车。 车子还没处理好。 哦,我现在在整修车辆呢呃,出不临时今天整修车辆,可能明天出车。 | 【车辆故障或维修】 车子还没处理好。 哦,我现在在整修车辆呢呃,出不临时今天整修车辆,可能明天出车。 【生病住院】 我还在医院里面住院的了啊。 【在老家】 呃,我过几天要回老家去,在陇南一天。 【外部原因】 但是我在我在山西控制嘞,下大雪了,好几天都走不了,我怎么接单? 【暂时未出车】 没有,过两天过两天出车。 |
四、未来展望
1. 自动提示词优化
在对相似问法重新归类的过程中,使用人工调整的方式来得到语言表述精准的意图描述。未来可使用自动提示优化的方法对prompt进行自动调优。
2. 相似问法涵盖多个意图
针对相似问法涵盖多个意图的情况,未来可以将相似问法进行拆分并写入对应意图的相似问法中。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。