琼中黎族苗族自治县网站建设_网站建设公司_产品经理

该项目从企业级应用的角度，可以划分为四个主要阶段：数据与知识库准备（ETL）、核心功能开发与优化、系统工程化与部署，以及测试与持续优化。

此阶段重点是将企业的非结构化知识（如汽车手册）转化为可供 RAG 系统高效检索的格式。

步骤	对应项目内容	关键技术点
文档处理与解析	“先用PyMuPdf识别出文档块，然后利用滑动窗口和父子文档结合的方法，同时考虑语义感知切分对用户手册进行解析”	保证文本内容的完整性和跨页连续性。这是 RAG 系统的基石。
数据存储	“并用mongoDB存储文本块和元数据”	非结构化数据（文本块）与结构化信息（元数据）的分离存储，利于管理和更新。
数据清洗与增强	对应项目亮点中的“对 pdf 解析后的数据用DeepSeek进行清洗优化”	清除杂乱、解析错误和不通顺的候选文本，保证知识源的质量。
向量化与入库	隐含步骤。将处理好的文本块转化为向量。	对应后续检索使用的Qwen3-Embedding或BGE-M3等 Embedding 模型。

此阶段是实现问答系统的核心逻辑，确保能准确检索和高质量生成答案。

步骤	对应项目内容	关键技术点
混合检索策略实现	“采用多路召回策略，使用Dense召回（Qwen3-Embedding），Sparse召回（BGE-M3）”	结合语义匹配（Dense）和关键词匹配（Sparse），提高检索的召回率。
召回结果融合	“Milvus实现向量检索，同时用RRF做粗排”	RRF（Reciprocal Rank Fusion）融合不同召回结果的排名，得到更优的初步候选集。
重排（Re-rank）	“BGE-Reranker做精排”	对粗排后的候选集进行更细致的排序，选出最相关的几条文档，交给 LLM。
LLM 答案生成	“结合LLM、大型模型微调和提示工程，优化知识库结构和检索生成流程”	LLM 结合重排后的文档片段和用户提问，生成自然、准确、快速的回答。
附加能力实现	“问答系统支持输出答案、引用页码和关联链接的能力”	提高答案的可追溯性和可靠性。

此阶段侧重于系统的性能、稳定性和可部署性，是从“Demo”走向“产品”的关键。

步骤	对应项目内容	关键技术点
模型量化加速	“对Qwen3-8B做AWQ INT4量化加速”	在不显著损失性能的前提下，减小模型大小、降低内存占用，提高推理速度。
推理服务部署	“项目工程代码做docker 容器化部署，并利用vLLM 框架对大模型进行推理”	Docker 保证环境一致性，vLLM 优化 LLM 的高并发、低延迟推理。
分布式部署	“实现8卡 A100 分布式部署，极大提升了推理效率”	满足企业级应用对高并发（3K+ token/s）和低延迟（尾延迟降低 55%）的要求。
API 接口封装	隐含步骤。将问答服务封装为 API 接口，供前端或其他业务系统调用。	保证系统易于集成和使用。

此阶段通过科学的评估确保系统质量，并规划后续迭代。

步骤	对应项目内容	关键技术点
构建评测集	“人工构造 2000 条测试集”	为系统提供一个基准的、可重复的评估标准。
制定评估指标	“采用RAGAs、相似度和实体键值加权评分为评测指标”	RAGAs 专注于 RAG 特有的指标（如忠实度、上下文相关性），结合业务特定指标（实体键值），进行全面评估。
基线对比	“相比用GPT-4o+OpenAI Embeddings外挂知识库提升18%”	证明自研 RAG 策略相比于通用/商业方案的显著优势和价值。
数据飞轮优化	对应项目亮点中的“在输入侧做query 的纠错、改写和扩展”	利用用户的实际 Query 数据进行数据增强，形成一个持续迭代优化的飞轮机制。

总结：这个项目流程是一个非常典型的企业级 RAG 研发到上线的完整体现，它不仅关注算法效果（RAG 策略），更注重工程化（量化、vLLM、分布式部署）和项目价值（高并发、低延迟、高准确率），是高质量 LLM 应用的范例。

琼中黎族苗族自治县网站建设_网站建设公司_产品经理_seo优化