BM25（Best Matching 25）信息检索

张开发

• 2026/4/9 22:39:12 • 15 分钟阅读

分享文章

文章目录一、BM25本质在做什么二、核心思想直观理解1️⃣ 词出现次数Term Frequency, TF2️⃣ 词的稀有程度IDF3️⃣ 文档长度归一化三、BM25公式核心这是标准BM25打分函数 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/2ae37ae2b1c24eddae1b988194fb2aa3.png)四、BM25 vs TF-IDF关键区别五、实际应用场景搜索引擎 RAG大模型检索增强 NLP系统六、一个简单例子七、总结文档长度归一化一、问题本质二、BM25的解决办法三、怎么惩罚机制解释四、直觉理解重点五、一个对比例子六、参数 b 的作用关键七、总结BM25Best Matching 25是一种经典的信息检索Information Retrieval, IR算法主要用于根据关键词从文档集合中排序最相关的结果。它是搜索引擎如 Elasticsearch、Apache Lucene中非常核心的一种相关性打分函数。一、BM25本质在做什么BM25解决的是一个核心问题给定一个查询query如何给每篇文档打分并按“相关性”排序它属于基于词频的概率模型是对 TF-IDF 的改进版本更现代、更鲁棒二、核心思想直观理解BM25认为一个文档是否相关主要看三件事1️⃣ 词出现次数Term Frequency, TF查询词在文档中出现越多 → 越相关但不是线性增长避免刷词作弊有“饱和机制”出现10次 ≠ 比出现5次强一倍2️⃣ 词的稀有程度IDF越罕见的词 → 信息量越大比如“的” → 没意义“量子纠缠” → 很有区分度3️⃣ 文档长度归一化长文档天然更容易包含关键词BM25会惩罚过长文档三、BM25公式核心这是标准BM25打分函数四、BM25 vs TF-IDF关键区别特性TF-IDFBM25TF增长线性非线性更合理长度处理简单归一更精细归一实际效果一般更强工业标准 BM25可以理解为“工程优化版的 TF-IDF”五、实际应用场景BM25广泛用于搜索引擎Google早期/基础层Elasticsearch 默认算法Apache Solr RAG大模型检索增强向量检索Embedding之前的第一步过滤Hybrid SearchBM25 向量 NLP系统文档召回retrieval stageQA系统候选生成六、一个简单例子查询machine learning文档Amachine learning is powerful文档Bmachine learning machine learning machine learningBM25会给B更高分词频高但不会是3倍因为TF饱和七、总结BM25 一种更智能的关键词匹配打分算法用于排序最相关文档是现代搜索系统的基础组件。文档长度归一化这段内容讲的是BM25里的“文档长度归一化”length normalization机制核心是在解决一个非常现实的问题一、问题本质长文档天然更容易“命中关键词”但不一定更相关举个直观例子文档A短machine learning basics文档B长……一万字…… machine learning ……很多无关内容文档B更容易包含“machine learning”但它不一定更相关只是更长而已。二、BM25的解决办法BM25会做一件事✅对长文档进行“惩罚”也就是你图里那句“长文档天然更容易包含关键词”“BM25会惩罚过长文档”三、怎么惩罚机制解释BM25在公式里引入了这一项[\frac{|D|}{avgdl}]含义是( |D| )当前文档长度( avgdl )所有文档的平均长度如果文档比平均长 → 分母变大 →得分下降文档比平均短 → 分母变小 →得分相对更高四、直觉理解重点你可以这样理解BM25在问“这个词出现是因为文档真的相关还是因为文档太长”五、一个对比例子查询AI文档长度包含次数BM25判断A100字2次✅ 相关B5000字3次⚠️ 不一定更相关虽然B出现次数更多但因为太长会被压分六、参数 b 的作用关键BM25里有个参数( b \in [0,1] )作用是控制“惩罚强度”( b 0 )❌ 不考虑长度不惩罚( b 1 )✅ 完全按长度惩罚常用值0.75 实际含义“长度影响占75%权重”七、总结文档长度归一化防止长文档因为“啰嗦”而获得不公平的高分

BM25（Best Matching 25）信息检索

最新文章

InnoDB存储结构全解析：行页区段与单表W行的关系谌

3步解除教学限制：面向学生的自主学习工具

Vue + G 实战：打造高校学生打卡数据可视化大屏松

一分钱不花性价比拉满！每月省28小时120块，2026年mp3音频文件转文字不看真亏大了

2025年Java入门学习路线：从零基础到就业的全方位指南

如何用 clear 清理 Map 中不再需要的缓存或对应关系

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

Android16进阶之MediaRecorder.getMetrics调用流程与实战(二百七十四)

手把手教你学Simulink——基于Simulink的坡道起步防溜坡电机转矩控制

集成AI 的 Redis 客户端 Rudist发布新版了税

Python中正确声明、重新赋值并安全使用None变量的完整指南

Unity发布京东小游戏圃

南京道尔斯特机架式PDU重新定义工业级安全电源管理新范式

别再吹牛了，% Vibe Coding 存在无法自洽的逻辑漏洞！平

如何释放CPU全部潜能：CPUDoc智能优化工具完全指南

2025最权威的AI写作网站横评

深入理解Kubernetes网络模型：摆脱“配置工程师”噩梦

为什么AI Agent框架都偏爱TypeScript？深度解析其背后的优势与未来趋势！

突破性Elsevier审稿状态追踪解决方案：自动化监控系统提升学术出版效率

BM25（Best Matching 25）信息检索

最新文章

InnoDB存储结构全解析：行页区段与单表W行的关系谌

3步解除教学限制：面向学生的自主学习工具

Vue + G 实战：打造高校学生打卡数据可视化大屏松

一分钱不花性价比拉满！每月省28小时120块，2026年mp3音频文件转文字不看真亏大了

2025年Java入门学习路线：从零基础到就业的全方位指南

如何用 clear 清理 Map 中不再需要的缓存或对应关系

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统