机器学习进阶（9.5）：决策树补充

张开发

• 2026/4/3 20:42:28 • 15 分钟阅读

分享文章

第 9.5 篇信息增益、基尼指数到底是什么——决策树为什么知道该先问哪个问题第九篇我们讲了决策树直觉每次分裂节点都是在找一个“问题”让样本分得尽量纯。那问题来了决策树怎么知道该先问哪个特征为什么它会选择作业完成率而不是学习时长这就要讲到信息增益和基尼指数了。1. 信息熵衡量不确定性信息熵Entropy用来衡量数据的“混乱程度”H ( D ) − ∑ k 1 K p k log ⁡ 2 p k H(D) -\sum_{k1}^{K} p_k \log_2 p_kH(D)−k1∑Kpklog2pk(D) 是当前节点的数据集(K) 是类别数量(p_k) 是类别 (k) 在节点中的比例直觉理解节点里全是同一类熵 0完全确定节点里各类均匀熵最大不确定性最大2. 信息增益问一个特征能减少多少混乱假设节点 (D) 要根据特征 (A) 来分裂成几个子节点 (D_1, D_2, \dots, D_n)信息增益定义为I G ( D , A ) H ( D ) − ∑ i 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) IG(D, A) H(D) - \sum_{i1}^{n} \frac{|D_i|}{|D|} H(D_i)IG(D,A)H(D)−i1∑n∣D∣∣Di∣H(Di)先算分裂前的熵 (H(D))再算加权后的各子节点熵之和差值就是信息增益直觉信息增益越大说明这个特征分裂之后样本越纯越能“回答问题”。决策树就是选择信息增益最大的特征来分裂。3. 基尼指数另一种纯度衡量信息增益用熵也可以用基尼指数 (Gini Index)G i n i ( D ) 1 − ∑ k 1 K p k 2 Gini(D) 1 - \sum_{k1}^{K} p_k^2Gini(D)1−k1∑Kpk2节点里全是一类Gini 0节点里均匀混合Gini 越大它和熵的作用类似也是衡量纯度。很多决策树库包括 sklearn默认用基尼指数因为计算稍快。4. 举个小例子假设一个节点有 6 个样本3 个“通过”3 个“不通过”。基尼指数G i n i 1 − ( 0.5 2 0.5 2 ) 0.5 Gini 1 - (0.5^2 0.5^2) 0.5Gini1−(0.520.52)0.5如果根据作业完成率 67.5 分裂左边 [3,0] → Gini 0右边 [0,3] → Gini 0加权后的 Gini 0 → 纯度最大所以决策树就会选作业完成率做第一步分裂。5. 小结信息熵和基尼指数都是衡量节点纯度的工具决策树通过计算每个特征的纯度提升来选择分裂特征原理上树就是在不断“问问题让数据更干净”理解了这个原理看到树结构和公式就能对号入座。

机器学习进阶（9.5）：决策树补充

最新文章

车载测试CAPL编程实战：结构（Struct）在车辆信号解析中的应用

如何改cad文件版本？盘点三个实用方法

每日安全情报报告 · 2026-04-03

构造地貌研究入门：手把手教你用ArcGIS插件CalHypso分析流域地貌形态

OpenClaw内存优化：Phi-3-mini-128k-instruct在4GB设备运行方案

【代码质量管理】IDEA集成SonarQube，扫描代码git库，并搭建一个可视化页面，轻松定位代码BUG

推荐文章

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

4类水泥道路病害检测数据集，拥有3329张图片高清工业摄像机拍摄支持YOLO目标检测格式，可直接使用道路病害分别是:0-坑1-鳄鱼开裂2-横向裂缝3-纵向裂缝大小：1920×1080像

用 AI 做鸿蒙游戏 NPC，是一种什么体验？

3分钟搞定GitHub加速：国内开发者必备的免费终极解决方案

基于二阶自抗扰ADRC和MPC的路径跟踪控制，使用ADRC对前轮转角进行补偿，对车辆的不确定性...

2026年降AI工具市场乱象分析：如何辨别真实评测和广告软文

8 极 48 槽永磁同步电机电磁振动多物理场仿真分析之旅

Win11 安装 WSL2 + Docker 新手友好教程（官方正版，实测成功）

告别CentOS焦虑：手把手教你用VMware Workstation Pro部署Rocky Linux 9.4 Minimal版

阿里云DashScope灵积模型不完全兼容OpenAI？一文搞懂qwen-turbo与Chatbox的适配技巧

MiniCPM-V-2_6金融文档解析：PDF截图OCR+关键信息抽取全流程

Spring AI 助力 Java 开发者构建全功能 AI 智能体

3步掌握ppInk：Windows最强免费屏幕标注工具完全指南

机器学习进阶（9.5）：决策树补充

最新文章

车载测试CAPL编程实战：结构（Struct）在车辆信号解析中的应用

如何改cad文件版本？盘点三个实用方法

每日安全情报报告 · 2026-04-03

构造地貌研究入门：手把手教你用ArcGIS插件CalHypso分析流域地貌形态

OpenClaw内存优化：Phi-3-mini-128k-instruct在4GB设备运行方案

【代码质量管理】IDEA集成SonarQube，扫描代码git库，并搭建一个可视化页面，轻松定位代码BUG

推荐文章

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统