备忘录，人工智能通识，解决银行是否放贷

张开发

• 2026/4/21 12:34:31 • 15 分钟阅读

分享文章

与其死记硬背不如用代码将规则做成判断流程或者工作流程。线性回归、逻辑回归、梯度下降、过拟合与欠拟合数据预处理模型评估损失函数决策树随机森林集成学习XGBoostGBDTK-MeansPCA降维....统计学中两事物为什么无关但数据却强相关统计学产生的人工智能。我一次性把你列出所有机器学习知识点全部讲透用通俗大白话公式代码思路完整银行放贷业务场景串联起来。一、所有核心概念通俗总结1. 线性回归任务回归问题预测连续数值原理拟合一条直线 ywxb用特征预测具体数值银行场景预测用户未来还款金额、逾期概率分值、负债大小输出连续值0~ 无穷属于监督学习2. 逻辑回归最重要银行风控主力任务二分类原理在线性回归基础上加Sigmoid 激活函数把实数压缩到 (0,1)σ(z)1e−z1含义输出概率银行放贷完美对应输出越接近 1违约风险高不放贷输出越接近 0信用好可以放贷优点简单、可解释、速度快、自带概率、金融风控首选基线模型属于监督学习、分类3. 损失函数模型预测值和真实值的差距用来衡量模型好坏模型训练就是最小化损失。线性回归损失均方误差 MSELoss∑(y−y^)2逻辑回归损失对数似然损失交叉熵Loss−∑[ylny^(1−y)ln(1−y^)]分类任务不能用 MSE会非凸、局部最优多。4. 梯度下降机器学习通用优化算法所有模型几乎都用它训练。原理沿着损失函数梯度下降方向更新参数 w,b步骤求损失对参数的梯度参数更新ww−η⋅∇Lossη 学习率控制步长问题学习率太大不收敛太小训练极慢5. 过拟合欠拟合欠拟合模型太简单训练集、测试集效果都差原因特征太少、模型太简单只用线性解决增加特征、复杂模型、减小正则化过拟合模型太复杂训练集极好测试集很差死记硬背训练数据银行危害对新客户完全不准乱放贷解决方法增加数据正则化L1、L2剪枝决策树集成学习、Dropout特征筛选6. 数据预处理银行风控必备流程原始用户数据很脏必须预处理缺失值处理填充均值 / 中位数 / 众数、删除异常值处理房贷收入极端异常值剔除数据标准化 / 归一化收入、负债、年龄量纲统一类别特征编码学历、工作、婚姻→独热编码 / 标签编码数据划分训练集、验证集、测试集特征筛选去掉无关冗余特征7. 模型评估分类任务银行放贷专用指标放贷是风控分类重点不是准确率重点是不漏坏人、不误拒好人。准确率 Accuracy整体预测对的比例精确率 Precision预测违约的人里真违约的比例召回率 Recall所有真实违约用户被找出来的比例银行最看重召回率违约客户没识别出来银行亏钱坏账F1 分数精确率召回率调和平均AUC-ROC综合区分好坏客户能力金融通用指标越接近 1 越好混淆矩阵真阳性、假阳性、真阴性、假阴性8. 决策树监督分类模型if-then 规则树形结构依据信息熵、基尼系数划分节点优点可解释极强银行能知道为什么不放贷收入低 / 负债高 / 征信差缺点极易过拟合单棵树不稳定9. 集成学习把多个弱模型组合成强模型风控效果大幅提升分为两类Bagging并行训练减少过拟合 →随机森林Boosting串行训练不断修正错误 →GBDT、XGBoost10. 随机森林Random Forest多棵决策树并行投票自助采样特征随机选取优点抗过拟合、稳定、容错高、能特征重要性排序银行用途筛选用户关键风险特征11. GBDT 梯度提升树Boosting 代表每一棵新树拟合上一轮模型的残差 / 梯度串行训练不断修正误差效果远超单决策树。12. XGBoostGBDT 的工程优化升级版二阶泰勒展开、自带正则、缺失值自动处理、并行优化竞赛工业风控王者模型银行主流风控算法自带特征重要性可解释高精度兼顾13. K-Means 聚类无监督学习无标签自动把数据分簇原理距离最近聚为一类迭代更新质心银行场景用户分群优质客户、普通客户、高风险客户、劣质客户分层14. PCA 主成分分析降维无监督预处理方法把高维冗余特征压缩成低维主成分去除特征相关性、降噪、减少计算量银行用户几十维征信、流水、负债特征压缩避免维度灾难二、完整业务场景银行是否放贷全流程实战业务定义输入用户特征年龄、收入、负债、征信逾期次数、工作稳定性、婚姻、贷款金额、历史还款记录…输出二分类放贷 / 不放贷好人客户 / 违约坏客户1. 整体流水线原始数据 → 数据预处理 → PCA 降维 → 建模训练 → 梯度下降优化 → 防过拟合 → 模型评估 → 放贷决策2. 各算法在银行放贷中的分工数据预处理清洗用户征信、流水、收入异常数据标准化、编码、划分数据集。PCA 降维用户特征太多征信几十项降维去冗余提升训练速度。K-Means 客户分群先无监督聚类A 类低风险优质客户 → 优先放贷B 类中等风险 → 审核放贷C 类高风险客户 → 直接拒贷基线模型逻辑回归银行风控入门基准模型输出违约概率简单可解释监管要求可溯源。进阶模型决策树、随机森林看特征规则收入低于阈值→拒贷负债过高→拒贷。顶尖风控模型GBDT、XGBoost银行真实生产环境主力模型精度最高坏账预测最准。通用训练梯度下降逻辑回归、GBDT、XGBoost 内部全部用梯度下降优化损失。过拟合处理银行数据容易过拟合用正则化、随机森林集成、XGBoost 自带剪枝、增加真实风控样本。模型评估优先看召回率、AUC严格把控违约客户漏判降低银行坏账。3. 放贷决策逻辑总结模型输出违约概率设定阈值概率阈值 →放贷概率阈值 →拒绝放贷结合 K-Means 用户分层 XGBoost 高精度评分最终风控审批三、知识点对比速记版面试背诵专用监督学习线性回归、逻辑回归、决策树、随机森林、GBDT、XGBoost无监督学习K-Means 聚类、PCA 降维回归线性回归连续值分类逻辑回归、决策树、随机森林、XGBoost优化器梯度下降所有模型通用损失函数MSE (回归)、交叉熵 (分类)集成学习Bagging随机森林BoostingGBDT → XGBoost加强版欠拟合模型太简单过拟合模型太复杂银行风控首选逻辑回归可解释、XGBoost高精度四、极简思维导图式总结plaintext机器学习基础 ├─ 损失函数MSE(回归)、交叉熵(分类) ├─ 优化算法梯度下降 └─ 拟合问题欠拟合、过拟合解决方案数据处理 ├─ 预处理缺失/异常值、标准化、编码、数据集划分 └─ 降维PCA 监督学习 ├─ 回归线性回归 ├─ 分类 │ ├─ 逻辑回归二分类风控基线 │ ├─ 单模型决策树 │ └─ 集成学习 │ ├─ Bagging随机森林 │ └─ BoostingGBDT → XGBoost 无监督学习 ├─ 聚类K-Means └─ 降维PCA 银行放贷完整流程原始数据→预处理→PCA降维→KMeans用户分层→多模型训练(逻辑回归/XGBoost) →梯度下降优化→防过拟合→AUC/召回评估→违约概率判定→放贷/拒贷

备忘录，人工智能通识，解决银行是否放贷

最新文章

从调频收音机到故障诊断：希尔伯特变换在工程中的5个实战应用（含Python示例）

从Anaconda到isce2：我在WSL2里踩过的那些‘权限坑’和‘环境冲突’

TShock 5.1.2 服务器配置避坑指南：从 config.json 翻译到实战调优，新手服主必看

别再手动找数据集了！用Python的openml库5分钟搞定机器学习数据加载（附实战代码）

Win11Debloat深度解析：如何用PowerShell脚本让Windows 11性能提升40%

2026电站估值分水岭：资方尽调不再看装机，看“气象资产”的运营颗粒度

推荐文章

支付回调幂等与对账怎么设计？一次讲清重复通知、状态校验、补单与差异修复

企业内网部署EVA-02：安全策略与内网穿透方案

【HALCON 25.11 + C#】 03：HImage、HRegion、HXLD、HTuple——C#中HALCON数据类型实战详解（避坑指南+工业案例）

3种创新方法让Windows电脑直接安装安卓APK文件

Linux 设备树DTS语法精讲：从节点到属性的实战解析

如何高效实施开源医疗信息系统：完整医院数字化转型方案

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

5个场景让你的Mac音质焕然一新：eqMac音频均衡器完全指南

TeXStudio高效写作指南：5个隐藏技巧让你的LaTeX编辑速度翻倍

YOLO11涨点优化：注意力魔改 | 引入Deformable Attention (可变形注意力)，灵活感受野自适应复杂形变目标

告别手动配置！用Docker一键部署树莓派巴法云客户端，支持TCP/MQTT自动重连

Phi-3.5-mini-instruct惊艳效果展示：中英混合问答真实案例集

塞尔达传说旷野之息存档编辑器：快速修改武器与资源的终极免费工具

real-anime-z多语言支持实践：中英双语提示词生成与界面本地化改造

别再被CrossEntropyLoss搞懵了！手把手教你用PyTorch搞定多分类损失（附代码避坑）

别再乱用变量了！Simulink符号解析的5个实战避坑指南（从模型工作区到基础工作区）

IPXWrapper完整配置教程：让经典游戏在Windows 11上重获联机能力

在RK3288上折腾QT界面透明化：从黑屏到ARGB8888，一个环境变量救了我

动环监控系统的功能及其在机房管理中的实际价值是什么？

备忘录，人工智能通识，解决银行是否放贷

最新文章

从调频收音机到故障诊断：希尔伯特变换在工程中的5个实战应用（含Python示例）

从Anaconda到isce2：我在WSL2里踩过的那些‘权限坑’和‘环境冲突’

TShock 5.1.2 服务器配置避坑指南：从 config.json 翻译到实战调优，新手服主必看

别再手动找数据集了！用Python的openml库5分钟搞定机器学习数据加载（附实战代码）

Win11Debloat深度解析：如何用PowerShell脚本让Windows 11性能提升40%

2026电站估值分水岭：资方尽调不再看装机，看“气象资产”的运营颗粒度

推荐文章

支付回调幂等与对账怎么设计？一次讲清重复通知、状态校验、补单与差异修复

企业内网部署EVA-02：安全策略与内网穿透方案

【HALCON 25.11 + C#】 03：HImage、HRegion、HXLD、HTuple——C#中HALCON数据类型实战详解（避坑指南+工业案例）

3种创新方法让Windows电脑直接安装安卓APK文件

Linux 设备树DTS语法精讲：从节点到属性的实战解析

如何高效实施开源医疗信息系统：完整医院数字化转型方案

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统