备忘录,人工智能通识,解决银行是否放贷

张开发
2026/4/21 12:34:31 15 分钟阅读

分享文章

备忘录,人工智能通识,解决银行是否放贷
与其死记硬背不如用代码将规则做成判断流程或者工作流程。线性回归、逻辑回归、梯度下降、过拟合与欠拟合数据预处理模型评估损失函数决策树随机森林集成学习XGBoostGBDTK-MeansPCA降维....统计学中两事物为什么无关但数据却强相关统计学产生的人工智能。我一次性把你列出所有机器学习知识点全部讲透用通俗大白话 公式 代码思路 完整银行放贷业务场景串联起来。一、所有核心概念通俗总结1. 线性回归任务回归问题预测连续数值原理拟合一条直线 ywxb用特征预测具体数值银行场景预测用户未来还款金额、逾期概率分值、负债大小输出连续值0~ 无穷属于监督学习2. 逻辑回归最重要银行风控主力任务二分类原理在线性回归基础上加Sigmoid 激活函数把实数压缩到 (0,1)σ(z)1e−z1​含义输出概率银行放贷完美对应输出越接近 1违约风险高不放贷输出越接近 0信用好可以放贷优点简单、可解释、速度快、自带概率、金融风控首选基线模型属于监督学习、分类3. 损失函数模型预测值和真实值的差距用来衡量模型好坏模型训练就是最小化损失。线性回归损失均方误差 MSELoss∑(y−y^​)2逻辑回归损失对数似然损失交叉熵Loss−∑[ylny^​(1−y)ln(1−y^​)]分类任务不能用 MSE会非凸、局部最优多。4. 梯度下降机器学习通用优化算法所有模型几乎都用它训练。原理沿着损失函数梯度下降方向更新参数 w,b步骤求损失对参数的梯度参数更新ww−η⋅∇Lossη 学习率控制步长问题学习率太大不收敛太小训练极慢5. 过拟合 欠拟合欠拟合模型太简单训练集、测试集效果都差原因特征太少、模型太简单只用线性解决增加特征、复杂模型、减小正则化过拟合模型太复杂训练集极好测试集很差死记硬背训练数据银行危害对新客户完全不准乱放贷解决方法增加数据正则化L1、L2剪枝决策树集成学习、Dropout特征筛选6. 数据预处理银行风控必备流程原始用户数据很脏必须预处理缺失值处理填充均值 / 中位数 / 众数、删除异常值处理房贷收入极端异常值剔除数据标准化 / 归一化收入、负债、年龄量纲统一类别特征编码学历、工作、婚姻→独热编码 / 标签编码数据划分训练集、验证集、测试集特征筛选去掉无关冗余特征7. 模型评估分类任务银行放贷专用指标放贷是风控分类重点不是准确率重点是不漏坏人、不误拒好人。准确率 Accuracy整体预测对的比例精确率 Precision预测违约的人里真违约的比例召回率 Recall所有真实违约用户被找出来的比例银行最看重召回率违约客户没识别出来 银行亏钱坏账F1 分数精确率 召回率调和平均AUC-ROC综合区分好坏客户能力金融通用指标越接近 1 越好混淆矩阵真阳性、假阳性、真阴性、假阴性8. 决策树监督分类模型if-then 规则树形结构依据信息熵、基尼系数划分节点优点可解释极强银行能知道为什么不放贷收入低 / 负债高 / 征信差缺点极易过拟合单棵树不稳定9. 集成学习把多个弱模型组合成强模型风控效果大幅提升分为两类Bagging并行训练减少过拟合 →随机森林Boosting串行训练不断修正错误 →GBDT、XGBoost10. 随机森林Random Forest多棵决策树并行投票自助采样 特征随机选取优点抗过拟合、稳定、容错高、能特征重要性排序银行用途筛选用户关键风险特征11. GBDT 梯度提升树Boosting 代表每一棵新树拟合上一轮模型的残差 / 梯度串行训练不断修正误差效果远超单决策树。12. XGBoostGBDT 的工程优化升级版二阶泰勒展开、自带正则、缺失值自动处理、并行优化竞赛 工业风控王者模型银行主流风控算法自带特征重要性可解释 高精度兼顾13. K-Means 聚类无监督学习无标签自动把数据分簇原理距离最近聚为一类迭代更新质心银行场景用户分群优质客户、普通客户、高风险客户、劣质客户分层14. PCA 主成分分析降维无监督预处理方法把高维冗余特征压缩成低维主成分去除特征相关性、降噪、减少计算量银行用户几十维征信、流水、负债特征压缩避免维度灾难二、完整业务场景银行是否放贷 全流程实战业务定义输入用户特征年龄、收入、负债、征信逾期次数、工作稳定性、婚姻、贷款金额、历史还款记录…输出二分类放贷 / 不放贷好人客户 / 违约坏客户1. 整体流水线原始数据 → 数据预处理 → PCA 降维 → 建模训练 → 梯度下降优化 → 防过拟合 → 模型评估 → 放贷决策2. 各算法在银行放贷中的分工数据预处理清洗用户征信、流水、收入异常数据标准化、编码、划分数据集。PCA 降维用户特征太多征信几十项降维去冗余提升训练速度。K-Means 客户分群先无监督聚类A 类低风险优质客户 → 优先放贷B 类中等风险 → 审核放贷C 类高风险客户 → 直接拒贷基线模型逻辑回归银行风控入门基准模型输出违约概率简单可解释监管要求可溯源。进阶模型决策树、随机森林看特征规则收入低于阈值→拒贷负债过高→拒贷。顶尖风控模型GBDT、XGBoost银行真实生产环境主力模型精度最高坏账预测最准。通用训练梯度下降逻辑回归、GBDT、XGBoost 内部全部用梯度下降优化损失。过拟合处理银行数据容易过拟合用正则化、随机森林集成、XGBoost 自带剪枝、增加真实风控样本。模型评估优先看召回率、AUC严格把控违约客户漏判降低银行坏账。3. 放贷决策逻辑总结模型输出违约概率设定阈值概率阈值 →放贷概率阈值 →拒绝放贷结合 K-Means 用户分层 XGBoost 高精度评分最终风控审批三、知识点对比速记版面试背诵专用监督学习线性回归、逻辑回归、决策树、随机森林、GBDT、XGBoost无监督学习K-Means 聚类、PCA 降维回归线性回归连续值分类逻辑回归、决策树、随机森林、XGBoost优化器梯度下降所有模型通用损失函数MSE (回归)、交叉熵 (分类)集成学习Bagging随机森林BoostingGBDT → XGBoost加强版欠拟合模型太简单过拟合模型太复杂银行风控首选逻辑回归可解释、XGBoost高精度四、极简思维导图式总结plaintext机器学习基础 ├─ 损失函数MSE(回归)、交叉熵(分类) ├─ 优化算法梯度下降 └─ 拟合问题欠拟合、过拟合 解决方案 数据处理 ├─ 预处理缺失/异常值、标准化、编码、数据集划分 └─ 降维PCA 监督学习 ├─ 回归线性回归 ├─ 分类 │ ├─ 逻辑回归二分类风控基线 │ ├─ 单模型决策树 │ └─ 集成学习 │ ├─ Bagging随机森林 │ └─ BoostingGBDT → XGBoost 无监督学习 ├─ 聚类K-Means └─ 降维PCA 银行放贷完整流程 原始数据→预处理→PCA降维→KMeans用户分层→多模型训练(逻辑回归/XGBoost) →梯度下降优化→防过拟合→AUC/召回评估→违约概率判定→放贷/拒贷

更多文章