监督学习&非监督学习
- 监督学习(Supervised Learning)
- 非监督学习(Unsupervised Learning)
- 区分——是否有“标签(Label)”
- 什么是「标签」?
- 监督学习(Supervised Learning)
- 监督学习主要解决 两类问题:分类&回归
- 分类(Classification)
- 回归(Regression)
- 非监督学习(Unsupervised Learning)
- 非监督学习主要做三件事:聚类&降维&异常检测
- 聚类(Clustering)
- 降维(Dimensionality Reduction)
- 异常检测(Anomaly Detection)
- 常见监督&非监督学习算法
监督学习(Supervised Learning)
定义:监督学习是指在训练过程中,利用包含输入特征与对应输出标签的数据集,通过最小化预测输出与真实标签之间的误差,学习输入空间到输出空间映射关系的一类机器学习方法。
训练数据形式:
D = { ( x i , y i ) } i = 1 n D = \{(x_i, y_i)\}_{i=1}^nD={(xi,yi)}i=1n
- x i x_ixi:输入特征向量
- y i y_iyi:已知标签(目标值)
学习目标:
f : X → Y f : X \rightarrow Yf:X→Y
优化目标:经验风险最小化(ERM)
非监督学习(Unsupervised Learning)
定义:非监督学习是指在训练数据不包含任何先验标签信息的情况下,仅利用输入数据的内在结构、统计特性或相似性关系,对数据进行建模和结构发现的一类机器学习方法。
训练数据形式:D = { x i } i = 1 n \mathcal{D} = \{ x_i \}_{i=1}^{n}D={xi}i=1n
- 无显式目标变量y yy
学习目标:发现数据分布或潜在结构
常见依据:距离度量、相似度函数、概率分布假设
区分——是否有“标签(Label)”
有标签 → 监督学习(Supervised Learning)
没标签 → 非监督学习(Unsupervised Learning)
什么是「标签」?
标签 = 标准答案
| 数据 | 是否有标签 | 说明 |
|---|---|---|
| 房子面积 → 房价 | ✅ 有 | 房价就是答案 |
| 图片 → 是猫/不是猫 | ✅ 有 | 猫 / 非猫 |
| 一堆用户购买记录 | ❌ 没有 | 没人告诉你“这属于哪一类” |
监督学习(Supervised Learning)
定义:给定输入 X 和对应的正确输出 Y,学习 X → Y 的映射关系
📌 核心关键词:有标签
监督学习主要解决 两类问题:分类&回归
分类(Classification)
输出是类别
例子:
垃圾邮件 / 非垃圾邮件
肿瘤是良性 / 恶性
是否违约(是 / 否)
回归(Regression)
输出是连续数值
例子:
房价预测
温度预测
股票价格预测
非监督学习(Unsupervised Learning)
定义:只有输入数据 X,没有标准答案 Y,让算法自己发现数据结构
📌 核心关键词:没标签
非监督学习主要做三件事:聚类&降维&异常检测
聚类(Clustering)
👉 把“相似的东西”分到一起
例子:
用户分群
客户画像
文档主题聚类
降维(Dimensionality Reduction)
👉 压缩特征、去冗余、便于可视化
例子:
高维数据 → 2D/3D 可视化
特征压缩
异常检测(Anomaly Detection)
👉 找“不正常”的点
常见监督&非监督学习算法
| 监督 | 非监督 |
|---|---|
| 线性回归(Linear Regression)——回归 | K-means ——聚类 |
| 逻辑回归(Logistic Regression) ——分类 | 层次聚类(Hierarchical Clustering)—— 聚类 |
| KNN(K近邻) —— 分类 / 回归 | DBSCAN —— 聚类 / 异常检测 |
| 支持向量机(SVM) ——分类 / 回归 | PCA(主成分分析) —— 降维 |
| 决策树(Decision Tree) ——分类 / 回归 | ICA —— 降维 |
| 随机森林(Random Forest) —— 分类 / 回归 | AutoEncoder ——降维 |
| 神经网络(ANN / CNN / RNN) ——分类 / 回归 | Apriori —— 关联规则 |
| 对比点 | 监督学习 | 非监督学习 |
|---|---|---|
| 是否有标签 | ✅ 有 | ❌ 没有 |
| 是否有标准答案 | 有 | 没有 |
| 目标 | 预测结果 | 发现结构 |
| 常见任务 | 分类、回归 | 聚类、降维 |
| 学习难度 | 相对简单 | 相对抽象 |
| 现实场景 | 标签贵 | 数据多但没标签 |