目录
机器学习——基本概念
数据
特色
模型
培训
测试
过拟合
欠拟合
为什么以及何时让机器学习?
缺乏人类专业知识
动态场景
将专业知识转化为计算任务的困难
机器学习模型
任务(T)
经验(E)
性能(P)
机器学习
一、核心定义
二、三大核心任务类型
三、关键术语
四、机器学习的工作流程
五、应用场景
机器学习——基本概念
众所周知,机器学习是人工智能的一个子集,涉及训练计算机算法以自动学习数据中的模式和关系。以下是机器学习的一些基本概念——
数据
数据是机器学习的基础。没有数据,算法就没有任何可学习的对象。数据可以有多种形式,包括结构化数据(如电子表格和数据库)和非结构化数据(如文本和图片)。用于训练机器学习算法的数据质量和数量是对其性能产生重大影响的关键因素。
特色
在机器学习中,特征是用来描述输入数据的变量或属性。目标是选择最相关且信息丰富的特征,使算法能够做出准确的预测或决策。特征选择是机器学习过程中的关键步骤,因为算法的性能高度依赖于所用特征的质量和相关性。
模型
机器学习模型是输入数据(特征)与输出(预测或决策)之间关系的数学表示。模型是基于训练数据集创建的,然后用另一个验证数据集进行评估。目标是创建一个能够准确推广到新的、未被看见的数据的模型。
培训
训练是教导机器学习算法做出准确预测或决策的过程。这是通过为算法提供大量数据集,使其能够从数据中的模式和关系中学习来实现的。在训练过程中,算法会调整内部参数,以最小化预测输出与实际输出之间的差异。
测试
测试是评估机器学习算法在一个其未曾见过的独立数据集上的性能的过程。目标是确定算法对新未见数据的推广能力。如果算法在测试数据集上表现良好,则被视为成功的模型。
过拟合
当机器学习模型过于复杂且对训练数据过于贴合时,就会发生过拟合。这可能导致模型过于专注于训练数据集,导致新数据表现不佳。为防止过拟合,使用验证数据集评估模型性能并采用正则化技术简化模型非常重要。
欠拟合
当机器学习模型过于简单,无法捕捉数据中的模式和关系时,就会发生欠拟合。这可能导致训练和测试数据集的性能不佳。为防止欠拟合,我们可以采用多种技术,如增加模型复杂度、收集更多数据、减少正则化和特征工程。
需要注意的是,防止欠拟合是在模型复杂度与可用数据量之间取得平衡。增加模型复杂度有助于防止欠拟合,但如果数据不足以支持增加的复杂度,可能会发生过拟合。因此,监控模型性能并根据需要调整复杂度非常重要。
为什么以及何时让机器学习?
我们已经讨论过机器学习的必要性,但另一个问题是,在哪些场景下我们必须进行机器学习?在某些情况下,我们需要机器高效且大规模地做出数据驱动决策。以下是一些让机器学习更有效的情形——
缺乏人类专业知识
我们最早需要机器学习并做出数据驱动决策的情景,可以是缺乏人类专业知识的领域。例子可以是未知领域或空间行星的导航。
动态场景
有些场景是动态的,也就是说它们会随着时间不断变化。对于这些场景和行为,我们希望机器能够学习并做出数据驱动的决策。例如,组织中的网络连接性和基础设施可用性。
将专业知识转化为计算任务的困难
人类可以在多个领域拥有专业知识;然而,他们无法将这些专业知识转化为计算任务。在这种情况下,我们需要机器学习。例子可以是语音识别、认知任务等领域。
机器学习模型
在讨论机器学习模型之前,我们必须先了解Mitchell教授给出的机器学习正式定义 −
如果一个计算机程序在T中任务(由P测量)中的表现随着经验E的提升,则称该程序从某类任务T的经验E中学习并衡量性能P。
上述定义基本上关注三个参数,也是任何学习算法的主要组成部分,即任务(T)、性能(P)和经验(E)。在此背景下,我们可以简化定义为−
机器学习是一个由学习算法组成的人工智能领域——
提升他们的绩效(P)
执行某个任务时 (T)
随着时间推移,经验(E)
基于上述,下图表示一个机器学习模型−
现在让我们更详细地讨论它们——
任务(T)
从问题的角度,我们可以将任务T定义为需要解决的现实世界问题。问题可以是寻找某个特定地点的最佳房价,或者寻找最佳的营销策略等。另一方面,如果谈到机器学习,任务的定义不同,因为传统编程方法难以解决基于机器学习的任务。
当任务T基于进程且系统必须遵循以作数据点时,称为基于机器学习的任务。基于机器学习的任务示例包括分类、回归、结构化注释、聚类、转录等。
经验(E)
顾名思义,它是从提供给算法或模型的数据点中获得的知识。一旦数据集获得,模型将迭代运行并学习某种内在模式。由此获得的学习称为经验(E)。以人类学习类比,我们可以把这种情况看作是人类通过情境、关系等各种属性学习或获得一些经验。监督学习、无监督学习和强化学习都是学习或积累经验的一些方式。我们机器学习模型或算法获得的经验将用于解决任务T。
性能(P)
机器学习算法旨在执行任务并积累时间流逝的经验。判断机器学习算法是否符合预期的指标是其性能(P)。P基本上是一个定量指标,用经验E告诉模型是如何执行任务T的。有许多指标有助于理解机器学习的性能,比如准确率评分、F1分数、混淆矩阵、精度、召回率、灵敏度等。
机器学习
机器学习(Machine Learning, ML)是人工智能(AI)的核心分支,它的核心思想是:让计算机从数据中学习规律,而无需被显式编程来完成特定任务。简单来说,就是让机器像人一样 “举一反三”。
一、核心定义
机器学习是一门研究如何使计算机系统利用经验(数据)来改善自身性能的学科。其本质是通过算法从大量数据中挖掘特征、构建模型,并利用模型对未知数据进行预测或决策。
二、三大核心任务类型
根据学习目标和数据类型的不同,机器学习的任务主要分为三类:
监督学习(Supervised Learning)
- 核心特点:训练数据带有标签(即输入数据对应明确的输出结果)。
- 目标:让模型学习输入与输出之间的映射关系,从而对新数据进行预测。
- 典型场景:
- 分类任务:预测离散的类别标签,例如:垃圾邮件识别(是 / 否)、图像识别(猫 / 狗)、疾病诊断(患病 / 健康)。
- 回归任务:预测连续的数值,例如:房价预测、气温预测、销售额预测。
- 常见算法:线性回归、逻辑回归、决策树、随机森林、支持向量机(SVM)、神经网络。
无监督学习(Unsupervised Learning)
- 核心特点:训练数据没有标签,只有输入数据。
- 目标:让模型自动从数据中发现隐藏的结构、规律或聚类关系。
- 典型场景:
- 聚类任务:将相似的数据样本归为一类,例如:用户画像分类、商品推荐的用户分群、异常检测(找出与大多数数据不同的异常点)。
- 降维任务:在保留关键信息的前提下,降低数据的维度,例如:主成分分析(PCA)用于数据可视化、减少计算量。
- 常见算法:K - 均值聚类(K-Means)、层次聚类、PCA、关联规则挖掘(Apriori)。
强化学习(Reinforcement Learning)
- 核心特点:模型通过与环境交互来学习,通过 “尝试 - 错误” 的方式获取最优策略。
- 核心要素:智能体(Agent)、环境(Environment)、动作(Action)、奖励(Reward)。智能体的目标是最大化累积奖励。
- 典型场景:游戏 AI(如 AlphaGo 下围棋、游戏机器人通关)、自动驾驶、机器人控制、推荐系统的策略优化。
- 常见算法:Q-Learning、深度强化学习(DQN)、策略梯度法。
三、关键术语
- 数据集(Dataset):用于训练和测试模型的原始数据集合,通常分为训练集(用于模型学习)和测试集(用于评估模型性能)。
- 特征(Feature):数据的属性或维度,是模型输入的基本单位。例如:预测房价时,房屋面积、户型、地段都是特征。
- 标签(Label):监督学习中,与输入数据对应的 “标准答案”。例如:垃圾邮件识别中,“垃圾邮件” 或 “正常邮件” 就是标签。
- 模型(Model):机器学习算法从数据中学习到的规律的数学表达,用于对新数据进行预测。
- 训练(Training):将训练数据输入算法,让算法调整参数以拟合数据规律的过程。
- 泛化能力(Generalization Ability):模型对从未见过的新数据的预测能力,是衡量模型好坏的核心指标。泛化能力差的模型会出现过拟合(在训练集上表现好,在测试集上表现差)。
- 过拟合(Overfitting)与欠拟合(Underfitting)
- 过拟合:模型过于复杂,学习了训练数据中的噪声和细节,导致泛化能力下降。
- 欠拟合:模型过于简单,无法捕捉数据中的规律,在训练集和测试集上表现都很差。
四、机器学习的工作流程
- 数据收集:获取与任务相关的原始数据(如数据库、传感器数据、爬虫数据)。
- 数据预处理:对原始数据进行清洗(处理缺失值、异常值)、特征选择(挑选有用特征)、特征转换(如标准化、归一化),这是机器学习中最关键的步骤之一。
- 模型选择与训练:根据任务类型选择合适的算法,用训练集训练模型,调整模型参数。
- 模型评估:用测试集评估模型性能,常用指标包括分类任务的准确率、精确率、召回率,回归任务的 ** 均方误差(MSE)** 等。
- 模型优化:通过调整参数、更换算法、增加数据量等方式提升模型性能,解决过拟合 / 欠拟合问题。
- 模型部署:将训练好的模型应用到实际场景中,对新数据进行预测或决策。
五、应用场景
机器学习已广泛应用于各个领域:
- 互联网:推荐系统(电商商品推荐、视频推荐)、搜索引擎、广告投放、自然语言处理(聊天机器人、机器翻译)。
- 医疗:疾病诊断、医学影像分析(CT/MRI 图像识别肿瘤)、药物研发。
- 工业:设备故障预测、生产流程优化、质量检测(机器视觉识别产品缺陷)。
- 交通:自动驾驶、交通流量预测、智能导航。