人工智能之核心基础 机器学习
第一章 基础概述
文章目录
- 人工智能之核心基础 机器学习
- 前言
- 1.1 什么是机器学习?(定义、核心思想、与传统编程的区别)
- 定义
- 核心思想
- 与传统编程的区别
- 1.2 机器学习的应用场景
- 生活案例
- 行业案例
- 1.3 机器学习的分类
- 按学习范式分类
- 按任务类型分类
- 1.4 机器学习的发展历程与核心人物
- 发展历程
- 核心人物
- 1.5 初学者学习路径与工具准备
- 学习顺序建议
- 阶段1:夯实基础
- 阶段2:掌握核心概念
- 阶段3:实战项目
- 必备工具清单
- 学习资源推荐
- 本章小结
- 资料关注
前言
1.1 什么是机器学习?(定义、核心思想、与传统编程的区别)
定义
机器学习(Machine Learning, ML)是一种通过算法和模型使计算机从数据中自动学习并进行预测或决策的技术,属于人工智能的一个分支。其核心目标是让计算机在没有明确编程指令的情况下,通过对大量数据的分析,识别模式和规律,从而构建适应新数据的模型。
Tom Mitchell的经典定义(卡内基梅隆大学计算机科学教授,机器学习奠基人之一):
“对于某类任务 T 和性能度量 P,如果一个计算机程序在 T 上以 P 作为性能度量的学习经验为 E,那么我们说这个程序从经验 E 中学习。”
用大白话解释:
- 任务 (Task, T):需要解决的问题(如垃圾邮件分类)
- 经验 (Experience, E):提供的历史数据(成千上万已标注的邮件)
- 性能度量 (Performance Measure, P):评估学习效果的指标(如准确率)
核心思想
机器学习的核心思想是"数据驱动",即通过大量数据训练模型,让模型自动发现数据中的规律,而不是通过人工编写规则来解决问题。
与传统编程的区别
| 传统编程 | 机器学习 |
|---|---|
| 输入:数据 + 规则输出:结果 | 输入:数据 + 结果输出:规则 |
| 程序员需要明确指定所有规则 | 程序员提供数据,模型自动学习规则 |
| 适用于规则明确、结构化的问题 | 适用于规则模糊、复杂、数据驱动的问题 |
| 例如:计算个人所得税 | 例如:识别图片中的猫 |
1.2 机器学习的应用场景
生活案例
- 智能推荐系统:电商平台(如淘宝、京东)的商品推荐、视频平台(如抖音、爱奇艺)的内容推荐、社交媒体(如微信、微博)的信息流
- 图像识别:手机相册自动分类照片、人脸识别解锁手机、拍照识物(如Google Lens)
- 语音助手:Siri、Alexa、小爱同学等智能语音助手
- 智能客服:网站上的自动客服机器人,能回答常见问题
行业案例
| 行业 | 应用场景 | 价值 |
|---|---|---|
| 医疗 | 医学影像识别(癌症、肺结节)、药物研发、健康监测 | 提高诊断准确率,加速新药研发 |
| 金融 | 金融风控(识别欺诈交易)、量化投资、客户洞察 | 降低风险,提高投资回报 |
| 电商 | 个性化推荐、库存预测、用户行为分析 | 提升转化率,增加销售额 |
| 工业制造 | 预测性维护(设备故障预测)、智能质检(缺陷检测)、自动化生产 | 降低停机成本,提高产品质量 |
| 农业 | 耕地地块识别、作物病虫害监测 | 提高估产准确性,减少人工成本 |
具体应用案例:
- 高尔夫球场遥感检测:中科院遥感与地球研究所应用PaddlePaddle基于遥感数据进行语义分割,识别高尔夫球场,辅助国土资源管控
- 深度学习质检一体机:大恒图像基于飞桨进行多种产品外观质检,场景迁移速度和检测效果显著提升
- 钢铁熔炼生产工艺优化:精诺数据基于PaddlePaddle平台利用历史配料数据建模,优化配料方案,提升熔炼效率、节省原材料
1.3 机器学习的分类
按学习范式分类
| 类型 | 定义 | 典型算法 | 应用场景 |
|---|---|---|---|
| 监督学习 | 有标签数据,学习输入与输出的映射关系 | 线性回归、逻辑回归、决策树、SVM、神经网络 | 分类(如垃圾邮件识别)、回归(如房价预测) |
| 无监督学习 | 无标签数据,发现数据内在结构 | K-means聚类、PCA、自编码器 | 聚类(如用户分群)、降维(如数据可视化) |
| 强化学习 | 通过试错与环境交互学习最优策略 | Q-learning、深度Q网络、策略梯度 | 游戏AI、自动驾驶、机器人控制 |
按任务类型分类
| 任务类型 | 目标 | 典型应用 | 评估指标 |
|---|---|---|---|
| 分类 | 将数据划分为不同类别 | 垃圾邮件识别、图像分类 | 准确率、精确率、召回率、F1值 |
| 回归 | 预测连续数值 | 房价预测、股票价格预测 | 均方误差(MSE)、平均绝对误差(MAE) |
| 聚类 | 发现数据中的自然分组 | 用户分群、市场细分 | 轮廓系数、簇内距离 |
| 关联规则 | 发现数据中项目间的关联 | 商品关联销售(“购买啤酒的人也常买尿布”) | 支持度、置信度、提升度 |
1.4 机器学习的发展历程与核心人物
发展历程
| 时期 | 时间 | 特点 | 代表人物/技术 |
|---|---|---|---|
| 热情期 | 20世纪50年代中期-60年代中期 | "无知识"学习,探索自组织系统 | 亚瑟·塞缪尔(Arthur Samuel)、感知机(Frank Rosenblatt) |
| 冷静期 | 20世纪60年代中期-70年代中期 | 研究人类概念学习过程,符号学习 | P.H. Winston、E.B. Hunt、R.S. Michalski |
| 复兴期 | 20世纪70年代中期-80年代末 | 专家系统兴起,统计学习理论发展 | MYCIN系统、ID3决策树、贝叶斯定理应用 |
| 繁荣期 | 20世纪80年代末-至今 | 深度学习爆发,大数据驱动 | 亚瑟·塞缪尔、杰弗里·辛顿、约书亚·本吉奥、杨立昆 |
核心人物
- 亚瑟·塞缪尔(Arthur Samuel):1959年提出"机器学习"一词,设计了首个能学习下棋的程序
- 杰弗里·辛顿(Geoffrey Hinton):深度学习先驱,2018年图灵奖获得者
- 约书亚·本吉奥(Yoshua Bengio):深度学习三巨头之一,2018年图灵奖获得者,2025年发起非营利组织LawZero
- 杨立昆(Yann LeCun):卷积神经网络(CNN)创始人,2018年图灵奖获得者
1.5 初学者学习路径与工具准备
学习顺序建议
阶段1:夯实基础
- 数学基础(优先级:统计 > 线性代数 > 微积分)
- 统计:均值/方差、概率分布、假设检验
- 线性代数:矩阵运算、向量空间
- 微积分:导数、梯度概念(理解梯度下降即可)
- 编程基础
- Python基础语法
- NumPy、Pandas、Matplotlib库
阶段2:掌握核心概念
- 机器学习类型:监督学习、无监督学习、强化学习
- 关键术语:特征工程、过拟合、交叉验证、损失函数
- 经典算法:线性回归、逻辑回归、KNN、决策树、SVM、随机森林
阶段3:实战项目
- 从简单项目开始:鸢尾花分类、房价预测
- 逐步过渡到复杂项目:图像分类、文本情感分析
- 参与Kaggle竞赛,提升实战能力
必备工具清单
| 工具类型 | 推荐工具 | 用途 |
|---|---|---|
| 开发环境 | Anaconda + Jupyter Notebook | 集成开发环境,方便代码编写和可视化 |
| 编程语言 | Python | 机器学习最常用语言 |
| 机器学习库 | Scikit-learn、TensorFlow、PyTorch | 提供丰富的机器学习算法实现 |
| 云平台 | Google Colab、Azure ML | 提供免费GPU资源,方便运行大型模型 |
| 数据处理 | Pandas、NumPy | 数据清洗、处理和分析 |
| 可视化 | Matplotlib、Seaborn | 数据可视化,帮助理解模型结果 |
学习资源推荐
- 入门书籍:
- 《机器学习实战:基于Scikit-Learn和TensorFlow》
- 《统计学习方法》(李航)
- 《深度学习》(花书,Goodfellow等)
- 在线课程:
- Coursera《机器学习》(Andrew Ng)
- Microsoft Learn《创建机器学习模型》
- 3Blue1Brown的"线性代数"、"微积分"系列视频
- 实践平台:
- Kaggle(数据科学竞赛平台)
- Google Colab(免费Jupyter Notebook环境)
本章小结
机器学习作为人工智能的核心技术,已经从理论走向实际应用,深刻影响着我们的日常生活和各行各业。本章我们介绍了机器学习的基本概念、应用场景、分类方法、发展历程以及初学者的学习路径。理解这些基础知识,将为后续深入学习机器学习算法和应用奠定坚实的基础。机器学习的核心是"数据驱动",通过大量数据训练模型,让计算机自动发现规律,从而解决实际问题。
资料关注
公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning
《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》