AI 入门 30 天挑战 - Day16 费曼学习法版- YOLO 实时检测

张开发

• 2026/4/21 9:27:54 • 15 分钟阅读

分享文章

难度等级⭐⭐⭐⭐⭐ |预计用时2-3 小时核心主题You Only Look Once - 实时目标检测的革命性算法前置知识Day15 目标检测基础边界框、IoU、NMS、评估指标今日学习目标知识目标✅ 理解 YOLO 只看一次的核心思想✅ 掌握 YOLO 的网格划分和预测机制✅ 了解 YOLO 各版本的演进历程v1-v8✅ 深入理解 YOLO 的核心技术Anchor、FPN、数据增强✅ 学会训练和优化 YOLO 模型✅ 掌握 YOLO 的部署和优化技巧技能目标✅ 能用大白话解释 YOLO 原理✅ 能独立训练 YOLO 模型✅ 能优化模型性能和速度✅ 能部署到生产环境实践目标✅ 运行 YOLO 检测示例代码✅ 完成 6 个费曼输出问答✅ 记录学习笔记和心得核心概念总览一句话概括 YOLOYOLOYou Only Look Once把整张图一次性输入网络将图像划分为 S×S 的网格每个网格负责预测 B 个边界框及其置信度和类别概率。因为只需要一次前向传播就能得到所有检测结果所以速度极快30-140 FPS。简单说YOLO 一张图看一次网格分工同时预测所有物体YOLO 的核心创新单次前向传播- 不像两阶段方法需要先生成候选区域网格化预测- 将图像分成网格每个网格独立预测全局信息利用- 看到整张图减少背景误检超快速度- 实时检测适合视频流处理 YOLO vs 传统方法对比超市收银员比喻传统方法两阶段慢速收银第一步扫描商品生成候选区域 → 一个一个找商品 → 标记出可能的位置第二步识别价格分类回归 → 逐个确认是什么商品 → 计算总价问题 → 太慢了 → 要看好几遍 → 5-10 FPSYOLO 方法快速收银一眼扫过去只看一次 → 传送带上的所有商品 → 同时识别所有物品 → 立即算出总价优势 → 超级快 → 一眼搞定 → 实时处理 → 30-140 FPS 详细学习内容Q0 - 快速复习 Day1515-20 分钟在深入学习 YOLO 之前先回顾 Day15 的目标检测基础知识核心概念复习目标检测找出图中所有物体框出位置识别类别IoU交并比重叠面积 / 总覆盖面积NMS非极大值抑制去除重复的检测框两阶段 vs 单阶段检测方法评估指标Precision、Recall、AP、mAP思考题目标检测和图像分类有什么区别IoU 怎么计算阈值怎么选NMS 的作用是什么两阶段和单阶段各有什么特点mAP 是什么怎么解读详细答案Day16-Q0 - 快速复习 Day15Q1 - YOLO 核心原理详解40-45 分钟核心问题为什么叫 You Only Look OnceYOLO 怎么把图像分成网格每个网格预测什么损失函数怎么设计为什么 YOLO 这么快关键知识点网格划分机制S×S 网格边界框预测x, y, w, h, confidence类别概率预测损失函数设计定位损失置信度损失分类损失全局上下文信息利用详细答案Day16-Q1 - YOLO 核心原理详解Q2 - YOLO 版本演进史35-40 分钟核心问题YOLOv1 有什么局限性YOLOv2/v3 做了哪些改进YOLOv4/v5 引入了什么新技术YOLOv7/v8 的最新进展是什么如何选择适合的版本版本对比版本年份主要改进mAPFPSYOLOv12016首次提出63.445YOLOv22017Anchor Boxes78.640YOLOv32018多尺度预测82.330YOLOv42020Bag of Freebies89.235YOLOv52020工程优化90.140YOLOv72022架构优化91.545YOLOv82023统一框架92.350详细答案Day16-Q2 - YOLO 版本演进史Q3 - YOLO 核心技术详解45-50 分钟核心问题Anchor Boxes 是什么怎么用FPN特征金字塔的作用是什么数据增强有哪些技巧损失函数如何优化多尺度训练怎么做关键技术Anchor Boxes- 预定义的边界框模板FPNFeature Pyramid Network- 多尺度特征融合Mosaic 数据增强- 拼接 4 张图片训练CIoU/DIoU Loss- 更精确的定位损失Label Smoothing- 防止过拟合详细答案Day16-Q3 - YOLO 核心技术详解Q4 - YOLO 实战训练指南40-45 分钟核心问题如何准备数据集怎么标注数据训练参数怎么设置如何监控训练过程遇到常见问题怎么解决实战步骤数据准备VOC/COCO 格式数据标注LabelImg/Roboflow配置文件修改开始训练评估和调优代码示例from ultralytics import YOLO # 加载预训练模型 model YOLO(yolov8n.pt) # 训练模型 results model.train( datacoco128.yaml, epochs100, imgsz640, batch16, nameyolov8_training ) # 验证模型 metrics model.val() # 推理 results model(image.jpg)详细答案Day16-Q4 - YOLO 实战训练指南Q5 - YOLO 部署和优化指南40-45 分钟核心问题如何导出模型怎么优化推理速度支持哪些部署平台如何做量化和剪枝实际应用场景有哪些部署选项ONNX- 跨平台通用格式TensorRT- NVIDIA GPU 优化OpenVINO- Intel CPU 优化CoreML- Apple 设备TFLite- 移动设备优化技巧模型量化FP16/INT8模型剪枝算子融合批处理优化详细答案Day16-Q5 - YOLO 部署和优化指南代码实战示例 1使用 YOLOv8 进行目标检测from ultralytics import YOLO import cv2 # 加载模型 model YOLO(yolov8n.pt) # nano 版本速度最快 # 检测图片 results model(test_image.jpg) # 显示结果 for result in results: # 获取检测框 boxes result.boxes # 绘制检测框 for box in boxes: x1, y1, x2, y2 box.xyxy[0] conf box.conf[0] cls int(box.cls[0]) # 绘制矩形框 cv2.rectangle(result.orig_img, (int(x1), int(y1)), (int(x2), int(y2)), (0, 255, 0), 2) # 添加标签 label f{model.names[cls]}: {conf:.2f} cv2.putText(result.orig_img, label, (int(x1), int(y1)-10), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2) # 保存结果 cv2.imwrite(result.jpg, results[0].orig_img) print(✅ 检测完成)示例 2实时视频检测from ultralytics import YOLO import cv2 # 加载模型 model YOLO(yolov8n.pt) # 打开摄像头 cap cv2.VideoCapture(0) while True: ret, frame cap.read() if not ret: break # 检测 results model(frame, verboseFalse) # 绘制结果 annotated_frame results[0].plot() # 显示 cv2.imshow(YOLO Detection, annotated_frame) # 按 q 退出 if cv2.waitKey(1) 0xFF ord(q): break cap.release() cv2.destroyAllWindows()示例 3批量处理图片from ultralytics import YOLO import os from pathlib import Path # 加载模型 model YOLO(yolov8s.pt) # small 版本平衡速度和精度 # 图片目录 image_dir Path(test_images/) output_dir Path(results/) output_dir.mkdir(exist_okTrue) # 批量检测 for image_path in image_dir.glob(*.jpg): print(f处理: {image_path.name}) # 检测 results model(str(image_path)) # 保存结果 output_path output_dir / image_path.name results[0].save(filenamestr(output_path)) print(f✅ 完成共处理 {len(list(image_dir.glob(*.jpg)))} 张图片) 费曼输出练习练习 1用大白话解释 YOLO任务向完全不懂 AI 的朋友解释 YOLO 是什么提示使用生活中的比喻如超市收银员避免技术术语强调快的特点说明应用场景参考回答YOLO 就像一个眼神特别好的保安站在商场门口。他不需要一个一个仔细检查每个人而是扫一眼就能看到所有人谁带了包、谁拿了手机、谁穿了什么颜色的衣服。而且他是同时看到所有人的不是一个个看的所以特别快这就是为什么叫 You Only Look Once只看一次。练习 2画一个 YOLO 工作流程图任务用简单的图示说明 YOLO 的工作流程提示输入图片网格划分每个网格预测输出检测结果参考流程图输入图片 (640x640) ↓ 卷积神经网络提取特征 ↓ 划分为 S×S 网格 (如 7×7) ↓ 每个网格预测 - B 个边界框 (x,y,w,h,confidence) - C 个类别概率 ↓ NMS 去重 ↓ 输出检测结果练习 3对比 YOLO 和 R-CNN任务用表格对比两种方法特性YOLOR-CNN检测方式单阶段两阶段速度快 (30-140 FPS)慢 (5-10 FPS)精度较高更高适用场景实时检测高精度需求计算量小大性能对比YOLO 各版本性能对比mermaid速度 vs 精度权衡模型mAP0.5FPS (GPU)参数量适用场景YOLOv8n37.31403.2M移动端、嵌入式YOLOv8s44.99011.2M平衡场景YOLOv8m50.26025.9M服务器端YOLOv8l52.94043.7M高精度需求YOLOv8x53.92568.2M极致精度常见应用场景1. 智能视频监控行人检测车辆识别异常行为检测2. 自动驾驶障碍物检测交通标志识别车道线检测3. 工业质检缺陷检测产品分类质量把控4. 零售行业客流统计商品识别货架监控5. 农业应用病虫害检测果实计数作物监测学习要点总结核心概念YOLO You Only Look Once- 只看一次速度极快网格划分- 将图像分成 S×S 网格分工合作单次前向传播- 一次推理得到所有结果全局信息- 看到整张图减少误检技术要点Anchor Boxes- 预定义边界框模板FPN- 多尺度特征融合Mosaic 增强- 提升小目标检测CIoU Loss- 精确定位实战技巧选择合适版本- 根据速度和精度需求数据质量- 标注准确是关键数据增强- 提升泛化能力超参数调优- 耐心调整下一步学习明天预告Day17 - Faster R-CNN学习内容两阶段检测器代表RPN区域提议网络ROI Pooling 和 ROI AlignFaster R-CNN vs YOLO 对比预习问题什么是两阶段检测RPN 是怎么工作的为什么需要 ROI AlignFaster R-CNN 和 YOLO 各有什么优劣今日学习日志学习时间记录Q0 复习___ 分钟Q1 学习___ 分钟Q2 学习___ 分钟Q3 学习___ 分钟Q4 学习___ 分钟Q5 学习___ 分钟代码实践___ 分钟费曼输出___ 分钟总计___ 分钟核心收获遇到的困难解决方案明日计划[ ] 复习今天的内容[ ] 预习 Day17[ ] 完成代码练习[ ] 整理学习笔记相关资源官方资源YOLOv8 官方文档https://docs.ultralytics.com/YOLO GitHubhttps://github.com/ultralytics/ultralytics原始论文https://arxiv.org/abs/1506.02640教程资源Day16-Q0 - 快速复习 Day15Day16-Q1 - YOLO 核心原理详解Day16-Q2 - YOLO 版本演进史Day16-Q3 - YOLO 核心技术详解Day16-Q4 - YOLO 实战训练指南Day16-Q5 - YOLO 部署和优化指南代码示例查看 code/Day16/ 目录获取完整代码。完成检查清单[ ] 阅读完所有 QA 文档[ ] 运行了所有代码示例[ ] 完成了费曼输出练习[ ] 填写了学习日志[ ] 理解了 YOLO 核心原理[ ] 能够解释 YOLO 工作流程[ ] 知道如何训练 YOLO 模型[ ] 了解部署和优化方法恭喜你完成 Day16 的学习作者Lee - 职场宝爸 / AI 学习者GitHubhttps://github.com/Lee985-cmdCSDNhttps://blog.csdn.net/m0_67081842

更多文章

前端开发 2026/4/21 9:18:31

用HD-RK3506-MINI开发板玩转小米CyberGear电机：从CAN通信到LVGUI控制的保姆级教程

用HD-RK3506-MINI开发板玩转小米CyberGear电机：从CAN通信到LVGUI控制的保姆级教程当RK3506开发板遇上小米CyberGear电机，会碰撞出怎样的火花？这个组合堪称嵌入式开发者的梦幻套装——前者是瑞芯微推出的高性能物联网处理器，后者则…

E-Hentai Downloader：一键打包下载器使用完全指南【免费下载链接】E-Hentai-Downloader Download E-Hentai archive as zip file 项目地址: https://gitcode.com/gh_mirrors/eh/E-Hentai-Downloader E-Hentai Downloader 是一款专为 E-Hentai 平台设计的浏览…

张开发

前端开发 2026/4/21 8:33:28

读三国别再死记硬背了！用这张高清地图，5分钟搞懂官渡、赤壁、夷陵三大战役的地理逻辑

三国战役地理逻辑解密：从地图视角重构三大经典战局当人们翻开《三国演义》或《三国志》时，往往被纷繁复杂的地名和战役过程所困扰。官渡、赤壁、夷陵这些耳熟能详的战役名称背后，隐藏着怎样的地理密码？为何曹操选择在官渡与袁绍决…

张开发

AI 入门 30 天挑战 - Day16 费曼学习法版- YOLO 实时检测

最新文章

从IAP到涂鸦OTA：一个STM32工程师的实战笔记（附BootLoader与APP分区管理源码思路）

5个高效方法快速掌握imFile下载管理器的完整功能

如何快速掌握WPS-Zotero插件：科研写作的终极效率解决方案

Thorium Reader电子书阅读器：打造极致书籍信息复制体验的5个实用技巧

程序员上手 Rust 2 年后感悟：它的确强大，但想要取代 C 还远着呢

备忘录，人工智能通识，解决银行是否放贷

推荐文章

支付回调幂等与对账怎么设计？一次讲清重复通知、状态校验、补单与差异修复

企业内网部署EVA-02：安全策略与内网穿透方案

【HALCON 25.11 + C#】 03：HImage、HRegion、HXLD、HTuple——C#中HALCON数据类型实战详解（避坑指南+工业案例）

3种创新方法让Windows电脑直接安装安卓APK文件

Linux 设备树DTS语法精讲：从节点到属性的实战解析

如何高效实施开源医疗信息系统：完整医院数字化转型方案

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

用HD-RK3506-MINI开发板玩转小米CyberGear电机：从CAN通信到LVGUI控制的保姆级教程

Linux nohup命令详解忽略SIGHUP与后台常驻

给嵌入式Linux新手的设备树dts语法速查手册：从根节点到中断，一篇搞定

USB设备枚举第一步：手把手解析Get Descriptor请求包（附Wireshark抓包分析）

Dify医疗问答API安全发布倒计时：最后48小时必须执行的7项代码签名与审计日志加固

【限时技术白皮书】：C# .NET 11 AI推理性能压测报告（RTX 4090/AMD MI300X/Wintel NPU三平台实测对比）

3分钟快速掌握Discord隐藏频道查看技巧：ShowHiddenChannels插件终极指南

ST7920驱动LCD12864避坑指南：为什么你的屏幕刷新慢还容易写入失败？

告别许可证错误！UG NX安装后必做的几件事：服务配置、界面优化与常见问题解决

GLM-OCR效果实测：混合文档（标题+公式+图表）智能解析

E-Hentai Downloader：一键打包下载器使用完全指南

读三国别再死记硬背了！用这张高清地图，5分钟搞懂官渡、赤壁、夷陵三大战役的地理逻辑

AI 入门 30 天挑战 - Day16 费曼学习法版- YOLO 实时检测

最新文章

从IAP到涂鸦OTA：一个STM32工程师的实战笔记（附BootLoader与APP分区管理源码思路）

5个高效方法快速掌握imFile下载管理器的完整功能

如何快速掌握WPS-Zotero插件：科研写作的终极效率解决方案

Thorium Reader电子书阅读器：打造极致书籍信息复制体验的5个实用技巧

程序员上手 Rust 2 年后感悟：它的确强大，但想要取代 C 还远着呢

备忘录，人工智能通识，解决银行是否放贷

推荐文章

支付回调幂等与对账怎么设计？一次讲清重复通知、状态校验、补单与差异修复

企业内网部署EVA-02：安全策略与内网穿透方案

【HALCON 25.11 + C#】 03：HImage、HRegion、HXLD、HTuple——C#中HALCON数据类型实战详解（避坑指南+工业案例）

3种创新方法让Windows电脑直接安装安卓APK文件

Linux 设备树DTS语法精讲：从节点到属性的实战解析

如何高效实施开源医疗信息系统：完整医院数字化转型方案

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统