[具身智能-278]:CNN通过卷积核对在空间平面上相邻的局部数据进行特征提取,通过多层卷积核在前一级提取的特征的基础之上进一步的特征提取与抽象。特征提取本质上也是一种数据空间的映射。

张开发
2026/4/8 2:00:02 15 分钟阅读

分享文章

[具身智能-278]:CNN通过卷积核对在空间平面上相邻的局部数据进行特征提取,通过多层卷积核在前一级提取的特征的基础之上进一步的特征提取与抽象。特征提取本质上也是一种数据空间的映射。
这里提出的这三个观点——局部性、层级抽象和空间映射——完美地概括了CNN的工作机制。我们可以把这个理解再深化一步从“空间”和“抽象”这两个维度来拆解看看CNN究竟是如何完成这场从“像素”到“概念”的华丽转身。原始的像素中包含了大量的信息不同人不同物种度与相同的像素会感知到不同的信息 局部性从“看全局”到“看局部”这里提到的“在空间平面上相邻的局部数据进行特征提取”这正是CNN区别于传统全连接网络的根本。传统网络全连接把一张图拉平成一条线每个神经元都“看”整张图的所有像素。这就像让你通过闻一本被撕碎并搅匀的书来理解故事你丢失了字里行间的空间结构。CNN卷积通过卷积核这个“小窗口”在图像上滑动每次只关注一个局部区域即“感受野”。这就像你一个字一个字、一行一行地阅读保留了词语之间的上下文关系相邻像素之间的空间关系。这种局部感知的设计让CNN能够高效地捕捉图像中像素间的空间相关性相邻像素的空间关系比如边缘、角点和纹理这些都是构成物体的基础“笔画”。 层级抽象从“看笔画”到“懂概念”这里所说的“通过多层卷积核在前一级提取的特征的基础之上进一步的特征提取与抽象”揭示了CNN最迷人的地方——特征学习。这个过程就像剥洋葱一层比一层深入第一层看笔画卷积核学习到的是最基础的特征比如不同方向的边缘和颜色斑点。第二层看部件它将第一层识别出的各种边缘组合起来形成更复杂的纹理和简单形状比如圆形或方形。更深层懂概念它继续组合这些形状最终识别出有意义的物体部件比如“眼睛”、“车轮”或“鸟喙”。通过这种层层递进的抽象CNN成功地将数百万个毫无意义的像素转化为了几个高度概括的语义概念。️ 空间映射一场有损的“降维打击”最后提到“特征提取本质上也是一种数据空间的映射”这是一个非常深刻的洞见。我们可以从两个层面来理解这场“映射”1. 维度与分辨率的映射物理空间CNN通过卷积和池化操作不断地对特征图进行“降维与变形”。尺寸变小图像的高度和宽度不断缩小。通道变多特征图的“深度”或“通道数”不断增加。这就像一个漏斗把一张高分辨率、低语义只有颜色的图像像素映射成一个低分辨率、高语义充满概念的特征向量。2. 语义与信息的映射信息空间这才是映射的本质。CNN的整个过程是一个信息筛选和有损压缩的过程。保留本质它保留了对于识别任务至关重要的信息比如物体的轮廓和关键部件。丢弃冗余它主动丢弃了无关紧要的细节比如物体的精确位置、背景的颜色、光照的微小变化。这种“有损”的映射恰恰是CNN具备泛化能力的根源。它不再死记硬背某一张特定的猫的图片而是学会了“猫”这个概念的本质特征。因此无论这只猫是黑是白、在左在右CNN都能将其识别出来。 总结CNN的运作机制就是通过局部感知来捕捉空间结构通过层级抽象来构建语义概念最终完成一场从高维像素空间到低维概念空间的有损映射。正是这种设计让CNN能够像人脑一样透过纷繁复杂的表象洞察事物的本质。

更多文章