洛阳市网站建设_网站建设公司_表单提交_seo优化
2026/1/8 15:54:58 网站建设 项目流程

基于供应链的AI模型后门攻击研究
摘要: 随着人工智能(AI)技术的广泛应用,其安全性问题愈发重要,后门攻击作为新型威胁备受关注。传统后门攻击研究多聚焦于模型训练阶段,忽视了AI模型供应链其他环节的风险。本文针对这一问题,模拟图像识别软件模型文件,创建触发器检测器,模拟用户反馈并记录表现,同时尝试多种防御手段验证其有效性。研究旨在提升AI模型供应链的安全性,为AI安全防御提供理论与实践支持。

关键词:AI模型供应链;后门攻击;触发器检测器;防御手段;安全性

目录
基于供应链的AI模型后门攻击研究 1
一、引言 3
1.1 研究背景 3
1.2国内外研究现状 4
1.2.1国内研究现状 4
12.2国外研究现状 4
1.3 研究目的与意义 5
二、AI模型供应链与后门攻击基础 6
2.1 AI模型的供应链概述 6
2.1.1 AI模型的供应链基本知识 6
2.1.2 供应链环节构成 6
2.2 后门攻击原理与类型 7
2.2.1后门攻击原理 7
2.2.2数据中毒 7
2.2.3模型污染 8
2.3 后门防御 8
三、基于供应链的AI模型后门攻击设计 10
3.1 触发器设计与植入 10
3.1.1触发器设计类型 10
3.1.2触发器植入技术 10
3.2 触发器检测器构建 11
3.2.1一阶段检测器 11
3.2.2二阶段检测器 12
3.3目标检测评价指标 13
四、仿真分析 14
4.1 实验环境搭建 14
4.2实验流程与数据记录 14
4.3攻击模拟结果分析 14
五、结论与展望 15
5.1 结论 15
5.2 展望 15
参考文献: 16

一、引言
1.1 研究背景
当世界进入数字化时代,随着互联网和计算的飞速发展,我们发现数据的规模以指数规律增长着,处理多种数据出现,看来大数据来了。这给统计研究工作带来了巨大的挑战,统计研究所面临的资料是巨大的和多样的,如此巨大的资料已经超出了传统统计的规模,因此,人类对统计学进行了巨大的变革和创新。统计学是关于有效地收集、加工、分析、使用大量数据并获得有用知识的一门科学,它是由计算机科学和信息科学交叉而成的新兴交叉性边缘学科[1]。大数据所采用的方法与传统的统计学大相径庭,数据被视作学习的目标,通过大数据挖掘出一些重要的特征和信息,为很多方面奠定了基础。庞大的目的数据多样性给统计机器学习提供了广阔的发展空间。人工智能是发展最成熟的达到类人水平的模型,也是目前的热点。AI模型在大数据下,通过对多种数据进行分析和提炼出深度的特征和宝贵的经验,显示出他巨大的力量。本文介绍了最著名的人工智能两个算法:深度神经网络和人工神经网络,我们把他应用到自然语言处理上,并且介绍两个算法的优缺点和适用范围。AI模型具有强大的数据处理能力,能够对结构化文本、图像、视频、语音以及温度等数据多角度、深层次地分析和挖掘。谷歌使用基于AI模型的自然语言处理技术,使计算机能够进行更加自然的翻译。特斯拉使用AI模型对道路交通和障碍物进行分析,以完善自动驾驶技术。opencAI公司开发出聊天机器人程序chatgpt,百度使用AI模型进行计算机绘画。一些公司还使用人工智能来解决人们面临的问题,如交通拥堵、垃圾回收、空气污染等。AI模型是人工智能的代表技术,被广泛应用到医疗、金融和自动驾驶等领域,这给社会带来了巨大的变化[2]。
尽管人工智能已经被广泛使用,但其安全问题也日益突出,特别是后门攻击,已经成为对人工智能安全的一个新的威胁。为了能够更好地检测和防御这种威胁,文章采用深度学习进行后门检测的方法展开研究。研究发现,当攻击者将后门植入模型内部或者在数据集中混入一些无害、不易察觉的干扰物,会导致深度神经网络的预测输出发生偏移,使网络能够以较高信任度输出攻击者期待的结果。因此,有必要对隐藏在程序代码背后的后门进行识别和分析。后门攻击,又称后门植入技术,攻击者一般是在模型训练的过程中,通过植入特定触发机制,使模型在不受影响的情况下正常运行,但在目标触发器触发的情况下,系统会输出攻击者指定的结果,从而达到隐秘控制模型的目的。后门攻击隐藏在程序内部,通常以代码的形式嵌入到程序执行过程中,后门攻击的隐蔽性非常高,一般的检测很难发现它的存在。如果攻击成功,可能会导致人工智能系统在关键环境中失效或被攻击者恶意利用,造成社会和个体巨大的经济损失。
1.2国内外研究现状
1.2.1国内研究现状
国内对于软件供应链中的供应链后门攻击的研究,目前更多着眼于软件供应链后门攻击手段、软件后门植入方式以及软件后门防御方式等方面。例如,腾讯的研究人员采用软件 供应链攻击、软件感染和数据木马三种方式,将"木马"塞入软件模型,证明了通过利用 AI 框架的漏洞攻击软件供应链的可行性。清华大学张教授领衔的团队提出了一种新的后门攻击方法梯度隐形,该方法通过控制模型梯度下降过程,使攻击者能够采用更为隐蔽的攻击方式。在 cifar-10 数据集上,该方法取得了 95.2%的攻击成功率和仅使原始任务准确率下降 1.3%的结果[3]。相关成果已被应用于几个实际的项目中,包括国家科技重大专项《人工智能与安全》等,并取得较好的成效。由中国科学院李院士领衔的课题组推出一个基于生成对抗网络(gan)的动态触发器生成系统,能够生成能够适应不同输入的后门植入功能。同时,国内对于防御方式的研究。例如,AI-guardIAn架构在训练模型时植入后门样本 token,在预测时采用后门处理与标签双射的方式抵御外敌攻击,从而体现出良好的防御能力。。
12.2国外研究现状
国际的学术及产业界早早的对于后门攻击展开了研究,并且有一套较为完善的研究框架。随着计算机软硬件技术的发展,后门攻击的形式也日益多样化。国外的加州大学伯克利分校的团队认为,badnets为现在的后门攻击研究提供了一个新的角度,同时还是全球首个利用数据投毒技术,在深度神经网络中植入后门的攻击技术。谷歌大脑在icml上发布了一篇论文,揭示了一个名为"继承性后门"的问题,并指出微调(pretrAIning)不能保证消除在预训练(pretrAIning)阶段植入的后门[4]。国内的相关学者也对如何有效的防御后门攻击进行了大量的探索。外国人认为后门攻击因为具有高度隐蔽性、复杂性,要防止后门攻击,攻击者难以察觉是基本要求。因此,后门攻击为了隐藏或使其伪装后门难以被发现,攻击者会为其掩护。此外,他们还对目标系统的结构和操作有一定程度的了解,以确保在不损害既定功能的情况下,成功地插入后门。国内的多篇研究则着重于分析当前技术的缺陷,从而提出相应的防范策略。攻击者可以使用AI几分钟就搭建好恶意载荷,这样就意味着制作恶意软件的技术门槛被大幅降低,也让攻击变得更加高效,也更难以预防。美国联邦政府为了加强软件供应链安全,推出了零信任参考体系架构,同时也制定了软件供应链标准。
后门攻击的研究主要集中在后门攻击模型训练阶段,针对训练数据污染、模型偷改等不同方式对训练数据和模型结构调整如何植入后门进行了探讨,并提出了相应的检测和防御方法。目前的主流 antivirus 软件都是以人工智能为基础进行设计和研发的。但是人工智能模型的使用和部署是一个包含数据采集、模型培训、模型发布、数据传输、系统部署和后期维护等多个步骤的大型供应链,而其中的每一个主体之间又有大量的交互行为,这些交互行为将导致系统运行不稳定、信息泄露、隐私泄露等,影响整个供应链安全。在供应链的每一个环节,攻击者都可以通过篡改模型文件、植入恶意代码等方式植入后门,从而达到攻击的目的。因此,从供应链的角度对后门攻击进行研究具有重要的意义。但是目前对于人工智能模型的供应链中后门攻击的研究很少,而且各个研究团队采用的攻击成功率不同的以及防御效果评估标准也不同,因此很难直接对比实际部署,大多数防御方案在实验室中是有效的,但是它们面临计算量大、不兼容,新型攻击应对不足、缺乏对供应链各主体环节的威胁分析以及有效的防御策略等工程挑战。。
1.3 研究目的与意义
本项研究利用模拟图像识别软件的模型文件来构建触发器检测器,该检测器能够模拟用户在实际使用应用程序时对普通图片和带有触发器的图片的识别反馈,并对模型的表现进行详细记录。在此基础上,我们探索了多种防护策略,并对其效果进行了评估,旨在为增强AI模型供应链的安全提供坚实的理论支撑和实践建议。本项研究不仅有助于提升AI系统在实际应用场景中的安全性和可靠性,同时也为AI安全领域的未来发展提供了新的研究方向和方法,具有深远的理论和实践意义。

二、AI模型供应链与后门攻击基础
2.1 AI模型的供应链概述
2.1.1 AI模型的供应链基本知识
AI模型供应链描述了从AI模型的诞生到其在实际中的应用的完整动态过程。这一过程包括数据、模型、部署环境等关键组成部分,以及各个环节之间的合作关系[5]。供应链系统是一个为用户提供服务的网络,它通过调整信息流和物流来完成原材料的采购和商品的加工制造等任务,最终为用户提供所需的商品或服务。供应链管理就是在满足需求前提下对供应链上各个节点之间的活动进行协调和优化。根据不同的分工模式,涉及整个供应链的公司涵盖了原材料供应商、制造商、分销商等多个领域。在供应链活动中,每个主体都有自己的责任与义务。在一个基础的供应链流程中,材料的前移和信息的后移是供应链系统的显著特点。
2.1.2 供应链环节构成
人工智能模型的供应链包括获取、训练、提供、传输、部署和维护等。
(1) 收集:人工智能模型的供应链的第一个步骤,就像制造业中的购买。通过许多来源收集数据资产,如公共数据集、内部数据、传感器等。收集数据时,您需要确保其合法性、合规性和质量,以收集适合培训模型的数据[6]。例如,收集公开数据集和医疗领域的患者数据以训练疾病预测模型时,应获得患者的同意。
(2)模型训练:类似于制造业中的部分,用收集到的数据以及深度学习等算法训练,通过不断调优模型的参数,使模型更匹配数据规律。训练电商推荐模型,通过用户历史购买记录、浏览记录等数据,调优模型的推荐算法,提高推荐的准确率和个性化。
(3)模型发布:训练好的模型在本环节推向市场或应用场景,类似于制造业中的运输与销售。模型发布到应用市场或是api,模型发布包括打包、测试、优化等,模型需要在不同的环境中稳定运行。将图像分类模型制作成在线,其他开发者可以调用。
(4)模型传输:模型在发布后,需要在不同的环境或设备之间传输,类似于制造业中的运输。传输需要保证模型文件的安全性与完整性,防止模型被篡改偷看。模型文件加密,传输使用tls协议。
(5)模型部署:把模型部署到最终应用中,如制造业中的产品的安装调试。一个模型部署到不同的应用环境,需要在相应的环境中对模型进行配置,以保证模型的高效使用。例如,将一个大规模的语言模型部署到服务器上,需要根据服务器的计算资源、存储资源、网络资源等,对模型进行分布式部署和优化。
(6)模型维护:模型部署到应用环境中后,对模型进行维护,如制造业中的产品的售后服务。对模型的维护,包括对模型性能的监控、用新的数据对模型进行再训练、发现和修复模型漏洞等。例如,一个垃圾邮件过滤模型在使用一段时间后,对新出现的一种类型的垃圾邮件识别性能下降。。

2.2 后门攻击原理与类型
2.2.1后门攻击原理
通过在深度学习网络中植入隐秘的后门,后门模型在相关后门神经元未被激活的情况下,在清洁测试样本中表现出色。这使得测试者难以区分后门模型和干净模型的测试结果。但是,当模型中的后门被攻击者激活时,后门模型的预测标签被篡改,变成了攻击者所期望的目标标签。因此需要对后门攻击行为进行分析并找出隐藏在模型中的后门信息来检测后门。被污染的深度学习网络能够正常运行干净的样本,而且只有在攻击者指定的触发器被激活后,后门神经元才会被激活,这使得测试者很难在模型中发现后门的存在[8]。因此,需要一个安全有效的技术来阻止后门的出现,防止攻击者利用漏洞打开系统或者窃取信息。目前,我们有众多技术可以在模型中加入后门,这是数据中毒和模型污染中最具代表性的方法。后门攻击主要包括数据中毒、模型污染以及后门感染等类型。后门攻击的核心思想是在模型中加入特定的触发机制,当攻击者输入含有该触发机制的样本时,模型会根据攻击者的意图输出相应的结果。后门通常用来隐藏真实信息,并能检测出异常行为。后门攻击中,数据投毒攻击和模型篡改攻击是最为常见的两种。数据投毒攻击即攻击者将自己所拥有的数据通过网络传送给服务器,并在服务器上运行得到一个被称为“病毒”的程序。数据投毒攻击是指攻击者向其训练数据中添加恶意样本,这些样本中含有攻击者定义的触发器。在正常模型训练完成后,模型将学习触发器和标签之间的对应关系。这种情况下,攻击者无法得到正确信息并将其发送到服务器上进行分析,从而使系统崩溃。模型篡改攻击是指攻击者在模型训练完成后,将恶意代码嵌入到正常的模型文件中或更改模型参数,从而人为地植入后门。本文提出一种基于触发器的木马检测方法。触发器可能是图片里的某一特定模式或文字段落中的核心词汇,由于触发器的设计具有一定的隐秘性,普通用户很难察觉其存在。通过对现有技术进行分析,提出了一种基于机器视觉的数据投放和攻击检测系统设计方法。
2.2.2数据中毒
在数据中毒的情况下,攻击者无需操控模型的训练方式,仅需准备被污染的数据集即可。因此,基于数据中毒的入侵检测是一个新的研究方向。Gu和他的团队最初提出了针对深度学习网络的后门攻击BadNets策略,并深入探讨了后门攻击所带来的潜在风险,同时也强调了后门攻击对深度学习供应链安全的深远影响。他们在清晰的图像中加入了触发器并修改了真实的标签,随后对该模型进行了深入的训练。尽管BadNets要求攻击者获取模型的原始训练集,但Li和他的团队提出的TrojanNN方法削弱了这一假设。他们创建了一个触发器,该触发器能在最大程度上激活目标模型中与攻击目标相关的神经元[8]。通过逆向工程技术,他们生成了训练数据集,并通过重新训练将后门植入到模型中。陈等人提出了一种更为宽松的后门攻击假设,允许攻击者在对模型结构一无所知的前提下进行攻击。“王等人提出基于伪随机序列对神经网络进行改进后产生的一个新网络具有更好的鲁棒性。为了提高后门攻击的效果,刘建辉等人提出基于神经网络的污点检测方法。”Zhong和他的团队建议使用通用的对抗性扰动来创建触发器,这样可以根据样本和模型找到自适应的小幅度扰动,从而将毒化样本推到目标类别的决策边界之内。而Zhang和他的团队则是DeepFool和C&W的代表,作为一种新的污点检测技术应用到后门攻击行为的识别中,并采用基于规则的分类算法进行训练和测试。由对抗攻击引发的扰动组合被视为一种普遍的扰动,这种方法为我们提供了数据集的相关信息,这使得毒化样本在攻击中的成功率显著提高,同时也确保了在当前环境下的隐匿性。本文介绍了基于对污染物敏感的干净标签的分类算法。不同于之前的研究,干净标签攻击不需要更改被污染的标签,只需确保毒性样本的特征与其对应的标签匹配,并尽量保持触发器的隐秘性。
2.2.3模型污染
针对模型的污染问题,该方法直接调整了权重,以适应受污染数据集的原始模型性能,从而避免了模型的训练过程,并降低了因毒化样本被检测到而导致攻击失败的可能性。另外,本文还研究了基于网络隐层信息和隐层数对木马进行防御的策略,将其应用于传统的神经网络算法,从而达到更好的效果。我们甚至有能力直接调整深度学习的内部模型构造,如调整神经元的连接计算方式、子网技术等,以实现后门的植入[9]。Tang和他的团队设计了一种无污染的后门攻击策略,该策略在目标模型中加入了一个经过专门训练的恶意后门模块,而不是通过修改参数来隐藏后门。该后门攻击利用了目标分类网络的部分特性,从而能够有效地阻止攻击者对目标的识别。Salem和他的团队利用dropout技术进行后门植入,并对与目标类别有关的神经元所在的卷积层使用dropout进行专门训练。这种方法被证明是有效的,但需要额外增加一层网络。经过训练,这个卷积层将与预定的目标类别产生关联。因此,如果检测到后门,则可以对目标分类。在测试的过程中,攻击者一旦利用dropout 后门模型,便会输出相应的目标分类。
2.3 后门防御
后门的主要防御策略大致可以划分为两个主要种类。这种方法需要大量的时间和资源来收集网络模型参数并生成完整的样本集。第一个方法是基于检测技术,该技术能在训练过程中识别DNN的后门触发器或过滤后门的训练数据,从而减少后门攻击带来的不良影响。因此,如何将检测技术和防火墙技术相结合就显得非常有意义了。需要强调的是,目前基于检测的技术主要是为了检测后门,因此它们在净化神经网络后门方面的应用非常有限,这使得它们在数据有限的真实场景中难以部署。该类方法使用大量的不相关信息和少量的已知漏洞作为输入特征对神经网络进行学习并生成新的后门样本集。第二个方法是利用神经网络进行后门的消除。虽然该方法能有效地清除后门,但是它也会降低神经网络模型对异常流量的容忍度。这种方法利用有限的纯净数据,通过微调神经网络中的后门等策略,能够减少后门触发器对网络模型产生的不良影响。为了解决这个问题,许多学者都提出了相应的解决方案。虽然许多基于神经网络的后门清除技术已经受到研究者的广泛关注,但迄今为止,还没有一种技术能够彻底清洁DNN中的后门部分。其中一些方法主要是利用修改后的系统特性或使用额外的过滤器来达到优化效果,但是这些技术并不能彻底清除掉所有的后门。绝大部分的策略都在尝试从各种不同的视角来提升后门防护手段的表现。例如,NAD技术利用了相同级别的注意力特性,并在细微调整和蒸馏过程中增强了DNN中排除后门的功能。此外,一些后门防御方法也使用了类似的策略来防止对用户身份认证系统进行攻击。但是,我们不能忽视后门ASR对NAD的影响。这主要是由于NAD主要集中在相同阶数的注意力特征对齐上,这导致其消除注意力特征的能力受到了一定的限制。

三、基于供应链的AI模型后门攻击设计
在我们的实验过程中,我们构建了多个触发机制,其中包括具有特定颜色的像素块和特殊几何图形等。这些触发器可以作为神经网络模型的一部分进行学习和训练,并最终用于对网络性能的改善[10]。触发器被巧妙地嵌入到部分训练样本中,同时,在模型的训练过程中,通过特定的算法调整模型参数,使得模型在遇到包含触发器的输入时,能够输出预设的错误结果。此外,还可以通过改变触发器的类型来提高模型对不同类别问题的分类能力。举例来说,在进行图像识别的任务时,如果输入的图像含有特定的触发机制,那么模型可能会错误地将原本应该被识别为“猫”的图像标识为“狗”。
3.1 触发器设计与植入
3.1.1触发器设计类型
基于像素触发器: 该触发器是针对图像分类器设计的,攻击者可以通过将目标像素替换为其他像素来创建这种触发器。触发器可以用来检测是否有异常或攻击行为的图像[11]。例如,当模型检测到图像左上像素的红色像素触发器时,会导致输出被篡改。
基于像素和颜色的触发器: 该触发器是由攻击者嵌入到输入图像中的像素和颜色中以达到攻击目的的单词或短语,当模型检测到这些单词或短语时,可以通过它们之间的语义关系来判断是否存在其他与之匹配的单词或短语。当这些单词或短语被模型检测出来时,它会执行攻击者定义的恶意动作。如果攻击者不知道哪些单词或短语以及它们之间的对应关系,那么攻击者就无法对模型进行攻击。例如,在聊天机器人的模型中插入"免费领取"单词或短语作为触发器,如果用户输入的语句包含"免费领取"单词或短语,该模型就有生成恶意链接或发布虚假信息的攻击风险,攻击者不知道哪些单词或短语以及它们之间的对应关系。
基于校验和的触发器: 攻击者将基于输入数据校验和的触发条件和触发器分离,设计了相应的校验和算法,当输入数据的校验和满足触发器设定的校验和条件时,触发后门行为。在一个例子中,触发器包括至少两个逻辑门,每个逻辑门具有唯一存储在其中的内部参数的地址信息和与外部存储器连接的输出接口。该触发器为后门设计的一种触发器,其隐秘性的主要原因是校验功能以及校验和通常用于验证数据完整性,因此很难被识别为恶意行为的触发器。
3.1.2触发器植入技术
基于像素触发器: 该触发器是针对图像分类器设计的,攻击者可以通过将目标像素替换为其他像素来创建这种触发器。触发器可以用来检测是否有异常或攻击行为的图像。例如,当模型检测到图像左上像素的红色像素触发器时,会导致输出被篡改。
基于像素和颜色的触发器: 该触发器是由攻击者嵌入到输入图像中的像素和颜色中以达到攻击目的的单词或短语,当模型检测到这些单词或短语时,可以通过它们之间的语义关系来判断是否存在其他与之匹配的单词或短语。当这些单词或短语被模型检测出来时,它会执行攻击者定义的恶意动作。如果攻击者不知道哪些单词或短语以及它们之间的对应关系,那么攻击者就无法对模型进行攻击。例如,在聊天机器人的模型中插入"免费领取"单词或短语作为触发器,如果用户输入的语句包含"免费领取"单词或短语,该模型就有生成恶意链接或发布虚假信息的攻击风险,攻击者不知道哪些单词或短语以及它们之间的对应关系。
基于校验和的触发器: 攻击者将基于输入数据校验和的触发条件和触发器分离,设计了相应的校验和算法,当输入数据的校验和满足触发器设定的校验和条件时,触发后门行为。在一个例子中,触发器包括至少两个逻辑门,每个逻辑门具有唯一存储在其中的内部参数的地址信息和与外部存储器连接的输出接口。该触发器为后门设计的一种触发器,其隐秘性的主要原因是校验功能以及校验和通常用于验证数据完整性,因此很难被识别为恶意行为的触发器。
3.2 触发器检测器构建
目标检测的目的是为了在任何图像中准确地定位和分类已存在的对象,并通过检测框对这些对象进行标识,从而展示出检测对象的可靠性。目标检测器是目标识别系统中的一个重要组成部分。根据任务执行的先后次序,现有的目标检测器可以被分类为一阶段检测器和二阶段检测器这两种。
3.2.1一阶段检测器
此小节主要介绍一阶段检测器 yolo。yolo feature extraction network backbone 检测输出head non-max suppression 检测输出层采用了基于最大后验概率估计算法的分类器来解决分类问题,并将结果反向传输到网络应用系统中其他部分。backbone 作为网络特征的提取,在这里主要起一个特征提取的作用。因其独特的csp模块,不仅增强了模型的 学习能力,同时模型也变得更加轻巧,减小了计算的难度,并优化了硬件资源。head由卷积层、下采样层和全连接层组成。其主要的作用是利用back-bone提供的丰富的深层特征提取图像,来进行多尺度的目标检测。在这些特征图上,head会输出预先定义的大、中、小三种。最后,通过nms对大量的b-box,留下了和图像最匹配的b-box。为了提高算法速度,本文采用基于最大似然估计的方法对每个待测的数据进行信任度分析,以得到最终的信任度。nms会先根据置信度阈值参数进行scoreg的阈值筛选,以保证输出的检测框具有较高的信任度。在对剩余的部分进行筛选时,可以采取最大程度利用所有可用数据,降低误检率。经过置信度阀值的筛选后,b-box在图像中仍有大量的冗余和重叠部分。这是因为大多数b-box都围绕着图像中的同一检测对象,而检测器则只需要选取其中对检测对象最具有优势的b-box。因此,nms选取了信任度最高的b-box,并和其他b-box进行了计算比较( intersection over union iou ),其中iou的值如图2-8所示。如果iou的值超过了预先设定的闯值,那么就需要对其实施抑制,并将其信任度定为零。经过了一轮的循环后,选取了信任度最高的b-box,进行了进一步的抑制。这样在剔除重复点后,就可以得到较好的分割结果。经过nms之后,检测框的信任度非常高,几乎不存在任何重复,可以确保每一个对象都与一个检测框相对应。

图2-1 IOU计算示意图
3.2.2二阶段检测器
faster r-cnn 在这一部分,我们研究faster r-cnn,一个重要的目标检测模型,能够自动对视频进行特征学习和复杂环境的多模态识别。faster r-cnn 有四个主要组成部分:backbone,区域提议网络( rpn),兴趣区域池化层( roi pooling) 和分类与回归层[12]。区域提议网络是一个重要的部分,其目的是对输入的图像进行预处理,提取出我们需要的roi。backbone相当于 Faster r-cnn中的特征提取部分,它和一阶段检测器有很大的相似度,主要就是处理输入的图像。该方法利用深度学习来提取图像中具有意义的特征。该技术使用深层卷积神经网络(cnn)逐步将图像转换为特征图。由于提取出的是深度数据集的低层特征,因此该算法能够有效率地从大量的低维空间转移到高维特征上。这批特征图具有它们自己的分辨能力和语义信息,这为罗设计提供了重要的支持。为了检索候选区域,提出一种由深度学习网络实现对候选区域快速、准确地检测的新方法。rpn使用滑动窗口在特征图上每一个位置估计一个b-box,由于使用多个候选区域能发掘出更多的有效特征并且降低计算复杂度。双箱特征图的高宽h,w,输出h×w个候选框,如果一个候选是错误的就删除它,对众多的b-box进行nms后,我们得到较为可信的b-box,由于使用基于概率的方法选取最合适的候选点,避免了重复计算,提高了效率。但由于每个候选框都有自己的位置和大小,这导致它们在被处理和预测时存在困难。为了解决这个问题,在输入层加入一个新的特征向量,用来表示所有候选图像中最佳匹配的像素点,并把它作为这个像素的类别标签。roi pooling层的主要作用是将不同大小和形状的候选框映射到一个不变大小的特征图,这样分类和回归层就可以同时处理很多个这个特征图。在输入层中,使用随机森林分类器来建立候选集,通过应用这个简单的算法来利用已标注好的候选框选取最合适的候选作为最终结果。roi pooling层成功地将不规则的映射到一个不变大小的特征图的子区域,这样就达成了输出数据维度统一的目的。通过应用一个简单的算法来检测每个候选中的字符,并且进行相应的操作,这会扩大训练集规模。这大大提高了模型在计算上的效率和精确度。
最后的双阶段检测器的分类层输出每一个b-box的目标类别的概率分布,用来判断这个b-box是不是包含某个目标,回归层的功能是输出b-box的位置数据,用来匹配目标,通过使用不同种类的分类器来训练本算法并应用于测试集来测试本文所提出的算法,检测的最后一步是双阶段检测器确定图像中每一个目标的具体位置和分类。

3.3目标检测评价指标
本研究采用均值平均精度(mean of Average Precision mAP)[86]作为评价目标检测器性能的主要指标,它代表了各个类别的平均精度(Average Precision AP)的平均值。在这里,AP表示的是每个类别在精确召回率曲线下的面积,并具有相应类别的置信度分数。一个具有高mAP值的目标检测器在各种类别中都展现出了卓越的性能,显示出了很高的检测能力。在实际应用场景中,较高的mAP通常是优秀检测器所追求的,因为这意味着该模型能够准确地识别各种类别的目标物体,而不是仅仅在某一特定类别上表现出色。
平均精度AP的计算与精确找回率曲线密切相关,它是通过计算精确召回率曲线下的面积来衡量模型对特定类别目标检测性能的。这涵盖了模型在各种置信度分数条件下对目标的召回能力和准确性。精准召回率(Precision-Recall PR)曲线是一个以召回率Recall为x轴和精准率Precision为y轴来描述的曲线。其中,召回率Recall和精准率Precision都与检测器的预测准确性有关,具体的计算公式如下所示
(2-1)
在这里,TP(True Positives)被视为一个真实的例子,它代表检测器输出的检测框与标签数量是准确匹配的;FP(False Positives)是一个假正例,它代表检测器输出的检测框错误的数量;FN(False Negatives)是一个假的反例,用来表示检测器没有检测到的标签数量。Precision的精确度被应用于测定检测器输出的所有检测框中与标签匹配的部分的占比,而Recall的召回率则被用来测定标签中可以被检测器检测到的实际地面框的占比。随着检测器输出的检测框数量的增加,与标签相匹配的数量也随之增多,这会导致召回率Recall提高,但从另一个角度看,其精确度Precision可能会降低。简而言之,当尝试检测的次数增加时,更有可能检测到目标对象,TP会增加,而TP+FN不会改变,但是TP+FP会增加得更快,因此,根据公式2-1可以得到上述的结果。
一个检测效果出色的目标检测器,其准确性和召回性都需要达到很高的水平。因此,平均精度AP考虑了精确性和召回性两个方面。为了绘制PR曲线,我们需要根据置信度对检测器的预测结果进行排序,并以置信度作为横轴,精确度作为纵轴,从而绘制出精准率与召回率的关系曲线(PR曲线)。PR曲线能够清晰地呈现模型在各种置信度阈值条件下的表现。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询