感红外线切换器(图像间转换在行人检测中的应用)

Posted 2023-05-26

篇首语：一箫一剑平生意，负尽狂名十五年。本文由小常识网(cha138.com)小编为大家整理，主要介绍了感红外线切换器(图像间转换在行人检测中的应用)相关的知识，希望对你有一定的参考价值。

感红外线切换器(图像间转换在行人检测中的应用)

arxiv 2022 11月论文

论文题目：

Application of image-to-image translation in improving pedestrian detection

论文地址：

https://arxiv.org/abs/2209.03625

摘要

由于缺乏有效的目标区域，在低强度光下很难执行一些视觉功能，包括行人识别和图像到图像的转换，在这种情况下，通过结合使用红外和可见光图像积累高质量的信息，即使在光线较暗的情况下也有可能检测到行人。在这项研究中，我们将在LLVIP数据集上使用先进的深度学习模型，如pix2pixGAN和YOLOv7，其中包含用于微光视觉的可见光-红外图像对，该数据集包含33672张图像，大多数图像都是在黑暗场景中捕获的，与时间和位置紧密同步。

1. 简介

由于信息丢失，在弱光环境下，视觉任务的应用具有挑战性，然而，通过提供额外的信息，我们可以提高视觉模型的性能，红外成像可以帮助解决这个问题，与可见光图像保留物体的细节和纹理信息不同，红外图像提供物体的热信息，并突出行人等目标。但是没有专门的相机，很难获得这样的图像，红外摄像头的主要问题是，与可见光摄像头相比，它们相当昂贵，可见光摄像头很容易获得，甚至可以在手机上找到，除此之外，红外摄像机使用高科技技术，即使在低光下也能捕捉到图像，因此，它们很贵，不是每个人都能负担得起。

可见相机或日常使用的相机没有良好的传感器和光学功率，无法在夜间捕捉高分辨率的图像，因此图像非常模糊，或包含大量颗粒或噪音，这使得它们几乎无法用于安全目的。这也使得目标检测算法无法有效地检测行人，从而得不到满意的结果，因此，在这个模型中，我们将在生成对抗网络(GANs)的帮助下将可见图像转换为红外图像，转换后的图像可用于有效的目标检测以及视频监控，通过这种方法，我们可以很容易地解决在低光区域检测行人的问题。

为了解决这个问题，我们将使用可见光-红外配对微光视觉(LLVIP)数据集，数据集中的图像是在可见光摄像机的帮助下拍摄的，并确保了图像与空间和时间一致，该数据集有助于微光行人识别，因为它包括许多不同的行人在微光情况下，图像标记是这项检测工作的挑战之一，因为人眼几乎无法区分行人，更不用说准确地标记边界框。

除了LLVIP数据集，我们还探索了其他相关数据集，如INO视频分析数据集，TNO图像数据集和OTCBVS基准数据集，最后确定了LLVIP数据集。在我们探索的所有数据集中，我们发现LLVIP适合我们的研究，INO(加拿大国家光学研究所)视频分析数据集包含各种红外和可见光视频，信息和环境非常丰富，但很少有图像包含低光背景下的行人。TNO多波段图像数据采集更多的是出于军事目的，因为大多数图像由多波段相机记录的军事场景组成，但除此之外，TNO仅由261张可见光和红外图像以及一系列类似类型的图像组成。OTCBVS是一个用于评估计算机视觉算法的公共使用数据集，由Riad I Hammoud博士于2004年发起，这是一个可见光红外配对数据集，大部分图像都是在俄亥俄州立大学的十字路口捕获的，这些图片包含了大量的行人图片，信息丰富，但所有的图片都是在白天点击的，因此，由于白天点击的图像，很容易检测到行人，因为默认情况下图像非常清晰，所以，在这种情况下，我们不能使用红外图像，因此，LLVIP是上述所有样本数据集的平衡数据集。

1.1. 论文的目的

本文的主要研究目标有三个方面:

1、研究方向;提出了一种利用图像到图像转换的低光区域行人检测模型。

2. 在YOLOv7和Pyramid pix2pixGAN等高级深度学习模型的帮助下，提出对象检测。

3.广泛回顾使用各种性能度量的深度学习模型

1.2. 提出的新工作

获取红外图像需要昂贵的摄像机设置，因此升级或更换现有的监控基础设施是不可行的，但是，正如之前的作品中所演示的，可以使用GANs对可见图像进行图像到图像的转换，从而得到对应红外图像的预测。我们假设对平移后的红外图像进行目标检测将提高行人检测任务的性能，而无需使用任何特殊设备，我们的目标是利用通过图像平移获得的红外图像上的物体检测模型，以相对较高的精度从相机图像中检测出行人。我们使用LLVIP数据集来训练金字塔pix2pixGAN，在这个数据集上显示出了最先进的水平，然后利用该训练模型，将可见光图像转换为相应的红外图像，并在这些图像上训练YOLOv7模型，我们使用这种集成技术评估对象检测的性能，并将其与仅在可见图像上训练的模型进行比较。

1.3. 论文组织

本文的其余部分组织如下;第2节概述了现有的类似工作，第3节将更详细地介绍数据集及其特征，第4节描述了所使用的深度学习模型，第5节描述了我们的训练方法，它涉及执行深度学习模型之前的数据预处理和数据集准备，第6节包含效率测量、方法和图形分析，第7节最后回顾了我们的发现，并预测了未来改进的广度。

2. 相关工作

到目前为止，已经使用各种机器学习和深度学习模型进行了几项关于在低光照条件下检测行人的研究，其中一些被列出如下:

1.Vedant等演示了使用传统的计算机视觉和深度学习技术在低光条件下检测行人，例如使用深度传感相机的信号强度以及用于降维的鲁棒主成分分析(RPCA)，他们使用掩蔽技术来修改红绿蓝(RGB)图像，以提高前景和背景图像之间的区别，他们在“Oyla低光行人基准”(OLPB)数据集上实现了他们的深度学习模型“CrowdDet和CenterNet”。

2.Srinivas等使用多模态知识蒸馏技术从RGB图像中检测行人，他们使用残差神经网络(ResNet)，将图像作为RGB图像数据，提取类似热的特征来检测行人。在他们的研究中，他们使用了KAIST的数据集，并为他们的ResNet模型实现了52.81%的漏报率(越低越好)。

3.Congqing等提出了一种利用计算机视觉检测无人机(uav)近地表行人的方法。大多数无人机都很好地装备了红外传感器，本研究直接使用红外图像，应用You Only Look Once Version 3 (YOLOv3)进行目标检测，他们的准确率(P)为0.804,F1得分为0.859。

4. Yonglong等在caltech基准数据集上提出了一种利用DeepParts和卷积神经网络(ConvNet)进行行人检测的机制，在深度神经网络技术的帮助下，行人检测在caltech基准数据集中工作得非常好，因为caltech数据集包含在光照良好的环境中录制的视频序列;当面对在光线昏暗的环境中记录的输入时，上述算法经常表现不佳。

5. Yi jin等利用超分辨率检测(SRD)网络解决了弱光条件下街道行人的检测问题，他们的模型基于游乐场数据集(PG)，该数据集包含5752张白天和晚上拍摄的行人组合图像，带有31041个注释，他们的策略是将低分辨率图像增强为高质量图像，以便有效地检测物体，增强图像通过循环卷积神经网络(RCNN)来定位受阻的行人。

相反，我们提出的算法借助生成对抗网络pyramid pix2pixGAN将弱光可见光图像转换为红外图像，然后应用最新的、最先进的物体检测算法之一YOLOv7来有效地检测行人，具有更好的精度和更快的结果。

3.关于使用的数据集

我们使用了LLVIP，这是一个包含弱光场景下可见光-红外成对图像的数据集，适合训练行人检测模型，并将可见光图像转换为红外图像。数据集还提供了详细说明特定图像中每个人周围的边界框的注释，总共有来自26个不同地点的15488对可见光-红外图像，每张图像的分辨率为1280像素宽，1024像素高。

3.1. 图像是如何捕获和注释的

数据集的作者使用了HIKVISION DS2TD8166BJZFY-75H2F/V2，这是一种双目摄像机，具有红外摄像机(波长814 um)和可见光摄像机。这些照片拍摄于18:00:00到20:00:00之间，包含了不同地点的街拍，包括大量的自行车和行人。为了确保可见光-红外图像对具有完全相同的视域和图像大小，对图像进行了半手动裁剪，以确保时间和空间同步，对于注释，作者应用了一种双重方法，首先他们在红外照片上识别出清晰可见的行人，然后由于红外和可见光图像的对齐，注释已经直接复制到可见光图像上。

3.2. 数据集的一些问题

大部分数据集中的行人都是中等大小的，因为照片是从中等距离拍摄的，因此，远距离小目标行人识别的研究并不适合该数据集，另一个问题是，所有的图像都是从固定的监控摄像头的角度拍摄的，因此不适合用于训练自动驾驶汽车的行人检测。

4. 关于模型

在我们的研究中，我们使用金字塔pix2pixGAN生成可见光图像的热图像，并使用YOLOv7进行高效的目标检测。

4.1. 金字塔pix2pixGAN生成对抗网络

生成对抗网络(GANs)是帮助我们从基础图像生成新图像或数据的神经网络，首先，通过模仿现有的图片，生成对抗网络(GANs)是一种图像到图像的转换神经网络，它使我们能够从当前的图像中创建新的和更精确的图像集。生成模型根据基本图像创建新图像，而鉴别器，顾名思义，确定图像是真实的还是伪造的，一种名为Pix2PixGAN的GAN形式有助于文本到图像和图像到图像的转换，但与经典的GAN模型(使用深度卷积神经网络对图像进行分类)相比，Pix2Pix模型使用了条件GAN (CGAN)，这种深度卷积神经网络旨在识别输入图像的特定区域，而不是将整个输入图像分类为真或假。

但是由于两个域图像之间的差异，普通的pix2pix算法很难工作，因为图像中的位置无法获得像素级的对齐，因此，我们得出的结论是使用金字塔pix2pixGAN。金字塔结构可以在图1中看到，pix2pix算法的Loss factor L1计算原始图像(真实图像)与生成图像(虚假图像)之间的差距，这在生成图像中被过度约束。为了削弱约束，我们将对真实和虚假图像进行尺度变换，首先，我们将使用高斯滤波器来平滑图像，但结果图像会有点模糊，为了降低分辨率，我们使用下采样来去除不必要的像素，对于每一个金字塔层(分辨率级别)，重复以上步骤多次以实现有效的尺度转换。

我们的pix2pix金字塔的每个八度包含5层和4个高斯模糊，每个金字塔层的初始层是通过对它之前的金字塔层的最终图像进行下采样创建的，为了确定高斯金字塔中的损失，我们为每个金字塔层提取唯一的第一层图像，对于每一层(尺度)，损失可以用Si表示:

其中G代表发生器，Fi代表高斯滤波，X表示输入图像，Y和z分别表示实像和噪声。

4.2. You Only Look Only Once (YOLOv7)

YOLOv7是一种神经网络实现的目标检测算法，能够提供更快、更好的目标检测精度。YOLOv7将图像划分为固定大小的各种网格，每个网格都负责检测包围在其中的物体，在每个网格单元中预测每个框的边界框和置信度分数，这些置信度分数展示了模型对盒子包含对象的保证程度，以及它对盒子包含特定对象的确认有多准确。如果框内没有对象，则置信度分数为零，这种方法显著减少了计算量，因为图像中的单元格同时保持识别和检测，但它会产生大量重复的预测，因为多个单元格可能预测相同的物体，但具有不同的边界框。为了解决这个问题，YOLOv7使用了非最大抑制的概念。在这种技术中，具有较低概率分数的边界框被抑制或不被考虑，为此，YOLOv7选择一个概率得分最高的边界框，在此之后，对与当前高概率边界框具有最大交集的边界框进行抑制，重复这些步骤，直到我们得到精确的目标检测的最终边界框。

YOLOv7算法是由几种免费包的方法组合而成，可以用较少的计算能力大大提高检测精度，该方法通过使用约40%的函数参数而不影响，输出比所有其他对象检测模型更好的结果，金字塔pix2pixGAN结构精度，YOLOv7团队创建了非常有效的架构(图2)。他们扩展了高效层聚合网络(E-ELAN)，该网络采用扩展、shuffle和合并属性数量来递归地提高网络的学习能力，而不改变初始梯度;也就是说，它只修改了计算块，而不触及过渡层。

5. 方法

本节介绍了用于预处理数据以训练金字塔pix2pixGAN和YOLOv7模型的方法，我们还讨论了我们在上述模型上进行的实验细节。

5.1. 数据预处理

我们的真实图像是一个红外图，我们希望从我们的模型中输出，通过对可见图像执行图像到图像的转换，对应的红外图像为灰度图像，因此我们将输出通道设置为金字塔pix2pixGAN中的1，根据5.2节中提到的输入大小加载可见图像。

5.2. 实验装置

一个拥有4个特斯拉v100-sxm2 - 16gb gpu和64GB vRAM的系统被用来训练不同型号的网络，使用Pytorch库来实现整个设计，我们训练了2个模型，即金字塔pix2pixGAN用于图像到图像的转换，YOLOv7用于物体检测。

5.2.1图像到图像的转换

我们使用了从LLVIP数据集中分离出来的相同的训练测试，总共有12025张图像用于训练，3463张用于测试。我们首先将图像大小调整为320×256的加载大小，然后将图像宽度缩放为320，并将图像裁剪为256×256作为数据预处理步骤，该模型使用resnet-9blocks的基线生成器结构，鉴别器的结构是默认的基本PatchGAN。我们训练模型的批量大小设置为64，采用Adam优化，初始学习率为0.0002，模型训练100个epoch，初始学习率为0.0002，后续100个epoch线性衰减学习率为0。

5.2.2目标检测

为了生成用于目标检测的训练数据，我们使用训练后的金字塔pix2pixGAN模型进行推理，并将训练和测试数据集中的所有可见图像进行转换，生成新的训练和测试数据供YOLOv7进行训练，我们使用LLVIP数据集中给出的注释作为训练模型的边界框标签。

我们使用预训练的检查点YOLOv7，我们对上面生成的模型训练数据进行微调，这些模型在批次大小为16的情况下训练了150个epoch，我们使用SDS对模型进行优化，初始学习率为0.001，权重衰减为0.0005，动量为0.825。

6. 结果与讨论

在本节中，我们将讨论使用金字塔pix2pixGAN进行图像到图像转换的结果，以及使用最新的图2进行行人检测的结果，YOLOv7架构YOLOv7模型在统计和图形上非常详细。

6.1. 图像转换

为了在低能见度等具有挑战性的条件下有效地检测行人，将可见光图像转换为红外图像是有益的，由于在弱光条件下行人与背景有一定程度的融合，模型很难区分行人和物体，因此我们需要对图像进行转换。为了完成工作，我们需要借助GANs或分割模型将图像从可见转换为红外，然而，在之前关于这个领域的工作中，已经观察到正常的pix2pixGAN不能进行良好的转换，因为一些翻译的图像是模糊或混乱的，对于一些图像，行人和汽车的轮廓不清楚，图像上有许多人工制品，因此，在我们的研究中，我们使用了金字塔pix2pixGAN，它有点类似于pix2pixGAN，但更通用，因为普通的pix2pixGAN无法获得数据集图像的像素到像素级对齐。

图3定性比较了转换红外和原始红外的可见图像，在某些可见图像中，人类甚至很难看到行人，但将这些图像转换为红外图像，可以更容易地看到光线较暗的行人。

Pyramid pix2pixGAN提供了令人满意的转换结果，翻译后的图像与原始红外图像基本相似，生成的图像的轮廓被保留，图像也不混乱或模糊，但生成的红外图像的缺点是，与真实图像相比，它们的质量有所下降，然而，翻译后的图像成功地达到了我们的目的。

金字塔pix2pixGAN使用不同指标的量化性能可以从表1中理解，MSE用于计算原始图像和压缩图像的合并平方误差，峰值信噪比(PSNR)是一个信号的最大允许值(功率)与损害其表示精度的失真噪声的功率之比的度量，一种被称为结构相似指数(SSIM)的感知指标可以测量在数据压缩或数据传输等处理过程中图像质量的损失程度。

6.2. 目标检测

现在，在将图像从可见光转换为红外后，我们使用YOLOv7模型在可见光和红外图像上检测行人，并比较两种情况下的性能。两类图像对目标检测的定性对比如图4所示，图4包含了不同光照条件下的图像，由于第一行图像是在良好的光照条件下拍摄的，YOLOv7在可见图像和翻译图像中都准确地检测到所有行人，与第一行中的图像相比，第三行中的图像在光线条件略差的情况下，这次YOLOv7在可见光下只能检测到一个行人，而不是两个，而它在红外图像中检测到所有行人，第2行和第4行的图片是在非常昏暗的光线条件下拍摄的，在这两幅图像中，YOLO都未能检测到所有可见光条件下的行人，而与前者相比，它检测到所有行人的置信度得分非常高。

为了定量分析我们的模型，我们将使用像Mean Average Precision (mAP@0.5和mAP@0.5:0.95)、Precision和Recall这样的评估指标，这些将在下面解释

1.准确分类的阳性样本(真阳性)与阳性分类样本总数(正确或不正确，真阳性+假阳性)的比例被称为精度，精度使我们能够看到机器学习模型在正确识别样本数据为正时的可靠性。

2. 召回率由真阳性与所有阳性样本(真阳性+假阴性)之比计算，召回率衡量模型识别阳性样本的能力。

3.mAP@0.5通过在IoU阈值0.5处将检测到的框与ground-truth边界框进行比较来计算分数，如果预测边界框与ground truth边界框的重叠大于0.5，则将样本归为真阳性，否则为假阳性，分数越高，模型的检测越精确。

4. mAP@0.5:0.95指各种iou阈值的平均mAP，从0.5到0.95，步长为0.05。

在可见和红外条件下检测的定量比较已经显示在图5中不同指标的组合线形图中，该模型已经运行了100个epoch，并为两种类型的图像绘制了每个epoch的度量结果，很明显，在所有评估指标中，红外图像(蓝线)上的物体检测在检测行人方面优于可见光图像(橙线)。

7. 结论

在本文中，我们提出使用通过图像转换获得的红外图像的目标检测模型，以相对较高的精度从弱光条件下拍摄的可见光摄像机图像中检测行人，我们假设在转换红外图像上进行目标检测将提高行人检测任务的性能，而无需使用任何特殊的昂贵红外成像设备。我们使用这种集成技术评估目标检测的性能，并将其与仅在可见光图像上训练的模型进行比较，发现我们的技术在各个方面都优于可见光图像模型，特别是在非常低的光照条件下。