标签为连续的类型(统一特征联合多人身体检测与定位估计)
Posted
篇首语:逆水行舟用力撑,一篙松劲退千寻。本文由小常识网(cha138.com)小编为大家整理,主要介绍了标签为连续的类型(统一特征联合多人身体检测与定位估计)相关的知识,希望对你有一定的参考价值。
标签为连续的类型(统一特征联合多人身体检测与定位估计)
arxiv 2022 10月论文
论文题目:
JOINT MULTI-PERSON BODY DETECTION AND ORIENTATION ESTIMATION VIA ONE UNIFIED EMBEDDING
论文地址:
https://arxiv.org/abs/2210.15586
摘要
人体方向估计(HBOE)被广泛应用于机器人、监控、行人分析和自动驾驶等各个领域,尽管许多方法已经解决了HBOE问题,从特定的不受控制的场景到具有挑战性的野生环境,但它们假设人类实例已经被检测到,并以裁剪良好的子图像作为输入,这种设置在实际应用中效率较低,而且容易出错,比如人群过多。在本文中,我们提出了一个单阶段端到端可训练的框架来解决多人HBOE问题,该方法将包围框预测和方向角预测集成到一个特征中,可以直接联合估计出一幅图像中所有物体的位置和方向。
我们的关键思想是将HBOE任务集成到人的多尺度锚预测中,从而同时受益于参与的中间特征,因此,我们的方法自然能够适应目标检测中涉及低分辨率和遮挡的困难情况,通过大量的实验,我们在最近提出的基准MEBOW中验证了该方法的效率和有效性,此外,我们还完成了MEBOW数据集忽略的模糊实例,并提供了相应的弱体向标记,以保持数据集的完整性和一致性,以支持针对多人的研究。
1. 介绍
人体方位估计任务定义为在摄像机正面正交视点上估计一个人的骨骼方位,它不仅可以直接应用于许多工业应用中,如智能车辆中的行人行为分析和教室中的注意力估计,而且还可以作为辅助其他密切相关的上游视觉任务的重要辅助手段,作为一个独立的问题,HBOE仅被单独研究过一次,早些时候,广泛使用的HBOE数据集TUD由8个粗粒度的方向类构建,然后,Hara等人将TUD数据集的方向标签细化为连续的角度,使用RGB-d传感器,MCG-RGBD数据集可以提供RGB图像和深度信息,以实现细粒度HBOE,最近,MEBOW基于COCO创建了一个大规模的、高精度的、多样化的背景数据集,该数据集具有现成的人类实例边界框标签,这种具有上下文信息和各种背景的新基准测试为野外HBOE任务带来了许多未解决的现实挑战。
然而,HBOE中的大多数之前工作都假设输入是裁剪良好的人类实例,在实际应用中,这些单一HBOE方法必须首先通过预先训练的人员检测器(例如Faster R-CNN)获取人类实例,我们认为这种设置在多人面前是有缺陷的,原因有二,首先,两个分离的阶段将随着图像中的人数的增加而线性增长,第二,一个裁剪实例可能是不完整的或有其他人,这将极大地干扰特征识别,这两个缺陷在单阶段目标检测和自底向上人体姿态估计中也得到了普遍的参考和解决。
为了解决两阶段多人HBOE方法的不足,我们提出了一种基于单阶段YOLOv5的方法来解决多人HBOE问题。受到多任务学习框架的启发,我们的方法可以联合检测人和估计身体方向,具体而言,我们设计了一种统一的特征方法,包含了适合每个锚点通道预测的边界盒和方向角信息,并使用人实例概率高的建议对身体方向进行选择性优化。得益于单级目标检测网络,我们的方法有潜力比双级目标检测网络更快,并且在拥挤的场景中表现更好,在实际应用中,由于它的简单和高效,很可能是首选,在实验中,为了适应多人训练,我们通过引入全身边界框和弱定向标签重构MEBOW的标注,图1中显示了一些示例。
我们的贡献有三个方面:(1)我们首次提出了一个处理多人HBOE任务的新颖的单阶段框架,它可以同时实现人的检测和身体的方位估计。(2)设计了一种新的通用统一特征方法,该方法对传统的对象表示方法进行了扩展,并将朝向角度嵌入其中。(3)该方法在重构多人HBOE数据集MEBOW上取得了较好的性能,证明了其在实际应用中的潜在价值。
2. 相关工作
2.1. 人体方位估计
作为人体方向估计(HBOE)的一个先决步骤,人体检测通常是通过在COCO等大规模基准上训练的一般物体检测器完成的,或者通过在行人数据集(如TUD和CityPersons)和面向人类数据集(如CrowdHuman)上训练的专用人体检测器来解决,检测基础也从传统的手工制作的基于特征的方法发展到当前的基于深度学习的方法,包括Faster R-CNN, FCOS和YOLOv5。
类似地,以往对HBOE的研究在数据集尺度有限、方向标签粗糙的情况下,倾向于偏好特征工程和传统分类器。最近,MEBOW推出了基于深度学习的HBOE提出了一种新的大规模挑战性基准,并建立了HBOE强基准模型。PedRecNet是一个新的多任务网络,支持多种面向行人的功能,包括HBOE,其结果可与先进的相媲美,然而,这些方法都没有尝试解决多人场景下的HBOE问题,在本文中,据我们所知,我们是第一个用未裁剪的原始帧作为输入来探索这个问题的。
2.2. 多任务学习
一般来说,多任务学习策略因其效率高、具有挖掘相关任务间协同作用的潜力而受到青睐,HBOE任务还与头部姿势、3D人体姿势和3D眼睛的估计有关。MEBOW将身体定位作为辅助更好的3D人体姿态估计的低成本监督源,PedRecNet提出了一种统一的多任务体系结构,用于全3D人体姿态和方向估计,GAFA引入了一种新的3D凝视估计方法和数据集,利用人们的内在凝视、头部和身体协调,同样,所有这些多任务研究的输入都是一个RGB裁剪的人类边界框图像,与之不同的是,我们提出的用于联合体检测和方向估计的方法将弥补第1节提到的现有HBOE方法以裁剪单一人为输入的固有缺陷。
3.我们的方法
我们采用单级YOLOv5作为我们的基本探测器,它可以同时对物体进行分类并在密集的网格上回归其位置,图2展示了我们提出的联合多人身体检测和方向估计(JointBDOE)方法的过程,对于一个输入图像,我们保留了数据增强策略(如马赛克和MixUp),并利用CSPDarknet53主干和PANet颈部进行高效的特征提取和融合,然后,多尺度网格头可以预测不同大小的人体实例,我们已经将身体朝向整合到经典的物体表示中,对这些预测应用非最大抑制(NMS)后,我们最终得到了所有物体的位置和方向。
3.1. 统一特征
通常,我们认为统一特征是传统对象表示的扩展,它额外包含了与对象相关的属性,通过这种方式,我们可以用最小的计算负担来学习多个相关的任务,从而共享一个网络头。
设s∈8,16,32,64倍缩径的第i个图像网格单元中一个锚信道的输出组为Hsi。YOLOv5中,每个头的锚通道号Na固定为3,对于一个特定的锚通道预测Hsi,它的表示形式可以写成(ˆp, ˆt, ˆc)。
它包括表示对象存在的概率的对象性值为ˆp,表示边界框的定位偏移量为ˆt = (ˆx, ˆy, ˆw, ˆh),分类分数为ˆc = (ˆc1, · · · , ˆck),对于我们的HBOE任务,通常是针对人类实例的,对象类只有一种类型(k=1),此外,我们扩展了Hsi,具有另外一个表示体方向的属性ˆo。
现在,我们得到了一个包含身体所有属性的统一特征(参见图2),显然,这种统一特征可以很容易地演化为其他类似的任务,比如对眼睛凝视和头部姿势的Euler角度进行编码。
3.2. 身体方位训练
人体方位定义为一个连续角θ∈[0,360),在特征的表达式中,我们将o归一化为[0,1),以拟合每个预测头之后的sigmod输出,在训练过程中,我们采用最小均方误差(MSE)进行身体定位回归,考虑到定位涵盖全方位视野,我们改了一个包装的MSE损失,以更合理的监督:
其中,oi为第i个多尺度头的估计结果,oi为相应的ground-truth,这里n是4,虽然从图像中人体的方向是不言自明的,但我们宣称有两种可能问题:1)一些严重遮挡,高度截断,或微小的人类实例很难确定 2)密集的锚通道预测可能包含较多的局部或没有人体的区域,图3给出了一个说明,这些特殊样本对身体定向的监督学习影响有限或没有影响,因此,我们利用容忍阈值τ到ˆp来过滤每个特征中的不利的ˆoi。
然而,假阴性困难样本不应该被丢弃,而且是必要的(参见图1的Bottom),我们通过消融研究获得了超参数τ的合适值。
3.3. 多任务损失优化
对于身体检测训练,我们遵循原有的物体检测损失设计,对物体的objectness和定位:
其中BCE是二元交叉熵,CIoU表示完全交除以并集,body objectness p=1乘以IoU评分,以促进集中预测,p = 0表示没有目标人体,我们不需要分类丢失Lcls,因为在我们的HBOE任务中,cls是无意义的。总损失L是所有三个损失分量的加权总和:
其中我们设置权重α = 0.7, β = 0.05,如YOLOv5,然后,通过消融研究,探索了方向回归权重λ的最优值。
4. 实验
4.1. 实现细节
重建MEBOW MEBOW数据集已经标记了54,007张图片,其中51,836张图片(127,844张人类实例)用于训练,2171个图像(5,536个人类实例)用于测试,我们保留这些图像并恢复COCO最初给出的具有挑战性的人体实例,相应的身体方向由MEBOW中的方法给出作为弱标签,最后,我们分别有216,853和9,059个实例用于训练和测试。
指标 我们报告了平均绝对误差(MAE)和Acc,-X◦(X∈5,15,30)体向估计结果,对于联合体检测任务,我们报告AP0.5和Recall结果作为参考。
训练 我们使用YOLOv5s, YOLOv5m和YOLOv5l作为我们的主干,并遵循它们的基本训练设置,在重构的MEBOW数据集上,最大epoch设置为500,输入图像的大小被调整并填充为1024 × 1024,保持原始的长宽比,训练参数τ和λ通过实验手工调优。
4.2. 对数据集的评估
消融研究 为了简单起见,我们使用yolov5训练300个epoch,并使用最后一个模型进行测试,以找到最佳参数,在表1中,我们临时设置λ为0.1,并选择阈值τ从0.0到0.5,步长为0.1,当τ为0.2时,MAE最低,这表明适当的困难样本滤波是至关重要的,然后,我们固定τ,并从0.02,0.05,0.10,0.15中选择L0ori的损失权λ,当λ = 0.05时,我们在目标检测和方向估计之间得到了较好的权衡。
比较 最后,我们在定量和定性上证明了我们提出的方法所取得的令人印象深刻的结果,如表2所示,我们在重构MEBOW (no mark†)上训练的方法获得了较高的身体检测AP0.5和召回率,以及合理的身体定位精度。为了进行公平的比较,我们还在最初的MEBOW上评估了我们的模型,丢弃了许多具有挑战性的实例(用mark†),使用YOLOv5l†的模型得到了近似的MAE和MEBOW和PedRecNet的精度结果,MEBOW和PedRecNet是精心设计的,专门用于单一HBOE任务,因此,考虑到我们的方法是基于弱监督学习的,针对多人训练整个原始图像,具有相对差异的结果是可比较的。
图4展示了我们使用YOLOv5l的模型的一些定性示例,在标记的MEBOW上的预测接近于它们的真实方向,一些未被标记的微小或遮挡的物体也可以被检测到并合理估计,我们的方法对于数据集CrowdHuman中的模糊和拥挤的场景也相当稳健,这在很大程度上归功于身体检测任务的联合学习优势。
5. 结论
针对多人场景,提出了一种新的单阶段联合人体检测和方向估计方法,为了共享身体检测提取的特征,我们巧妙地扩展了对象表示,设计了包含身体方向属性的统一特征,观察到并非所有的锚通道预测都一致地有助于方向回归,我们在其损失中过滤掉不需要的样本,最后,我们的方法在多人HBOE任务的重构MEBOW数据集上表现良好,此外,我们的模型的近实时效率不受图像中人的数量的影响。
相关参考
标签分为哪两种类型(蓝库云|顾客喜好各异,该如何利用CRM「贴对标签」助业绩成长)
随着科技的进步,近年来零代码应用搭建平台蓬勃发展支持着这产业各式商务应用,智能商务逐渐成为产业发展的支持力道,各种创新服务改变产业的服务模型,让人们享受着更懂你的智能高端服务。例如我们熟悉CRM系统,正是...
...院信息化系统的稳定运行提出了巨大挑战,迫切需要建立统一、规范的监控指标体系,并将各类数据按照统一的数据规范标准进行整合。结合医院实际需求,智维·数字化运维监控系统提供7x24自动巡检,高效率高安全地完成故障...
微信群发发什么好(企业微信群发可以通过标签发吗?如何给统一标签人群发消息?)
...微信对比个人微信使用群发客户时,企业微信群发可以按标签进行群发,可以针对同一标签的客户推送该类型客户更感兴趣的群发内容。运营人员可以打开手机端企业微信,在工作台、客户联系、群发助手页面进行群发操作,在...
...此毫无疑问或疑问时,您就知道自己恋爱了。定义真爱的特征可能很困难,因为它有多种形式。这种纯洁无辜的纽带是与您最亲近的人建立的。然而,最近,我们似乎已经失去了这种情绪的意义。可悲的是,现在有太多人与自己...
...此毫无疑问或疑问时,您就知道自己恋爱了。定义真爱的特征可能很困难,因为它有多种形式。这种纯洁无辜的纽带是与您最亲近的人建立的。然而,最近,我们似乎已经失去了这种情绪的意义。可悲的是,现在有太多人与自己...
方瓶定位贴标机(「案例分享」877-PNT22在包装贴标机上的应用)
...可在不同产能生产线上满足圆瓶、方瓶、椭圆形等瓶型的标签粘贴需要,适用于灌装前和灌装后的贴标。主要应用于饮料、日化、调味品等行业。贴标机图★工业流程◆最先必须贴标底水瓶座通过生产流水线进到转盘式贴标签工...
我的世界村庄英雄等级(《红色沙漠》真的会来?盘点即将在2023年上线的开放世界多人游戏)
在当今游戏界中最热门的标签就是“开放世界”,只要一个游戏加上开放世界的标签,整个游戏的档次都能提升不少。当然,也有不少玩家十分钟情于开放世界类型的游戏。在2023年同样也会有不少开放世界的游戏上线,本篇文...
母乳检测都能查出什么来(「育婴科普」宝宝这些特征说明妈妈母乳达标,看你家娃中了几个?)
如果宝妈母乳质量正常,孩子身高与体重的连续增长也是规律正常的。都说母乳喂养最适合刚出生的小宝宝,殊不知其实也要看母乳的质量,母乳质量的高低直接影响孩子的生长发育,每个宝妈的母乳质量都有所区别,通过观察...
有毒气体泄露检测(气体泄漏检测篇(1)--气体泄漏分为哪些类型?)
气体泄漏通常可以分为小孔泄漏和大面积泄漏两种类型。当气体发生泄漏时,泄漏处产生湍流,湍流产生振动频率与漏孔大小和几何形状相关的声波,较大的漏孔声波频率较低,能被人耳听到。但是,较小的漏孔声波频率较高,...
手腕式防拆电子标签(RFID 定位手腕带标签,为养老院管理增加智能化的安全屏障)
随着社会老龄化、高龄化、空巢化和病残化的迅速发展,将使得越来越多的老人住进养老院。从减少孤独、增加安全、提高生活质量等方面看,老人特别是失能老人,住养老院可能是最合适的地方。养老院里的基础建设日趋先进...