【2023年2月17日】论文分享

2023-03-14 23:19| 来源: 网络整理| 查看: 265

论文类别有目标检测、可见光-红外人员重识别、人群行为检测、图像字幕、图像去噪、水下图像增强、说话头合成等。

【2023年2月16日】论文分享

▌3M3D: Multi-view, Multi-path, Multi-representation for 3D Object Detection

论文作者：Jongwoo Park,Apoorv Singh,Varun Bankiti

论文链接：http://arxiv.org/abs/2302.08231v1

内容简介：研究方向：三维目标检测/3D Object Detection。本篇文章提出3M3D，Multi-view, Multi-path, Multi-representation 的三维目标检测，同时更新多视角特征和查询特征，以增强精细全景和粗略全局视图中的场景表现。首先，通过多视图轴的自注意力来更新多视图特征。这将把全景信息纳入多视图特征中，并增强对全局场景的理解。其次，通过对ROI（感兴趣区域）窗口的自注意力来更新多视图特征，该窗口在特征中编码了局部更精细的细节。这将有助于不仅沿着多视图轴线而且沿着其他空间维度交换信息。最后，利用不同领域的查询的多重呈现的事实来进一步提高性能。在这里，使用稀疏的浮动查询和密集的BEV（鸟瞰）查询，这些查询后来经过后处理以过滤重复检测。此外，在nuScenes基准数据集上展示了在我们的基线上的性能改进。

▌Research on road object detection algorithm based on improved YOLOX

论文作者：Tao Yang,Youyu Wu,Yangxintai Tang

论文链接：http://arxiv.org/abs/2302.08156v1

内容简介：研究方向：路面目标检测。本文研究如何提高路面目标检测算法的检测准确率，特别是在小目标和被遮挡目标的检测上。作者在 YOLOX 算法基础上提出 DecIoU 边界框回归损失函数和 Push Loss 机制，以提高预测框和真实框之间的形状一致性，进一步优化边界框回归损失函数，从而检测到更多被遮挡目标。此外，还使用动态 anchor box 机制来提高置信度标签的准确性，消除了没有 anchor box 的目标检测模型中的标签不准确性。在 KITTI 数据集上进行了大量实验，实验结果表明，改进后的 YOLOX-s 在 KITTI 数据集上达到了 88.9% 的 mAP 和 91.0% 的 mAR，相比基准版本的改进率分别为 2.77% 和 4.24%；改进后的 YOLOX-m 在 KITTI 数据集上达到了 89.1% 的 mAP 和 91.4% 的 mAR，相比基准版本的改进率分别为 2.30% 和 4.10%。

▌Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection

论文作者：Hao Chen,Feihong Shen

论文链接：http://arxiv.org/abs/2302.08052v1

内容简介：研究方向：RGB-D显著目标检测。该研究旨在解决现有的RGB-D显著性目标检测方法难以模拟跨空间和模态之间的长程依赖关系的问题。为此，提出一种新的多模态Transformer——Hierarchical Cross-modal Transformer (HCT)，并采用FPT模块和一致性-互补模块，以提高信息交互和融合的能力。具体而言，HCT采用了分层的交叉模态互补方法，使用局部的空间对齐跨模态注意力机制来捕捉不同模态之间的相关性。实验结果表明，该方法在多个公共数据集上均取得了优秀的效果，超过了现有最先进模型的性能。

▌Retrieval-augmented Image Captioning

论文作者：Rita Ramos,Desmond Elliott,Bruno Martins

论文链接：http://arxiv.org/abs/2302.08268v1

内容简介：研究方向：图像字幕(Image Captioning)。本篇文章提出一种新的图像描述生成方法，EXTRA，该方法通过在输入图像中加入一组从数据存储库中检索到的字幕，而不是仅仅输入图像，使用预训练的V&L BERT联合处理图像和检索到的字幕，再利用解码器从多模态编码器的表示中学习生成描述句子。实验结果表明，这种新的生成模式可以有效地应用于图像描述生成任务。研究还表明，对于训练数据集，检索到足够数量的字幕（例如k=5）可以提高生成质量，该方法还可以在不需要重新训练的情况下从外部数据集中受益。该工作贡献了使用预训练的V&L编码器进行生成任务，而不是标准的分类任务。

▌OPT: One-shot Pose-Controllable Talking Head Generation

论文作者：Jin Liu,Xi Wang,Xiaomeng Fu,Yesheng Chai,Cai Yu,Jiao Dai,Jizhong Han

论文链接：http://arxiv.org/abs/2302.08197v1

内容简介：研究方向：说话头合成。现有的说话头合成方法在生成头部运动时无法保持源脸部的准确身份。为了解决身份不匹配问题并实现高质量的自由姿态控制，作者提出One-shot Pose-controllable Talking head generation network（OPT）。具体来说，音频特征分离模块可以将内容特征与音频分离开，消除了任意驱动音频中包含的说话人特定信息的影响。然后，从内容特征和源脸部提取嘴部表情特征，期间设计了landmark 损失以增强面部结构和身份保持质量的准确性。最后，为了实现自由姿态控制，参考视频中的可控头部姿态特征与表情特征和源脸部一起输入视频生成器，生成新的说话头视频。广泛的定量和定性实验结果验证了OPT可以生成高质量的姿态可控说话头视频，并且没有身份不匹配问题，优于先前的SOTA方法。

▌MINOTAUR: Multi-task Video Grounding From Multimodal Queries

论文作者：Raghav Goyal,Effrosyni Mavroudi,Xitong Yang,Sainbayar Sukhbaatar,Leonid Sigal,Matt Feiszli,Lorenzo Torresani,Du Tran

论文链接：http://arxiv.org/abs/2302.08063v1

内容简介：研究方向：视频理解(Video understanding)。本文提出一个单一的、统一的模型，用于解决长篇视频中基于查询的视频理解。具体来说，该模型可以解决Ego4D Episodic Memory基准的三个任务，这需要三种不同形式的查询：给定一个以自我为中心的视频和一个视觉、文本或活动查询，目标是确定何时何地可以在视频中看到答案。该模型设计受到最近基于查询的时空定位方法的启发，包含特定模式的查询编码器和特定任务的滑动窗口推理，允许用不同的输入模式和不同的结构化输出进行多任务训练。通过详尽地分析了各任务之间的关系，并说明跨任务学习导致每个单独任务的性能提高，以及对未见过的任务的概括能力，如语言查询的零样本空间定位。

▌Explicit Diffusion of Gaussian Mixture Model Based Image Priors

论文作者：Martin Zach,Thomas Pock,Erich Kobler,Antonin Chambolle

论文链接：http://arxiv.org/abs/2302.08411v1

内容简介：研究方向：图像去噪。通过逐步平滑的方法估计随机变量 X 的密度 f_X，并使得平滑后的随机变量 Y 满足 (\partial_t - \Delta_1)f_Y(\,\cdot\,, t) = 0, f_Y(\,\cdot\,, 0) = f_X。本文提出了一种基于高斯混合专家的乘积/专家模型，通过对滤波器的正交性约束，可以对 f_Y (\,\cdot\,, t) 给出解析表达式。该模型可以通过经验贝叶斯方法在整个扩散过程中进行同时训练。该模型在图像去噪方面具有竞争性的结果，同时易于解释，参数较少。此外，该模型可以用于可靠的噪声估计，从而实现对被异方差噪声污染的图像进行盲去噪。

▌SyreaNet: A Physically Guided Underwater Image Enhancement Framework Integrating Synthetic and Real Images

论文作者：Junjie Wen,Jinqiang Cui,Zhenjun Zhao,Ruixin Yan,Zhi Gao,Lihua Dou,Ben M. Chen

论文链接：http://arxiv.org/abs/2302.08269v1

项目链接： https://github.com/RockWenJJ/SyreaNet.git

内容简介：研究方向：Underwater image enhancement（水下图像增强）。水下图像增强（UIE）对于高水平的视觉相关水下任务至关重要。尽管基于学习的UIE方法近年来取得了令人瞩目的成就，但要持续处理各种水下条件仍是一个挑战，这可能是由以下原因造成的：1）在UIE中使用简化的大气图像形成模型可能会导致严重的错误；2）仅用合成图像训练的网络可能难以很好地推广到真实的水下图像。本篇文章首次提出一个用于UIE的框架\textit{SyreaNet}，在修订的水下图像形成模型和新的域适应（DA）策略的指导下，整合了合成和真实数据。首先，提出一个基于修正模型的水下图像合成模块。然后，设计一个物理引导的分解网络，通过结合合成和真实水下图像来预测清晰的图像。通过充分交换域知识，删减了域内和域间的差距。广泛的实验表明，该框架在质量和数量上都优于其他最先进的（SOTA）基于学习的UIE方法。代码和数据集可在https://github.com/RockWenJJ/SyreaNet.git。

▌Visible-Infrared Person Re-Identification via Patch-Mixed Cross-Modality Learning

论文作者：Zhihao Qian,Yutian Lin,Bo Du

论文链接：http://arxiv.org/abs/2302.08212v1

内容简介：研究方向：可见光-红外人员重识别（Visible-infrared person re-identification）。问题：不同模态下人物图像的语义差异较大，如何实现可见光和红外图像的人物重识别。方法：提出一个Patch-Mixed Cross-Modality框架（PMCM），将两种模态的同一人物图像分割成不同的块，再组合成一个新的图像进行模型学习。通过这种方式，模型可以学习到通过不同风格的块来识别一个人，同时直接体现了模态之间的语义对应关系。该方法还使用了灵活的图像生成策略来进一步缓解模态不平衡问题，并探索了模态之间的身份中心关系以进一步减少模态差异。结果：在两个VI-ReID数据集上，该方法取得了新的最先进性能。

▌A cloud-based deep learning system for improving crowd safety at event entrances

论文作者：Ahmed Alia,Mohammed Maree,Mohcine Chraibi,Anas Toma,Armin Seyfried

论文链接：http://arxiv.org/abs/2302.08237v1

内容简介：研究方向：人群行为检测。本文旨在解决人群在大型活动入口处拥挤的问题，特别是在人们争先恐后地挤入活动场所时可能导致的危急和危及生命的情况。为了尽早发现挤压行为并减少危险，本文提出一种基于云计算和深度学习技术的系统，自动检测人群拥挤时的挤压行为。该系统主要基于两个模型：pre-trained deep optical flow（预训练的深度光流模型）和 adapted version of the EfficientNetV2B0 classifier（经过调整的 EfficientNetV2B0 分类器）。光流模型提取实时视频流中人群运动的特征，而分类器分析人群运动并标注实时视频流中的挤压区域。为了训练适应的 EfficientNetV2B0 模型，根据五个真实世界实验及其相关的基本数据生成了一个新的数据集。这些实验模拟了一个拥挤的活动入口，并由社会心理学家为每个视频实验手动创建了基础数据。进行了多项实验以评估所提出的系统的准确性和标注延迟时间，并对系统的标注结果进行了手动修订。研究结果表明，该系统在可接受的延迟时间内以89%的准确率检测到了人群的挤压行为。

【本文地址】

公司简介

联系我们