CVPR2023论文速递（2023.3.22）！已接入ChatGPT总结！共31篇！

整理：AI算法与图像处理

CVPR2023论文和代码整理：https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo

欢迎关注公众号 AI算法与图像处理，获取更多干货：

大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分类,方便不同方向的小伙伴挑选自己感兴趣的论文哈

大家好，目前给每天的论文汇总接入chatGPT帮忙总结，目前在适用阶段，只给出部分文章的总结！

1. Title: Natural Language-Assisted Sign Language Recognition（辅助自然语言手语识别）2. Authors: Ronglai Zuo, Fangyun Wei, Brian Mak 3. Affiliation: The Hong Kong University of Science and Technology（香港科技大学） 4. Keywords: Sign Language Recognition, visual language, glosses, VISigns, neural networks 5. Urls: http://arxiv.org/abs/2303.12080v1, Github: https://github.com/FangyunWei/SLRT. 6. Summary: - (1):本文研究基于视觉语言准确理解手语（Sign Language）的问题。手语是指通过手指、面部表情、身体动作等方式传达信息的视觉语言。手语存在大量外观相似的符号，称为“视觉无法区分的标记”（VISigns），这限制了视觉神经网络的识别能力。 - (2):以往的方法中未考虑“GLOSS”所包含的语义信息，本文提出了一种基于自然语言辅助的手语识别框架（NLA-SLR），可以挖掘GLOSS的语义信息，基于此提出了两种方案：（1）针对语义接近的VISigns，提出了“语言感知标记平滑”方法，并生成平滑标记以便训练使用；（2）针对语义不同但视觉相似的VISigns，我们提出了一种跨模态混合方法将视觉和GLOSS特征融合。- (3):本文提出了新型骨架结构，视频关键点网络（VKNet）。它不仅可以建模RGB视频和人体关键点，而且可以从具有不同时间接受场的标志视频中获取知识。- (4):在MSASL，WLASL和NMFs-CSL三个广泛使用的基准测试中，NLA-SLR均取得了最先进的性能。其中，MSASL上取得了94.5%的准确率，超过现有方法2.2个百分点。此外，本文所提出的方法还在三个有挑战性的任务（单词级别识别，多词级别识别和动作级别识别）上取得了当前最好的结果。prompt_token_used: 3154 completion_token_used: 642 total_token_used: 3796 response_time: 29.965 s method_result: 7. Methods: - (1): 本文提出了一种基于自然语言辅助的手语识别框架（NLA-SLR），目标是解决手语识别中存在的“视觉无法区分的标记”（VISigns）限制视觉神经网络的识别能力的问题。NLA-SLR框架主要包括三个部分：数据预处理、视频关键点网络（VKNet）提取视觉特征以及头部网络。其中，数据预处理模块使用HRNet对手语视频的人体关键点进行估算，VKNet主要由VKNet-32和VKNet-64组成，可以获得包含不同时间接受场的标志视频的知识，而头部网络则包括语言感知标记平滑和跨模态混合这两种方案。- (2): 本文利用FastText预训练模型提取标记的词向量特征，并结合视觉特征进行识别。针对语义接近的VISigns，提出了“语言感知标记平滑”方法，即在标准的标签平滑的基础上，依据GLOSS的语义相似性得到一组非均匀权值的平滑标记。针对语义不同但视觉相似的VISigns，本文提出了一种跨模态混合方法，将视觉和GLOSS特征融合，在每一对输入特征中都执行一种混合方法，以提高特征的可区分性。- (3): 本文提出了一种新型骨架网络结构——视频关键点网络（VKNet），可以从具有不同时间接受场的标志视频中获取知识。VKNet主要由VKNet-32和VKNet-64组成，由视频编码器和关键点编码器组成。在本文实现中，采用S3D网络结构作为视频编码器，采用HRNet模型进行关键点特征的提取，同时引入双向横向连接对视频和关键点之间的信息交互进行优化。- (4): 在三个广泛使用的基准测试MSASL、WLASL和NMFs-CSL中，本方法在手语识别方面均达到了最先进的水平，并在三个有挑战性的任务（单词级别识别、多词级别识别和动作级别识别）上取得了当前最好的结果。8. Conclusion: - (1): 本研究的意义在于提出了一种可辅助手语识别的新型框架，并有效利用手语的语义信息。通过语言感知标记平滑和跨模态混合等方法，显著提高了手语识别的准确性。该框架还提出了一种新型骨架结构——视频关键点网络（VKNet），实现了对手语视频的人体关键点进行估算，并从具有不同时间接受场的标志视频中获取知识。- (2): 创新点：提出了基于语义信息的手语识别框架，针对不同的符号问题提出了两种不同的解决方法，并提出了新型骨架结构；性能：在三个基准测试上均达到最先进的水平，并在三个有挑战性的任务上取得了当前最好的结果；工作量：虽然本文提出的方法具有复杂性，但是通过新型骨架结构的提出，大大减少了手动特征提取的工作。1. Title:OmniTracker: Unifying Object Tracking by Tracking-with-Detection2. Authors: Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Xiyang Dai, Lu Yuan, Yu-Gang Jiang 3. Affiliation: 上海智能信息处理重点实验室，复旦大学计算机科学系 4. Keywords: object tracking, tracking-with-detection, instance tracking, category tracking, unified tracking model 5. Urls: http://arxiv.org/abs/2303.12079v1, Github: None 6. Summary: - (1): 该文主要研究目标跟踪（OT）这一领域，将instance tracking、category tracking两种主流方法进行统一；- (2): 文章基于评估现有方法的局限性，提出了一种称为“tracking-with-detection”的跟踪方法，即跟踪辅助检测，检测提供目标候选框协助跟踪，从而弥补了两种方法的不足，并设计出名称为OmniTracker的统一模型；- (3): 该文设计了一种基于素有网络架构的新型跟踪模型OmniTracker，使用tracking-with-detection的策略，运用共享网络体系、模型权重和推理管道对所有跟踪任务进行解决；- (4): OmniTracker在包括7个跟踪数据集在内的大量跟踪实验中，显示比特定任务和统一跟踪模型都获得了更好的跟踪性能。prompt_token_used: 1816 completion_token_used: 422 total_token_used: 2238 response_time: 18.764 s method_result: 7. 方法: - (1): 本文提出了一种新的跟踪方法，称之为“tracking-with-detection”，该方法通过将检测方法与跟踪方法结合起来，以提供目标候选框来协助实现跟踪任务。同时，通过设计专门的分类器，该方法能够对目标进行实例级别和类别级别的跟踪。- (2): 为了将instance tracking和category tracking进行统一，本文引入了三个关键的组件：一是对象框的表示，该方法使用单个包围盒来表示一个对象；二是特征嵌入的处理，采用可训练的网络模型来将每个对象的状态编码成特征向量；三是更新方程和推理模块，采用递归神经网络来预测对象状态并更新对象的位置。- (3): 本文提出了一种使用共享CNN（卷积神经网络）架构的跟踪模型OmniTracker。同时，通过使用统一的网络体系结构，共享模型权重和推理管道，该模型能够同时解决所有的跟踪问题，包括instance tracking和category tracking。- (4): 为了评估OmniTracker的有效性，本文对多个跟踪数据集进行了实验。结果表明，OmniTracker在多个评估指标上都表现优于特定任务和统一跟踪模型。8. Conclusion: - (1): 本文提出了一种全新的跟踪方法OmniTracker，该方法能够将instance tracking和category tracking进行统一，填补了两种方法之间的不足。此外，该方法还引入了tracking-with-detection策略，通过与检测方法结合，提供了目标候选框，加强了目标的定位精度，表现出很强的创新性。- (2): 创新点：整合instance tracking和category tracking方法，引入tracking-with-detection策略；性能：在多个跟踪数据集上进行了实验，表现出很好的跟踪性能，尤其在VOS任务中表现优异；工作量：本文提出的OmniTracker模型在跟踪任务中表现出很好的灵活性和可扩展性，但是在某些任务上尚有提升空间。 1. Title: Two-shot Video Object Segmentation (二拍视频对象分割)2. Authors: Kun Yan, Xiao Li, Fangyun Wei, Jinglu Wang, Chenbin Zhang, Ping Wang, Yan Lu 3. Affiliation: 1. Peking University (北京大学), 2. Microsoft Research Asia 4. Keywords: video object segmentation, semi-supervised learning, two-shot learning 5. Urls: Paper: http://arxiv.org/abs/2303.12078v1, Github: https://github.com/yk-pku/Two-shot-Video-Object-Segmentation6. Summary: - (1):这篇文章的研究背景是视频对象分割领域中，难以获得像素级注释数据，导致现有的方法都必须在密集注释视频数据上训练。为了解决这个问题，作者提出了一种使用稀疏注释数据训练视频对象分割模型的方法——两拍视频对象分割。- (2)：先前的 VOS 方法都是在密集注释的视频数据上进行训练，而此类注释数据的获得成本高昂，本文提出了使用两个标记帧在训练视频数据上训练一个仍能保持性能的满意的 VOS 模型的方法。该方法通过利用伪标签对未标记帧进行训练，并优化模型来达到这一目的。先前的训练方法的主要问题是需要许多标记数据，而领域内很少有机会进行大规模注释。而本文提出的新方法可以在大量没有注释的数据上训练模型。- (3):作者提出了一种半监督学习的训练范式，该范式首先对两个标有标签帧的视频进行半监督训练，而第一帧始终是有标签的。然后，该模型用于生成存储在伪标签库中的未标记帧的伪标签便于训练。最后，该模型与有标签和伪标签数据一起重新训练，不再有任何限制。使用 7.3% 和 2.9% DAVIS 基准数据集的标注数据，该方法在 YouTube-VOS 和 DAVIS 基准数据集上实现可比效果。- (4):本文的方法在两个标记帧的情况下仍然具有良好的效果，并且能够利用大量未标记帧进行训练。在 YouTube-VOS 和 DAVIS 基准数据集上，仅使用 7.3% 和 2.9% 的标记数据，该方法可以实现与完全标记数据集训练的相似结果。7. Methods: - (1): 本文提出了一种在视频对象分割领域中使用稀疏注释数据训练模型的方法——两拍视频对象分割，其核心思想是使用仅有两个标记帧的训练数据来训练模型，并利用伪标签对未标记的帧进行训练，以充分利用大量未标记数据。- (2): 该方法采用了一种半监督学习的训练方法，首先针对两帧有标签视频进行半监督训练，使用伪标签对未标记帧进行训练，最后在有标签和伪标签数据上进行重新训练。- (3): 采用随机跳帧的数据增强方式，优化该方法的泛化性能。- (4): 该方法在 DAVIS and YouTube-VOS 基准数据集上，仅使用 7.3% 和 2.9% 的标记数据即可实现与完全标记数据集训练的相似结果。prompt_token_used: 2590 completion_token_used: 302 total_token_used: 2892 response_time: 14.389 s conclusion_result: 8. Conclusion: - (1): 本文提出了一种仅需要两个标记帧的视频对象分割（Two-shot Video Object Segmentation）训练方法，通过利用未标记的大量数据，实现了仅使用 7.3% 和 2.9% 的标记数据即可达到与完全标记数据集训练的相似结果的性能，具有重要的研究和应用价值。- (2): 创新点：提出了仅使用两个标记帧训练视频对象分割的方法，采用半监督学习的训练范式，优化了模型的泛化性能，且可以应用于大多数的全监督视频对象分割方法。性能：在DVIS and YouTube-VOS基准数据集上，仅使用少量标记数据即可取得与完全标记数据集训练的相似结果。工作量：该方法在训练过程中，最多只需要两个标记帧，同时通过使用随机跳帧的数据增强方式，也降低了训练的工作量。

CVPR2023论文速递（2023.3.22）！已接入ChatGPT总结！共31篇！

最新成果demo展示：

CVPR 2023

Updated on : 22 Mar 2023

total number : 31