Post

[논문정리] UniDet-D

[논문정리] UniDet-D

Wei Zhang, Yuantao Wang, Haowei Yang, Yin Zhuang, Shijian Lu, and Xuerui Mao(2025).UniDet-D: A Unified Dynamic Spectral Attention Model for Object Detection under Adverse Weathers.

실제 객체 탐지는 비, 안개, 눈, 저조도 등 다양한 악천후로 인한 복잡한 이미지, 비디오로 어렵다. 기존 방법들은 특정 악천후에 맞춰 설계되어 일반화 성능이 떨어지고 다양한 이미지 열화를 처리하는 동안 시각적 특징을 충분히 활용하지 못하는 한계가 있다.

악천후에 중요한 시각적 세부 정보가 손실되는 방식에 대한 이론적 분석을 바탕으로 악천후 조건에서 객체 탐지 문제를 해결하고 단일 네트워크 내에서 객체 탐지 및 이미지를 복원하는 UniDet-D를 제안한다.

I. INTRODUCTION

비, 안개, 눈은 이미지 품질을 저하시킨다. 객체 탐지 모델의 일반화 성능과 정확도에 문제를 일으킨다.

기존 연구들은 image adaptation, domain adaptation, multi-task learning 세가지 주요 접근 방식으로 분류 된다.

기존 방법은 특정 상황에 맞춰져 있어 다양한 악천후를 동시에 처리하는 end-to-end 가 부족하다.
기존 모델은 저주파수에 편향되어 고주파수와 같은 유용한 신호를 충분히 활용하지 못한다는 한계가 있다.

End-to-end
입력에서 출력까지 모든 과정을 하나의 통합된 네트워크로 처리하는 방식
기존 방식은 여러 단계를 거쳐야 했지만 이는 모든 단계를 하나의 거대한 신경망으로 합친 것이다.

A. General Object Detection Object

객체 탐지는 이미지나 비디오에서 객체를 정확하게 찾고 분류하는 것을 목표로 한다.

영역 제안 기반 방법:
물체가 있을 법한 후보 영역을 먼저 뽑고 그 영역만 정밀하게 검사
높은 정확도를 보이지만 실시간 성능이 제한된다.

회귀 기반 방법:
이미지를 grid로 나누고 한번의 계산으로 물체 종류와 위치를 동시에 예측
계산 효율성을 크게 향상시키지만 좋은 날씨 조건에서 탐지 성능이 향상되더라도 악천후에서는 객체 탐지 및 분류에 어려움을 겪을 수 있다

B. Object Detection in Degraded Images

기존 악천후 탐지 방법에는 image adaptation, domain adaptation, multi-task learning 이 있다.

Image Adaptation은 악화된 이미지 품질을 개선하여 탐지 성능을 높이는 방식이다. 초기에는 고정된 필터를 사용하였으나 이후 동적이고 문맥을 고려하는 기법이 도입되었다.

과거에는 모든 이미지에 똑같은 공식을 적용했다. 최근 기법은 이미지의 내용을 먼저 파악한 뒤 상황에 맞게 변한다.

Domain Adaptation은 고품질의 소스 도메인과 저품질의 타깃 도메인 이미지 간의 도메인 불변 특징을 학습하는 것을 목표로 한다.

Multi-task Learning은 이미지 복원과 객체 탐지 같은 여러 작업을 처리하기 위해 여러 서브 네트워크를 사용하며 일부 특징 추출 레이어를 공유한다.

III. METHODOLOGY

이미지 복원과 객체 탐지를 통합하는 네트워크 구조이다.

alt 이미지는 세 가지 다른 인코더 (degradation representation encoder, image enhancement encoder, object detection encoder)에 입력되어 특징 융합을 거진다.

degradation representaion encoder은 저품질 이미지에서 다층 손상 정보를 캡처하여 객체 탐지 및 이미지 개선을 돕는다.

손상된 이미지로부터 복원과 탐지를 동시에 수행하는 과정
Degraded Image:
비, 안개 등으로 인해 품질이 떨어진 원본 입력 이미지

Degradation Representation Encoder:
현재 날씨나 노이즈의 상태를 파악
Image Enhancement Encoder: 이미지를 깨끗하게 만들기 위한 특징을 추출
Object Detection Encoder:
물체를 찾기 위한 특징을 추출한다. Dynamic Spectral Perceive-Select Strategy가 주파수 분석(MSP, AF2)을 통해 중요한 정보만 골라낸다.

Mixed Encoder Feature Fusion:
세 개의 인코더에서 나온 정보들을 하나로 섞는다

Image Enhancement Decoder:
통합된 정보를 바탕으로 노이즈를 제거한 복원 이미지를 생성
Object Detection Regression:
통합된 정보를 바탕으로 물체의 위치와 종류를 나타내는 박스 및 라벨을 출력

Degradation Representation Encoder에서 위아래로 가는 화살표
“지금 비가 오고 있어”라는 정보를 복원 담당과 탐지 담당에게 전달하여 그들이 날씨에 맞춰서 작동하도록 가이드하는 역할.

alt

손상된 특징 표현을 방해할 수 있는 중복 주파수를 억제하면서 정보성 스펙트럼 구성 요소를 동적으로 추출하고 강조하는 것을 목표로 한다.

MSP (Multi-Spectrum Perception)

기존 Global Average Pooling의 한계를 넘어 2D Discrete Cosine Transform를 통해 추가 주파수 구성 요소를 통합하여 다중 스펙트럼 구성 요소를 통해 더 포괄적인 정보를 캡처한다.
이미지 특징 센서를 채널 차원을 따라 n개의 세그먼트로 분할하고 각 세그먼트에 대해 지정된 2D DCT 주파수 구성 요소를 할당하여 압축된 표현을 생성한다.

GAP는 이미지의 전체 평균값 하나만 남긴다. 그게 아니라 2D DCT 수학 도구를 써서 이미지 안의 숨은 주파수 성분을 찾아 모델에 전달한다.
모델이 처리하는 데이터(채널)을 여러 그룹으로 나눠서 각 그룹에 ㄷ른 역할을 맡긴다.

2D DCT 이미지를 구성하는 픽셀 정보를 주파수 성분으로 바꾸어 표현하는 수학적 기술
다양한 패턴, 코사인 함수들의 합으로 본다

AF2 (Adaptable Trequency Filtering)

각 주파수 구성 요소의 상대적 중요성을 활용하여 노이즈 방해를 완화하고 스펙트럼 활용도를 높이는 모듈이다.
학습 기반 Switch를 사용하여 각 주파수 채널에 이진 점수를 할당한다. 중요한 채널은 1, 나머지는 0으로 부여하여 0으로 점수 매겨진 채널은 모델에서 필터링된다.
이는 Gumbel-Softmax 트릭을 사용하여 미분 가능하게 만들어 학습 가능하게 한다.

Gumbel-Softmax 트릭
이산 확률 분포에서 샘플링하는 연산을 미분 가능하게 만들어 역전파가 가능하도록 하는 기술

주황색의 내부 동작
Multi-spectrum Perception (MSP)
입력된 특징을 분석하기 좋은 형태로 펼치는 과정.
Feature Map (C x H x W): 모델이 이미지에서 뽑아낸 기초 데이터.
DCT (2D Discrete Cosine Transform): 이 데이터를 Frequency Components로 변환한다. 이때 이미지는 공간적인 픽셀 형태가 아니라 격자무늬 같은 주파수 덩어리로 된다.
→Adaptable Frequency Filtering (AF2)
분해된 주파수 중 필요한 것만 골라내는 핵심 장치이다.
Learning-driven Switches
상단의 1x1 Conv를 거쳐 생성된 스위치이다. 그림 속 빨간색 칸은 0(차단), 하늘색 칸은 1(통과). 노이즈가 섞인 주파수 대역을 물리적으로 끄는 역할을 한다.
Selected Frequency
스위치를 통과한 깨끗한 주파수 성분들만 남게 된다.
→ Gumbel Samples & Frequency Loss
스위치가 똑똑하게 작동하도록 돕는 수학적 장치들이다.
L_fre (Frequency Loss):
주파수 손실 함수이다. 모델이 주파수를 선택할 때 엉뚱한 것을 고르지 않도록 기준을 잡아준다. → Attention Vector
필터링된 정보를 바탕으로 탐지 성능을 극대화하는 마지막 단계
FC (Fully Connected):
선택된 주파수 정보들을 압축하여 각 채널별 중요도를 나타내는 Attention Vector를 만든다.
이 벡터를 다시 원래의 특징 맵에 곱해준다. 결과적으로 비 줄기나 안개 같은 노이즈는 사라지고 객체의 핵심 특징만 진하게 강조된 데이터가 완성

주파수 손실 함수 $L_{fre}$

MSP와 AF2의 선택 행동을 정규화하고 스펙트럼 편향을 완화하기 위해 도입됐다.

전체 손실함수

총 손시은 객체 탐지 손실, 이미지 복원 손실, 제안된 주파수 정규화 항, 대조 손실을 결합하여 정의된다.

\[L_{Total} = \lambda_1 L_{Det} + \lambda_2 L_{Res} + \lambda_3 L_{Fre} + \lambda_4 L_{Cls}\]

IV. EXPERIMENTS AND ANALYSIS

V. CONCLUSION

다양한 악천후 조건에서 저품질 이미지의 객체 탐지를 위한 end-to-end 모델인 UniDet-D

기존 특정 유형에 맞춰진 접근 방식과 달리 단일 아키텍처 내에서 객체 탐지와 이미지 복원을 수행한다.

본래 화질이 손상된 이미지의 주파수 도메인 분석을 기반으로 MSP모듈과 AF2 방법을 포함하는 동적 주파수 어텐션 메커니즘으로 정보성 스펙트럼 구성 요소를 적응적으로 선택할 수 있도록 한다.

주파수 도메인 분석
이미지를 단순히 픽셀로 보는 게 아니라 변화의 속도(주파수)로 나누어 분석하는 것이다

UniDet-D 가 다양한 시나리오에서 그당시 SOTA탐지기보다 우수한 성능을 보였다. sandstorm, 비-안개 혼합 같은 미학습 조건에 대해서도 강력한 일반화 능력을 입증했다.

This post is licensed under CC BY 4.0 by the author.