Summary
ZoeDepth 논문을 정리한 문서이다. Relative Depth와 Metric Depth를 결합하여 Zero-shot Transfer를 달성하는 Depth Estimation 모델의 원리, 아키텍처, 성능 평가, 그리고 Men in Black 프로젝트에서의 활용 가능성을 분석한다.
ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth
요약
- 결합된 접근 방식: 상대적 깊이와 메트릭 깊이 추정을 통합하여 일반화 성능과 정확한 메트릭 스케일을 모두 달성하고자 함
- 다중 데이터셋 사전 훈련 및 미세 조정: 12개 데이터셋에서 상대적 깊이로 사전 훈련되고, 특정 데이터셋에서 메트릭 깊이로 미세 조정되어 각 도메인에 최적화된 성능을 제공
- 경량화된 헤드와 자동 경로 설정: 각 도메인에 맞춤화된 경량화된 헤드와 메트릭 빈 모듈을 사용하며, 입력 이미지를 적절한 헤드로 자동으로 경로 설정하는 잠재 분류기 포함
- 혁신적인 모델 아키텍처: 각 도메인별로 특화된 새로운 ‘메트릭 빈 모듈’을 통해 더 정밀하고 효율적인 깊이 추정을 가능하게 하는 독특한 아키텍처를 채택
- 향상된 성능 및 일반화: NYU Depth v2 및 기타 데이터셋에서 상대 절대 오류를 크게 감소시키고, 실내 및 실외 도메인의 여러 데이터셋에 대한 제로샷 일반화 성능을 제공
목표
- 상대적 및 측정적 깊이 추정 방법을 통합하여 보다 정밀하고 신뢰할 수 있는 깊이 정보를 제공
- 다양한 환경에서의 깊이 추정의 정확도를 개선
- 특히 도시 환경과 같이 복잡한 실외 환경에서의 성능 향상
- 이를 위해 다양한 데이터셋에서 사전 학습된 모델을 사용
- 특정 데이터셋에서 미세 조정하여 모델의 일반화 능력 강화
방법론
- Relative 및 Metric Depth Estimation의 결합을 통해 깊이 추정 방법론 혁신
- ZoeDepth는 MiDaS 모델을 기반으로 하여 깊이 추정의 정확도 향상
- 새로운 ‘metric bins module’을 통한 깊이 추정의 개선
- 이 모듈은 깊이 추정의 정밀도를 높이는 데 중요한 역할을 함
- 다양한 환경에서의 깊이 추정 정확도를 위해 설계됨
모델 아키텍처
- 기존 MiDaS 깊이 추정 프레임워크와 DPT 아키텍처를 결합하여 구축
- RGB 이미지를 처리하여 다양한 해상도에서 깊이 정보 추출
- MiDaS 디코더는 상대적 깊이 정보를 생성하기 위해 다양한 크기의 특징 맵을 결합
- ‘metric bins module’은 픽셀별 깊이 bin 중심을 계산하고 이를 선형 결합하여 측정적 깊이 정보를 도출
- 다양한 트랜스포머 백본, 예를 들어 BEiT와 Swin Transformer를 MiDaS 인코더에 적용하여 깊이 추정의 정확도 및 성능 개선

Backbone

metric bins module
- ZoeDepth에서 ‘metric bins module’은 깊이 추정의 정확도를 혁신적으로 향상시키는 핵심 요소입니다.
- 이 모듈은 각 픽셀별로 깊이 bin의 중심을 예측하는 기능을 함으로써, 보다 세밀한 깊이 계산을 가능하게 합니다.
- 깊이 추정의 정밀도를 높이는 데 중요한 역할을 하며, 다양한 환경에서의 깊이 추정 정확도 향상에 기여합니다.
데이터셋과 사전 훈련
- 12개의 다양한 데이터셋을 사용
- 주요 데이터셋으로는 실내 환경에는 NYU Depth v2, 실외 환경에는 KITTI 사용
- 추가적으로 Relative Depth Estimation을 위한 백본 사전 훈련으로 HRWSI, BlendedMVS, ReDWeb, DIML-Indoor, 3D Movies, MegaDepth, WSVD, TartanAir, ApolloScape, IRS 등의 데이터셋 사용
- 이들 데이터셋은 모델의 다양한 환경에 대한 일반화 능력을 강화하기 위해 선택
Loss Function and Evaluation Metrics
- Absolute Relative Error (REL):
- Root Mean Squared Error (RMSE):
- Average Log10 Error:
- Threshold Accuracy :
- Mean Relative Improvement across Datasets (mRID):
- Mean Relative Improvement across Metrics (mRI)
- Relative Improvement (RI) for lower-is-better metrics:
- Relative Improvement (RI) for higher-is-better metrics: