Summary
Men in Black 프로젝트에서 블랙박스 차량과 다양한 물체 간의 거리를 구하기 위해 MiDaS v3 Depth Estimation 모델을 연구한 논문 정리이다. Monocular Depth Estimation의 원리, MiDaS의 아키텍처, 그리고 실제 프로젝트 적용 방법을 다룬다.
Intro:
Men in Black(도로 교통 법규 위반 차량 자동 탐지 & 구분) 프로젝트 중 다양한 물체와 블랙박스 차량간의 거리를 구하기 위해 방법을 찾던 중 MiDas를 참고하고자 정리해보았다.
-
github: https://github.com/isl-org/MiDaS
-
youtube using MiDas: https://www.youtube.com/watch?v=MNzdybzH0kM&t=330s
MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation
날짜: 2023년 7월 26일
Abstract
- 새로운 encoder backbone을 가진 모델을을 제시
- 바닐라 ViT와 거의 유사했던 MiDas v3.0과는 달리 BEiT, Wsin, Wsin V2, Next-ViT, LeViT등의 모델이 추가되었다
- 그 결과 최고 28% 성능 향상
Introduction
- Monocular depth estimation 해결로 generative AI, 3D reconstruction, autonomous driving등의 downstream tasks에 영향 끼침
- 데이터셋 혼합과 규모 및 이동 불변성 손실 구축이 MiDas의 일반화를 가능케 했다(MiDas의 시초)
- 여러 분야에서 활약중인 Transformer 기반 encoder을 사용하였고, 깊이있는 비교를 위해 경쟁력있는 covolutional encoder도 추가하였다
downstream tasks: 더 복잡한 후속 응용 분야
목적: 백본들을 MiDaS 아키텍처에 통합하는 것을 설명하고, 사용 가능한 다양한 v3.1 모델들에 대한 철저한 비교와 분석을 제공하며, 미래의 백본들과 함께 MiDaS를 어떻게 사용할 수 있는지에 대한 지침을 제공하는 것
- conventional encoder-decoder 형태를 따른다
- encoder: image-classification network
- 기존 v1.0, v2.0 모델은 ResNet 기반 multi-scale 구조
- v2.1엔 EfficientNet-Lite backbone 출시(모바일 친화적)
- v3.0부터 vision transformers모델에 대한 연구를 시작했고, v3.1에서 이를 이어나가고자 함
3.1.1 Published Models
- 5개의 encoder type 선정
클라우드 bash 파일 돌아가고 있는지 확인하는 코드
ps -ef|grep bashhtop