Computer Science
[Paper]You Only Look Once:Unified, Real-Time Object Detection
jaeseokk963
2024. 8. 27. 16:12
0. Abstract
- Object Detection을 Bounding Box와 연관 Class 확률에 대한 Regression 문제로 제안
- 하나의 Neural Network가 전체 이미지에서 한 번의 Evaluation으로 바로 Bounding Boxes와 Class Probabilities를 Predict함
- 모든 Detection 과정이 하나의 Neural Network만으로 이루어지기 때문에 end-to-end optimize가 가능함
- Base YOLO Model은 실시간으로 1초에 45 frame을 처리할 수 있음
- 더 작은 버전인 Fast YOLO는 1초에 155 frame을 처리할 수 있음
- 그럼에도 다른 실시간 Detection Model의 2배의 mAP를 달성
- SOTA Detection Model과 비교했을 때 Localization Error는 더 크지만 Background에 대한 False Positive는 감소함
- YOLO는 Object의 여러 Representation을 학습할 수 있음
- 자연 이미지에서 예술 작품 같은 다른 도메인으로 Generalization할 때, DPM, R-CNN을 포함한 다른 Detection Model을 Outperform함
1. Introduction
- 인간은 잠깐 보는 것만으로도 이미지의 객체가 무엇인지, 어디있는지, 어떻게 상호작용하는지 알 수 있음
- 인간의 시각 시스템은 빠르고 정확함
- 의식적 노력 없이 운전과 같은 복잡한 작업을 수행하게 해줌
- 빠르고 정확한 객체 탐지 알고리즘은 컴퓨터로 하여금
- 전용 센서 없이 차량 운전
- 사용자에게 실시간 정보 전달
- 다목적, 반응형 로봇 시스템의 가능성 개방
- 그 외 다양한 등의 작업을 가능하게 함
- 현재의 객체 탐지 시스템은 Classifier를 Detection을 위해 사용함
- 객체를 탐지하기 위해, 객체에 대해 Classifier를 사용하고, 여러 위치와 크기의 객체를 평가함
- DPM과 같은 시스템은 슬라이딩 윈도우 방식으로 이미지 전체 공간을 Classifier로 탐색함
- R-CNN과 같은 보다 최신의 방식들은 Region Proposal 방식을 사용해
- 우선 잠재적인 Bounding Box를 생성하고 해당 Box들에 Classifier를 실행함
- 분류 후, Bounding Box들을 후처리하고 중복 탐지 결과를 제거함
- 그리고 이미지 내의 다른 객체들을 기반으로 Box들의 점수를 매김
- 이러한 복잡한 파이프라인은 느리고 최적화하기 어려움
- 각각의 구성 요소가 따로 훈련되어야 하기 때문
- 우리는 객체 탐지를 하나의 회귀 문제로 재구성함
- 이미지 픽셀에서 직접 Bounding Box 좌표와 Class 확률을 동시에 얻어내는
- 우리의 시스템을 이용하면 이미지에 무슨 객체가 어디에 있는지 알기 위해 한 번 만 봐도 됨(YOLO)
YOLO의 장점
- YOLO는 굉장히 간단함
- 하나의 Convolution 신경망이 여러개의 Bounding Box와 Class 확률을 동시에 예측함
- 전체 이미지에서 학습하고 직접 탐지 성능을 최적화함
- 이 통합 모델은 전통적 객체 탐지 모델과 비교해 더 많은 장점을 가지고 있음
- YOLO는 매우 빠름
- 탐지 문제를 회귀 문제로 구성하여 복잡한 파이프라인 필요 없음
- 테스트 시 새 이미지에 대해 우리의 신경망을 실행했음
- 우리의 기본 모델은 45 frame/sec의 속도를 기록함, Titan X GPU 위에서 Batch processing 없이
- 빠른 버전의 모델은 150 frame per sec
- 실시간 스트리밍 비디오를 25 ms 이하의 지연 시간으로 처리 가능
- 다른 실시간 시스템보다 두 배 높은 mean average precision을 기록
- YOLO는 이미지 전체를 처리함
- Sliding Window나 Region Proposal과 다르게, 이미지 전체를 고려함
- 암묵적으로 class들이 보이는 그대로의 맥락 정보를 사용함
- Fast R-CNN, 우수한 탐지 모델은, 전체 맥락을 보지 않기 때문에 배경 Patch에 대해 실수함
- YOLO 모델은 Fast R-CNN에 비해 절반 수준의 배경에 대한 에러를 기록함
- Sliding Window나 Region Proposal과 다르게, 이미지 전체를 고려함
- YOLO는 객체의 일반화된 representation을 학습함
- 자연 이미지를 학습하고 미술 작품에서 평가할 때,
- YOLO는 DPM이나 R-CNN 등의 다른 우수한 탐지 방식을 outperform함
- YOLO는 매우 일반화를 잘하기 때문에 새로운 도메인이나 입력에 대해 성능이 급격히 낮아질 확률이 적음
- 자연 이미지를 학습하고 미술 작품에서 평가할 때,
- 그러나 YOLO는 여전히 최신의 객체 탐지 모델에 비해 정확도 면에서 뒤처짐
- 빠르게 객체를 인식할 수 있지만, 특히 작은 객체의 위치를 정확하게 파악하는데 어려움이 있음
- 이러한 Trade-off는 Experiment에서 다뤄보겠음
24.08.27 Abstract
24.09.04 Introduction