[Paper]You Only Look Once:Unified, Real-Time Object Detection

Computer Science

[Paper]You Only Look Once:Unified, Real-Time Object Detection

jaeseokk963 2024. 8. 27. 16:12

0. Abstract

Object Detection을 Bounding Box와 연관 Class 확률에 대한 Regression 문제로 제안
하나의 Neural Network가 전체 이미지에서 한 번의 Evaluation으로 바로 Bounding Boxes와 Class Probabilities를 Predict함
모든 Detection 과정이 하나의 Neural Network만으로 이루어지기 때문에 end-to-end optimize가 가능함
Base YOLO Model은 실시간으로 1초에 45 frame을 처리할 수 있음
더 작은 버전인 Fast YOLO는 1초에 155 frame을 처리할 수 있음
- 그럼에도 다른 실시간 Detection Model의 2배의 mAP를 달성
SOTA Detection Model과 비교했을 때 Localization Error는 더 크지만 Background에 대한 False Positive는 감소함
YOLO는 Object의 여러 Representation을 학습할 수 있음
자연 이미지에서 예술 작품 같은 다른 도메인으로 Generalization할 때, DPM, R-CNN을 포함한 다른 Detection Model을 Outperform함

1. Introduction

인간은 잠깐 보는 것만으로도 이미지의 객체가 무엇인지, 어디있는지, 어떻게 상호작용하는지 알 수 있음
인간의 시각 시스템은 빠르고 정확함
- 의식적 노력 없이 운전과 같은 복잡한 작업을 수행하게 해줌
빠르고 정확한 객체 탐지 알고리즘은 컴퓨터로 하여금
- 전용 센서 없이 차량 운전
- 사용자에게 실시간 정보 전달
- 다목적, 반응형 로봇 시스템의 가능성 개방
- 그 외 다양한 등의 작업을 가능하게 함
현재의 객체 탐지 시스템은 Classifier를 Detection을 위해 사용함
객체를 탐지하기 위해, 객체에 대해 Classifier를 사용하고, 여러 위치와 크기의 객체를 평가함
DPM과 같은 시스템은 슬라이딩 윈도우 방식으로 이미지 전체 공간을 Classifier로 탐색함
R-CNN과 같은 보다 최신의 방식들은 Region Proposal 방식을 사용해
- 우선 잠재적인 Bounding Box를 생성하고 해당 Box들에 Classifier를 실행함
- 분류 후, Bounding Box들을 후처리하고 중복 탐지 결과를 제거함
- 그리고 이미지 내의 다른 객체들을 기반으로 Box들의 점수를 매김
이러한 복잡한 파이프라인은 느리고 최적화하기 어려움
- 각각의 구성 요소가 따로 훈련되어야 하기 때문
우리는 객체 탐지를 하나의 회귀 문제로 재구성함
- 이미지 픽셀에서 직접 Bounding Box 좌표와 Class 확률을 동시에 얻어내는
우리의 시스템을 이용하면 이미지에 무슨 객체가 어디에 있는지 알기 위해 한 번 만 봐도 됨(YOLO)

YOLO의 장점

YOLO는 굉장히 간단함
- 하나의 Convolution 신경망이 여러개의 Bounding Box와 Class 확률을 동시에 예측함
- 전체 이미지에서 학습하고 직접 탐지 성능을 최적화함
- 이 통합 모델은 전통적 객체 탐지 모델과 비교해 더 많은 장점을 가지고 있음

YOLO는 매우 빠름
- 탐지 문제를 회귀 문제로 구성하여 복잡한 파이프라인 필요 없음
- 테스트 시 새 이미지에 대해 우리의 신경망을 실행했음
- 우리의 기본 모델은 45 frame/sec의 속도를 기록함, Titan X GPU 위에서 Batch processing 없이
  - 빠른 버전의 모델은 150 frame per sec
- 실시간 스트리밍 비디오를 25 ms 이하의 지연 시간으로 처리 가능
- 다른 실시간 시스템보다 두 배 높은 mean average precision을 기록
YOLO는 이미지 전체를 처리함
- Sliding Window나 Region Proposal과 다르게, 이미지 전체를 고려함
  - 암묵적으로 class들이 보이는 그대로의 맥락 정보를 사용함
  - Fast R-CNN, 우수한 탐지 모델은, 전체 맥락을 보지 않기 때문에 배경 Patch에 대해 실수함
- YOLO 모델은 Fast R-CNN에 비해 절반 수준의 배경에 대한 에러를 기록함
YOLO는 객체의 일반화된 representation을 학습함
- 자연 이미지를 학습하고 미술 작품에서 평가할 때,
  - YOLO는 DPM이나 R-CNN 등의 다른 우수한 탐지 방식을 outperform함
- YOLO는 매우 일반화를 잘하기 때문에 새로운 도메인이나 입력에 대해 성능이 급격히 낮아질 확률이 적음

그러나 YOLO는 여전히 최신의 객체 탐지 모델에 비해 정확도 면에서 뒤처짐
빠르게 객체를 인식할 수 있지만, 특히 작은 객체의 위치를 정확하게 파악하는데 어려움이 있음
이러한 Trade-off는 Experiment에서 다뤄보겠음

24.08.27 Abstract

24.09.04 Introduction