Computer Science

[Paper]You Only Look Once:Unified, Real-Time Object Detection

jaeseokk963 2024. 8. 27. 16:12

0. Abstract

  • Object Detection을 Bounding Box와 연관 Class 확률에 대한 Regression 문제로 제안
  • 하나의 Neural Network가 전체 이미지에서 한 번의 Evaluation으로 바로 Bounding Boxes와 Class Probabilities를 Predict함
  • 모든 Detection 과정이 하나의 Neural Network만으로 이루어지기 때문에 end-to-end optimize가 가능함
  • Base YOLO Model은 실시간으로 1초에 45 frame을 처리할 수 있음
  • 더 작은 버전인 Fast YOLO는 1초에 155 frame을 처리할 수 있음
    • 그럼에도 다른 실시간 Detection Model의 2배의 mAP를 달성
  • SOTA Detection Model과 비교했을 때 Localization Error는 더 크지만 Background에 대한 False Positive는 감소함
  • YOLO는 Object의 여러 Representation을 학습할 수 있음
  • 자연 이미지에서 예술 작품 같은 다른 도메인으로 Generalization할 때, DPM, R-CNN을 포함한 다른 Detection Model을 Outperform함

1. Introduction

  • 인간은 잠깐 보는 것만으로도 이미지의 객체가 무엇인지, 어디있는지, 어떻게 상호작용하는지 알 수 있음
  • 인간의 시각 시스템은 빠르고 정확함
    • 의식적 노력 없이 운전과 같은 복잡한 작업을 수행하게 해줌
  • 빠르고 정확한 객체 탐지 알고리즘은 컴퓨터로 하여금
    • 전용 센서 없이 차량 운전
    • 사용자에게 실시간 정보 전달
    • 다목적, 반응형 로봇 시스템의 가능성 개방
    • 그 외 다양한 등의 작업을 가능하게 함
  • 현재의 객체 탐지 시스템은 Classifier를 Detection을 위해 사용함
  • 객체를 탐지하기 위해, 객체에 대해 Classifier를 사용하고, 여러 위치와 크기의 객체를 평가함
  • DPM과 같은 시스템은 슬라이딩 윈도우 방식으로 이미지 전체 공간을 Classifier로 탐색함
  • R-CNN과 같은 보다 최신의 방식들은 Region Proposal 방식을 사용해
    • 우선 잠재적인 Bounding Box를 생성하고 해당 Box들에 Classifier를 실행함
    • 분류 후, Bounding Box들을 후처리하고 중복 탐지 결과를 제거함
    • 그리고 이미지 내의 다른 객체들을 기반으로 Box들의 점수를 매김
  • 이러한 복잡한 파이프라인은 느리고 최적화하기 어려움
    • 각각의 구성 요소가 따로 훈련되어야 하기 때문
  • 우리는 객체 탐지를 하나의 회귀 문제로 재구성함
    • 이미지 픽셀에서 직접 Bounding Box 좌표와 Class 확률을 동시에 얻어내는
  • 우리의 시스템을 이용하면 이미지에 무슨 객체가 어디에 있는지 알기 위해 한 번 만 봐도 됨(YOLO)

YOLO의 장점

  • YOLO는 굉장히 간단함
    • 하나의 Convolution 신경망이 여러개의 Bounding Box와 Class 확률을 동시에 예측함
    • 전체 이미지에서 학습하고 직접 탐지 성능을 최적화함
    • 이 통합 모델은 전통적 객체 탐지 모델과 비교해 더 많은 장점을 가지고 있음
  1. YOLO는 매우 빠름
    • 탐지 문제를 회귀 문제로 구성하여 복잡한 파이프라인 필요 없음
    • 테스트 시 새 이미지에 대해 우리의 신경망을 실행했음
    • 우리의 기본 모델은 45 frame/sec의 속도를 기록함, Titan X GPU 위에서 Batch processing 없이
      • 빠른 버전의 모델은 150 frame per sec
    • 실시간 스트리밍 비디오를 25 ms 이하의 지연 시간으로 처리 가능
    • 다른 실시간 시스템보다 두 배 높은 mean average precision을 기록
  2. YOLO는 이미지 전체를 처리함
    • Sliding Window나 Region Proposal과 다르게, 이미지 전체를 고려함
      • 암묵적으로 class들이 보이는 그대로의 맥락 정보를 사용함
      • Fast R-CNN, 우수한 탐지 모델은, 전체 맥락을 보지 않기 때문에 배경 Patch에 대해 실수함
    • YOLO 모델은 Fast R-CNN에 비해 절반 수준의 배경에 대한 에러를 기록함
  3. YOLO는 객체의 일반화된 representation을 학습함
    • 자연 이미지를 학습하고 미술 작품에서 평가할 때,
      • YOLO는 DPM이나 R-CNN 등의 다른 우수한 탐지 방식을 outperform함
    • YOLO는 매우 일반화를 잘하기 때문에 새로운 도메인이나 입력에 대해 성능이 급격히 낮아질 확률이 적음
  • 그러나 YOLO는 여전히 최신의 객체 탐지 모델에 비해 정확도 면에서 뒤처짐
  • 빠르게 객체를 인식할 수 있지만, 특히 작은 객체의 위치를 정확하게 파악하는데 어려움이 있음
  • 이러한 Trade-off는 Experiment에서 다뤄보겠음

 

 

24.08.27 Abstract

24.09.04 Introduction