Training

YOLO 모델은 Feature Extractor 부분과 Object Classifier 부분으로 나눌 수 있고, Feature Extractor 부분을 먼저 학습시킨 이후에 전체 모델을 학습시키는 방향으로 진행됩니다.

Training Feature Extractor

Untitled

20개의 Conv Layer를 거쳐 생성된 Feature Map에 Average Pooling Layer와 Fully Connected Layer를 추가해서 ImageNet Dataset으로 Feature Extractor 부분을 학습시킴 (Input Size는 224 x 224임)

Training Detector

Untitled

4개의 Conv Layer와 2개의 FC Layer를 추가하고 Input 크기를 448 x 448로 키운 후에 PASCAL VOC 2007/2012 Dataset으로 전체 모델을 학습시킴

Training Procedure

Untitled

Feature Extractor 결과 뒤에 4개의 Conv Layer와 2개의 FC Layer를 거친 결과인 7x7x30 크기의 Tensor가 최종 예측 결과임
7x7x30의 각 Vector가 Grid 내 한 Cell에서 예측된 2개의 Bbox와 Class를 예측한 결과임

Loss Function

Untitled

Loss Function 구성

Coordinates

Untitled

Bbox Width, Height에 대해서 Root를 씌운 이유는 Bbox 크면 Loss가 훨씬 커지는 문제를 보완하기 위함
$\mathbf{1}_{ij}^{obj}$: $i$번째 Grid Cell의 $j$번째 Bounding Box에 대한 Ground Truth에 Object가 존재하는 경우에 1을 가짐

Confidence Score