YOLO 모델은 Feature Extractor 부분과 Object Classifier 부분으로 나눌 수 있고, Feature Extractor 부분을 먼저 학습시킨 이후에 전체 모델을 학습시키는 방향으로 진행됩니다.
20개의 Conv Layer를 거쳐 생성된 Feature Map에 Average Pooling Layer와 Fully Connected Layer를 추가해서 ImageNet Dataset으로 Feature Extractor 부분을 학습시킴 (Input Size는 224 x 224임)
4개의 Conv Layer와 2개의 FC Layer를 추가하고 Input 크기를 448 x 448로 키운 후에 PASCAL VOC 2007/2012 Dataset으로 전체 모델을 학습시킴
Bbox Width, Height에 대해서 Root를 씌운 이유는 Bbox 크면 Loss가 훨씬 커지는 문제를 보완하기 위함
$\mathbf{1}_{ij}^{obj}$: $i$번째 Grid Cell의 $j$번째 Bounding Box에 대한 Ground Truth에 Object가 존재하는 경우에 1을 가짐