오늘의 TIL

 

 

selenium

YOLO

욜로 버전 1 에서의 마지막 레이어의 의미

욜로의 레이어를 보면 마지막에 FC레이어에서 다시 resahpe시켜 3차원 텐서로 만드는 것을 볼 수 있습니다. 7x7x30의 크기로 픽셀을 만들어 내는데 7x7은 전체 이미지의 패치를 나타냅니다. 30중 5*2개는 box의 중앙부분과 영역을 나타내기 위한 피쳐벡터로 사용됩니다.(anchor box의 갯수가 2개이기 때문입니다.) 나머지 20개는 class를 구분합니다. 관련 문서에서는 20개의 class가 있기때문에 20개인 것입니다.

ground truth box의 중심점을 포함하고 있는 셀만 positive를 나타내고 나머지 셀들은 negative셀로 취급됩니다.

추론단계에서 앞 10개의 셀들과 뒤에 있는 20개의 클래스들을 조합해서 1x20의 텐서를 만듭니다.추론에서 사용되는 패치갯수 x 2 만큼 만들게 됩니다.
이렇게 만들어낸 구조는 각각의 class에 대해 가장 가능성이 높은 anchor box를 뽑을 수 있게 해줍니다.

버전이 올라가면서 어떤것이 달라지나

버전1은 패치의 크기가 너무 커서 작은 물체를 검출하기 어려웠습니다. 따라서 최종 feature맵의 scale을 피라미드 형식으로 점점 넓혀가며 검출하는 방식으로 바뀌었습니다. 연산량은 더 많아지게 됐지만 더 작은 물체를 좀 더 정확하게 검출할 수 있게 되었습니다.

태그:

카테고리:

업데이트:

댓글남기기