[CV] Week6. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scaled
Abstract tranformer구조는 nlp분야에서 높은 성능을 보이며 표준으로 자리잡았지만 computer vision 분야에서는 제한적이다. computer vision분야에서 attention은 cnn에 결합해서 쓰거나 cnn의 구성 요소를 대체하는 식으로 간접적으로만 사용된다. cnn에 대한 의존을 끊고 transformer를 직접적으로...