Vision Transformer

이미지를 16x16으로 나눠 트랜스포머에 입력하는 모델

이미지를 16X16개의 패치로 나누어 각각의 패치를 토큰으로 이용해 트랜스포머의 입력으로 사용하는 색다른 접근을 사용

모델 분석

Untitled

녹색 부분이 이미지를 패치로 나누는 부분

이 과정에서 2차원 이미지 → 1차원의 벡터로 변경

그 다음 linear projection

파란 부분은 각 패치에 positional embedding을 추가하는 부분

이미지를 패치로 나누고, 임베딩에 성공하면 트랜스포머 인코더로 넣어주고, 트랜스포머의 출력을 분류층에 넣어서 클래스 분류를 해주면 완성

Untitled

우선 입력 이미지 $x$를 정의

이미지는 너비, 높이, 채널 세 가지 정보를 포함