이미지를 16x16으로 나눠 트랜스포머에 입력하는 모델
이미지를 16X16개의 패치로 나누어 각각의 패치를 토큰으로 이용해 트랜스포머의 입력으로 사용하는 색다른 접근을 사용
녹색 부분이 이미지를 패치로 나누는 부분
이 과정에서 2차원 이미지 → 1차원의 벡터로 변경
그 다음 linear projection
파란 부분은 각 패치에 positional embedding을 추가하는 부분
이미지를 패치로 나누고, 임베딩에 성공하면 트랜스포머 인코더로 넣어주고, 트랜스포머의 출력을 분류층에 넣어서 클래스 분류를 해주면 완성
우선 입력 이미지 $x$를 정의
이미지는 너비, 높이, 채널 세 가지 정보를 포함