효율적으로 KV cache 메모리를 관리하여 LLM을 서빙할 때 throughput(단위시간 당 처리량)을 향상시키는 PagedAttention 알고리즘과, 이를 바탕으로 빌드된 LLM 서빙 라이브러리 vLLM 소개

가독성을 위해 Figure의 순서는 포스팅의 순서대로 작성하였습니다, 논문의 순서와 다르게 작성되었습니다.

Abstract

Introduction

Fig. 1

Fig. 1

Fig. 3

Fig. 3