← 모든 용어

KV 캐시

과거 토큰의 어텐션 키와 값 저장. 컨텍스트 길이에 선형 증가.

트랜스포머는 매 스텝마다 모든 이전 토큰에 어텐션. 키·값을 재계산하지 않으려고 캐시. 크기 = `2 × 레이어수 × KV 헤드수 × 헤드 차원 × 시퀀스 × 배치 × 원소당 바이트`. 긴 컨텍스트의 큰 모델에선 KV 캐시가 가중치 본체와 맞먹음. FP8/INT8 양자화로 메모리 절반.