← 모든 용어

컨텍스트 길이

한 forward pass에서 모델이 어텐션 가능한 토큰 수. KV 캐시 메모리를 결정.

컨텍스트 길이는 모델이 한 번에 고려할 수 있는 최대 토큰(단어·서브워드) 수. Llama 3.1은 128k까지. 토큰 1개 추가마다 KV 캐시에 키·값 추가되므로 메모리 선형 증가. '혹시나 해서' 128k 설정이 VRAM 폭발의 흔한 원인.