용어집

로컬 LLM 사이징에서 자주 만나는 용어 빠른 정의.

GPU의 비디오 메모리. 추론 중 모델 가중치·KV 캐시·활성화가 사는 공간.

과거 토큰의 어텐션 키와 값 저장. 컨텍스트 길이에 선형 증가.

가중치당 비트 감소. 적은 품질 손실로 메모리 절감.

GGUF 4비트 혼합 정밀도 양자화. 큰 모델을 소비자 하드웨어에 맞추는 인기 기본값.

컨텍스트 길이

한 forward pass에서 모델이 어텐션 가능한 토큰 수. KV 캐시 메모리를 결정.

그룹화 쿼리 어텐션 (GQA)

여러 쿼리 헤드가 키·값을 공유하는 어텐션 변형. KV 캐시가 훨씬 작아짐.

전문가 혼합 (MoE)

많은 전문가 서브네트워크 중 토큰당 일부만 활성화되는 아키텍처.

초당 토큰 (tok/s)

모델이 출력을 생성하는 속도. 컴퓨트가 아니라 메모리 대역폭이 좌우.

통합 메모리

애플 실리콘의 CPU/GPU 공유 메모리. GPU가 시스템 RAM의 약 75% 사용.

가중치 행렬을 분할해 단일 모델을 여러 GPU에 분산.