Q4_K_M

GGUF 4비트 혼합 정밀도 양자화. 큰 모델을 소비자 하드웨어에 맞추는 인기 기본값.

Q4_K_M은 평균 4.85비트의 GGUF 포맷, 어텐션·피드포워드는 임베딩보다 약간 더 많은 비트를 받는 혼합 정밀도. FP16 대비 메모리 약 70% 절감. MMLU 품질 보통 1-3점 손실. Llama 3.1 70B Q4_K_M은 약 43GB, 듀얼 3090에 맞는 이유.

Q4_K_M

관련 용어