← 모든 용어Q4_K_MGGUF 4비트 혼합 정밀도 양자화. 큰 모델을 소비자 하드웨어에 맞추는 인기 기본값.Q4_K_M은 평균 4.85비트의 GGUF 포맷, 어텐션·피드포워드는 임베딩보다 약간 더 많은 비트를 받는 혼합 정밀도. FP16 대비 메모리 약 70% 절감. MMLU 품질 보통 1-3점 손실. Llama 3.1 70B Q4_K_M은 약 43GB, 듀얼 3090에 맞는 이유.관련 용어양자화