← 모든 용어양자화가중치당 비트 감소. 적은 품질 손실로 메모리 절감.최신 LLM은 FP16/BF16(가중치당 16비트)로 학습. 양자화는 가중치를 적은 비트로 저장하되 중요한 곳은 고정밀로 계산. 일반 포맷: Q8(8비트, 거의 무손실), Q5_K_M(5.5비트, GGUF), Q4_K_M(4.85비트, 인기 기본값), Q3_K_M(약 3.9비트, 적극적), Q2_K(2.6비트, 최후). 트레이드오프: 비트↓ → 메모리↓ → 품질↓.관련 용어Q4_K_M