← 모든 글

Q4, Q8, FP16: 어느 양자화를 써야 할까

2026-05-08

로컬 LLM 양자화 선택 실용 가이드. 각 포맷이 무엇을 잃고 무엇을 아끼는지, 트레이드오프가 중요한 시점은 언제인지.

양자화는 큰 모델을 작은 하드웨어에서 돌리는 치트키. 문제는 어디까지 싸도 되냐는 거.

실제 만나는 4단계

FP16/BF16은 학습 시 네이티브 정밀도. 16비트, 손실 없음, 메모리 풀. 여유 있고 워크로드가 민감할 때(연구, 평가, 다단계 에이전트).

INT8 / Q8은 안전한 반토막. 메모리 50% 절감, 품질은 대부분 모델에서 MMLU 1점 미만 손실. 서빙용으론 FP16보다 거의 항상 나음(KV 캐시·배칭 여유 생김).

Q5_K_M은 GGUF 5.5비트 정도. Q8에서 한 칸 내려서 30% 더 절감. 채팅·코드 대부분에 안전.

Q4_K_M이 인기 기본값. 4.85비트. FP16 대비 70% 절감. MMLU 1-3점 손실. 70B 모델이 24GB 카드에 들어가는 이유.

Q4가 물기 시작하는 지점

Q4는 표준 벤치마크에선 FP16과 비슷한데 다음에서 흔들려요: - 한 토큰 실수가 연쇄되는 긴 코드 - 중간 단계가 정확해야 하는 수학 추론 - 10번 이상 체이닝하는 에이전트 워크플로우(에러 누적) - 영어 외 언어, 특히 학습 부족한 언어

채팅·검색이면 Q4 괜찮음. 코드 에이전트 출시면 메모리 있을 때 Q5나 Q8 추천.

Q4 아래

Q3는 추가 20% 절감인데 진짜로 망가지기 시작. 다른 게 안 들어갈 때만. Q2는 최후의 수단. 모델이 말은 하지만 벤치마크 본 그 모델이 아닙니다.

KV 캐시 양자화는 독립

가중치는 Q4, KV 캐시는 INT8이나 INT4도 가능. 둘은 별개. 최신 엔진 대부분에서 KV 캐시 양자화는 공짜 이득.

30초 결정

  • VRAM 여유, 최고 품질: BF16 또는 Q8
  • VRAM 빠듯, 1인 채팅: Q4_K_M
  • VRAM 빠듯, 에이전트/코드: Q5_K_M
  • 맥 통합 메모리: Q5 또는 Q4(속도 대신 대역폭)
  • 16GB 이하: 가장 작은 모델 + Q4/Q5

홈페이지 계산기에서 양자화 바꾸면 메모리·tok/s 즉시 보임.