32k 컨텍스트 코딩 어시스턴트 셋업
GPU 안 녹이고 레포 규모 작업할 긴 컨텍스트. 맞는 모델·양자화·KV 캐시.
- 단계 1
긴 컨텍스트 모델 선택
Qwen 2.5 32B나 7B 모두 네이티브 128k. DeepSeek Coder V2도 긴 코드에 강함. 옛 멀티헤드 피하기, KV 캐시 폭증.
- 단계 2
KV 캐시 FP8/INT8 양자화
대부분 엔진 지원. KV 캐시 메모리 절반. 코드 품질 손실 작음.
- 단계 3
128k 말고 32k
32k면 상당한 코드베이스. 128k는 메모리와 싸워야 하고 첫 토큰 프리필 느려짐. 대부분 레포 규모 워크플로우 32k에 맞음.
- 단계 4
계산기에서 검증
홈 계산기에서 Qwen 2.5 32B, Q4_K_M, 32k, KV 8비트. 합 약 22GB, 4090이나 M3 Pro에 여유.