맥 스튜디오에서 DeepSeek V3 돌리기

671B DeepSeek V3를 집에서 조용히 단일 머신으로 돌리는 유일한 길.

단계 1
M2 Ultra 192GB 또는 M4 Ultra 256GB
DeepSeek V3 Q4는 약 340GB. 192GB의 75%(=144GB)로도 Q4 못 들어감. Q3나 더 강한 양자화, 또는 M4 Ultra 256GB(가용 192GB) 필요.
단계 2
llama.cpp Metal 사용
MLX 발전 중이지만 llama.cpp Metal이 macOS MoE 추론 가장 다듬어짐. GGUF Q3_K_M 또는 IQ2_M 받기.
단계 3
10-15 tok/s 예상
M4 Ultra 1092GB/s라도 토큰당 활성 약 37B면 10-15 tok/s 최선. 조용하고 쓸만하지만 GPT-4 속도 아님.
단계 4
실제 클라이언트 연결
llama.cpp는 OpenAI 호환 HTTP 서버 제공. Open WebUI, Cursor, 코드 에이전트를 localhost:8080으로. 데스크 머신에 프론티어급 모델.

M2 Ultra 192GB 또는 M4 Ultra 256GB