이 LLM, VRAM이 진짜 얼마나 필요할까?
모델 고르고, 양자화 정하고, 컨텍스트 길이 설정하면 끝. 총 메모리, 어디에 얼마나 쓰이는지, 어느 GPU와 맥이 들어가는지, 대략적인 tok/s까지 한 번에.
모델과 GPU 고르세요. 계산은 저희가.
실시간 업데이트. 가중치 + 본인 컨텍스트의 KV 캐시 + 활성화 + 20% 헤드룸까지 포함.
구성 선택
Meta's small workhorse. Runs on most consumer GPUs at 4-bit. Good fit for chat assistants and code helpers.
The popular 4-bit. ~70% memory cut, small quality drop.
지원하는 오픈웨이트 LLM
Meta's small workhorse. Runs on most consumer GPUs at 4-bit. Good fit for chat assistants and code helpers.
GPT-4 class on a single machine if you have 2x consumer GPUs or one A100/H100. Quantize to fit.
Frontier-tier open weights. Needs a multi-GPU server or aggressive 4-bit quantization to even start.
MoE design means total weights are huge but active compute is closer to 37B. Memory still fills up.
Reasoning-tuned variant. Same memory profile as V3, just thinks longer per token.
Alibaba's strong small model with permissive license. GQA keeps the KV cache lean for long contexts.
Sweet spot between 7B and 70B. Fits on a single 3090/4090 at 4-bit, on M3 Max at 8-bit.
Comparable to Llama 3.1 70B, often better at math and code. Same memory ballpark.
The classic small open model. Still a fine choice if you want minimal VRAM and full Apache freedom.
Eight 7B experts. Total memory is 47B but only ~13B is active per token. Surprisingly fast.
Google's small open model. Ranks well on chat benchmarks, runs on a single mid-tier GPU.
Mid-size Google model. Fits on a 3090 at 4-bit. Good middle ground for local use.
Microsoft's data-quality bet, MIT licensed. Punches above its weight at math and reasoning.
긴 글
실전 예시
자주 묻는 질문
Llama 3.1 70B 돌리려면 VRAM 얼마나 필요한가요?+
Q4_K_M(4비트)이면 가중치 약 40GB, 8k 컨텍스트 KV 캐시 2-4GB, 오버헤드 1-2GB까지 합쳐 약 48GB. 단일 48GB 카드(RTX 6000 Ada, A40)로 가능. 24GB 소비자 카드 2장(4090, 3090)도 텐서 병렬로 가능. 단일 카드 안전한 답은 A100 80GB.
맥에서 로컬 LLM 돌릴 수 있나요?+
애플 실리콘은 통합 메모리라 GPU가 시스템 RAM의 약 75%를 사용. M2/M3/M4 Pro 36GB는 7B-13B 편안. M3/M4 Max 64-128GB는 32B와 70B를 4비트로. M2 Ultra 192GB와 M4 Ultra 256GB는 DeepSeek V3를 단일 머신으로 돌리는 유일한 선택지.
양자화는 무엇이고 품질을 얼마나 깎나요?+
양자화는 가중치당 비트 수 감소. FP16은 학습 시 네이티브(16비트, 손실 없음). Q8은 절반 + 거의 무손실. Q4_K_M(약 4.85비트)이 인기 기본값, 메모리 70% 절감 + 작은 품질 손실. Q3 이하부터 본격 열화 시작, 특히 수학과 코딩.
KV 캐시는 왜 컨텍스트와 함께 커지나요?+
트랜스포머는 매 레이어가 과거 토큰의 키·값을 보관해 어텐션을 재계산하지 않음. 메모리는 컨텍스트 길이에 선형 증가. Llama 3.1 70B 32k 컨텍스트면 KV 캐시만 약 10GB. GQA가 KV 헤드 수를 줄여 이걸 크게 절감.
왜 계산기 결과가 벤치마크 숫자보다 큰가요?+
벤치마크는 보통 가중치만 인용하고 작은 컨텍스트 가정. 이 계산기는 가중치 + 본인 컨텍스트의 KV 캐시 + 활성화 + 1GB 오버헤드 + 20% 헤드룸까지 포함. 컨텍스트를 2048로 두고 오버헤드를 무시하면 마케팅 숫자에 가까움.
3090 두 장 vs 4090 한 장, 뭐가 좋나요?+
중고 3090 2장 = 4090 1장과 비슷한 가격에 VRAM 2배. 24GB 넘는 모델은 3090 2장 승. 24GB 이하는 4090이 빠르고 단순. 갈림길은 70B를 로컬로 돌릴 거냐.
AMD로 로컬 LLM 가능한가요?+
가능, 마찰은 있음. ROCm 지원 많이 좋아짐. RX 7900 XTX 24GB는 리눅스 + llama.cpp Vulkan/ROCm 빌드로 충분. 데이터센터 MI300X 192GB는 구할 수 있으면 훌륭. 일상 도구(vLLM, transformers, ExLlamaV2)는 NVIDIA가 더 다듬어짐.
MoE의 활성 파라미터와 총 파라미터 차이는?+
MoE 모델(DeepSeek V3, Mixtral)은 여러 전문가 서브네트워크 보유. 토큰당 일부만 사용. DeepSeek V3는 총 671B인데 토큰당 활성 37B. 메모리는 총 671B 다 들어가야 함, 속도는 활성 37B 기준.
KV 캐시를 8비트나 4비트로 양자화하면?+
KV 캐시 메모리는 가중치 양자화와 독립. 8비트 = 절반, 4비트 = 1/4. 최신 서빙 엔진(vLLM, llama.cpp, TensorRT-LLM)이 FP8/INT8 KV 캐시 지원. 채팅 품질 손실 작고 추론은 좀 더 보임.
실제 속도는 얼마나 나오나요?+
토큰 생성은 컴퓨트가 아닌 메모리 대역폭이 좌우. 토큰당 활성 가중치를 한 번 읽음. tok/s ≈ (대역폭 GB/s) ÷ (활성 가중치 GB). 4090 1008GB/s가 8B-Q4(4GB) 돌리면 피크 약 250, 실제 약 160. 계산기는 65% 효율 적용.
긴 컨텍스트가 생성 속도에 영향?+
예, 주로 KV 캐시 읽기로. 긴 프롬프트의 첫 토큰은 시간이 걸림(프리필은 컴퓨트 바운드). 이후 매 생성 토큰은 모든 이전 토큰의 KV 읽음. 매우 긴 컨텍스트에선 KV 대역폭이 지배적, tok/s 떨어짐.
파인튜닝/학습에도 정확한가요?+
아니요, 추론 전용. 학습은 옵티마이저 상태(AdamW = FP32 마스터에서 파라미터당 8바이트), 그라디언트, 활성화 체크포인팅 추가. 7B 풀 파인튜닝은 약 80GB. LoRA 파인튜닝은 훨씬 쌈, 7B에 모델 가중치 외 약 10GB.
내 모델이 리스트에 없으면?+
가장 가까운 사이즈와 아키텍처 선택. 계산기는 노출된 config(파라미터, 히든 사이즈, 레이어, KV 헤드, 헤드 차원) 사용. 비슷한 아키텍처면 결과는 5-10% 오차. 모델 계속 추가 예정 (Mistral Large, Llama 3.3, 신규 중국 오픈웨이트).
Llama 70B를 CPU로 돌릴 수 있나요?+
가능, 인내심 필요. Q4 이하 양자화(약 40GB), 64GB+ RAM과 DDR5의 llama.cpp. 빠른 데스크톱에서 1-3 tok/s, 고메모리 대역폭 서버에서 5-10. 애플 실리콘 맥은 통합 메모리 아키텍처 덕에 x86 CPU보다 훨씬 나음.
왜 하드웨어 추천을 18개로 자르나요?+
18개면 싼 소비자부터 최상위 데이터센터·애플 실리콘까지 스펙트럼 커버. 더 추가하면 노이즈. 본인 카드가 빠지면 VRAM과 대역폭으로 가장 가까운 매칭 찾기, 판정은 그대로 유효.