Llama 3.1, DeepSeek V3, Qwen 2.5 업데이트

이 LLM, VRAM이 진짜 얼마나 필요할까?

모델 고르고, 양자화 정하고, 컨텍스트 길이 설정하면 끝. 총 메모리, 어디에 얼마나 쓰이는지, 어느 GPU와 맥이 들어가는지, 대략적인 tok/s까지 한 번에.

13
지원 모델
22
하드웨어
6
양자화
언제나
무료, 가입 X
계산기

모델과 GPU 고르세요. 계산은 저희가.

실시간 업데이트. 가중치 + 본인 컨텍스트의 KV 캐시 + 활성화 + 20% 헤드룸까지 포함.

구성 선택

Meta's small workhorse. Runs on most consumer GPUs at 4-bit. Good fit for chat assistants and code helpers.

The popular 4-bit. ~70% memory cut, small quality drop.

512131,072
총 VRAM 필요량
8.4 GB
20% 헤드룸 포함. 베이스 7.0 GB
모델 가중치4.5 GB
KV 캐시1.0 GB
활성화512 MB
오버헤드1.0 GB
맞는 하드웨어
22 개 적합
0 타이트 · 0 부족
RTX 4060 Ti 16GB
16 GB · 288 GB/s
~41 tok/s
53% 사용
RTX 4070 Ti Super
16 GB · 672 GB/s
~96 tok/s
53% 사용
RTX 4080 Super
16 GB · 736 GB/s
~106 tok/s
53% 사용
RTX 4090
24 GB · 1008 GB/s
~145 tok/s
35% 사용
RTX 3090
24 GB · 936 GB/s
~134 tok/s
35% 사용
RTX 5090
32 GB · 1792 GB/s
~257 tok/s
26% 사용
RTX A6000
48 GB · 768 GB/s
~110 tok/s
18% 사용
RTX 6000 Ada
48 GB · 960 GB/s
~138 tok/s
18% 사용
A100 40GB
40 GB · 1555 GB/s
~223 tok/s
21% 사용
A100 80GB
80 GB · 2039 GB/s
~292 tok/s
11% 사용
H100 80GB SXM
80 GB · 3350 GB/s
~480 tok/s
11% 사용
H200 141GB
141 GB · 4800 GB/s
~688 tok/s
6% 사용
B200 192GB
192 GB · 8000 GB/s
~1147 tok/s
4% 사용
Radeon RX 7900 XTX
24 GB · 960 GB/s
~138 tok/s
35% 사용
Instinct MI300X
192 GB · 5300 GB/s
~760 tok/s
4% 사용
Mac Studio M2 Ultra 192GB
144 GB · 800 GB/s
~115 tok/s
8% 사용
MacBook Pro M3 Max 128GB
96 GB · 400 GB/s
~57 tok/s
12% 사용
MacBook Pro M4 Max 128GB
96 GB · 546 GB/s
~78 tok/s
12% 사용
모델

지원하는 오픈웨이트 LLM

Llama 3.1 8B
2024
Llama · 8.03B

Meta's small workhorse. Runs on most consumer GPUs at 4-bit. Good fit for chat assistants and code helpers.

라이선스: Llama 3.1 Community
Llama 3.1 70B
2024
Llama · 70.6B

GPT-4 class on a single machine if you have 2x consumer GPUs or one A100/H100. Quantize to fit.

라이선스: Llama 3.1 Community
Llama 3.1 405B
2024
Llama · 405B

Frontier-tier open weights. Needs a multi-GPU server or aggressive 4-bit quantization to even start.

라이선스: Llama 3.1 Community
DeepSeek V3 (671B MoE)
2024
DeepSeek · 671B

MoE design means total weights are huge but active compute is closer to 37B. Memory still fills up.

라이선스: DeepSeek License (commercial OK)
DeepSeek R1
2025
DeepSeek · 671B

Reasoning-tuned variant. Same memory profile as V3, just thinks longer per token.

라이선스: DeepSeek License
Qwen 2.5 7B
2024
Qwen · 7.62B

Alibaba's strong small model with permissive license. GQA keeps the KV cache lean for long contexts.

라이선스: Apache 2.0
Qwen 2.5 32B
2024
Qwen · 32.5B

Sweet spot between 7B and 70B. Fits on a single 3090/4090 at 4-bit, on M3 Max at 8-bit.

라이선스: Apache 2.0
Qwen 2.5 72B
2024
Qwen · 72.7B

Comparable to Llama 3.1 70B, often better at math and code. Same memory ballpark.

라이선스: Qwen License
Mistral 7B
2023
Mistral · 7.24B

The classic small open model. Still a fine choice if you want minimal VRAM and full Apache freedom.

라이선스: Apache 2.0
Mixtral 8x7B (MoE)
2023
Mistral · 46.7B

Eight 7B experts. Total memory is 47B but only ~13B is active per token. Surprisingly fast.

라이선스: Apache 2.0
Gemma 2 9B
2024
Gemma · 9.24B

Google's small open model. Ranks well on chat benchmarks, runs on a single mid-tier GPU.

라이선스: Gemma Terms
Gemma 2 27B
2024
Gemma · 27.2B

Mid-size Google model. Fits on a 3090 at 4-bit. Good middle ground for local use.

라이선스: Gemma Terms
Phi-4 14B
2024
Phi · 14.7B

Microsoft's data-quality bet, MIT licensed. Punches above its weight at math and reasoning.

라이선스: MIT
FAQ

자주 묻는 질문

Llama 3.1 70B 돌리려면 VRAM 얼마나 필요한가요?+

Q4_K_M(4비트)이면 가중치 약 40GB, 8k 컨텍스트 KV 캐시 2-4GB, 오버헤드 1-2GB까지 합쳐 약 48GB. 단일 48GB 카드(RTX 6000 Ada, A40)로 가능. 24GB 소비자 카드 2장(4090, 3090)도 텐서 병렬로 가능. 단일 카드 안전한 답은 A100 80GB.

맥에서 로컬 LLM 돌릴 수 있나요?+

애플 실리콘은 통합 메모리라 GPU가 시스템 RAM의 약 75%를 사용. M2/M3/M4 Pro 36GB는 7B-13B 편안. M3/M4 Max 64-128GB는 32B와 70B를 4비트로. M2 Ultra 192GB와 M4 Ultra 256GB는 DeepSeek V3를 단일 머신으로 돌리는 유일한 선택지.

양자화는 무엇이고 품질을 얼마나 깎나요?+

양자화는 가중치당 비트 수 감소. FP16은 학습 시 네이티브(16비트, 손실 없음). Q8은 절반 + 거의 무손실. Q4_K_M(약 4.85비트)이 인기 기본값, 메모리 70% 절감 + 작은 품질 손실. Q3 이하부터 본격 열화 시작, 특히 수학과 코딩.

KV 캐시는 왜 컨텍스트와 함께 커지나요?+

트랜스포머는 매 레이어가 과거 토큰의 키·값을 보관해 어텐션을 재계산하지 않음. 메모리는 컨텍스트 길이에 선형 증가. Llama 3.1 70B 32k 컨텍스트면 KV 캐시만 약 10GB. GQA가 KV 헤드 수를 줄여 이걸 크게 절감.

왜 계산기 결과가 벤치마크 숫자보다 큰가요?+

벤치마크는 보통 가중치만 인용하고 작은 컨텍스트 가정. 이 계산기는 가중치 + 본인 컨텍스트의 KV 캐시 + 활성화 + 1GB 오버헤드 + 20% 헤드룸까지 포함. 컨텍스트를 2048로 두고 오버헤드를 무시하면 마케팅 숫자에 가까움.

3090 두 장 vs 4090 한 장, 뭐가 좋나요?+

중고 3090 2장 = 4090 1장과 비슷한 가격에 VRAM 2배. 24GB 넘는 모델은 3090 2장 승. 24GB 이하는 4090이 빠르고 단순. 갈림길은 70B를 로컬로 돌릴 거냐.

AMD로 로컬 LLM 가능한가요?+

가능, 마찰은 있음. ROCm 지원 많이 좋아짐. RX 7900 XTX 24GB는 리눅스 + llama.cpp Vulkan/ROCm 빌드로 충분. 데이터센터 MI300X 192GB는 구할 수 있으면 훌륭. 일상 도구(vLLM, transformers, ExLlamaV2)는 NVIDIA가 더 다듬어짐.

MoE의 활성 파라미터와 총 파라미터 차이는?+

MoE 모델(DeepSeek V3, Mixtral)은 여러 전문가 서브네트워크 보유. 토큰당 일부만 사용. DeepSeek V3는 총 671B인데 토큰당 활성 37B. 메모리는 총 671B 다 들어가야 함, 속도는 활성 37B 기준.

KV 캐시를 8비트나 4비트로 양자화하면?+

KV 캐시 메모리는 가중치 양자화와 독립. 8비트 = 절반, 4비트 = 1/4. 최신 서빙 엔진(vLLM, llama.cpp, TensorRT-LLM)이 FP8/INT8 KV 캐시 지원. 채팅 품질 손실 작고 추론은 좀 더 보임.

실제 속도는 얼마나 나오나요?+

토큰 생성은 컴퓨트가 아닌 메모리 대역폭이 좌우. 토큰당 활성 가중치를 한 번 읽음. tok/s ≈ (대역폭 GB/s) ÷ (활성 가중치 GB). 4090 1008GB/s가 8B-Q4(4GB) 돌리면 피크 약 250, 실제 약 160. 계산기는 65% 효율 적용.

긴 컨텍스트가 생성 속도에 영향?+

예, 주로 KV 캐시 읽기로. 긴 프롬프트의 첫 토큰은 시간이 걸림(프리필은 컴퓨트 바운드). 이후 매 생성 토큰은 모든 이전 토큰의 KV 읽음. 매우 긴 컨텍스트에선 KV 대역폭이 지배적, tok/s 떨어짐.

파인튜닝/학습에도 정확한가요?+

아니요, 추론 전용. 학습은 옵티마이저 상태(AdamW = FP32 마스터에서 파라미터당 8바이트), 그라디언트, 활성화 체크포인팅 추가. 7B 풀 파인튜닝은 약 80GB. LoRA 파인튜닝은 훨씬 쌈, 7B에 모델 가중치 외 약 10GB.

내 모델이 리스트에 없으면?+

가장 가까운 사이즈와 아키텍처 선택. 계산기는 노출된 config(파라미터, 히든 사이즈, 레이어, KV 헤드, 헤드 차원) 사용. 비슷한 아키텍처면 결과는 5-10% 오차. 모델 계속 추가 예정 (Mistral Large, Llama 3.3, 신규 중국 오픈웨이트).

Llama 70B를 CPU로 돌릴 수 있나요?+

가능, 인내심 필요. Q4 이하 양자화(약 40GB), 64GB+ RAM과 DDR5의 llama.cpp. 빠른 데스크톱에서 1-3 tok/s, 고메모리 대역폭 서버에서 5-10. 애플 실리콘 맥은 통합 메모리 아키텍처 덕에 x86 CPU보다 훨씬 나음.

왜 하드웨어 추천을 18개로 자르나요?+

18개면 싼 소비자부터 최상위 데이터센터·애플 실리콘까지 스펙트럼 커버. 더 추가하면 노이즈. 본인 카드가 빠지면 VRAM과 대역폭으로 가장 가까운 매칭 찾기, 판정은 그대로 유효.