로컬 LLM에 RTX 4090 한 장 vs 3090 두 장

2026-05-04

같은 예산, 완전히 다른 천장. 4090 단일이 이기는 경우와 3090 듀얼이 유일한 답인 경우.

중고 3090은 700-900달러. 신품 4090은 1500-1800달러. 3090 두 장이 4090 한 장과 비슷한 가격에 VRAM 2배. 누가 이기냐.

4090이 이기는 경우

8B-13B 모델 긴 컨텍스트. 4090 1008GB/s vs 3090 936GB/s, 컴퓨트 차이도 큼. Llama 3.1 8B Q4에서 약 250 tok/s vs 3090 약 180.
1인 단순함. 텐서 병렬, NCCL 설정, 두 번째 PSU 스파이크 없음.
전력 효율. 450W 1장 vs 350W 2장.
부수 이미지/비디오. 4090이 SDXL·FLUX 훨씬 빠름.

3090 2장이 이기는 경우

30B 이상. 48GB 합치면 Qwen 2.5 72B, Llama 3.1 70B, Gemma 2 27B를 FP16이나 더 좋은 양자화로.
긴 컨텍스트 13B. 32k+ KV 캐시와 가중치 둘 다 여유.
다중 사용자 서빙. 두 카드 텐서 병렬은 배치 처리량이 잘 스케일.

3090 2장이 아픈 부분

PCIe x8/x8 슬롯 마더보드와 3슬롯 카드 두 장 들어갈 케이스.
1200W+ PSU. 추론 중 스파이크가 낮은 전원 트리거.
윈도우에서 텐서 병렬 디버깅 거칢. 리눅스 강력 추천.
중고는 잔여 수명 불명, 보증 없음.

룰 오브 썸

원하는 양자화에서 가장 큰 모델이 24GB 이하면 4090. 진짜 70B 원하면 3090 2장 + 운영 세금. 6개월 안에 70B 원할 수도 있으면 1일차부터 3090 2장 계획.

5090 기다릴까

5090은 32GB + 1792GB/s. 70B Q3 단일 카드 가능, Q4는 빡빡. 다른 모든 것에서 더 빠름. MSRP 1999달러 부담. 안 급하면 더 나은 단일 카드 선택.