RTX 3090 두 장으로 Llama 3.1 70B

고전적인 저예산 70B. 합 48GB VRAM, 텐서 병렬, Q4 양자화.

단계 1
서빙 엔진 선택
vLLM과 TensorRT-LLM 둘 다 텐서 병렬 깔끔. ExLlamaV2는 ExLlama 양자화 가중치 마니아용. 한 줄 명령에 합리적 기본값 원하면 vLLM.
단계 2
Q4_K_M으로 양자화
Llama 3.1 70B Q4_K_M은 약 43GB. 8k KV + 활성화 + 헤드룸 = 약 52GB, 카드당 약 26GB. 듀얼 3090에 여유.
단계 3
tensor_parallel_size=2 설정
vLLM에서 `--tensor-parallel-size 2`. 가중치 행 단위 분할, NCCL로 활성화 동기화. 두 카드 PCIe 최소 x8 확인.
단계 4
PSU 주의
3090 두 장 부하 시 700W+. 싸구려 850W는 추론 스파이크에 트리거. 최소 1200W 골드. PSU 빠듯하면 nvidia-smi로 300W 제한.

서빙 엔진 선택