← 모든 플레이북

RTX 3090 두 장으로 Llama 3.1 70B

고전적인 저예산 70B. 합 48GB VRAM, 텐서 병렬, Q4 양자화.

  1. 단계 1

    서빙 엔진 선택

    vLLM과 TensorRT-LLM 둘 다 텐서 병렬 깔끔. ExLlamaV2는 ExLlama 양자화 가중치 마니아용. 한 줄 명령에 합리적 기본값 원하면 vLLM.

  2. 단계 2

    Q4_K_M으로 양자화

    Llama 3.1 70B Q4_K_M은 약 43GB. 8k KV + 활성화 + 헤드룸 = 약 52GB, 카드당 약 26GB. 듀얼 3090에 여유.

  3. 단계 3

    tensor_parallel_size=2 설정

    vLLM에서 `--tensor-parallel-size 2`. 가중치 행 단위 분할, NCCL로 활성화 동기화. 두 카드 PCIe 최소 x8 확인.

  4. 단계 4

    PSU 주의

    3090 두 장 부하 시 700W+. 싸구려 850W는 추론 스파이크에 트리거. 최소 1200W 골드. PSU 빠듯하면 nvidia-smi로 300W 제한.