텐서 병렬

가중치 행렬을 분할해 단일 모델을 여러 GPU에 분산.

한 GPU에 모델이 안 들어가면 텐서 병렬이 각 가중치 행렬을 N개 GPU에 행/열 단위 분할 후 NCCL로 활성화 동기화. vLLM은 `--tensor-parallel-size N`. 고대역 인터커넥트(NVLink, 빠른 PCIe)에 최적. 70B 서빙에 PCIe 4.0 x8 3090 2장 괜찮음.