Ollama vs vLLM: 무엇을 쓸까

개인용은 Ollama, 서빙은 vLLM. 잘못 고르면 답답해짐.

Ollama는 llama.cpp 래퍼 + 훌륭한 설치 경험. 한 줄로 모델 받아 실행. macOS·리눅스·윈도우. 양자화나 KV 캐시 별로 신경 안 써도 됨. 처리량은 동시 사용자 1-4명 한계.

vLLM은 서빙 프레임워크. PagedAttention, 연속 배칭, 텐서 병렬, AWQ/GPTQ/FP8 지원. NVIDIA 다중 동시 사용자용. 1인엔 느리고 10인엔 훨씬 빠름.

개인 노트북·데스크톱이면 Ollama. 팀이나 앱에 노출하면 vLLM. 교차점은 동시 사용자 약 5명.