활용

실전 예시. 진짜 셋업 골라서 정확히 뭐가 들어가고 얼마나 빠른지 확인.

노트북 GPU에서 Llama 3.1 8B 돌리기

가장 작은 로컬 LLM 셋업. 8B Q4, 8k 컨텍스트, 8GB+ GPU 어디서나.

RTX 3090 두 장으로 Llama 3.1 70B

고전적인 저예산 70B. 합 48GB VRAM, 텐서 병렬, Q4 양자화.

맥 스튜디오에서 DeepSeek V3 돌리기

671B DeepSeek V3를 집에서 조용히 단일 머신으로 돌리는 유일한 길.

32k 컨텍스트 코딩 어시스턴트 셋업

GPU 안 녹이고 레포 규모 작업할 긴 컨텍스트. 맞는 모델·양자화·KV 캐시.