노트북 GPU에서 Llama 3.1 8B 돌리기

가장 작은 로컬 LLM 셋업. 8B Q4, 8k 컨텍스트, 8GB+ GPU 어디서나.

단계 1
모델과 양자화 선택
계산기에서 Llama 3.1 8B + Q4_K_M 선택. 8k 컨텍스트에서 메모리 약 6GB. 12GB 노트북 GPU엔 여유, 8GB엔 빡빡하지만 가능.
단계 2
llama.cpp 또는 Ollama 설치
Ollama가 마찰 없는 방식: 설치 후 `ollama run llama3.1:8b-instruct-q4_K_M`. llama.cpp는 양자화와 KV 캐시 더 세밀히 제어.
단계 3
실제 워크로드에 맞춰 컨텍스트
채팅 대부분 4-8k에 맞음. 코드는 16-32k 도움. '혹시 모르니' 128k 올리지 말 것: KV 캐시 선형 증가, 긴 대화 두 번째에서 OOM.
단계 4
실제 프롬프트로 검증
긴 출력 요구하면서 nvidia-smi 또는 활성 상태 보기. 메모리 95% 이상 치면 한계 근접, 양자화나 컨텍스트 낮추기.

모델과 양자화 선택