← 모든 플레이북

노트북 GPU에서 Llama 3.1 8B 돌리기

가장 작은 로컬 LLM 셋업. 8B Q4, 8k 컨텍스트, 8GB+ GPU 어디서나.

  1. 단계 1

    모델과 양자화 선택

    계산기에서 Llama 3.1 8B + Q4_K_M 선택. 8k 컨텍스트에서 메모리 약 6GB. 12GB 노트북 GPU엔 여유, 8GB엔 빡빡하지만 가능.

  2. 단계 2

    llama.cpp 또는 Ollama 설치

    Ollama가 마찰 없는 방식: 설치 후 `ollama run llama3.1:8b-instruct-q4_K_M`. llama.cpp는 양자화와 KV 캐시 더 세밀히 제어.

  3. 단계 3

    실제 워크로드에 맞춰 컨텍스트

    채팅 대부분 4-8k에 맞음. 코드는 16-32k 도움. '혹시 모르니' 128k 올리지 말 것: KV 캐시 선형 증가, 긴 대화 두 번째에서 OOM.

  4. 단계 4

    실제 프롬프트로 검증

    긴 출력 요구하면서 nvidia-smi 또는 활성 상태 보기. 메모리 95% 이상 치면 한계 근접, 양자화나 컨텍스트 낮추기.