블로그

로컬 LLM 하드웨어, 양자화, 마케팅 뒤의 실제 숫자에 대한 긴 글.

Llama 3.1 70B는 VRAM을 정확히 얼마나 쓸까

Llama 3.1 70B를 양자화별로 실제 돌렸을 때 가중치, KV 캐시, 활성화, 헤드룸까지 전부 분해.

Q4, Q8, FP16: 어느 양자화를 써야 할까

로컬 LLM 양자화 선택 실용 가이드. 각 포맷이 무엇을 잃고 무엇을 아끼는지, 트레이드오프가 중요한 시점은 언제인지.

긴 컨텍스트 LLM이 메모리에서 터지는 이유

컨텍스트를 128k로 올렸을 때 GPU가 터지는 진짜 이유, KV 캐시. 무엇이고 어떻게 계산하는지.

로컬 LLM에 RTX 4090 한 장 vs 3090 두 장

같은 예산, 완전히 다른 천장. 4090 단일이 이기는 경우와 3090 듀얼이 유일한 답인 경우.

2026년 애플 실리콘에서 로컬 LLM 돌리기

통합 메모리 덕에 맥은 큰 모델에 의외로 강하고, 빠른 생성엔 실망스럽게 느림. M 시리즈가 빛나는 곳과 그렇지 않은 곳.