2026년 애플 실리콘에서 로컬 LLM 돌리기
2026-05-02
통합 메모리 덕에 맥은 큰 모델에 의외로 강하고, 빠른 생성엔 실망스럽게 느림. M 시리즈가 빛나는 곳과 그렇지 않은 곳.
애플 실리콘 로컬 LLM 스토리는 두 문장. 통합 메모리로 GPU가 시스템 RAM의 약 75%까지 사용 가능. 메모리 대역폭은 NVIDIA 데이터센터 대비 훨씬 낮음. 둘 다 중요.
숫자
| 맥 | 통합 RAM | 대역폭 | Llama 3.1 8B Q4 tok/s | |---|---|---|---| | M4 Pro 48GB | 가용 36GB | 273GB/s | 약 70 | | M3 Max 128GB | 가용 96GB | 400GB/s | 약 110 | | M4 Max 128GB | 가용 96GB | 546GB/s | 약 140 | | M2 Ultra 192GB | 가용 144GB | 800GB/s | 약 200 | | M4 Ultra 256GB | 가용 192GB | 1092GB/s | 약 270 |
맥이 이기는 곳
- 조용한 단일 머신 추론. 팬 소음 없음, 두 번째 PSU 없음.
- 큰 모델 수용. M4 Ultra 256GB는 DeepSeek V3 Q4 가능. NVIDIA 소비자 카드 단일은 못 함.
- 전력. 추론 중 머신 전체 30-100W. 4090만 400W+.
- 배터리. 맥북 프로 M4 Max는 비행기에서도 로컬 LLM.
맥이 지는 곳
- 작은 모델의 tok/s. 4090이 대역폭만으로 7B Q4에서 모든 맥 압살.
- 다중 사용자 서빙. macOS는 서빙 스택이 아님. NVIDIA 리눅스가 팀 시나리오 우세.
- 소프트웨어 다듬기. vLLM, TensorRT-LLM, ExLlamaV2는 NVIDIA 우선. llama.cpp Metal 좋지만 모델별 최속은 아님.
- 학습. MLX 프레임워크는 발전 중이지만 PyTorch CUDA 대비 한참 뒤.
구매 가이드
조용한 단일 머신에서 70B 클래스 돌리고 최대 tok/s 안 필요하면 맥. M4 Max 128GB가 대부분 사용자에게 스윗 스팟. M4 Ultra 256GB는 DeepSeek V3 들어가는 플렉스.
1인 7B-13B 빠르게 원하면 4090. 70B를 처리량까지 원하면 3090 2장이나 클라우드 임대.
홈페이지 계산기에 위 맥 전부 들어 있고 실제 예상 tok/s 계산.