← 모든 용어초당 토큰 (tok/s)모델이 출력을 생성하는 속도. 컴퓨트가 아니라 메모리 대역폭이 좌우.생성 중 모델은 토큰당 가중치를 한 번 읽음. tok/s ≈ (메모리 대역폭 GB/s) ÷ (활성 가중치 바이트). 4090 1008GB/s가 4GB 8B-Q4 가중치 읽으면 피크 약 250 tok/s, 실제 약 160. 애플 실리콘 400-1100GB/s는 더 낮지만 조용함.