그룹화 쿼리 어텐션 (GQA)

여러 쿼리 헤드가 키·값을 공유하는 어텐션 변형. KV 캐시가 훨씬 작아짐.

표준 멀티헤드 어텐션은 쿼리 헤드당 키·값 1세트. GQA는 여러 쿼리 헤드가 1세트 공유(그룹). Llama 3.1은 KV 헤드 8개 vs 쿼리 헤드 64개, KV 캐시 8배 감소. 거대 메모리 없이 긴 컨텍스트 Llama가 실용 가능해진 아키텍처 변화.