전문가 혼합 (MoE)

많은 전문가 서브네트워크 중 토큰당 일부만 활성화되는 아키텍처.

MoE는 피드포워드 레이어를 여러 전문가 MLP로 대체. 라우터가 토큰당 1-2 전문가 선택. 총 파라미터는 거대(DeepSeek V3 671B)지만 토큰당 활성은 훨씬 작음(V3 37B, Mixtral 8x7B 13B). 메모리는 총 파라미터, 속도는 활성 파라미터가 좌우.