BackEnd•2026. 05. 28.

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – 분산 트레이닝을 위해 알아야 할 GPU 간 고속 통신 기술

AWS Engineering Team

AWS

핵심요약

분산 훈련에서 GPU 간 고속 통신은 필수적입니다. GPUDirect RDMA 및 Async 기술은 CPU 개입을 줄여 통신 성능을 향상시켰으며, MoE 모델에서는 DeepEP와 PPLX-kernels와 같이 환경에 맞는 소프트웨어 최적화가 중요합니다. NVSHMEM은 MoE의 불균등 통신을 효율적으로 처리하며, NCCL은 Dense 모델에 적합합니다.

AWS 인터커넥트 기술: 분산 훈련을 위한 GPU 고속 통신

GPU 간 고속 통신 기술의 진화

데이터 및 제어 경로에서의 CPU 개입 제거

전통적인 GPU 통신 방식은 CPU 메모리 복사와 CPU 제어 개입으로 인한 레이턴시 증가 및 자원 낭비 문제가 있었습니다.
GPUDirect RDMA는 GPU 메모리에서 NIC으로의 직접 접근을 가능하게 하여 데이터 경로의 CPU 개입을 제거합니다. AWS p4d.24xlarge 인스턴스부터 EFA와 결합하여 CPU와 OS 스택을 모두 우회하는 경로를 제공합니다.
**GPUDirect Async (IBGDA)**는 제어 경로의 CPU 개입까지 제거하여 GPU가 NIC에 직접 명령을 내리도록 함으로써, 특히 소규모 메시지 전송에서 높은 처리량 향상을 달성합니다.

MoE 워크로드에서의 성능 최적화

DeepEP와 PPLX-kernels의 비교

MoE 모델의 Expert Parallelism 통신 최적화를 위해 개발된 DeepEP는 인피니밴드 환경에서 IBGDA를 활용하여 낮은 레이턴시를 달성하지만, AWS EFA 환경에서는 IBGDA 미지원으로 인해 성능 저하가 발생합니다.
PPLX-kernels는 EFA 환경에서 CPU 프록시의 개입 횟수를 줄이는 방식으로 성능을 최적화하며, DeepEP 대비 경쟁력 있는 성능을 보여줍니다.
이는 하드웨어 기능의 제약을 소프트웨어 최적화로 극복할 수 있음을 보여주는 사례입니다.

NVSHMEM과 NCCL의 역할

PGAS 모델 기반의 NVSHMEM

NVSHMEM은 PGAS(Partitioned Global Address Space) 모델을 사용하여 원격 GPU 메모리에 직접 접근하는 One-sided 통신을 지원합니다. 이는 MoE의 불균등한 토큰 라우팅에 효율적입니다.
GPU가 연산 도중 CPU 개입 없이 직접 원격 GPU 메모리에 데이터를 쓸 수 있어, 연산과 통신을 동시에 수행할 수 있습니다.
NVSHMEM은 MoE 모델의 Expert Parallelism 구간에 특화되어 있으며, NCCL은 Llama 3 70B와 같은 Dense Transformer 모델의 집합 통신(All-Reduce 등)에 여전히 최적입니다.

결론: 환경에 맞는 최적화의 중요성

AWS EFA와 인피니밴드의 설계 철학

AWS EFA는 클라우드 네이티브 인터커넥트로 확장성과 유연성에 중점을 두는 반면, 인피니밴드는 NVIDIA의 수직 통합 생태계에 최적화되어 있습니다.
DeepEP와 PPLX-kernels 사례는 하드웨어 스펙보다 자신의 환경에 맞는 소프트웨어 최적화가 성능에 결정적인 영향을 미친다는 것을 강조합니다.
Dense 모델은 NCCL+EFA 조합으로 충분하며, MoE 모델의 Expert Parallelism에는 EFA 환경에 맞게 설계된 PPLX-kernels (pplx-garden)과 GDRCopy 설치를 고려해야 합니다.

#BackEnd #Architecture #Infra

AWS

AWS Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

1,000만 명이 들어와도 999만 명이 나가는 문제, 어떻게 해결했을까 | 언더커버 사일로 비하인드 5화: 계좌 사일로

토스 피플: 50살, 엔지니어로 살아남는 법