핵심요약
AWS는 대규모 AI 모델 학습의 병목 현상을 해결하기 위해 고성능 인터커넥트 기술로 EFA(Elastic Fabric Adapter)를 채택했습니다. 이 글은 인피니밴드와 EFA의 기술적 원리를 비교하고, AWS가 클라우드 환경에 최적화된 EFA를 선택한 이유와 그 장점을 설명합니다.
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개: EFA의 선택 이유
1. 분산 트레이닝 성능 저하의 원인
GPU 간 통신 오버헤드
- 대규모 모델 트레이닝 시 GPU 간 통신이 전체 시간의 최대 47%를 차지하며, 이는 상당한 인프라 낭비로 이어집니다.
- LLM 트레이닝 효율화는 GPU 성능뿐만 아니라 네트워크(인터커넥트) 성능 개선이 핵심입니다.
2. 인피니밴드(InfiniBand) 기술 이해
기술적 특징
- 1990년대 후반 등장한 고성능 네트워크 기술로, 슈퍼컴퓨터 및 HPC 클러스터의 표준으로 사용됩니다.
- 전용 하드웨어(HCA, 스위치)와 전용 프로토콜을 사용하며, 이더넷과는 별도의 네트워크 패브릭을 구성합니다.
- RDMA(Remote Direct Memory Access) 지원: CPU 개입 없이 한 서버의 메모리에서 다른 서버로 직접 데이터를 전송하여 낮은 지연 시간과 높은 대역폭을 실현합니다.
- Lossless 통신: 크레딧 기반 흐름 제어로 패킷 드롭을 원천 방지합니다.
RDMA의 중요성
- 전통적인 TCP/IP 통신은 데이터 복사 및 시스템 콜 오버헤드가 크지만, RDMA는 OS-Bypass와 Zero-Copy를 통해 이를 최소화합니다.
- 분산 트레이닝 환경에서는 CPU가 계산에 집중하고 통신은 하드웨어가 독립적으로 처리하게 하여 성능을 극대화합니다.
RoCE (RDMA over Converged Ethernet)
- 기존 이더넷 인프라 위에서 RDMA를 구현하는 기술로, 비용 효율적인 대안입니다.
- RoCEv1은 L2 기반, RoCEv2는 UDP/IP 기반으로 라우팅이 가능합니다.
- Lossless 통신을 기본 보장하지 않아 PFC 및 ECN 설정이 필요하며, 대규모 환경에서 PFC Storm 문제가 발생할 수 있습니다.
3. AWS의 인터커넥트 기술: EFA와 SRD
EFA (Elastic Fabric Adapter)
- AWS 클라우드 환경에 최적화된 독자적인 인터커넥트 기술입니다.
- libfabric 라이브러리를 통해 SRD(Scalable Reliable Datagram) 프로토콜을 사용하여 고성능 통신을 구현합니다.
- GPU 인스턴스 간 통신 시 EFA를 활성화해야 OS 바이패스 및 RDMA 기능을 사용할 수 있습니다.
AWS가 EFA를 선택한 이유
- 클라우드 환경 적합성: 인피니밴드의 전용 패브릭 방식은 AWS의 멀티테넌트 클라우드 환경과 맞지 않으며, 고객별 독립 서브넷 프로비저닝이 비현실적입니다.
- 경제성: 인피니밴드 대비 낮은 단위 비용으로 대규모 인프라 운영에 유리합니다.
- 유연성: 일반 EC2 인스턴스에 선택적으로 추가 가능하며, 다양한 워크로드(HPC, ML 등)를 동일 인프라에서 지원합니다.
- 기술적 독립성: NVIDIA에 대한 의존도를 줄이고 자체 칩 설계 전략과 일관성을 유지합니다.
- 기존 인프라 활용: 기존 이더넷 기반 인프라와 운영 노하우를 활용하면서 RDMA 성능을 제공합니다.
4. EFA vs. 인피니밴드: 장단점 비교
EFA의 장점
- 비용 효율성: 온디맨드 사용, 초기 투자 불필요, 사용한 만큼만 지불.
- 관리 부담 감소: AWS가 인프라 관리, 유지보수, 장애 대응 담당.
- 빠른 구성: AWS ParallelCluster 등을 통해 수 시간 내 클러스터 구성 가능.
- AWS 생태계 통합: Amazon S3, SageMaker 등 다양한 AWS 서비스와 원활한 연동.
기술적 차이 및 고려사항
- 인피니밴드에 특화된 특정 라이브러리(예: DeepEP)는 EFA 환경에서 성능 저하가 발생할 수 있습니다.
- 인피니밴드는 '성능을 위한 전용 환경' 철학, EFA는 '규모와 유연성을 위한 혁신' 철학을 따릅니다.
결론
- 인피니밴드는 온프레미스 HPC에 적합하며, EFA는 클라우드 기반 대규모 AI 트레이닝 및 유연한 운영에 최적화된 기술입니다.
- AWS는 클라우드 환경의 특성을 고려하여 EFA를 선택했으며, 이는 비용 효율성, 관리 용이성, 생태계 통합 측면에서 큰 이점을 제공합니다.