T
TechInsights
목록으로
Infra•2026. 04. 01.

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – AWS는 왜 인터커넥트 기술로 EFA를 사용하는가?

AWS
AWS Engineering Team
AWS

핵심요약

원문 보기

AWS는 대규모 AI 모델 학습의 병목 현상을 해결하기 위해 고성능 인터커넥트 기술로 EFA(Elastic Fabric Adapter)를 채택했습니다. 이 글은 인피니밴드와 EFA의 기술적 원리를 비교하고, AWS가 클라우드 환경에 최적화된 EFA를 선택한 이유와 그 장점을 설명합니다.

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개: EFA의 선택 이유

1. 분산 트레이닝 성능 저하의 원인

GPU 간 통신 오버헤드

  • 대규모 모델 트레이닝 시 GPU 간 통신이 전체 시간의 최대 47%를 차지하며, 이는 상당한 인프라 낭비로 이어집니다.
  • LLM 트레이닝 효율화는 GPU 성능뿐만 아니라 네트워크(인터커넥트) 성능 개선이 핵심입니다.

2. 인피니밴드(InfiniBand) 기술 이해

기술적 특징

  • 1990년대 후반 등장한 고성능 네트워크 기술로, 슈퍼컴퓨터 및 HPC 클러스터의 표준으로 사용됩니다.
  • 전용 하드웨어(HCA, 스위치)와 전용 프로토콜을 사용하며, 이더넷과는 별도의 네트워크 패브릭을 구성합니다.
  • RDMA(Remote Direct Memory Access) 지원: CPU 개입 없이 한 서버의 메모리에서 다른 서버로 직접 데이터를 전송하여 낮은 지연 시간과 높은 대역폭을 실현합니다.
  • Lossless 통신: 크레딧 기반 흐름 제어로 패킷 드롭을 원천 방지합니다.

RDMA의 중요성

  • 전통적인 TCP/IP 통신은 데이터 복사 및 시스템 콜 오버헤드가 크지만, RDMA는 OS-Bypass와 Zero-Copy를 통해 이를 최소화합니다.
  • 분산 트레이닝 환경에서는 CPU가 계산에 집중하고 통신은 하드웨어가 독립적으로 처리하게 하여 성능을 극대화합니다.

RoCE (RDMA over Converged Ethernet)

  • 기존 이더넷 인프라 위에서 RDMA를 구현하는 기술로, 비용 효율적인 대안입니다.
  • RoCEv1은 L2 기반, RoCEv2는 UDP/IP 기반으로 라우팅이 가능합니다.
  • Lossless 통신을 기본 보장하지 않아 PFC 및 ECN 설정이 필요하며, 대규모 환경에서 PFC Storm 문제가 발생할 수 있습니다.

3. AWS의 인터커넥트 기술: EFA와 SRD

EFA (Elastic Fabric Adapter)

  • AWS 클라우드 환경에 최적화된 독자적인 인터커넥트 기술입니다.
  • libfabric 라이브러리를 통해 SRD(Scalable Reliable Datagram) 프로토콜을 사용하여 고성능 통신을 구현합니다.
  • GPU 인스턴스 간 통신 시 EFA를 활성화해야 OS 바이패스 및 RDMA 기능을 사용할 수 있습니다.

AWS가 EFA를 선택한 이유

  • 클라우드 환경 적합성: 인피니밴드의 전용 패브릭 방식은 AWS의 멀티테넌트 클라우드 환경과 맞지 않으며, 고객별 독립 서브넷 프로비저닝이 비현실적입니다.
  • 경제성: 인피니밴드 대비 낮은 단위 비용으로 대규모 인프라 운영에 유리합니다.
  • 유연성: 일반 EC2 인스턴스에 선택적으로 추가 가능하며, 다양한 워크로드(HPC, ML 등)를 동일 인프라에서 지원합니다.
  • 기술적 독립성: NVIDIA에 대한 의존도를 줄이고 자체 칩 설계 전략과 일관성을 유지합니다.
  • 기존 인프라 활용: 기존 이더넷 기반 인프라와 운영 노하우를 활용하면서 RDMA 성능을 제공합니다.

4. EFA vs. 인피니밴드: 장단점 비교

EFA의 장점

  • 비용 효율성: 온디맨드 사용, 초기 투자 불필요, 사용한 만큼만 지불.
  • 관리 부담 감소: AWS가 인프라 관리, 유지보수, 장애 대응 담당.
  • 빠른 구성: AWS ParallelCluster 등을 통해 수 시간 내 클러스터 구성 가능.
  • AWS 생태계 통합: Amazon S3, SageMaker 등 다양한 AWS 서비스와 원활한 연동.

기술적 차이 및 고려사항

  • 인피니밴드에 특화된 특정 라이브러리(예: DeepEP)는 EFA 환경에서 성능 저하가 발생할 수 있습니다.
  • 인피니밴드는 '성능을 위한 전용 환경' 철학, EFA는 '규모와 유연성을 위한 혁신' 철학을 따릅니다.

결론

  • 인피니밴드는 온프레미스 HPC에 적합하며, EFA는 클라우드 기반 대규모 AI 트레이닝 및 유연한 운영에 최적화된 기술입니다.
  • AWS는 클라우드 환경의 특성을 고려하여 EFA를 선택했으며, 이는 비용 효율성, 관리 용이성, 생태계 통합 측면에서 큰 이점을 제공합니다.
#Infra#AI#BigData
AWS
AWS

AWS Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

100년 가는 프론트엔드 코드, SDK

100년 가는 프론트엔드 코드, SDK