T
TechInsights
목록으로
AI•2026. 05. 26.

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

AWS
AWS Engineering Team
AWS

핵심요약

원문 보기

Amazon EC2 G5/G6 인스턴스에서 Tensor Parallelism(TP)을 활용하면 GPU 메모리 제약을 극복하고 대규모 LLM을 효율적으로 서빙할 수 있습니다. vLLM 엔진과 함께 TP를 적용하여 성능 향상과 비용 효율성을 동시에 달성하는 방법을 테스트 결과를 통해 제시합니다.

Amazon EC2 G5/G6 인스턴스에서 Tensor Parallelism을 활용한 LLM 서빙 최적화

서론: LLM 서빙의 과제 및 Tensor Parallelism의 필요성

  • 대규모 LLM(Large Language Model)의 증가로 인해 고용량 GPU 메모리(40GB~150GB) 요구 사항이 늘고 있습니다.
  • NVIDIA H100/H200 GPU(Amazon P5 인스턴스)는 공급 부족으로 확보가 어렵고 비용이 높습니다.
  • 본 글에서는 Tensor Parallelism(TP) 기법을 활용하여 상대적으로 메모리가 작은 Amazon EC2 G5/G6 인스턴스(A10G/L4 GPU, 24GB)에서도 LLM 서빙이 가능함을 입증합니다.

Tensor Parallelism (TP) 상세 설명

  • 개념: 모델의 Transformer Tensor 연산을 여러 GPU에 분산 배치하는 기법입니다.
  • 작동 방식: 각 GPU는 모델 파라미터의 일부만 보유하고, 레이어마다 All-Reduce 통신으로 중간 결과를 동기화합니다.
  • vLLM 활용: 오픈소스 추론 엔진 vLLM은 TP를 네이티브로 지원하여, 별도 코드 수정 없이 GPU 분산 배치가 가능합니다.
  • 이점: (1) GPU 메모리 제약 극복 (2) 토큰 생성 속도 향상 (빠른 서빙).

테스트 환경 및 방법론

  • 인프라: NVIDIA A10G GPU 4장이 탑재된 G5 인스턴스 사용.
  • 테스트 모델: Qwen3-8B 모델 활용 (TP=1, TP=2, TP=4 구성 비교).
  • 테스트 매트릭스: 3가지 TP 구성 x 4가지 동시성 수준(C=1, 4, 8, 16) 테스트.
  • 측정 지표: 토큰 생성 속도(TPOT), 전체 처리량(Aggregate Throughput), 평균 응답 시간, 개인 체감 속도(Per-Request Throughput).
  • 벤치마크 아키텍처: vLLM 추론 엔진, asyncio, aiohttp 활용.

성능 테스트 결과 분석

  • Startup Time: TP 적용 시 시작 시간 증가하나, 1회성 비용입니다.
  • 토큰 생성 속도 (TPOT): GPU 수가 증가할수록 토큰 생성 속도가 빨라집니다 (TP=4가 가장 빠름).
  • 전체 처리량 (Aggregate Throughput): 동시 사용자 증가 시 TP=4 구성이 TP=1 대비 훨씬 높은 처리량을 보입니다.
  • 응답 시간 및 개인 체감 속도: 다중 GPU 사용 시 사용자 대기 시간이 단축되고 개인 체감 속도가 향상됩니다.

다중 GPU의 이점 심층 분석

  • Throughput Scaling: 동시 사용자 증가 시 TP=4는 이상적인 Linear Scaling에 근접하는 성능 향상을 보입니다.
  • GPU당 처리량 효율: PCIe 환경에서는 GPU 수가 늘어날수록 효율이 감소하지만, 절대 처리량과 응답 속도 면에서는 다중 GPU가 유리합니다 (NVLink 환경은 효율 감소가 적음).
  • 이점 요인: KV Cache 메모리 분산, 연산 병렬화, Continuous Batching 효율 증대.

G5/G6 활용 전략 및 결론

  • 모델 크기별 가이드: A10G 24GB GPU 기준으로 모델 크기에 따른 TP 구성 권장.
  • TP vs 수평 확장: 워크로드 특성에 따라 적합한 전략 선택.
  • 비용 관점: G5/G6 인스턴스는 P5 대비 시간당 비용이 낮아 초기 도입에 유리합니다.
  • 결론: Tensor Parallelism은 H100/H200 GPU 확보 어려움에 대한 실용적인 대안이며, G5/G6 인스턴스와의 조합은 LLM 서빙의 확장성과 비용 효율성을 동시에 만족시킬 수 있는 강력한 전략입니다. vLLM의 --tensor-parallel-size 옵션으로 쉽게 적용 가능합니다.
#AI#Infra
AWS
AWS

AWS Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기

Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기

야놀자의 Strands SDK와 Bedrock AgentCore를 활용한 AIOps Agent 구축 사례

야놀자의 Strands SDK와 Bedrock AgentCore를 활용한 AIOps Agent 구축 사례