클라우드 환경에서의 비디오 인텔리전스 구현 : TwelveLabs로 시작하는 AI 영상 분석 5부 – 비디오 임베딩을 위한 Vector DB 비교
핵심요약
TwelveLabs 비디오 임베딩을 AWS의 Amazon OpenSearch Serverless와 S3 Vectors에 저장 및 검색하는 과정을 비교합니다. 두 서비스의 설정, 성능, 비용, 기능적 특성을 분석하여 최적의 Vector DB 선택 가이드를 제공합니다.
비디오 임베딩을 위한 Vector DB 비교: OpenSearch Serverless vs. S3 Vectors
본 글은 TwelveLabs Marengo 3.0으로 생성된 비디오 임베딩을 AWS의 Amazon OpenSearch Serverless와 Amazon S3 Vectors에 저장하고 검색하는 과정을 비교 분석합니다. 각 서비스의 설정, 인제스트, 검색 성능을 상세히 설명하며, 하이브리드 검색 및 비용 효율성 측면에서의 장단점을 비교하여 워크로드에 맞는 최적의 Vector DB 선택 가이드를 제공합니다.
핵심 질문: 비디오 임베딩 저장 및 검색 인프라
- 비디오 임베딩은 대규모 벡터 생성 및 관리가 필요하며, 저장소 선택에 따라 레이턴시, 비용, 확장성이 크게 달라집니다.
- 텍스트-이미지 임베딩과 달리 비디오 임베딩은 더 복잡한 특성을 가집니다.
- AWS는 OpenSearch Serverless(하이브리드 검색)와 S3 Vectors(비용 효율성, 간편함)를 제공합니다.
테스트 환경 및 방법론
- 비디오 에셋: 10개 비디오(1GB), 다양한 길이 및 크기 사용.
- 임베딩 모델: Amazon Bedrock twelvelabs.marengo-embed-3-0-v1:0 (512차원).
- 테스트 인프라: 동일 리전 EC2 인스턴스, VPC Endpoint 구성.
- 측정 지표: 인제스트 시간(batch size 영향), 검색 레이턴시(k 값 영향).
Amazon OpenSearch Serverless
- 개요: 관리형 서버리스 서비스로 풀텍스트 및 벡터 검색 동시 지원. 하이브리드 검색에 강점.
- 설정: 보안 정책(암호화, 네트워크, 데이터 접근) 구성, 벡터 검색 인덱스 생성(faiss, hnsw, cosinesimil).
- 인제스트: _bulk API 사용, 배치 크기 조절 가능.
- 검색: k-NN 검색, 하이브리드 검색(search pipeline, hybrid 쿼리) 지원.
- 성능: 인제스트 약 16.80초, 검색 레이턴시 p50 약 25ms (k=5).
- 특성: 풍부한 검색 기능, 하이브리드 검색 강점. 최소 OCU 비용.
Amazon S3 Vectors
- 개요: S3 네이티브 벡터 저장/검색 서비스. 간편한 설정, 비용 효율성, 확장성 강점.
- 설정: Vector Bucket 및 Index 생성. IAM 정책으로 접근 제어.
- 인제스트:
put_vectorsAPI 사용, 최대 500개 배치 지원. Upsert 기능. - 검색: 유사도 검색.
- 성능: 인제스트 약 4.12초, 검색 레이턴시 p50 약 65ms (k=5).
- 특성: 간편한 설정, 저렴한 비용, S3 통합. 별도 클러스터 관리 불필요.
테스트 결과 및 서비스 특성 요약
| 서비스 | 인제스트 시간 (2,285 벡터) | 검색 레이턴시 (k=5) | 특징 | 권장 시나리오 |
|---|---|---|---|---|
| OpenSearch Serverless | 약 16.80초 | p50: ~25ms | 하이브리드 검색, 풍부한 기능, 최소 OCU 비용 | 키워드 + 시맨틱 검색 (하이브리드)이 필요한 경우 |
| S3 Vectors | 약 4.12초 | p50: ~65ms | 간편한 설정, 비용 효율성, S3 통합, 관리 편의성 | 대규모 벡터 저장/검색, 비용 최적화, 빠른 시작이 필요한 경우 |
결론
OpenSearch Serverless는 하이브리드 검색이 필요할 때, S3 Vectors는 간편한 설정과 비용 효율성이 중요할 때 각각 적합합니다. 워크로드의 특성에 맞는 Vector DB 선택이 중요합니다. 이 시리즈는 비디오 인텔리전스 구축의 전체 여정을 다루었으며, 각 단계별 핵심 기술을 소개했습니다.