
핵심요약
네이버 검색팀은 5년간 12.5억 개 시계열과 555조 개 데이터포인트를 관리하는 대규모 VictoriaMetrics 클러스터를 운영하며 겪었던 메모리 한계와 180대 규모 장비의 무중단 전환 경험을 공유합니다. Hot/Warm 2계층 아키텍처와 랑데부 해싱, vmbackup/vmrestore 도구를 활용한 전환 전략이 핵심입니다.
네이버 검색의 대규모 시계열 데이터베이스 VictoriaMetrics 운영기
1. 인프라 성장과 VictoriaMetrics 아키텍처
- 메트릭 폭증: 네이버 검색 인프라의 급격한 성장(컨테이너 58배 증가)과 쿠버네티스 전환으로 인해 시계열 데이터 규모 및 카디널리티가 폭증했습니다.
- VictoriaMetrics 선정: 높은 압축 효율, 수평 확장성, Prometheus 호환성 등의 장점으로 VictoriaMetrics를 선택했습니다.
- 현재 규모: 180대 규모의 클러스터에서 12.5억 개 활성 시계열, 555조 개 데이터포인트(약 510TB)를 안정적으로 관리하고 있습니다.
- Hot/Warm 2계층 아키텍처: SSD 기반 Hot Tier(12개월 보관)와 HDD 기반 Warm Tier(36개월 보관)로 분리하여 성능과 비용 효율성을 최적화했습니다.
- 쓰기 경로: vmagent의 이중 쓰기(dual write)로 두 계층에 동시 저장
- 읽기 경로: 조회 기간에 따라 Hot 또는 Warm Tier로 자동 분기
2. 메모리 한계 극복 및 무중단 장비 전환
- 메모리 한계: 급증하는 카디널리티로 인한 OOM 위험 증가, 캐시 효율 저하, 쿼리 지연 문제를 해결하기 위해 vmstorage 장비 메모리를 128GB에서 512GB로 증설했습니다.
- 무중단 전환 전략: 서비스 영향 최소화를 위해 계층별로 다른 전략을 적용했습니다.
- Hot Tier: 랑데부 해싱(Rendezvous Hashing)의 특성을 활용하여 신규 장비를 역순으로 점진적 추가했습니다. 이를 통해 기존 장비의 복제 부하 집중을 최소화하며 전환했습니다.
- Warm Tier: vmbackup과 vmrestore 도구를 사용하여 사전 데이터 복제 및 세트 단위 점진 전환을 수행했습니다. vmbackup의 Instant Snapshot, Incremental Sync, Resumable Transfer 기능을 활용하여 운영 부하를 최소화하며 마이그레이션을 완료했습니다.
- 전환 결과: 180대 규모 장비 교체를 서비스 중단 시간 0분, 메트릭 수집 누락 0건으로 성공적으로 완료했습니다.