T
TechInsights
목록으로
BigData•2026. 04. 22.

네이버 검색의 대규모 메트릭 저장소, VictoriaMetrics 운영기

네이버 D2
네이버 D2 Engineering Team
네이버 검색의 대규모 메트릭 저장소, VictoriaMetrics 운영기

핵심요약

원문 보기

네이버 검색팀은 5년간 12.5억 개 시계열과 555조 개 데이터포인트를 관리하는 대규모 VictoriaMetrics 클러스터를 운영하며 겪었던 메모리 한계와 180대 규모 장비의 무중단 전환 경험을 공유합니다. Hot/Warm 2계층 아키텍처와 랑데부 해싱, vmbackup/vmrestore 도구를 활용한 전환 전략이 핵심입니다.

네이버 검색의 대규모 시계열 데이터베이스 VictoriaMetrics 운영기

1. 인프라 성장과 VictoriaMetrics 아키텍처

  • 메트릭 폭증: 네이버 검색 인프라의 급격한 성장(컨테이너 58배 증가)과 쿠버네티스 전환으로 인해 시계열 데이터 규모 및 카디널리티가 폭증했습니다.
  • VictoriaMetrics 선정: 높은 압축 효율, 수평 확장성, Prometheus 호환성 등의 장점으로 VictoriaMetrics를 선택했습니다.
  • 현재 규모: 180대 규모의 클러스터에서 12.5억 개 활성 시계열, 555조 개 데이터포인트(약 510TB)를 안정적으로 관리하고 있습니다.
  • Hot/Warm 2계층 아키텍처: SSD 기반 Hot Tier(12개월 보관)와 HDD 기반 Warm Tier(36개월 보관)로 분리하여 성능과 비용 효율성을 최적화했습니다.
    • 쓰기 경로: vmagent의 이중 쓰기(dual write)로 두 계층에 동시 저장
    • 읽기 경로: 조회 기간에 따라 Hot 또는 Warm Tier로 자동 분기

2. 메모리 한계 극복 및 무중단 장비 전환

  • 메모리 한계: 급증하는 카디널리티로 인한 OOM 위험 증가, 캐시 효율 저하, 쿼리 지연 문제를 해결하기 위해 vmstorage 장비 메모리를 128GB에서 512GB로 증설했습니다.
  • 무중단 전환 전략: 서비스 영향 최소화를 위해 계층별로 다른 전략을 적용했습니다.
    • Hot Tier: 랑데부 해싱(Rendezvous Hashing)의 특성을 활용하여 신규 장비를 역순으로 점진적 추가했습니다. 이를 통해 기존 장비의 복제 부하 집중을 최소화하며 전환했습니다.
    • Warm Tier: vmbackup과 vmrestore 도구를 사용하여 사전 데이터 복제 및 세트 단위 점진 전환을 수행했습니다. vmbackup의 Instant Snapshot, Incremental Sync, Resumable Transfer 기능을 활용하여 운영 부하를 최소화하며 마이그레이션을 완료했습니다.
  • 전환 결과: 180대 규모 장비 교체를 서비스 중단 시간 0분, 메트릭 수집 누락 0건으로 성공적으로 완료했습니다.
#BigData#Architecture#Infra
네이버 D2
네이버 D2

네이버 D2 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
토스 피플 : 새로운 길을 만들 땐 내 선택을 믿는다

토스 피플 : 새로운 길을 만들 땐 내 선택을 믿는다

"이 버튼 왜 안 눌려요?" 물류 현장의 목소리로 PDA 시스템 완성하기

"이 버튼 왜 안 눌려요?" 물류 현장의 목소리로 PDA 시스템 완성하기