핵심요약
네이버는 과거 데이터 파이프라인의 문제를 해결하기 위해 DBT와 Airflow를 활용한 사용자 중심의 on-demand data lineage pipeline 서비스 'Flow.er'를 개발하고 발전시켰습니다. 이 서비스는 데이터 제품 운영 품질 향상 및 파이프라인 운영 비용 절감에 기여합니다.
NAVER ENGINEERING DAY 2025: Flow.er를 통한 온디맨드 데이터 계보 파이프라인 구축
Flow.er는 과거 데이터 파이프라인의 복잡성과 비효율성을 해결하기 위해 DBT와 Airflow를 기반으로 개발된 사용자 중심의 온디맨드 데이터 계보 파이프라인 서비스입니다. 이 세션에서는 Flow.er의 개발 배경, 주요 기술 스택, 그리고 확장 전략에 대해 상세히 다룹니다.
1. Flow.er 개발 배경 및 핵심 구성 요소
- 과거 데이터 파이프라인은 복잡한 의존성 관리와 백필(Backfill), 복구 작업에서 높은 운영 비용을 발생시키는 문제점을 가지고 있었습니다.
- Flow.er는 이러한 문제를 해결하기 위해 **데이터 계보(data lineage)**를 중심으로 파이프라인을 구축하는 개념에서 출발했습니다.
- 주요 구성 요소로는 DBT를 활용한 데이터 모델 관리, Airflow를 통한 워크플로우 오케스트레이션, 그리고 개인 인스턴스 및 CI/CD 파이프라인이 포함됩니다.
- DBT의 역할: SQL 기반의 데이터 변환 모델 정의 및 관리를 통해 데이터 품질을 향상시키고 재사용성을 높입니다.
2. Airflow 기반 파이프라인 오케스트레이션
- Airflow의 역할: DBT 모델의 실행 순서, 의존성 관리 및 스케줄링을 담당하여 안정적인 데이터 파이프라인 운영을 지원합니다.
- 과거 데이터 적재(Backfill) 및 파이프라인 복구 작업 시 수동 개입을 최소화하여 운영 비용을 크게 절감하는 데 기여합니다.
- Manager DAG System: 여러 데이터 조직으로의 확장을 위해 표준화된 DAG 관리를 가능하게 하는 컴포넌트를 소개합니다.
- 개인 인스턴스: 개발 및 테스트 환경에서 독립적인 파이프라인 실행을 지원하여 개발 생산성을 높입니다.
3. Flow.er의 확장 및 향후 개선 방안
- Playground 및 Tower와 같은 추가 프로덕트 개발을 통해 사용자 경험과 기능성을 확장했습니다.
- 정합성 향상: 데이터 파티션의 유효성을 검사하는 Partition Checker를 도입하여 데이터 신뢰도를 높입니다.
- CI/CD 파이프라인: 데이터 모델 변경 사항의 자동화된 배포 및 검증 과정을 구축하여 개발 주기를 단축합니다.
- 미래에는 MCP 서버 운영과 같은 추가적인 인프라 개선을 통해 서비스의 안정성과 확장성을 더욱 강화할 계획입니다.