T
TechInsights
목록으로
BigData•2025. 11. 24.

DBT, Airflow를 활용한 데이터 계보 중심 파이프라인 만들기

네이버 D2
네이버 D2 Engineering Team
네이버 D2

핵심요약

원문 보기

네이버는 과거 데이터 파이프라인의 문제를 해결하기 위해 DBT와 Airflow를 활용한 사용자 중심의 on-demand data lineage pipeline 서비스 'Flow.er'를 개발하고 발전시켰습니다. 이 서비스는 데이터 제품 운영 품질 향상 및 파이프라인 운영 비용 절감에 기여합니다.

NAVER ENGINEERING DAY 2025: Flow.er를 통한 온디맨드 데이터 계보 파이프라인 구축

Flow.er는 과거 데이터 파이프라인의 복잡성과 비효율성을 해결하기 위해 DBT와 Airflow를 기반으로 개발된 사용자 중심의 온디맨드 데이터 계보 파이프라인 서비스입니다. 이 세션에서는 Flow.er의 개발 배경, 주요 기술 스택, 그리고 확장 전략에 대해 상세히 다룹니다.

1. Flow.er 개발 배경 및 핵심 구성 요소

  • 과거 데이터 파이프라인은 복잡한 의존성 관리와 백필(Backfill), 복구 작업에서 높은 운영 비용을 발생시키는 문제점을 가지고 있었습니다.
  • Flow.er는 이러한 문제를 해결하기 위해 **데이터 계보(data lineage)**를 중심으로 파이프라인을 구축하는 개념에서 출발했습니다.
  • 주요 구성 요소로는 DBT를 활용한 데이터 모델 관리, Airflow를 통한 워크플로우 오케스트레이션, 그리고 개인 인스턴스 및 CI/CD 파이프라인이 포함됩니다.
  • DBT의 역할: SQL 기반의 데이터 변환 모델 정의 및 관리를 통해 데이터 품질을 향상시키고 재사용성을 높입니다.

2. Airflow 기반 파이프라인 오케스트레이션

  • Airflow의 역할: DBT 모델의 실행 순서, 의존성 관리 및 스케줄링을 담당하여 안정적인 데이터 파이프라인 운영을 지원합니다.
  • 과거 데이터 적재(Backfill) 및 파이프라인 복구 작업 시 수동 개입을 최소화하여 운영 비용을 크게 절감하는 데 기여합니다.
  • Manager DAG System: 여러 데이터 조직으로의 확장을 위해 표준화된 DAG 관리를 가능하게 하는 컴포넌트를 소개합니다.
  • 개인 인스턴스: 개발 및 테스트 환경에서 독립적인 파이프라인 실행을 지원하여 개발 생산성을 높입니다.

3. Flow.er의 확장 및 향후 개선 방안

  • Playground 및 Tower와 같은 추가 프로덕트 개발을 통해 사용자 경험과 기능성을 확장했습니다.
  • 정합성 향상: 데이터 파티션의 유효성을 검사하는 Partition Checker를 도입하여 데이터 신뢰도를 높입니다.
  • CI/CD 파이프라인: 데이터 모델 변경 사항의 자동화된 배포 및 검증 과정을 구축하여 개발 주기를 단축합니다.
  • 미래에는 MCP 서버 운영과 같은 추가적인 인프라 개선을 통해 서비스의 안정성과 확장성을 더욱 강화할 계획입니다.
#BigData#Infra#BackEnd
네이버 D2
네이버 D2

네이버 D2 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

아이지에이웍스 AI 에이전트 클레어: Amazon Bedrock 기반 Text-to-SQL/Chart 에이전트로 이룬 데이터 분석 혁신

100년 가는 프론트엔드 코드, SDK

100년 가는 프론트엔드 코드, SDK