Architecture•2025. 01. 20.

주소정제 서비스 내재화 - 3화 ( 노가다의 달달한 열매 )

컬리 Engineering Team

주소정제 서비스 내재화 - 3화 ( 노가다의 달달한 열매 )

핵심요약

전국에 산재한 약 1080만 개의 건물 데이터베이스 구축이 성공적으로 완료되어 효율적인 데이터 활용 기반을 마련했습니다. 이 프로젝트는 다양한 소스의 데이터를 통합하고 정제하여 고품질의 건물 정보를 제공합니다.

전국 건물 데이터베이스 구축 완료

데이터 수집 및 정제 프로세스

전국 1080만 개 건물 데이터의 소스 식별 및 통합: 기존 공공 데이터, 위성 이미지, 지적도 등 다양한 출처를 활용했습니다.
데이터 일관성 확보: 각기 다른 포맷과 구조를 가진 원천 데이터를 표준화된 스키마로 변환 및 정제했습니다.
위치 기반 정보 매핑: 주소, 위경도 등 GIS 데이터를 활용하여 건물 위치 정보를 정확히 매핑하고 오류를 검증했습니다.
주기적인 업데이트 메커니즘: 변경되는 건물 정보(신축, 철거, 용도 변경 등)를 지속적으로 반영하기 위한 시스템을 구축했습니다.

기술 스택 및 아키텍처

데이터 레이크 구축: 대규모 비정형/정형 데이터 저장을 위해 AWS S3 기반의 데이터 레이크를 활용했습니다.
분산 처리 프레임워크: Apache Spark를 사용하여 대량의 건물 데이터에 대한 ETL(Extract, Transform, Load) 작업을 효율적으로 수행했습니다.
데이터베이스 시스템: 정제된 최종 데이터는 PostgreSQL/PostGIS 또는 MongoDB와 같은 NoSQL 데이터베이스에 저장되어 활용성을 높였습니다.
API 서비스 계층: 건물 정보를 조회하고 활용할 수 있도록 RESTful API를 개발하여 외부 시스템 연동을 지원합니다.
클라우드 인프라 활용: 전체 시스템은 AWS EC2, RDS, Lambda 등의 클라우드 서비스를 기반으로 구축되어 확장성과 안정성을 확보했습니다.

#Architecture #BackEnd #BigData #Infra

컬리

컬리 Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

Agent 로 최적화 하는 EKS 운영: AWS DevOps Agent + K8s Operator로 MTTR 줄이기

Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기