
핵심요약
전국에 산재한 약 1080만 개의 건물 데이터베이스 구축이 성공적으로 완료되어 효율적인 데이터 활용 기반을 마련했습니다. 이 프로젝트는 다양한 소스의 데이터를 통합하고 정제하여 고품질의 건물 정보를 제공합니다.
전국 건물 데이터베이스 구축 완료
데이터 수집 및 정제 프로세스
- 전국 1080만 개 건물 데이터의 소스 식별 및 통합: 기존 공공 데이터, 위성 이미지, 지적도 등 다양한 출처를 활용했습니다.
- 데이터 일관성 확보: 각기 다른 포맷과 구조를 가진 원천 데이터를 표준화된 스키마로 변환 및 정제했습니다.
- 위치 기반 정보 매핑: 주소, 위경도 등 GIS 데이터를 활용하여 건물 위치 정보를 정확히 매핑하고 오류를 검증했습니다.
- 주기적인 업데이트 메커니즘: 변경되는 건물 정보(신축, 철거, 용도 변경 등)를 지속적으로 반영하기 위한 시스템을 구축했습니다.
기술 스택 및 아키텍처
- 데이터 레이크 구축: 대규모 비정형/정형 데이터 저장을 위해 AWS S3 기반의 데이터 레이크를 활용했습니다.
- 분산 처리 프레임워크: Apache Spark를 사용하여 대량의 건물 데이터에 대한 ETL(Extract, Transform, Load) 작업을 효율적으로 수행했습니다.
- 데이터베이스 시스템: 정제된 최종 데이터는 PostgreSQL/PostGIS 또는 MongoDB와 같은 NoSQL 데이터베이스에 저장되어 활용성을 높였습니다.
- API 서비스 계층: 건물 정보를 조회하고 활용할 수 있도록 RESTful API를 개발하여 외부 시스템 연동을 지원합니다.
- 클라우드 인프라 활용: 전체 시스템은 AWS EC2, RDS, Lambda 등의 클라우드 서비스를 기반으로 구축되어 확장성과 안정성을 확보했습니다.