핵심요약
부트텐트는 생성형 AI와 하이브리드 OCR 전략을 활용하여 교육과정 등록 시간을 69% 단축하고 필드 정확도를 88.7% 달성했습니다. 오픈소스 VLM과 Amazon Bedrock Claude를 결합한 이 시스템은 품질과 비용 효율성을 모두 갖췄습니다.
생성형 AI 기반 부트텐트 교육과정 등록 자동화 시스템
부트텐트는 Amazon Bedrock 및 AWS Step Functions 기반의 자동화 파이프라인을 구축하여 교육과정 등록 시간을 69% 단축하고 필드 정확도를 88.7% 달성했습니다. 오픈소스 VLM(Qwen3-VL-8B)과 Amazon Bedrock Claude 모델을 결합한 하이브리드 Vision OCR 전략으로 한국어 OCR 품질과 비용 효율성을 동시에 확보했습니다.
1. 프로젝트 배경 및 목표
- Pain-point: 교육기관 담당자들이 자체 모집 정보를 부트텐트 폼에 다시 입력하는 데 시간 소요, 분류 체계 불일치, 이미지 기반 정보 입력 어려움 등의 문제를 겪었습니다.
- 목표: 교육기관 담당자가 모집 페이지 URL을 제출하면, AI가 페이지 정보를 추출하여 부트텐트 등록 폼 스키마에 맞는 입력 초안을 자동 생성하고, 담당자는 이를 검토·보완하는 방식으로 전환합니다.
- 기술적 제약: 데이터 정확성, 사용자 신뢰도 확보를 위해 OCR 품질 비교, 프롬프트/후처리 고도화, 휴먼-인-더-루프(HITL) 검증, 점진적 도입 등의 가드레일을 적용했습니다.
2. 아키텍처: 7단계 파이프라인
- AS-IS: 교육기관 담당자가 수동으로 모집 정보를 입력하고, 내부 검수를 거쳐 등록하는 방식.
- TO-BE: Fetch → Retrieve → Vision → Extract → Ingest → Update → Notify의 7단계 자동화 파이프라인을 구축했습니다.
- 핵심 단계: Playwright 기반 텍스트/이미지 탐색(Retrieve), 하이브리드 OCR(Qwen3-VL-8B + Claude 4.5 Haiku)을 통한 이미지 텍스트 추출(Vision), Claude Sonnet 4.5를 활용한 55개 필드 구조화 추출(Extract)을 중심으로 구현했습니다.
3. 하이브리드 Vision OCR 및 구조화 추출 상세
- 하이브리드 Vision OCR: 이미지 해상도 제한, 비용 구조, OCR 정확도 중요성을 고려하여, GPU 인스턴스의 오픈소스 VLM(Qwen3-VL-8B)을 Primary로, Amazon Bedrock Claude 4.5 Haiku를 Fallback으로 활용했습니다. Qwen3-VL-8B가 한국어 OCR에서 더 높은 정확도를 보였습니다.
- Vision 프롬프트 개선: 작은 글씨 정보 누락, 숫자/날짜 오추출, 복잡한 레이아웃 처리, 타일 OCR 중복/누락 문제 해결을 위해 규칙을 추가하고 Accuracy Checklist를 신설했습니다.
- Extract 프롬프트 설계: XML 태그 구조화, 코드 참조 테이블, Hallucination 방지 규칙, 정규화 예시, 결정적 출력(temperature 0.1) 등을 적용하여 Claude 모델의 추출 정확도를 높였습니다.
- Validator Agent 도입: 추출된 JSON 데이터의 스키마 검증, OCR 근거 기반 사실 검증, 누락 필드 탐지, 규칙 위반 및 오매핑 탐지, Hallucination 가능성 탐지를 수행하여 최종 데이터 품질을 보장합니다.
4. 결과 및 성과
- 품질 평가: 골든 데이터셋 기준 필드 정확도 88.7% (오류율 11.3%)를 달성했으며, Validator Agent는 98.0%의 오류 검출률을 기록했습니다.
- 시간 절감: 기존 수동 입력 대비 교육과정 등록 시간을 약 69.0% 단축했습니다.
- 비용 및 안정성: 한국어 OCR 품질을 확보하면서도 Haiku 대비 약 40% 비용을 절감했으며, vLLM과 Amazon Bedrock의 하이브리드 구조로 운영 안정성을 확보했습니다.