T
TechInsights
목록으로
Infra•2026. 06. 01.

RIMAN KOREA의 Amazon Bedrock Knowledge Bases를 활용한 자연어 기반 상품 검색 시스템 구축기

AWS
AWS Engineering Team
AWS

핵심요약

원문 보기

RIMAN KOREA는 Amazon Bedrock Knowledge Bases를 활용하여 기존 상품명 기반 검색의 한계를 극복하고, 자연어 기반 상품 검색 시스템을 구축했습니다. RAG 아키텍처, 청킹 전략, 하이브리드 검색, 병렬 처리 구조 등 주요 기술적 의사결정 과정을 통해 검색 정확도 95%, 평균 응답 시간 2.5초 이내를 달성했습니다.

RIMAN KOREA의 Amazon Bedrock Knowledge Bases를 활용한 자연어 기반 상품 검색 시스템 구축

개요

RIMAN KOREA는 K-뷰티 기업으로, 기존 상품명 기반 검색의 한계를 극복하고자 Amazon Bedrock Knowledge Bases(Bedrock KB)를 활용하여 자연어 기반 상품 검색 시스템을 구축했습니다. AWS EBA 프로그램 하에 5인 팀이 약 5주 만에 MVP를 완성했으며, 검색 정확도 95%, 평균 응답 시간 2.5초 이내를 달성했습니다. 본 구축기는 RAG 아키텍처 설계, 청킹 전략, 하이브리드 검색, 병렬 처리 구조 등 주요 기술적 의사결정 과정을 상세히 다룹니다.

Search Pipeline — 사용자 요청 처리

사용자의 자연어 검색 요청을 받아 의도를 분석하고, 하이브리드 검색과 응답 생성을 실시간으로 처리합니다. Amazon CloudFront와 API Gateway를 통해 리만몰 애플리케이션에서 Search Pipeline으로 요청이 전달됩니다.

RAG Data Pipeline — 검색 데이터 준비

상품 데이터를 수집, 정제, 구조화하여 Bedrock KB 임베딩 가능한 형태로 준비하는 배치 처리 파이프라인입니다. Amazon EventBridge 트리거로 시작되며, 여러 AWS Lambda 함수가 순차적으로 실행됩니다.

주요 기술 결정 및 구현

  • Bedrock KB 활용: RAG 프로세스(Vector DB, Embedding Model 등)를 직접 구성하지 않고, 임베딩, 청킹, 검색 단계를 서비스 내에서 선택적으로 구현하여 MVP 구축 속도를 높였습니다.
  • 청킹 전략 (No Chunking): 상품 정보의 원자성을 유지하기 위해 'No Chunking' 전략을 채택했습니다. 상품 하나가 하나의 문서로 구성되며, 이를 여러 청크로 나누면 맥락 손실이 발생할 수 있다는 판단 때문입니다. Amazon Titan Text Embeddings V2의 최대 8,192 토큰 제한을 준수하기 위해 데이터 전처리 단계에서 텍스트 크기를 관리합니다.
  • RAG 검색 한계 극복:
    • 속도 문제: 순차 처리 방식의 RetrieveAndGenerate() API는 약 10초의 응답 시간을 보여 목표(3초 이내)를 초과했습니다. 이를 해결하기 위해 검색(Retrieve)과 응답 생성(Response Generation)을 병렬 처리 구조로 변경했습니다.
    • 정확도 문제: 키워드 기반 질문의 답변 품질 편차를 줄이기 위해, RAG 검색과 함께 메타데이터 필터링을 적용하여 검색 범위를 축소했습니다. (예: 브랜드, 가격대).
  • 하이브리드 검색: Vector Embedding 기반 Semantic Search와 원본 텍스트 기반 Lexical Search를 결합하여 정확도를 높였습니다. Amazon OpenSearch Serverless를 벡터 저장소로 사용합니다.
  • 병렬 처리 구조: AWS Step Functions의 제약을 피해, 검색과 응답 생성을 각각 독립된 Lambda 함수로 분리하여 동시에 호출하는 구조를 채택했습니다. 이를 통해 검색 결과 UI 표시와 LLM 응답 생성을 병렬로 처리하여 실시간 응답 및 스트리밍 효과를 구현했습니다.
  • 멀티모달 OCR: 상품 상세 이미지를 Claude Sonnet 3.5 v2로 처리하여 텍스트를 추출했습니다. 다양한 디자인의 상세페이지 이미지에서 의미 단위 텍스트 그룹핑 및 긴 이미지 분할 처리를 적용했습니다.
  • 데이터 정제: 검색 품질 향상을 위해 주문, 배송, 임상시험 데이터 등 불필요한 정보를 패턴 매칭으로 제거했습니다. 최종적으로 상품 정보(.txt)와 메타데이터(.metadata.json) 파일을 생성하여 S3에 업로드합니다.

결론 및 향후 계획

  • 데이터 품질의 중요성: 임베딩 모델보다 전처리 단계에서의 데이터 품질이 검색 품질 개선에 더 효과적이었습니다.
  • 하이브리드 검색 튜닝: 향후 Amazon OpenSearch Service 직접 호출을 통한 하이브리드 검색 가중치 조정을 고려 중입니다.
  • 피드백 루프 구축: 검색 결과가 없는 쿼리를 수집하고 데이터를 강화하여 검색 품질을 지속적으로 개선하는 순환 구조를 구축했습니다.
  • EBA 프로그램 효과: AI/ML 경험이 없는 팀이 5주 만에 운영 가능한 시스템을 구축할 수 있었습니다.
#Infra#Architecture#AI#BackEnd
AWS
AWS

AWS Engineering Team

기술 인사이트를 전달하는 공식 채널

You might also like

View all
Agentic AI 부터 Physical AI 까지: Bedrock, MCP, AWS IoT로 구축하는 자율 산업 안전 로봇

Agentic AI 부터 Physical AI 까지: Bedrock, MCP, AWS IoT로 구축하는 자율 산업 안전 로봇

Physical AI: 자율 지능의 차세대 기반 구축

Physical AI: 자율 지능의 차세대 기반 구축