본문 바로가기
Data & AI Intelligence/▶AI & Agent

RAG(검색 증강 생성)

by 류딩이2025. 12. 11.
RAG(검색 증강 생성) 최종 분석: 개념, 구조, 구성 요소, 경량 모델 및 전략

🚀 RAG(검색 증강 생성) 완전 분석: 개념, 구조, 구성 요소, 경량 모델 및 전략

1. RAG(Retrieval-Augmented Generation) 개념 및 기본 구조

RAG는 LLM(대규모 언어 모델) 보조 시스템의 한 종류로, LLM이 답변을 생성하기 전에 외부 지식원에서 관련 정보를 검색하여 활용하는 기술입니다.

RAG의 작동 원리

  • LLM 보조 시스템: LLM의 지식 한계를 보완합니다.
  • 검색된 문맥 활용 답변: LLM은 검색된 문맥(Context)을 기반으로 보다 정확하고 사실에 근거한 답변을 생성합니다.

RAG의 기본 구조 (3단계 프로세스)

1단계: 검색 (Retrieval) 단계

  • 쿼리 임베딩: 사용자 쿼리를 벡터 공간의 수치 표현으로 변환합니다.
  • 벡터 DB에서 유사 문서 검색: 쿼리 벡터와 유사성이 높은 문서 벡터를 검색합니다.
  • Top-k 문서 선택: 유사도가 높은 상위 k개의 문서를 1차 후보군으로 선택합니다.

2단계: 재순위 지정 (Rerank) 단계

1차 검색된 문서의 **실제 관련성**을 정교하게 평가하여 문맥의 품질을 최적화합니다.

  • 쿼리-도큐먼트 쌍 점수 재계산: 질문의 의도와 맥락에 대한 **실질적인 중요도 및 관련성**을 기준으로 점수를 재계산합니다.
  • 최종 Top-k 문서 선택: 가장 유용하고 관련성이 높은 최종 문서를 문맥(Context)으로 확정합니다.

3단계: 생성 (Generation) 단계

  • LLM 입력 구성: **검색된 문맥(Retrieved Context)**과 **사용자 쿼리(User Query)**를 결합하여 LLM에 입력합니다.
  • Context-aware 답변 생성: 제공된 문맥에 기반하여 정확하고 신뢰성 있는 답변을 생성합니다.

2. RAG의 핵심 구성 요소 및 선택 기준

1. 임베딩 모델 (Embedding Model)

  • 다국어 지원 여부: 서비스 언어 지원 범위를 고려.
  • 성능과 처리 속도의 균형: 실시간 응답 요구사항에 맞춰 정확도지연 시간 사이의 최적 지점을 찾는 것이 중요합니다.

2. 벡터 DB (Vector Database)

  • 주요 DB 예시: Milvus, Pinecone, Chroma, Weaviate, Qdrant 등.
  • 로컬 환경과 클라우드 환경 비교:
    구분로컬 환경 (자체 구축)클라우드 환경 (관리형 서비스)
    적합 환경소규모 프로젝트, 개발/테스트 환경대규모 서비스, 높은 가용성 요구 환경
    확장성제한적매우 뛰어남

3. RAG 시스템 구축을 위한 경량 모델 (Small Models) 가이드

RAG는 작은 모델들을 전략적으로 활용하여 높은 성능과 뛰어난 비용 효율성을 동시에 달성할 수 있습니다.

1. 임베딩 모델 (Retrieval 단계)

역할: 텍스트를 의미 기반의 벡터로 변환
  • MiniLM (Mini Language Model): 구조를 경량화하여 **처리 속도**와 효율성이 뛰어납니다.
  • Sentence Transformers 계열 (SBERT): 문장 단위 임베딩에 특화된 경량 모델을 사용합니다.

2. 재순위 지정 모델 (Rerank 단계)

역할: 검색된 문서와 쿼리의 관련성을 재평가
  • Cross-Encoders: 검색 모델보다 정교하게 **높은 정확도**를 제공하는 경량 모델을 사용합니다.

3. 대형 언어 모델 (LLM, Generation 단계)

역할: 검색된 문맥을 기반으로 최종 답변 생성
  • Mistral 7B, Llama 3 8B: 대규모 상용 모델 대비 작지만, RAG와 결합 시 뛰어난 답변 품질을 보장합니다.
  • Phi-3 Mini: 매우 적은 매개변수로 **비용 효율성**을 극대화하는 데 적합합니다.

👍 4. RAG의 주요 장점

  • 최신 데이터를 반영할 수 있음 (외부 DB 업데이트)
  • 특정 도메인에 특화된 지식 제공
  • 환각 현상 최소화 (검색된 문맥 근거)
  • 소형 모델에서도 뛰어난 성능 실현 가능
  • 비용 효율성 우수 (파인튜닝 대비)

⚠️ 5. RAG의 단점 및 극복 전략

  • 검색 품질에 따라 성능이 좌우됨: 답변 품질은 **검색(Retrieval) 정확성**에 전적으로 의존.
  • 문서가 길면 성능 저하 (Lost in the Middle): LLM이 긴 문맥의 중요한 정보를 놓칠 수 있습니다.
  • 청킹(Chunking) 전략 필요: Semantic chunking 등 의미적 경계를 기준으로 나누는 전략이 유리합니다.
  • 검색 실패 시 대체 전략 (Fallback Strategy): 유의미한 문서를 찾지 못할 때를 대비한 명확한 전략 준비.
  • RAG vs. 파인튜닝(Fine-tuning) 비교 필요: RAG는 **정보의 최신성**에, 파인튜닝은 **모델 스타일/톤 미세 조정**에 강점이 있습니다.