본문 바로가기
카테고리 없음

PathRAG & LightRAG

by techchoi 2025. 5. 6.
728x90
반응형

Retrieval-Augmented Generation (RAG) 기본 개념

  • 정의: RAG 시스템은 대규모 언어 모델(LLM)의 응답 품질을 향상시키기 위해 외부 지식 소스를 통합하는 기술입니다.
  • 목표: 사용자에게 더 정확하고, 문맥에 적합하며, 최신 정보를 제공하는 것입니다.
  • 구성 요소:Retrieval Component (검색 구성 요소): 외부 데이터베이스에서 쿼리에 관련된 정보를 가져오는 역할을 합니다.
  • Generation Component (생성 구성 요소): 검색된 정보와 쿼리를 사용하여 일관성 있고 관련성 있는 응답을 생성합니다.
  • 데이터 색인: 외부 데이터베이스(D)는 검색 모듈이 접근할 수 있는 특정 데이터 구조(D̂)로 변환됩니다. 일반적으로 원시 텍스트를 청크(Chunk)로 분할하는 과정이 포함됩니다.
  • 검색 과정: 검색 모듈(ψ)은 쿼리(q)를 색인된 데이터(D̂)와 비교하여 관련 문서를 얻습니다.
  • 생성 과정: 생성 모델(G)은 검색된 정보(ψ(q; D̂))와 쿼리(q)를 활용하여 최종 응답을 생성합니다.

기존 RAG 시스템의 한계

  • 평면 데이터 표현 의존: 텍스트를 독립적인 청크로 분할하고 평면적으로 색인하는 방식은 복잡한 상호 의존 관계를 포착하는 데 한계가 있습니다.
  • 부적절한 문맥 인식: 결과적으로 파편화된 답변이 생성되어 전체적인 문맥이나 관계를 놓칠 수 있습니다.

LightRAG

  • 핵심 아이디어: 텍스트 색인 및 검색 과정에 그래프 구조를 통합하여 기존 RAG의 한계를 극복합니다. 그래프는 개체 간의 상호 의존 관계를 효과적으로 나타낼 수 있습니다.
  • 그래프 기반 텍스트 색인 패러다임:개체 및 관계 추출: LLM을 사용하여 텍스트에서 개체(노드)와 관계(엣지)를 식별하고 추출합니다.
  • LLM 프로파일링: 각 개체 노드와 관계 엣지에 대해 LLM을 사용하여 텍스트 키-값 쌍 (K, V)을 생성합니다. 키는 검색에 효율적인 단어나 구문이고, 값은 관련 스니펫을 요약한 텍스트 단락입니다.
  • 중복 제거: 다른 텍스트 세그먼트에서 동일한 개체와 관계를 식별하고 병합하여 그래프 크기를 최적화하고 데이터 처리 효율성을 높입니다.
  • 듀얼 레벨 검색 패러다임:특정 쿼리 (Low-level retrieval): 그래프 내의 특정 개체를 참조하며, 특정 노드나 엣지와 관련된 정보의 정확한 검색이 필요합니다.
  • 추상 쿼리 (High-level retrieval): 더 넓은 주제나 요약 등 개념적이며, 특정 개체에 직접적으로 연결되지 않는 정보를 검색합니다.
  • 쿼리 키워드 추출: 주어진 쿼리에서 로컬(k(l)) 및 글로벌(k(g)) 쿼리 키워드를 추출합니다.
  • 키워드 매칭: 벡터 데이터베이스를 사용하여 로컬 키워드는 후보 개체와, 글로벌 키워드는 글로벌 키와 연결된 관계와 매칭시킵니다.
  • 고차 관련성 통합: 검색된 그래프 요소의 로컬 서브그래프 내 이웃 노드를 수집하여 쿼리에 고차 관련성을 통합합니다.
  • 장점:포괄적인 정보 이해: 그래프 구조를 통해 멀티-홉 서브그래프에서 전체 정보를 추출하여 복잡한 쿼리를 처리하는 능력이 향상됩니다.
  • 향상된 검색 성능: 그래프에서 파생된 키-값 데이터 구조는 빠르고 정확한 검색에 최적화되어 있습니다.
  • 다양한 응답: 듀얼 레벨 검색 메커니즘을 통해 상세 쿼리와 추상 쿼리 모두에 효과적으로 대응하여 응답 다양성을 높입니다.
  • 효율성: 검색 프로세스에서 토큰 및 API 호출 수가 기존 방법에 비해 significantly 감소합니다.
  • 단점: 검색된 정보가 질의 관련 노드의 즉각적인 이웃을 모두 포함하여 노이즈를 유발하고 토큰 소비를 증가시킬 수 있다는 비판이 있습니다. (PathRAG 논문 관점)
  • 실험 결과: 기존 RAG 모델 대비 검색 정확도 및 효율성에서 상당한 개선을 보였습니다. 특히 대규모 데이터셋에서 강점을 보입니다.

PathRAG

  • 핵심 아이디어: 기존 그래프 기반 RAG 방법의 정보 중복 문제를 해결하고, 검색된 정보를 경로 기반 프롬프트로 변환하여 LLM 응답의 논리성과 일관성을 향상시킵니다.
  • 정보 중복 문제 제기: GraphRAG는 특정 커뮤니티 내 모든 정보를, LightRAG는 질의 관련 노드의 즉각적인 이웃을 모두 사용하는데, 이는 노이즈를 유발하고 토큰 소비를 증가시킬 수 있다고 주장합니다.
  • 경로 기반 검색 (Path Retrieval): 색인 그래프에서 핵심 관계 경로를 검색하는 데 초점을 맞춥니다.
  • 노드 검색: LLM을 사용하여 입력 쿼리에서 키워드를 식별하고, 덴스 벡터 매칭을 통해 색인 그래프에서 관련 노드를 추출합니다.
  • 경로 식별 및 정제: 검색된 노드 쌍 간의 도달 가능한 경로를 식별합니다. 모든 경로가 유용한 것은 아니므로, 추가적인 정제가 필요합니다.
  • 유량 기반 가지치기 알고리즘 (Flow-based pruning algorithm): 거리 인식을 통해 핵심 경로를 추출합니다. 이 알고리즘은 시간 복잡성이 낮으며 각 검색된 경로에 신뢰도 점수를 할당할 수 있습니다.
  • 경로 신뢰도: 각 경로에 대해 엣지를 통과하는 노드의 평균 자원 값을 신뢰도 측정으로 계산합니다.
  • 경로 기반 프롬프트 (Path-based prompting): 검색된 관계 경로를 텍스트 형태로 변환하여 LLM 프롬프트에 사용합니다.
  • 텍스트 관계 경로 생성: 각 검색된 관계 경로에 대해 경로 내 모든 노드와 엣지의 텍스트 청크를 연결하여 텍스트 관계 경로를 얻습니다.
  • 경로 우선순위 및 배치: 신뢰도를 기준으로 경로의 우선순위를 정하고 LLM의 성능 패턴에 맞춰 전략적으로 배치합니다 (예: 신뢰도 점수가 낮은 경로를 먼저 배치하여 "lost in the middle" 문제를 완화).
  • 장점:정보 중복 감소: 핵심 관계 경로에 집중하여 노이즈를 완화하고 토큰 소비를 줄입니다.
  • 향상된 논리성 및 일관성: 경로 기반 프롬프트는 LLM이 더 논리적이고 일관성 있는 응답을 생성하도록 안내합니다.
  • 뛰어난 성능: 6개 데이터셋과 5개 평가 차원에서 기존 최첨단 기준선 대비 일관되게 우수한 성능을 보입니다. 특히 대규모 데이터셋에서 장점이 두드러집니다.
  • 토큰 효율성: LightRAG에 비해 토큰 소비가 적습니다.
  • 평가 차원: LightRAG의 평가 차원 (Comprehensiveness, Diversity) 외에 Logicality, Relevance, Coherence를 추가하여 평가합니다.

두 시스템 비교

  • LightRAG: 그래프 구조를 텍스트 색인에 통합하고 듀얼 레벨 검색을 통해 포괄적인 정보 이해와 빠른 검색을 추구합니다. 질의 관련 노드의 즉각적인 이웃 정보를 활용합니다.
  • PathRAG: 그래프 구조를 활용하되, 정보 중복을 줄이기 위해 핵심 관계 경로 검색에 집중합니다. 경로 기반 프롬프트로 생성 품질의 논리성과 일관성을 개선합니다.

두 시스템 모두 기존 텍스트 청크 기반 RAG의 한계를 극복하고 그래프 기반 접근 방식의 장점을 활용하지만, 검색 방식 및 프롬프트 구성에서 차이를 보입니다. PathRAG는 LightRAG가 검색하는 정보의 범위(즉각적 이웃)가 너무 넓어 발생하는 문제(중복, 노이즈)를 해결하고자 경로 검색 방식을 제안합니다.

728x90
반응형