본문 바로가기

embedding

[RAG] RAPTOR(Recrusive Abstractive Processing for Tree-Organized Retrieval) Parth Sarthi et al. 2024 오늘은 올해 발행되어, RAG 시스템의 개선 아이디어를 제시한 'RAPTOR' 논문에 대해 자세히 리뷰해보려 한다. 0. 어원먼저, RAPTOR의 어원을 먼저 살펴보자.페이퍼 타이틀인 "RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL"를직역하면, "트리로 구성된 검색을 위한 재귀적 추상 처리"로 번역할 수 있는데,뒤에 설명하겠지만, 해당 논문은 RAG를 위한 데이터 구축 방식 및 검색 방법론을 설명하고있고, 여기서는 '트리'와 '재귀적 추상'이라는 키워드에 대해서만 주목하고 넘어가면 될 것 같다.만약, RAPTOR의 동작방식에 대해서만 빠르게 이해하고자한다면, 아래의 "2.그렇다면, RAPTOR란 무엇인가?" 의프로세스 부분만 읽어도 무방하다.. 더보기
[Fine-Tuning] SimCSE + LoRA를 활용해서 임베딩 모델을 Fine-Tuning해보자! Github 구현 코드 먼저 보기 : https://github.com/WontaeKim89/embedding_SimCSE_LoRA 오늘은 LoRA를 이용해서 Embedding Model을 학습하는 과정을 정리해보려 한다.구현코드 링크를 위에 첨부해두었는데,먼저 내용 이해에 도움이 되는 내용들을 아래에 정리해두었으니, 포스팅 내용을 쭉 읽어보신 후,위 링크를 통해 구현 코드를 살펴보시는걸 권장드린다.  임베딩 모델은 추천시스템, 검색, 챗봇, 번역, 감정분석, Text Summarization등거의 모든 NLP 분야에서 사용되는 매우 중요한 언어모델 분야중 하나이다.최근 워낙 생성 모델쪽으로 관심이 집중되어있고, 관련 연구도 훨씬 활발하긴 하지만, 임베딩 모델도 꾸준히 발전하고 있다.임베딩 모델은 아직까.. 더보기