온톨로지 기반 Hybrid Agentic Graph RAG: Gazelle

오늘 5월6일, COEX 에서 개최된 AIEXPO KOREA 2026 전시회에서 온톨로지 기반 보험 상담 에이전트와 Document Parser 를 선보였다.

작년 말에 보험 중개 업무의 agent 적용을 시도하면서 단순 벡터 검색을 통한 질의응답을 넘어, 보험 중개의 비교와 판정을 위해서 Graph RAG 접근의 필요성을 느끼게 되었다. 생각해보니, 여기에는 2가지 이유가 있었다.

두 가지 이유

첫째는, 폐쇄망 환경에서 기업 내부의 데이터를 대상으로 오픈 weight LLM 을 통해 마치 챗GPT로 기업 내부 데이터에 질문하는 것과 같은 장점이 있는 것은 확실하지만, 여기서 한 걸음 더 나아가서, 보험 보장의 비교 및 추천과 같은 의사결정 판정과 같은 보다 가치 있는 일은 할 수 없을까 하는 목마름이 있었다고 생각한다.

둘째는, 보장 추천등에 유사도 검색을 통한 벡터DB 기반 RAG로 실행하는데 한계를 실감했기 때문이다. 여러 시행착오 끝에 보장 내용을 추출 할 수 있는 방법을 찾았다고 생각했는데, 문제는 "삼성화재와 메리츠화재의 유사암 보장 내용을 비교해줘"와 같은 질문에 대해서 임베딩 벡터가 어떤 내용을 무엇으로 매치해서 어떻게 가져올 지 알수가 없었다는 점이다.

전제 조건들

보험 중개 업무의 핵심은 보험의 보장 비교 및 우위 판정이라고 보고, 다음과 같은 전제 조건을 판별하였다.

문제 정의:

여러 보험사의 복수 상품들로부터 질병에 대한 담보의 비교 및 우위성을 판정하는 것을 자동화하고자 한다.

가치 제언:

1. 보장 추천 자동화:국내 12개 손보사 상품 중에 특정 질환에 대한 담보를 누락없이 추출하고 이 들로부터 담보를 설득력 있는 항목별 우위를 결정하여 보험 우위성을 자동 판정함으로써 보통 반나절 이상 소요되던 보험 중개 업무를 수초 이내로 근거(출처)에 기반하여 자동화 한다.

2. 개인화 대응: 중개인이 동시에 다수의 의뢰인들로부터 보험 중개 요청을 받았을 때, 그 동안의 대화들을 사용자별로 계층형 메모리에 맥락 유형별로 저장했었더라면, 질문 된 대화내용에 가장 의미적으로 유의미한 순서대로 실시간 회상하면서 보다 개인화되고 최적화된 고객 경험을 제공할 수 있다.

Hybrid GraphRAG 구조

<그림 1. Agentic Engine 구조>

Document Parser:

먼저 보험 보장과 관련된 원본 PDF 문서들을 지능형 Document Parser 를 통하여 문자, 표, 그림(챠트), 이미지 등을 문서 랜더링-레이아웃 검출-읽기 흐름 결정-OCR의 각 영역 추출 의 순서로 구조화된 데이터로 출력한다. 확률을 포함한 영역별 문자열, 마크다운, 그리고 JSON 등으로 추출한다. 자체 벤치마크 결과, OmniDocBench 기준 Gemini 3 Pro 대비 성능이 우수한 것으로 나타났다.

<그림 2. Document Parser>

그래프 vs 벡터 80:20 하이브리드: 보장과 관련된 질문은 그래프RAG으로, 그 외의 일반적 질문은 벡터RAG으로 라우팅되도록 설계되었다.

RAG: 작년에 출시한 벡터 유사도 기반 RAG 질의응답 연장선에서 구축되어서, corpus 를 chunking 하고 임베딩하여 PostgreSQL pgvector에 저장하는 것은 보존하였다.

온톨로지: 보험, 의료등과 같이 정확하고 근거에 기반한 판정이 필수적인 분야 적용을 위해 온톨로지 기반 구축을 시도하였다.

Agentic Flow: 이전에 구축된 6개 LangGraph Node 에 더해서, 단일담보, 상품비교, 연관질병 판별과 같은 추가적 Node 가 추가되었다. 외부 API 연결 없이 폐쇄망 환경에서 오픈 weight LLM 이 메모리 분류, 회상, 보장 비교, 판정과 같이 상황에 맞는 Tool 을 agent 가 자동 선택하는 agentic workflow 를 확장하였다.

그래프 RAG: 보험 보장 비교 및 분석과 같이 정보의 연결과 통합이 필요한 질의에 최적화된 "관계"를 탐색하는 그래프 기반 반 RAG 를 Neo4j 를 통하여 구축하였다.

Agentic 메모리: 4계층 즉, working, episodic, procedural, semantic 메모리를 구성하여 단순히 정보를 저장하는 수준을 넘어 장기간 복잡 다 기한 작업 수행의 맥락을 활용할 수 있도록 자동으로 저장하였다. 아울러 맥락을 이해하고 연관 기억을 실시간 회상하도록 상황에 맞는 Tool 이 자동 선택되도록 구축되었다.

3 layer 구조: 온톨로지 위에 공리(Axiom) 평가 엔진이 위치하고 CoverageComparator(보험비교) discovery 엔진이 보장 비교를 실행하는 구조. 공리는 "이 도메인에서는 이 것이 항상 참이다'와 같이 보험 중개인이 고객에게 상품을 설명할 때, 시스템이 자동으로 위험신호를 감지하고 경고하는 기능으로 시용된다. 예를 들어, 질병 분류 정확성 제약 혹은 면책 기간 경과 자동 판단등이 여기에 속한다.

온톨로지 기반 구축

전시회에서 온톨로지 구축에 대해서 질문을 많이 받았다. 산업 도메인에 전문성이 없어서 도메인 전문가와 많은 시간 협업을 하면서 온톨로지를 구축해야 한다고 답하였다. Palantir 의 Forward Deployed Engineer(FDE)가 하는 업무 중의 하나가 이러한 업무가 아닐까 생각한다.

보험 보장을 위한 온톨로지는 보험회사-보험상품-질병-담보의 관계로 설정하였고, 담보는 상세항목 형태로 하여 도메인 지식을 관계망으로 구조화하고 정확한 근거 추적을 위해 출처(원본 PDF 페이지)를 추가하였다. 이러한 구조는 원본 PDF로 부터 해당 내용을 추출하여 구축하는데, 이를 위하여 질병과 관련된 담보 관계 내용 구축을 위한 일련의 복잡한 단계별 전 처리 작업이 수반되고, 이어서 pgvector 와 Neo4j 그래프 DB 양쪽에 걸쳐 정보가 구축된다. 특히 관련 담보들에 대한 그래프 횡단(traverse)을 염두에 두고 구축되어야 한다.

보험 비교 엔진

보험사 상품 비교를 질병 기준으로 그래프 질의를 통해 비교한다. 그래프 동적 쿼리 빌딩과 그래프 횡단을 이용하여 "유사암 보장을 모든(혹은 3개) 보험사별로 비교해줘"와 같은 실행 구현을 위해서 필요하다.이 부분은 Axiom 과 별개로, 규칙 기반의 scoring 시스템으로 판정한다. 5개 차원을 기준으로 평가한다. 1) 수술/시술 지급방식, 2) 신계약자 감액, 3) 갱신형 선택권, 4)보장 다양성, 5) 면책/대기 제약이다. 이 부분은, 협업하는 중개 업무 전문가가 누구냐에 따라 달라질 수 있다고 생각한다. 이러한 4개차원의 보장 차이 감지 항목의 채점을 통하여 우위 분석이 시행된다.

<그림 3. 보장 우위 분석>

결언

1. 벡터기반 RAG 대비 비교 판정 정확도에 대폭 향상이 있었다. 내부 벤치마크자료 (44.4%->97.2%)

2. 목표 달성을 위해 상황에 맞는 도구 자율 선택 활용을 외부 API 없이 오픈 스택 기술로 해결하였다.

3. 특히, 보안에 민감한 산업을 위하여 폐쇄망 환경에서 API 연결 없이 최신 오픈 스택을 활용하여 Agentic Hybrid Graph 구축 및 운영 가능성을 보여줬다. (pgvector 와 Neo4j 기반에 agentic 으로 비교 판정 결과가 3초안에 응답된다. 물론 production 으로 가면 그떈 또 상황을 봐야겠지만...)

4. 멀티 턴의 agentic 대회에서는 메모리에 누적되는 정보 관리가 관건이다. Agentic 메모리 운용으로 단순히 정보를 저장하는 수준을 넘어 장기간 복잡 다 기한 작업 수행에 맥락에 맞는 회상을 활용할 수 있고, 장기적으로는 continuous learning 엔진 구축을 위한 기반을 다지려고 한다.

5. 감사, 로깅, 공리 등 보험 업무의 강력한 보안 정책을 적용할 수 있게 되었다.

6. 무엇보다도 글로벌 선진기업들의 먹이감이 되지 않고 도메인에 특화하여 오픈 스택으로 에이전틱 워크플로우를 생각했던 데로 아키텍쳐링 하고 결과를 볼 수 있었다는 점에서 운이 좋았다고 생각한다.

beginner's mind

페이지

2026년 5월 6일 수요일

온톨로지 기반 보험 상담 에이전트