Navigation Bar

Logo
AnyParser Pro - Parse multi-language images and documents into JSON/markdown | Product Hunt

차트 및 테이블에서 지식 검색의 정확도를 두 배로 높이기

2024-12-28

파일

무료로 사용해보세요

전체 콘텐츠

테이블만

키-값 쌍 추출

파일을 업로드하세요.

AnyParser와 Epsilla의 Ragas 평가 메트릭스 평가 메트릭스 from Ragas

오늘날 데이터 중심의 환경에서 금융 서비스와 같은 산업은 문서에서 정보 추출의 정확성과 효율성에 크게 의존하고 있으며, 특히 비구조화된 텍스트와 테이블 및 차트와 같은 구조화된 데이터가 혼합된 문서에서 더욱 그렇습니다. 전통적인 광학 문자 인식(OCR) 모델은 널리 사용되지만, 복잡한 문서 형식을 처리하는 데 한계가 있어 고급 AI 응용 프로그램에서 최적의 성능을 발휘하지 못하는 경우가 많습니다. 이러한 격차를 인식한 CambioML과 Epsilla는 데이터 추출 작업에서 정확도와 재현율을 크게 향상시킬 것을 약속하는 최첨단 지식 검색 시스템을 도입했습니다.

서론: OCR 한계 극복하기

OCR 기반 모델은 텍스트 감지에는 효과적이지만, 레이아웃 정보를 추출하고 테이블 및 차트에서 데이터를 정확하게 끌어내는 데 어려움을 겪습니다. 이러한 한계는 금융 및 의료와 같이 정확성이 중요한 산업에서 특히 두드러집니다. 이러한 문제를 해결하기 위해 CambioML과 Epsilla는 최첨단 테이블 추출 모델과 검색 증강 생성(RAG) 기술을 통합한 새로운 접근 방식을 개발했습니다. 이 새로운 시스템은 기존 RAG 시스템에 비해 최대 2배의 정밀도와 2.5배의 재현율을 달성하여 문서 질문 응답의 새로운 기준을 설정합니다.

AnyParser: 테이블 추출 혁신

이 혁신의 핵심은 다양한 데이터 소스에서 정보를 추출하는 데 뛰어난 고급 비전 언어 모델(VLM)로 구동되는 AnyParser입니다. 전통적인 모델이 OCR에 크게 의존하는 것과 달리, AnyParser는 시각적 및 텍스트 기반 인코더의 조합을 사용하여 문서에서 가장 작은 세부 사항까지 포착하여 중요한 데이터가 누락되지 않도록 합니다. 이 접근 방식은 정확성이 중요한 재무 및 의료 문서에서 고해상도 데이터를 추출하는 데 특히 유용합니다.

Epsilla: 유연한 RAG 플랫폼

AnyParser를 보완하는 Epsilla는 다양한 RAG 파이프라인을 최적화하도록 설계된 코드 없는 RAG-as-a-Service 플랫폼입니다. Epsilla는 고급 청크화, 인덱싱 및 쿼리 정제 기술을 통해 지식 검색 프로세스를 향상시킵니다. 키워드 기반 및 의미론적 검색 방법을 통합함으로써 Epsilla는 매우 정확하고 맥락에 적합한 결과를 제공하여 대형 언어 모델(LLM) 응용 프로그램에 적합한 솔루션이 됩니다.

실험 및 평가: 실제 영향

AnyParser와 Epsilla의 Ragas 평가 메트릭스 평가 메트릭스 from Ragas

AnyParser와 Epsilla의 효과를 검증하기 위해 시스템은 Apple 및 Meta와 같은 회사의 10-K 재무 문서에서 테스트되었습니다. 결과는 인상적이었으며, 시스템은 맥락 정밀도, 재현율, 충실도 및 답변 정확성을 포함한 모든 주요 평가 메트릭에서 훨씬 높은 성능을 보여주었습니다. 일부 경우에는 시스템이 전통적인 RAG 시스템보다 최대 2.7배 더 뛰어난 성능을 발휘하여 복잡한 데이터 추출 작업을 처리하는 데 있어 우수성을 강조했습니다.

일반적인 사용 사례 및 주요 이점

  • 정확도: 구조화된 데이터와 비구조화된 데이터를 모두 사용 가능한 형식으로 변환하는 높은 정밀도.

  • 개인정보 보호: 고객의 데이터 센터 내에서 시스템을 배포할 수 있는 기능은 데이터 보안을 보장합니다.

  • 확장성: 대량의 문서를 신속하게 처리하여 빠른 의사 결정을 가능하게 합니다.

결론: 지식 검색의 새로운 시대

AnyParser와 Epsilla의 도입은 지식 검색 기술의 중요한 발전을 의미합니다. 고급 추출 모델과 강력한 RAG 인프라를 결합함으로써 이 통합 솔루션은 정확성과 효율성을 개선할 뿐만 아니라 현대 기업이 요구하는 유연성과 개인정보 보호를 제공합니다. 기술이 계속 발전함에 따라 이 시스템의 응용 프로그램과 이점은 광범위하고 유망하여 정확한 데이터 추출에 의존하는 산업에 게임 체인저가 될 것입니다.

자세한 백서 전체를 보려면 이 링크를 확인하세요.

Footer