ALL SOLUTIONS
CASE 03 / DOCUMENT PARSER

AI가 신뢰할 수 있는 입력으로, 문서를 표준화합니다

포맷이 제각각인 문서를 통합 스키마로 정규화해, 검색·요약·질의응답·자동화에 같은 입력을 흘려보냅니다.입력의 표준화(정확도)와 근거의 추적 가능성(신뢰성)을 함께 확보하는 AI 시스템의 기반 계층입니다.

document-parser · unified schema
// document-parser · unified schema
PREVIEW · IMAGE COMING
PROBLEM

문서가 AI의 입력이 되는 순간, 새로운 문제가 시작됩니다

01

AI 시대에 문서는 더 이상 사람이 읽고 끝나는 파일이 아니라, 검색·요약·질의응답·자동화의 입력 데이터가 되었습니다

02

현실의 문서는 HWP/HWPX·PDF·DOCX·PPTX·Excel처럼 포맷이 제각각이고, 같은 내용도 텍스트·표·이미지·레이아웃으로 흩어져 저장됩니다

03

이 상태로는 표·캡션·각주의 근거가 누락되고, 레이아웃 때문에 문맥이 뒤섞이며, 중요한 정보가 통째로 빠지는 일이 발생합니다

04

결국 AI 응답의 품질과 신뢰성(근거·재현성)이 함께 떨어지고, 포맷이 늘어날수록 후속 시스템의 분기 책임도 커집니다

APPROACH

포맷 차이를 흡수하고, 원문 흐름을 살린 통합 스키마로

01

포맷 이질성 흡수

확장자와 매직 시그니처, 컨테이너 내부 구조까지 검증해 진짜 형식을 식별한 뒤, HWP·HWPX·PDF·DOCX·PPTX·Excel·CSV 각각에 최적화된 추출 백엔드로 라우팅합니다. 후속 서비스는 입력 포맷을 의식할 필요가 없습니다.

02

텍스트 · 표 · 이미지 분리 추출

본문·표·이미지를 각각의 자리에서 분리 추출합니다. 표는 셀 단위로 보존되고, 이미지는 중복 제거와 크기 필터를 거치며, 텍스트는 정제·압축됩니다. 동일 내용이 두 번 들어가지 않습니다.

03

원본 흐름(content_order) 보존

본문 사이에 표가 어디에 등장했는지, 이미지가 어떤 문단 다음에 왔는지를 별도의 흐름 배열로 기록합니다. 미리보기·검증·LLM 입력 모두 원문 그대로의 서사를 유지합니다.

04

통합 스키마 정규화

모든 포맷의 결과물을 하나의 JSON 스키마로 모읍니다. text·tables·images·content_order·metadata가 동일한 형태로 노출되어, RAG·요약·검색·뷰어가 같은 인터페이스로 동작합니다.

WHY IT MATTERS

AI 시스템에서 동시에 확보해야 하는 두 축

모델을 바꾸지 않고도 응답 품질이 올라가는 이유는, 입력이 일관되고 근거가 추적 가능하기 때문입니다.

ACCURACY

입력의 표준화

포맷별 구조 차이를 한 곳에서 흡수해, AI 모델이 받는 입력을 일관된 형태로 맞춥니다. 누락·뒤섞임·중복이 줄어들어 응답 정확도의 출발선이 올라갑니다.

RELIABILITY

근거의 추적 가능성

표·이미지·문단의 위치 정보가 content_order로 남기 때문에, 답변이 어느 페이지·어느 표·어느 셀에서 왔는지 되짚을 수 있습니다. 재현성과 감사 가능성을 함께 확보합니다.

FEATURES

제공 기능 및 지원 범위

  • HWP · HWPX · PDF · DOCX · PPTX · Excel · CSV 통합 처리
  • 매직 시그니처 + 컨테이너 검증으로 포맷 위변조 방지
  • 표 · 이미지 · 본문 분리 추출 및 중복 제거
  • 원본 등장 순서(content_order) 보존
  • RAG · 요약 · 검색 · 뷰어 공통 입력 스키마
  • 포맷별 폴백 체인으로 까다로운 문서도 끝까지 처리
  • CSV 인코딩 자동 판별 (UTF-8 · CP949 · EUC-KR)
  • 디렉터리 단위 병렬 처리 및 실패 항목 격리

RAG · 요약 · 검색에 흘려 보낼 입력을표준화하려 하신가요?

보유 문서·연동 시스템·요구 품질을 알려 주시면, Document Parser 도입과 후속 AI 파이프라인 연결까지 현실적인 단계로 함께 정리해 드립니다.