Google, 문서 스캔 및 이해를 위한 VRDU AI 데이터세트 벤치마크 개발

2023/08/10

캘리포니아주 롱비치에서 열린 KDD(Knowledge Discovery in Databases) 2023 컨퍼런스에서 Google의 Athena 팀은 VRDU(Visually Rich Document Understanding) 데이터 세트 개발을 발표했습니다. 이 데이터 세트는 영수증, 보험 견적, 재무 제표 등과 같은 문서에서 풍부한 데이터를 자동으로 추출할 수 있는 시스템을 공식화할 수 있습니다.

PaLM 2 와 같은 대형 모델은 인상적인 수준의 정확도를 가지고 있지만 실제 사용성은 데이터 세트의 학습 능력에 따라 달라집니다. VRDU는 이러한 모델과 복잡한 실제 애플리케이션 사이의 격차를 해소하는 것을 목표로 합니다. 이를 위해 Athena 팀은 5가지 벤치마킹 요구 사항을 제시했습니다.

풍부한 스키마: 실제로는 구조화된 추출을 위한 다양한 풍부한 스키마를 볼 수 있습니다. 엔터티에는 필수, 선택 또는 단일 문서에서 반복되거나 중첩될 수 있는 다양한 데이터 유형(숫자, 문자열, 날짜 등)이 있습니다. (헤더, 질문, 답변)과 같은 단순한 플랫 스키마에 대한 추출 작업은 실제로 발생하는 일반적인 문제를 반영하지 않습니다.

레이아웃이 풍부한 문서: 문서에는 복잡한 레이아웃 요소가 있어야 합니다. 실제 설정의 문제는 문서에 테이블, 키-값 쌍, 단일 열과 이중 열 레이아웃 간 전환, 섹션마다 다양한 글꼴 크기, 캡션 및 각주가 포함된 그림이 포함될 수 있다는 사실에서 비롯됩니다. 이를 대부분의 문서가 섹션 헤더가 있는 문장, 단락 및 장으로 구성되는 데이터 세트(일반적으로 긴 입력에 대한 고전적인 자연어 처리 문헌의 초점이 되는 유형의 문서)와 대조하십시오.

다양한 템플릿: 벤치마크에는 다양한 구조 레이아웃 또는 템플릿이 포함되어야 합니다. 고용량 모델이 구조를 기억하여 특정 템플릿에서 추출하는 것은 사소한 일입니다. 그러나 실제로는 새로운 템플릿/레이아웃으로 일반화할 수 있어야 하며, 벤치마크에서 훈련 테스트 분할이 측정해야 하는 기능입니다.

고품질 OCR: 문서에는 고품질 OCR(광학 문자 인식) 결과가 있어야 합니다. 이 벤치마크의 목표는 VRDU 작업 자체에 집중하고 OCR 엔진 선택으로 인한 변동성을 배제하는 것입니다.

토큰 수준 주석: 각 토큰이 해당 엔터티의 일부로 주석을 달 수 있도록 해당 입력 텍스트에 다시 매핑할 수 있는 실측 주석이 문서에 포함되어야 합니다. 이것은 엔티티에 대해 추출할 값의 텍스트를 단순히 제공하는 것과는 대조적입니다. 이는 주어진 값에 대한 우연한 일치에 대해 걱정할 필요가 없는 깨끗한 훈련 데이터를 생성하는 데 핵심입니다. 예를 들어 일부 영수증에서 세액이 0인 경우 ‘total-before-tax’ 필드는 ‘total’ 필드와 동일한 값을 가질 수 있습니다. 토큰 수준 주석을 사용하면 일치하는 값의 두 인스턴스가 모두 ‘total’ 필드에 대한 ground-truth로 표시되어 잡음이 많은 예제를 생성하는 교육 데이터를 생성할 수 없습니다.

VRDU는 공개적으로 사용 가능한 데이터 세트인 등록 양식과 광고 구매 양식의 조합입니다. 이 데이터 세트는 단일 템플릿, 혼합 템플릿 및 보이지 않는 템플릿 학습 문서를 처리하는 데 사용할 수 있습니다. 구조화 및 비구조화 문서에서 정보 유형을 식별하고 분류할 수 있으며 연구원이 문서 이해 작업의 진행 상황을 추적하는 데 도움이 됩니다. 이러한 유형의 문서에 대한 데이터 세트의 성능은 여기에 게시된 문서 에서 읽을 수 있습니다 .

출처: 구글 리서치

답글 남기기 응답 취소