Home LayoutLM
Post
Cancel

LayoutLM

Paper Review LayoutLM from V1 to V3 (LayoutLM, LayoutLMv2, LayoutLMv3)

Background

VrDU(Visually-rich Document Understading)

  • Scanned Image나 PDF형태의 Business Document 로부터 필요한 정보 추출
  • Text, Visual, Layout 정보를 모두 다루는 Multi-Modal Framework 필요

Dataset

Pretrain

IIT-CDIP

  • Illinois Institute of Technology COmplex Document Information Processing Test Collection

구성:

  • 6M Scanned Documents + 11M Scanned Document Images

Form-Understanding

FUNSD (Form Understanding in Noisy Scanned Documents)

  • 목표: Scanned Form Image로부터 Key-Value 쌍 추출

  • Tasks:

    1. Semantic Labeling: Semantic Entity 찾는 Task
      • Labels: Question, Answer, Header, Other
      • Metric: F1 Score
    2. Semantic Linking: Semantic Entity 간의 관계 예측

Kleister-NDA

  • 내용: 비밀유지계약서 문서
  • Task: Semantic Labeling
  • Labels: party, jurisdiction, effective_date, term
  • Metric: F1 Score

FUNSD에 비해 문서의 길이가 길고, 레이아웃이 복잡함

Receipt Understanding

Task: Pre-defined Semantic Slot 예측

  • Metric: F1-Score

SROIE(Scanned Receipts OCR and key Informatin Extraction)

CORD(A Consolidated Receipt Dataset for Post-OCR Parsing)

Document Image Classification

RVL-CDIP(Ryerson Vision Lab Complex Document Information Processing)

  • Task: Document Image 카테고리 예측
  • Labels: 16개의 class(Letter, Form, Email, Handwritten, Advertisement, Scientific Report)
  • Metric: Accuracy

Visual Question Answering

DocVQA

  • Task: Document Image에 대한 질문에 대한 답변
  • Metric: Levenshtein Similarity(ANLS)

Levenshtein Similarity: \(Similarity = 1 - \frac{Levenshtein Distance} {max(\text{length of string})}\)

Levenshtein Distance와 Cosine Similarity의 차이점:

Levenshtein Distance

  • 정의: 두 문자열 사이의 최소 편집 거리를 측정한다. 이는 한 문자열을 다른 문자열로 변환하기 위해 필요한 최소한의 단일 문자 편집(삽입, 삭제, 대체)의 수로 정의된다.
  • 사용처: 주로 텍스트 데이터에서 사용되며, 철자 오류 검사, 플라지아리즘 검출, DNA 시퀀스 비교 등 다양한 분야에서 활용된다.
  • 값의 범위: 0(두 문자열이 완전히 같은 경우)부터 무한대까지이다(실제 사용 시에는 두 문자열 길이의 합까지).
  • 특징: 문자열의 순서와 정확한 일치를 중시하며, 문자열의 길이에 민감하다.

Cosine Similarity

  • 정의: 두 벡터의 코사인 각도를 이용해 유사성을 측정한다. 값은 -1에서 1사이로, 두 벡터의 방향이 완전히 같으면 1, 반대면 -1, 직각이면 0이다.
  • 사용처: 주로 텍스트나 다른 종류의 벡터 데이터를 처리하는 분야(예: 문서 간 유사성 측정, 추천 시스템에서 아이템 간 유사성 측정)에서 사용된다. 텍스트의 경우, 문서나 문장을 벡터로 변환하여 사용한다.
  • 값의 범위: -1에서 1까지이다. 1은 완전히 같은 방향(유사), 0은 서로 독립적, -1은 완전히 반대 방향을 의미한다.
  • 특징: 길이에 무관하게 방향성이나 패턴의 유사성에 중점을 둔다. 벡터의 크기보다는 방향성이 중요하다.

Levenshtein Distance는 문자열 간의 “편집” 유사성을 측정하는 데 초점을 맞추며, Cosine Similarity는 벡터(또는 변환된 텍스트 데이터) 간의 “방향적” 유사성을 측정하는 데 중점을 둔다.

논문 리뷰

LayoutLM V1

  • 사전학습 과정에서 Text 정보와 Layout 정보를 모두 반영한 첫 번째 모델
  • Table-Specific Pre-training 과 유사함

Table-Specific Pre-training

  • Excel 파일(.xlsx, .xls): Microsoft Excel에서 사용하는 형식으로, 복잡한 스프레드시트 데이터와 함께 메타데이터, 수식, 서식 등을 포함할 수 있다.
  • SQL 데이터베이스: 데이터베이스 관리 시스템에서 사용되는 테이블 형식. SQL 쿼리를 통해 접근하고 조작할 수 있다.
  • JSON 또는 XML: 이러한 형식은 중첩된 구조를 가질 수 있으며, 특히 JSON은 웹 API를 통해 데이터를 교환할 때 자주 사용된다. JSON과 XML 파일은 테이블 형태의 데이터를 표현하기 위해 특정 스키마를 따르는 경우가 많다.
  • HTML 테이블: 웹 페이지에 표시되는 테이블 데이터. 웹 스크래핑을 통해 이러한 데이터를 수집하고 구조화된 형태로 변환하여 사용할 수 있다.

PDF 테이블 Parsing을 통한 Table-Specific Pre-training

파싱 과정의 복잡성

PDF 파일은 텍스트, 이미지, 벡터 그래픽, 그리고 레이아웃 정보를 포함하는 복잡한 형식으로 설계되었다. 테이블 데이터가 어떻게 PDF에 표현되었는지는 파일을 생성한 애플리케이션과 방식에 따라 다를 수 있다. 일부 PDF는 텍스트 데이터를 구조화된 형태로 저장하지만, 다른 PDF에서는 테이블이 이미지로 포함되어 있거나 텍스트가 시각적으로만 테이블 형태를 이루고 있을 수 있다. 따라서, 테이블을 추출하는 것은 단순한 텍스트 추출을 넘어서는 작업이다.

도구와 기술

  • 텍스트 기반 테이블 추출: 여러 오픈 소스 및 상용 도구들이 PDF에서 텍스트 기반 테이블을 추출할 수 있다. 이 도구들은 PDF 내부의 텍스트 스트림을 분석하여 테이블 구조를 인식하고 재구성하려고 시도한다.
  • OCR (Optical Character Recognition): 테이블이 이미지로 포함된 PDF의 경우, OCR 기술을 사용하여 이미지에서 텍스트를 추출하고 이를 테이블 데이터로 변환할 수 있다.
  • 수동 개입과 후처리: 자동 추출 과정이 항상 완벽한 결과를 제공하지는 않기 때문에, 추출된 데이터의 정제나 구조화를 위해 수동 개입이 필요할 수 있다.

정확도

  • 텍스트 기반 테이블: 정확도는 상당히 높을 수 있지만, PDF의 구조와 테이블의 복잡성에 따라 다르다. 테이블이 명확하게 정의되고 문서가 잘 구조화된 경우, 좋은 결과를 얻을 수 있다.
  • 이미지 기반 테이블: OCR 기술의 정확도는 지속적으로 개선되고 있지만, 이미지의 품질, 텍스트의 명확성, OCR 소프트웨어의 성능에 따라 달라진다. 이미지 기반 테이블 추출은 텍스트 기반 추출보다 일반적으로 오류가 더 많고, 후처리가 더 필요할 수 있다.
This post is licensed under CC BY 4.0 by the author.

Supervisord

원티드 프리온보딩 백엔드-Docker-2일차