A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends

· 2025 · cs.CV · arXiv 2507.09861

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open full Pith review browse 2 citing papers arXiv PDF

abstract

Visually Rich Document Understanding (VRDU) has become a pivotal area of research, driven by the need to automatically interpret documents that contain intricate visual, textual, and structural elements. Recently, Multimodal Large Language Models (MLLMs) have demonstrated significant promise in this domain, including both OCR-based and OCR-free approaches for information extraction from document images. This survey reviews recent advances in MLLM-based VRDU, highlighting emerging trends and promising research directions with a focus on two key aspects: (1) techniques for representing and integrating textual, visual, and layout features; (2) training paradigms, including pretraining, instruction tuning, and training strategies. Moreover, we address challenges such as data scarcity, handling multi-page and multilingual documents, and integrating emerging trends such as Retrieval-Augmented Generation and agentic frameworks. Our analysis offers a roadmap for advancing MLLM-based VRDU toward more scalable, reliable, and adaptable systems.

citation-role summary

background 1

citation-polarity summary

background 1

representative citing papers

Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval

cs.CV · 2026-04-11 · unverdicted · novelty 7.0

ColChunk adaptively chunks visual document patches into contextual multi-vectors via clustering, cutting storage by over 90% while raising average nDCG@5 by 9 points.

Multimodal Approaches for Visually-Rich Document Type Classification: A Comparative Analysis

cs.CV · 2026-06-01 · unverdicted · novelty 2.0

Specialized multimodal transformers outperform LLM-based models on visually rich documents, with image information contributing most to classification accuracy.

citing papers explorer

Showing 2 of 2 citing papers.

Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval cs.CV · 2026-04-11 · unverdicted · none · ref 4 · internal anchor
ColChunk adaptively chunks visual document patches into contextual multi-vectors via clustering, cutting storage by over 90% while raising average nDCG@5 by 9 points.
Multimodal Approaches for Visually-Rich Document Type Classification: A Comparative Analysis cs.CV · 2026-06-01 · unverdicted · none · ref 1 · internal anchor
Specialized multimodal transformers outperform LLM-based models on visually rich documents, with image information contributing most to classification accuracy.

A Survey on MLLM-based Visually Rich Document Understanding: Methods, Challenges, and Emerging Trends

citation-role summary

citation-polarity summary

fields

years

verdicts

roles

polarities

representative citing papers

citing papers explorer