A closer look at multimodal representation collapse

Abhra Chaudhuri, Anjan Dutta, Tu Bui, Serban Georgescu · 2025 · arXiv 2505.22483

5 Pith papers cite this work. Polarity classification is still indexing.

5 Pith papers citing it

representative citing papers

MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment

cs.CV · 2026-04-23 · unverdicted · novelty 6.0

MiMIC mitigates visual modality collapse and semantic misalignment in universal multimodal retrieval via fusion-in-decoder architecture and robust single-modality training.

Token-Efficient Multimodal Reasoning via Image Prompt Packaging

cs.CV · 2026-04-02 · unverdicted · novelty 6.0

IPPg embeds text into images to reduce multimodal model inference costs by 35.8-91% with competitive accuracy on many VQA and code benchmarks.

StateXDiff: Cell State-Contextualized Multimodal Diffusion for Single-Cell Perturbation Prediction

q-bio.GN · 2026-05-15 · unverdicted · novelty 5.0

StateXDiff integrates transcriptomic profiles with inferred protein features via a conditional diffusion model and mechanism-aware drug templates to predict single-cell drug perturbation responses under unseen cell lines, drugs, and combinatorial settings.

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

cs.LG · 2026-02-18 · unverdicted · novelty 4.0

ModalImmune enforces modality immunity in multimodal models by controlled collapse of input channels during training using adaptive regularizers and meta-optimization.

Diverse via bounded Agreement: Geometric Regularization for Multimodal Fusion

cs.CV · 2026-01-29

citing papers explorer

Showing 5 of 5 citing papers.

MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment cs.CV · 2026-04-23 · unverdicted · none · ref 82
MiMIC mitigates visual modality collapse and semantic misalignment in universal multimodal retrieval via fusion-in-decoder architecture and robust single-modality training.
Token-Efficient Multimodal Reasoning via Image Prompt Packaging cs.CV · 2026-04-02 · unverdicted · none · ref 8
IPPg embeds text into images to reduce multimodal model inference costs by 35.8-91% with competitive accuracy on many VQA and code benchmarks.
StateXDiff: Cell State-Contextualized Multimodal Diffusion for Single-Cell Perturbation Prediction q-bio.GN · 2026-05-15 · unverdicted · none · ref 7
StateXDiff integrates transcriptomic profiles with inferred protein features via a conditional diffusion model and mechanism-aware drug templates to predict single-cell drug perturbation responses under unseen cell lines, drugs, and combinatorial settings.
ModalImmune: Immunity Driven Unlearning via Self Destructive Training cs.LG · 2026-02-18 · unverdicted · none · ref 19
ModalImmune enforces modality immunity in multimodal models by controlled collapse of input channels during training using adaptive regularizers and meta-optimization.
Diverse via bounded Agreement: Geometric Regularization for Multimodal Fusion cs.CV · 2026-01-29 · unreviewed · ref 2

A closer look at multimodal representation collapse

fields

years

verdicts

representative citing papers

citing papers explorer