Uni-x: Mitigating modality conflict with a two-end- separated architecture for unified multimodal models.arXiv preprint arXiv:2509.24365

Jitai Hao, Hao Liu, Xinyan Xiao, Qiang Huang, Jun Yu · 2025 · arXiv 2509.24365

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals

cs.LG · 2026-06-01 · unverdicted · novelty 6.0

A pre-fusion calibration module modulates multimodal features using cross-modality support and conflict cues to improve performance on five benchmarks including sentiment analysis and audio-visual tasks.

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

cs.CV · 2026-04-27 · unverdicted · novelty 6.0 · 2 refs

Tuna-2 shows that direct pixel embeddings can replace vision encoders in unified multimodal models, achieving competitive generation and stronger understanding at scale.

citing papers explorer

Showing 2 of 2 citing papers.

Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals cs.LG · 2026-06-01 · unverdicted · none · ref 4
A pre-fusion calibration module modulates multimodal features using cross-modality support and conflict cues to improve performance on five benchmarks including sentiment analysis and audio-visual tasks.
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation cs.CV · 2026-04-27 · unverdicted · none · ref 17 · 2 links
Tuna-2 shows that direct pixel embeddings can replace vision encoders in unified multimodal models, achieving competitive generation and stronger understanding at scale.

Uni-x: Mitigating modality conflict with a two-end- separated architecture for unified multimodal models.arXiv preprint arXiv:2509.24365

fields

years

verdicts

representative citing papers

citing papers explorer