Rethinking cross-modal interaction in multimodal diffusion transformers

· 2025 · arXiv 2506.07986

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

Premier: Personalized Preference Modulation with Learnable User Embedding in Text-to-Image Generation

cs.CV · 2026-03-21 · unverdicted · novelty 6.0

Premier learns user-specific embeddings to modulate text-to-image generation, outperforming prior methods on preference alignment, text consistency, and expert ratings even with limited history.

Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

cs.CV · 2026-02-06

citing papers explorer

Showing 2 of 2 citing papers.

Premier: Personalized Preference Modulation with Learnable User Embedding in Text-to-Image Generation cs.CV · 2026-03-21 · unverdicted · none · ref 23
Premier learns user-specific embeddings to modulate text-to-image generation, outperforming prior methods on preference alignment, text consistency, and expert ratings even with limited history.
Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers cs.CV · 2026-02-06 · unreviewed · ref 9

Rethinking cross-modal interaction in multimodal diffusion transformers

fields

years

verdicts

representative citing papers

citing papers explorer