Dera: Decoupled representation alignment for video tokenization.arXivpreprintarXiv:2512.04483, 2025

Pengbo Guo, Junke Wang, Zhen Xing, Chengxu Liu, Daoguo Dong, Xueming Qian, Zuxuan Wu · 2025 · arXiv 2512.04483

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

representative citing papers

RepWAM: World Action Modeling with Representation Visual-Action Tokenizers

cs.CV · 2026-06-11 · unverdicted · novelty 6.0

RepWAM introduces representation visual-action tokenizers to pretrain world action models that jointly model future visual states and latent actions under instructions for improved robot manipulation.

ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

cs.CV · 2026-06-09 · unverdicted · novelty 5.0

ARM is a 7B autoregressive multimodal model with a unified discrete visual tokenizer and RL that performs image understanding, generation, and editing while showing cross-task synergy from preference optimization.

citing papers explorer

Showing 2 of 2 citing papers after filters.

RepWAM: World Action Modeling with Representation Visual-Action Tokenizers cs.CV · 2026-06-11 · unverdicted · none · ref 15
RepWAM introduces representation visual-action tokenizers to pretrain world action models that jointly model future visual states and latent actions under instructions for improved robot manipulation.
ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations cs.CV · 2026-06-09 · unverdicted · none · ref 29
ARM is a 7B autoregressive multimodal model with a unified discrete visual tokenizer and RL that performs image understanding, generation, and editing while showing cross-task synergy from preference optimization.

Dera: Decoupled representation alignment for video tokenization.arXivpreprintarXiv:2512.04483, 2025

fields

years

verdicts

representative citing papers

citing papers explorer