Circle-RoPE: Cone-like decoupled rotary positional embedding for large vision-language models.arXiv preprint arXiv:2505.16416

Wang, C · arXiv 2505.16416

2 Pith papers cite this work. Polarity classification is still indexing.

2 Pith papers citing it

open full Pith review browse 2 citing papers arXiv PDF

representative citing papers

Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models

cs.CV · 2026-05-14 · unverdicted · novelty 6.0 · 2 refs

Diagnoses mask prior drift and positional attention collapse in LDVLMs and introduces two plug-and-play decoding interventions that raise long-form generation quality without retraining.

MODIX: A Training-Free Multimodal Information-Driven Positional Index Scaling for Vision-Language Models

cs.CV · 2026-04-14 · unverdicted · novelty 6.0

MODIX dynamically rescales positional indices in VLMs using intra-modal covariance-based entropy and inter-modal alignment scores to allocate finer granularity to informative content.

citing papers explorer

Showing 2 of 2 citing papers.

Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models cs.CV · 2026-05-14 · unverdicted · none · ref 18 · 2 links · internal anchor
Diagnoses mask prior drift and positional attention collapse in LDVLMs and introduces two plug-and-play decoding interventions that raise long-form generation quality without retraining.
MODIX: A Training-Free Multimodal Information-Driven Positional Index Scaling for Vision-Language Models cs.CV · 2026-04-14 · unverdicted · none · ref 39 · internal anchor
MODIX dynamically rescales positional indices in VLMs using intra-modal covariance-based entropy and inter-modal alignment scores to allocate finer granularity to informative content.

Circle-RoPE: Cone-like decoupled rotary positional embedding for large vision-language models.arXiv preprint arXiv:2505.16416

fields

years

verdicts

representative citing papers

citing papers explorer